AI / LLM / Agent 速查卡

🎯 覆盖 32 题 | ⭐ 高频 6 题 | 预计扫描 9 分钟 📌 先看⭐一句话答案 → 展开要点 → 自测清单检验

一、RAG

知识地图：文档→切分→向量化→存储(离线) | 查询→双路召回→Rerank→LLM生成(在线)

⭐ RAG 整体流程 + 超时预算

一句话： RAG 分两阶段——离线索引（文档→切分→向量化→入库）和在线查询（Query改写→双路召回→Rerank→LLM生成），整体 SLA 约 3s。

离线：文档解析 → 切分(含overlap) → Embedding向量化 → 向量库(Milvus) + ES(BM25)
在线：Query改写(500ms) → 向量检索(100ms) + BM25检索(100ms) → RRF融合 → Rerank(300ms) → LLM生成(2000ms,流式)

降级： Rerank 超时 → 跳过精排用融合分数；LLM 超时 → 流式已有内容提前返回

⭐ 提升召回准确率

一句话： 五层提升——数据清洗→语义切分(带overlap)→混合检索(向量+BM25+RRF)→Rerank(交叉编码器)→嵌入模型选型/微调。

性价比最高手段： Cross-Encoder Rerank（如 BGE-reranker），单这一步就能显著提升 top-K 精度

二、Agent

⭐ 短期记忆 vs 长期记忆

一句话： 短期记忆 = Context Window 内的对话历史（精确但有限），长期记忆 = 向量库/数据库持久化（跨会话但召回有噪声）。

维度	短期记忆	长期记忆
存储	Context Window	向量库 / 数据库
生命周期	单次会话	跨会话持久化
容量	受 token 限制(128K)	理论无限
精确度	完全精确	召回可能有噪声

上下文过大的应对： 摘要压缩 / 滑动窗口 / 选择性检索注入 / 压缩 Tool Result / 分层管理(Tier1-5)

⭐ MCP / Function Call / Skills 区别

一句话： Function Call 是 LLM 原生的工具调用机制，MCP 是工具服务化的协议标准（动态发现+解耦），Skills 是业务能力的高阶封装（多 Tool + 逻辑）。

维度	Function Call	MCP	Skills
粒度	单次调用一个工具	工具服务化协议	多步业务能力封装
耦合	强(写在代码中)	解耦(服务暴露)	中(可复用单元)
动态发现	❌	✅	通常静态注册

层次递进：Function Call(基础) → MCP(工程标准) → Skills(高阶封装)

⭐ Multi-Agent 协作模式

一句话： 当任务复杂度超过单 Agent 能力、需要并行/专业分工时使用 Multi-Agent；核心协作模式有 Supervisor、Pipeline、Parallel、Debate 四种。

Supervisor(主从)：主Agent分解任务 → 子Agent执行 → 主Agent汇总
Pipeline(流水线)：A → B → C，按序依赖
Parallel(并行)：同类任务多Agent并行处理
Debate(辩论)：多Agent给不同答案，裁判Agent综合

↳ 追问"子Agent崩溃"：超时+重试 → 心跳检测 → 幂等设计 → 降级(自己做/用缓存) → 状态持久化断点续传 ↳ 追问"死循环"：max_steps强制终止 + 重复调用检测 + 状态哈希去重

三、大模型基础

⭐ 流式回复（SSE）

一句话： 流式回复基于 SSE（Server-Sent Events），LLM 每生成一个 token 立即推送给客户端，实现"打字机效果"，首字节时间从秒级降到百毫秒级。

维度	普通 HTTP	SSE 流式
数据返回	全部生成完一次返回	逐 token 推送
用户体验	长时间白屏	即时看到内容
Content-Type	application/json	text/event-stream

补充速览

关键词	核心答案
切分策略	推荐：先按标题层级粗切 → 超阈值再递归切 → overlap 10-20% → 附加元数据
向量检索原理	文本→Embedding→高维向量→ANN检索(HNSW/IVF)→余弦相似度排序
RAG 评测	检索: Recall@K / MRR / NDCG；生成: Faithfulness / Relevance；工具: RAGAS
BM25	改进版 TF-IDF，ES 内置；与向量检索互补(精确关键词 vs 语义模糊)
ES 底层	倒排索引 + Segment(不可变) + Translog(WAL)；更新=删除+新增
RAG vs 微调	RAG: 知识频繁更新/引用溯源/低幻觉；微调: 固化风格格式/特定任务能力
幻觉解决	Prompt约束(要求溯源) + RAG(有据可查) + RLHF + 自我一致性 + 人工审核
GraphRAG	知识图谱+RAG，擅长多跳推理和实体关系；构建成本高，一般项目用传统RAG
Agent Runtime	ReAct Loop: Observation→Thought→Action→Tool Result→循环；设 max_steps 防死循环
PES 模式	Planner(规划) + Executor(执行) + Supervisor(监督)；职责分离，容错强，可并行
预训练→SFT→RLHF→Prompt	四阶段: 学语言→学对话→对齐价值观→引导输出；成本递减
蒸馏	大模型(Teacher)知识迁移到小模型(Student)，黑盒:用大模型生成训练数据
Spring AI	统一 LLM API + @Tool 注解 + ChatMemory + VectorStore 抽象 + ETL Pipeline
Agent 范式	ReAct(经典) / Plan-and-Execute / Reflection / LATS / Multi-Agent

🧠 助记汇总

口诀	含义
切向存，改召排生	RAG: 切分/向量化/存储(离线)，改写/召回/排序/生成(在线)
短窗长库	短期记忆=Context Window，长期记忆=向量库
FC → MCP → Skill	工具调用三层递进：基础→服务化→业务封装
监流并辩	Multi-Agent 四模式：Supervisor/Pipeline/Parallel/Debate

✅ 自测清单

#	问题	你能说出...
1	RAG 整体流程	离线+在线两阶段 + 各组件超时预算
2	提升召回率	五层手段 + 性价比最高的是哪个
3	短期 vs 长期记忆	存储位置/生命周期/容量/上下文过大应对
4	MCP/FC/Skills	三者定义+区别+层次关系
5	Multi-Agent	四种协作模式 + 子Agent崩溃处理
6	流式回复	SSE 原理 + 与普通 HTTP 区别
7	RAG vs 微调	各自适用场景
8	幻觉解决	至少说出 4 层方案

💡 首次全部过一遍 → 第2天只过答不上来的 → 第4天再复习 → 面试前一天最后扫一遍

AI / LLM / Agent 速查卡 ​

一、RAG ​

⭐ RAG 整体流程 + 超时预算 ​

⭐ 提升召回准确率 ​

二、Agent ​

⭐ 短期记忆 vs 长期记忆 ​

⭐ MCP / Function Call / Skills 区别 ​

⭐ Multi-Agent 协作模式 ​

三、大模型基础 ​

⭐ 流式回复（SSE） ​

补充速览 ​

🧠 助记汇总 ​

✅ 自测清单 ​