外观
AI / LLM / Agent 速查卡
🎯 覆盖 32 题 | ⭐ 高频 6 题 | 预计扫描 9 分钟 📌 先看⭐一句话答案 → 展开要点 → 自测清单检验
一、RAG
知识地图:文档→切分→向量化→存储(离线) | 查询→双路召回→Rerank→LLM生成(在线)
⭐ RAG 整体流程 + 超时预算
一句话: RAG 分两阶段——离线索引(文档→切分→向量化→入库)和在线查询(Query改写→双路召回→Rerank→LLM生成),整体 SLA 约 3s。
离线:文档解析 → 切分(含overlap) → Embedding向量化 → 向量库(Milvus) + ES(BM25)
在线:Query改写(500ms) → 向量检索(100ms) + BM25检索(100ms) → RRF融合 → Rerank(300ms) → LLM生成(2000ms,流式)降级: Rerank 超时 → 跳过精排用融合分数;LLM 超时 → 流式已有内容提前返回
⭐ 提升召回准确率
一句话: 五层提升——数据清洗→语义切分(带overlap)→混合检索(向量+BM25+RRF)→Rerank(交叉编码器)→嵌入模型选型/微调。
性价比最高手段: Cross-Encoder Rerank(如 BGE-reranker),单这一步就能显著提升 top-K 精度
二、Agent
⭐ 短期记忆 vs 长期记忆
一句话: 短期记忆 = Context Window 内的对话历史(精确但有限),长期记忆 = 向量库/数据库持久化(跨会话但召回有噪声)。
| 维度 | 短期记忆 | 长期记忆 |
|---|---|---|
| 存储 | Context Window | 向量库 / 数据库 |
| 生命周期 | 单次会话 | 跨会话持久化 |
| 容量 | 受 token 限制(128K) | 理论无限 |
| 精确度 | 完全精确 | 召回可能有噪声 |
上下文过大的应对: 摘要压缩 / 滑动窗口 / 选择性检索注入 / 压缩 Tool Result / 分层管理(Tier1-5)
⭐ MCP / Function Call / Skills 区别
一句话: Function Call 是 LLM 原生的工具调用机制,MCP 是工具服务化的协议标准(动态发现+解耦),Skills 是业务能力的高阶封装(多 Tool + 逻辑)。
| 维度 | Function Call | MCP | Skills |
|---|---|---|---|
| 粒度 | 单次调用一个工具 | 工具服务化协议 | 多步业务能力封装 |
| 耦合 | 强(写在代码中) | 解耦(服务暴露) | 中(可复用单元) |
| 动态发现 | ❌ | ✅ | 通常静态注册 |
层次递进:Function Call(基础) → MCP(工程标准) → Skills(高阶封装)
⭐ Multi-Agent 协作模式
一句话: 当任务复杂度超过单 Agent 能力、需要并行/专业分工时使用 Multi-Agent;核心协作模式有 Supervisor、Pipeline、Parallel、Debate 四种。
Supervisor(主从):主Agent分解任务 → 子Agent执行 → 主Agent汇总
Pipeline(流水线):A → B → C,按序依赖
Parallel(并行):同类任务多Agent并行处理
Debate(辩论):多Agent给不同答案,裁判Agent综合↳ 追问"子Agent崩溃":超时+重试 → 心跳检测 → 幂等设计 → 降级(自己做/用缓存) → 状态持久化断点续传 ↳ 追问"死循环":max_steps强制终止 + 重复调用检测 + 状态哈希去重
三、大模型基础
⭐ 流式回复(SSE)
一句话: 流式回复基于 SSE(Server-Sent Events),LLM 每生成一个 token 立即推送给客户端,实现"打字机效果",首字节时间从秒级降到百毫秒级。
| 维度 | 普通 HTTP | SSE 流式 |
|---|---|---|
| 数据返回 | 全部生成完一次返回 | 逐 token 推送 |
| 用户体验 | 长时间白屏 | 即时看到内容 |
| Content-Type | application/json | text/event-stream |
补充速览
| 关键词 | 核心答案 |
|---|---|
| 切分策略 | 推荐:先按标题层级粗切 → 超阈值再递归切 → overlap 10-20% → 附加元数据 |
| 向量检索原理 | 文本→Embedding→高维向量→ANN检索(HNSW/IVF)→余弦相似度排序 |
| RAG 评测 | 检索: Recall@K / MRR / NDCG;生成: Faithfulness / Relevance;工具: RAGAS |
| BM25 | 改进版 TF-IDF,ES 内置;与向量检索互补(精确关键词 vs 语义模糊) |
| ES 底层 | 倒排索引 + Segment(不可变) + Translog(WAL);更新=删除+新增 |
| RAG vs 微调 | RAG: 知识频繁更新/引用溯源/低幻觉;微调: 固化风格格式/特定任务能力 |
| 幻觉解决 | Prompt约束(要求溯源) + RAG(有据可查) + RLHF + 自我一致性 + 人工审核 |
| GraphRAG | 知识图谱+RAG,擅长多跳推理和实体关系;构建成本高,一般项目用传统RAG |
| Agent Runtime | ReAct Loop: Observation→Thought→Action→Tool Result→循环;设 max_steps 防死循环 |
| PES 模式 | Planner(规划) + Executor(执行) + Supervisor(监督);职责分离,容错强,可并行 |
| 预训练→SFT→RLHF→Prompt | 四阶段: 学语言→学对话→对齐价值观→引导输出;成本递减 |
| 蒸馏 | 大模型(Teacher)知识迁移到小模型(Student),黑盒:用大模型生成训练数据 |
| Spring AI | 统一 LLM API + @Tool 注解 + ChatMemory + VectorStore 抽象 + ETL Pipeline |
| Agent 范式 | ReAct(经典) / Plan-and-Execute / Reflection / LATS / Multi-Agent |
🧠 助记汇总
| 口诀 | 含义 |
|---|---|
| 切向存,改召排生 | RAG: 切分/向量化/存储(离线),改写/召回/排序/生成(在线) |
| 短窗长库 | 短期记忆=Context Window,长期记忆=向量库 |
| FC → MCP → Skill | 工具调用三层递进:基础→服务化→业务封装 |
| 监流并辩 | Multi-Agent 四模式:Supervisor/Pipeline/Parallel/Debate |
✅ 自测清单
| # | 问题 | 你能说出... |
|---|---|---|
| 1 | RAG 整体流程 | 离线+在线两阶段 + 各组件超时预算 |
| 2 | 提升召回率 | 五层手段 + 性价比最高的是哪个 |
| 3 | 短期 vs 长期记忆 | 存储位置/生命周期/容量/上下文过大应对 |
| 4 | MCP/FC/Skills | 三者定义+区别+层次关系 |
| 5 | Multi-Agent | 四种协作模式 + 子Agent崩溃处理 |
| 6 | 流式回复 | SSE 原理 + 与普通 HTTP 区别 |
| 7 | RAG vs 微调 | 各自适用场景 |
| 8 | 幻觉解决 | 至少说出 4 层方案 |
💡 首次全部过一遍 → 第2天只过答不上来的 → 第4天再复习 → 面试前一天最后扫一遍