Skip to content

AI / LLM / Agent 速查卡

🎯 覆盖 32 题 | ⭐ 高频 6 题 | 预计扫描 9 分钟 📌 先看⭐一句话答案 → 展开要点 → 自测清单检验


一、RAG

知识地图:文档→切分→向量化→存储(离线) | 查询→双路召回→Rerank→LLM生成(在线)

⭐ RAG 整体流程 + 超时预算

一句话: RAG 分两阶段——离线索引(文档→切分→向量化→入库)和在线查询(Query改写→双路召回→Rerank→LLM生成),整体 SLA 约 3s。

离线:文档解析 → 切分(含overlap) → Embedding向量化 → 向量库(Milvus) + ES(BM25)
在线:Query改写(500ms) → 向量检索(100ms) + BM25检索(100ms) → RRF融合 → Rerank(300ms) → LLM生成(2000ms,流式)

降级: Rerank 超时 → 跳过精排用融合分数;LLM 超时 → 流式已有内容提前返回


⭐ 提升召回准确率

一句话: 五层提升——数据清洗→语义切分(带overlap)→混合检索(向量+BM25+RRF)→Rerank(交叉编码器)→嵌入模型选型/微调。

性价比最高手段: Cross-Encoder Rerank(如 BGE-reranker),单这一步就能显著提升 top-K 精度


二、Agent

⭐ 短期记忆 vs 长期记忆

一句话: 短期记忆 = Context Window 内的对话历史(精确但有限),长期记忆 = 向量库/数据库持久化(跨会话但召回有噪声)。

维度短期记忆长期记忆
存储Context Window向量库 / 数据库
生命周期单次会话跨会话持久化
容量受 token 限制(128K)理论无限
精确度完全精确召回可能有噪声

上下文过大的应对: 摘要压缩 / 滑动窗口 / 选择性检索注入 / 压缩 Tool Result / 分层管理(Tier1-5)


⭐ MCP / Function Call / Skills 区别

一句话: Function Call 是 LLM 原生的工具调用机制,MCP 是工具服务化的协议标准(动态发现+解耦),Skills 是业务能力的高阶封装(多 Tool + 逻辑)。

维度Function CallMCPSkills
粒度单次调用一个工具工具服务化协议多步业务能力封装
耦合强(写在代码中)解耦(服务暴露)中(可复用单元)
动态发现通常静态注册

层次递进:Function Call(基础) → MCP(工程标准) → Skills(高阶封装)


⭐ Multi-Agent 协作模式

一句话: 当任务复杂度超过单 Agent 能力、需要并行/专业分工时使用 Multi-Agent;核心协作模式有 Supervisor、Pipeline、Parallel、Debate 四种。

Supervisor(主从):主Agent分解任务 → 子Agent执行 → 主Agent汇总
Pipeline(流水线):A → B → C,按序依赖
Parallel(并行):同类任务多Agent并行处理
Debate(辩论):多Agent给不同答案,裁判Agent综合

↳ 追问"子Agent崩溃":超时+重试 → 心跳检测 → 幂等设计 → 降级(自己做/用缓存) → 状态持久化断点续传 ↳ 追问"死循环":max_steps强制终止 + 重复调用检测 + 状态哈希去重


三、大模型基础

⭐ 流式回复(SSE)

一句话: 流式回复基于 SSE(Server-Sent Events),LLM 每生成一个 token 立即推送给客户端,实现"打字机效果",首字节时间从秒级降到百毫秒级。

维度普通 HTTPSSE 流式
数据返回全部生成完一次返回逐 token 推送
用户体验长时间白屏即时看到内容
Content-Typeapplication/jsontext/event-stream

补充速览

关键词核心答案
切分策略推荐:先按标题层级粗切 → 超阈值再递归切 → overlap 10-20% → 附加元数据
向量检索原理文本→Embedding→高维向量→ANN检索(HNSW/IVF)→余弦相似度排序
RAG 评测检索: Recall@K / MRR / NDCG;生成: Faithfulness / Relevance;工具: RAGAS
BM25改进版 TF-IDF,ES 内置;与向量检索互补(精确关键词 vs 语义模糊)
ES 底层倒排索引 + Segment(不可变) + Translog(WAL);更新=删除+新增
RAG vs 微调RAG: 知识频繁更新/引用溯源/低幻觉;微调: 固化风格格式/特定任务能力
幻觉解决Prompt约束(要求溯源) + RAG(有据可查) + RLHF + 自我一致性 + 人工审核
GraphRAG知识图谱+RAG,擅长多跳推理和实体关系;构建成本高,一般项目用传统RAG
Agent RuntimeReAct Loop: Observation→Thought→Action→Tool Result→循环;设 max_steps 防死循环
PES 模式Planner(规划) + Executor(执行) + Supervisor(监督);职责分离,容错强,可并行
预训练→SFT→RLHF→Prompt四阶段: 学语言→学对话→对齐价值观→引导输出;成本递减
蒸馏大模型(Teacher)知识迁移到小模型(Student),黑盒:用大模型生成训练数据
Spring AI统一 LLM API + @Tool 注解 + ChatMemory + VectorStore 抽象 + ETL Pipeline
Agent 范式ReAct(经典) / Plan-and-Execute / Reflection / LATS / Multi-Agent

🧠 助记汇总

口诀含义
切向存,改召排生RAG: 切分/向量化/存储(离线),改写/召回/排序/生成(在线)
短窗长库短期记忆=Context Window,长期记忆=向量库
FC → MCP → Skill工具调用三层递进:基础→服务化→业务封装
监流并辩Multi-Agent 四模式:Supervisor/Pipeline/Parallel/Debate

✅ 自测清单

#问题你能说出...
1RAG 整体流程离线+在线两阶段 + 各组件超时预算
2提升召回率五层手段 + 性价比最高的是哪个
3短期 vs 长期记忆存储位置/生命周期/容量/上下文过大应对
4MCP/FC/Skills三者定义+区别+层次关系
5Multi-Agent四种协作模式 + 子Agent崩溃处理
6流式回复SSE 原理 + 与普通 HTTP 区别
7RAG vs 微调各自适用场景
8幻觉解决至少说出 4 层方案

💡 首次全部过一遍 → 第2天只过答不上来的 → 第4天再复习 → 面试前一天最后扫一遍