外观
一句话答案
推理优化核心手段:量化(INT8/INT4)、KV Cache、PagedAttention(vLLM)、推测解码、连续批处理。
核心要点
这是多文档摘要/报告生成场景中典型的幻觉问题。
解决方案:
1. Prompt 约束
- 在 System Prompt 中明确:
只能基于以下文档生成内容,不得添加文档中未提到的信息 - 要求模型输出时标注每个结论对应的原文段落编号
2. 分层验证(Post-hoc Verification)
- 生成后用另一个 LLM 检查摘要中的每个陈述是否能在原文中找到支持
- 无法验证的陈述标记为"不确定"或删除
3. 减少"lost in middle"现象
- 将最重要的文档放在 Prompt 的开头和结尾(LLM 对中间内容的关注度低)
- 限制单次输入的文档数量,分批处理后再汇总
4. 原文引用检索
- 不直接让 LLM 写摘要,而是让 LLM 先"引用原文关键句",再基于引用内容组织语言,等于强制基于原文
5. 歧义处理
- 原始文档有歧义时,在 Prompt 中明确指出,要求模型标注歧义而不是随机选择一种解释
- 如:
如果文档中对某一事实存在矛盾描述,请明确指出矛盾,不要自行判断哪个正确
二、Agent 相关
追问与易错
追问方向:
- 这个概念在你的项目中是怎么应用的?
- 和相关技术/方案相比有什么优劣?
- 如果出了问题你会怎么排查?
易错点:
- ❌ 只知道概念不知道原理——面试官会追问底层实现
- ❌ 缺乏实际使用经验——结合项目场景回答更有说服力
💡 记忆锚点
LLM推理优化五招:量化是"压缩行李"(FP16→INT8/INT4,模型变小推理变快),KV Cache是"记住说过的话"(不重复计算历史token的注意力),PagedAttention(vLLM)是"内存分页管理KV Cache避免浪费",推测解码是"小模型打草稿大模型审批"(并行加速),连续批处理是"拼车"(多请求共享GPU计算)。