Skip to content
进阶

一句话答案

LLM 评测结合自动指标(BLEU/ROUGE)、LLM-as-Judge(GPT 评分)、人工评估和领域基准测试(MMLU/HumanEval)。

核心要点

这是多文档摘要/报告生成场景中典型的幻觉问题。

解决方案:

1. Prompt 约束

  • 在 System Prompt 中明确:只能基于以下文档生成内容,不得添加文档中未提到的信息
  • 要求模型输出时标注每个结论对应的原文段落编号

2. 分层验证(Post-hoc Verification)

  • 生成后用另一个 LLM 检查摘要中的每个陈述是否能在原文中找到支持
  • 无法验证的陈述标记为"不确定"或删除

3. 减少"lost in middle"现象

  • 将最重要的文档放在 Prompt 的开头和结尾(LLM 对中间内容的关注度低)
  • 限制单次输入的文档数量,分批处理后再汇总

4. 原文引用检索

  • 不直接让 LLM 写摘要,而是让 LLM 先"引用原文关键句",再基于引用内容组织语言,等于强制基于原文

5. 歧义处理

  • 原始文档有歧义时,在 Prompt 中明确指出,要求模型标注歧义而不是随机选择一种解释
  • 如:如果文档中对某一事实存在矛盾描述,请明确指出矛盾,不要自行判断哪个正确

二、Agent 相关

追问与易错

追问方向:

  • 这个概念在你的项目中是怎么应用的?
  • 和相关技术/方案相比有什么优劣?
  • 如果出了问题你会怎么排查?

易错点:

  • ❌ 只知道概念不知道原理——面试官会追问底层实现
  • ❌ 缺乏实际使用经验——结合项目场景回答更有说服力

💡 记忆锚点

LLM评测三层验证:自动指标是"机器阅卷"(BLEU/ROUGE算文本重叠度,快但粗),LLM-as-Judge是"让AI当考官"(用GPT给回答打分,平衡成本和质量),人工评估是"真人审核"(最准但最贵)。领域基准像标准化考试:MMLU测知识广度,HumanEval测代码能力。实际项目建议组合使用,先自动筛再人工抽检。