LLM评测方法 | Java后端面试知识库

一句话答案

LLM 评测结合自动指标（BLEU/ROUGE）、LLM-as-Judge（GPT 评分）、人工评估和领域基准测试（MMLU/HumanEval）。

核心要点

这是多文档摘要/报告生成场景中典型的幻觉问题。

解决方案：

1. Prompt 约束

在 System Prompt 中明确：只能基于以下文档生成内容，不得添加文档中未提到的信息
要求模型输出时标注每个结论对应的原文段落编号

2. 分层验证（Post-hoc Verification）

生成后用另一个 LLM 检查摘要中的每个陈述是否能在原文中找到支持
无法验证的陈述标记为"不确定"或删除

3. 减少"lost in middle"现象

将最重要的文档放在 Prompt 的开头和结尾（LLM 对中间内容的关注度低）
限制单次输入的文档数量，分批处理后再汇总

4. 原文引用检索

不直接让 LLM 写摘要，而是让 LLM 先"引用原文关键句"，再基于引用内容组织语言，等于强制基于原文

5. 歧义处理

原始文档有歧义时，在 Prompt 中明确指出，要求模型标注歧义而不是随机选择一种解释
如：如果文档中对某一事实存在矛盾描述，请明确指出矛盾，不要自行判断哪个正确

二、Agent 相关

追问与易错

追问方向：

这个概念在你的项目中是怎么应用的？
和相关技术/方案相比有什么优劣？
如果出了问题你会怎么排查？

易错点：

❌ 只知道概念不知道原理——面试官会追问底层实现
❌ 缺乏实际使用经验——结合项目场景回答更有说服力

💡 记忆锚点

LLM评测三层验证：自动指标是"机器阅卷"（BLEU/ROUGE算文本重叠度，快但粗），LLM-as-Judge是"让AI当考官"（用GPT给回答打分，平衡成本和质量），人工评估是"真人审核"（最准但最贵）。领域基准像标准化考试：MMLU测知识广度，HumanEval测代码能力。实际项目建议组合使用，先自动筛再人工抽检。

一句话答案 ​

二、Agent 相关 ​

一句话答案

二、Agent 相关