外观
一句话答案
RAG 分块策略影响召回质量:按语义分块优于固定长度,混合检索(向量+关键词)配合重排序提升准确率。
核心要点
评测维度分两块:检索评估 + 生成评估
检索评估指标:
| 指标 | 含义 | 公式 |
|---|---|---|
| Recall@K | top-K 中包含相关文档的比例 | 相关文档数 / 总相关文档数 |
| Precision@K | top-K 中相关文档占比 | 相关文档数 / K |
| MRR(Mean Reciprocal Rank) | 第一个相关文档的排名倒数的均值 | ∑(1/rank_i) / N |
| NDCG(归一化折损累积增益) | 考虑相关性分级和排名位置 | 综合精度和排名 |
生成评估指标:
- Faithfulness(忠实度):生成内容是否完全基于召回的文档,检测幻觉
- Answer Relevance(答案相关性):答案是否回答了用户的问题
- Context Precision/Recall:召回的上下文是否精准、是否覆盖答案所需信息
工具推荐:
- RAGAS:专门针对 RAG 的自动化评测框架,可用 LLM 作为评委自动打分
- TruLens:支持 Faithfulness、Answer Relevance 等多维度评测
构建测试集:
- 从真实文档中人工编写 QA 对(Question + Ground Truth Answer + Source Chunk)
- 覆盖不同难度:直接命中型、跨段落推理型、需要多跳检索型
追问与易错
追问方向:
- 这个概念在你的项目中是怎么应用的?
- 和相关技术/方案相比有什么优劣?
- 如果出了问题你会怎么排查?
易错点:
- ❌ 只知道概念不知道原理——面试官会追问底层实现
- ❌ 缺乏实际使用经验——结合项目场景回答更有说服力
💡 记忆锚点
RAG分块像切书:固定长度切(简单但可能切断句子),语义分块(按段落/主题切,质量高但复杂)。召回策略像搜索引擎:向量检索找语义近的("意思像"),关键词检索找字面匹配(BM25),混合检索两者结合,再用Rerank模型精排。评测看两头:检索端看Recall@K/MRR(找到了吗),生成端看Faithfulness(有没有编造)和Relevance(答了没有)。