Skip to content
进阶

一句话答案

RAG 分块策略影响召回质量:按语义分块优于固定长度,混合检索(向量+关键词)配合重排序提升准确率。

核心要点

评测维度分两块:检索评估 + 生成评估

检索评估指标:

指标含义公式
Recall@Ktop-K 中包含相关文档的比例相关文档数 / 总相关文档数
Precision@Ktop-K 中相关文档占比相关文档数 / K
MRR(Mean Reciprocal Rank)第一个相关文档的排名倒数的均值∑(1/rank_i) / N
NDCG(归一化折损累积增益)考虑相关性分级和排名位置综合精度和排名

生成评估指标:

  • Faithfulness(忠实度):生成内容是否完全基于召回的文档,检测幻觉
  • Answer Relevance(答案相关性):答案是否回答了用户的问题
  • Context Precision/Recall:召回的上下文是否精准、是否覆盖答案所需信息

工具推荐:

  • RAGAS:专门针对 RAG 的自动化评测框架,可用 LLM 作为评委自动打分
  • TruLens:支持 Faithfulness、Answer Relevance 等多维度评测

构建测试集:

  • 从真实文档中人工编写 QA 对(Question + Ground Truth Answer + Source Chunk)
  • 覆盖不同难度:直接命中型、跨段落推理型、需要多跳检索型
追问与易错

追问方向:

  • 这个概念在你的项目中是怎么应用的?
  • 和相关技术/方案相比有什么优劣?
  • 如果出了问题你会怎么排查?

易错点:

  • ❌ 只知道概念不知道原理——面试官会追问底层实现
  • ❌ 缺乏实际使用经验——结合项目场景回答更有说服力

💡 记忆锚点

RAG分块像切书:固定长度切(简单但可能切断句子),语义分块(按段落/主题切,质量高但复杂)。召回策略像搜索引擎:向量检索找语义近的("意思像"),关键词检索找字面匹配(BM25),混合检索两者结合,再用Rerank模型精排。评测看两头:检索端看Recall@K/MRR(找到了吗),生成端看Faithfulness(有没有编造)和Relevance(答了没有)。