RAG分块与召回策略 | Java后端面试知识库

一句话答案

RAG 分块策略影响召回质量：按语义分块优于固定长度，混合检索（向量+关键词）配合重排序提升准确率。

核心要点

评测维度分两块：检索评估 + 生成评估

检索评估指标：

指标	含义	公式
Recall@K	top-K 中包含相关文档的比例	相关文档数 / 总相关文档数
Precision@K	top-K 中相关文档占比	相关文档数 / K
MRR（Mean Reciprocal Rank）	第一个相关文档的排名倒数的均值	∑(1/rank_i) / N
NDCG（归一化折损累积增益）	考虑相关性分级和排名位置	综合精度和排名

生成评估指标：

Faithfulness（忠实度）：生成内容是否完全基于召回的文档，检测幻觉
Answer Relevance（答案相关性）：答案是否回答了用户的问题
Context Precision/Recall：召回的上下文是否精准、是否覆盖答案所需信息

工具推荐：

RAGAS：专门针对 RAG 的自动化评测框架，可用 LLM 作为评委自动打分
TruLens：支持 Faithfulness、Answer Relevance 等多维度评测

构建测试集：

从真实文档中人工编写 QA 对（Question + Ground Truth Answer + Source Chunk）
覆盖不同难度：直接命中型、跨段落推理型、需要多跳检索型

追问与易错

追问方向：

这个概念在你的项目中是怎么应用的？
和相关技术/方案相比有什么优劣？
如果出了问题你会怎么排查？

易错点：

❌ 只知道概念不知道原理——面试官会追问底层实现
❌ 缺乏实际使用经验——结合项目场景回答更有说服力

💡 记忆锚点

RAG分块像切书：固定长度切（简单但可能切断句子），语义分块（按段落/主题切，质量高但复杂）。召回策略像搜索引擎：向量检索找语义近的（"意思像"），关键词检索找字面匹配（BM25），混合检索两者结合，再用Rerank模型精排。评测看两头：检索端看Recall@K/MRR（找到了吗），生成端看Faithfulness（有没有编造）和Relevance（答了没有）。

一句话答案 ​

一句话答案