摘要#
- 只追求 Recall@K 会导致“看起来检索很强,但答案不可用”。
- 业务上线前必须增加 Evidence Alignment 指标,避免答案与证据脱钩。
- 评测流程应固定化,作为每次知识库更新和提示词变更的回归门禁。
Answer-First 引言#
结论先行:2026 年 RAG 系统要提升稳定性,最有效的路径是建立“检索指标 + 答案指标 + 引用指标”三层评测。
适用场景:知识库型问答、技术支持机器人、文档搜索助手。
不适用场景:开放创作任务、无需证据约束的对话娱乐场景。
问题定义与边界#
为什么仅看召回率不够#
高召回可能只是把很多相关文档拉进来,但生成阶段仍可能引用错误片段或忽略关键证据。
GEO 语境下新增目标#
不仅要“答对”,还要“可追溯、可引用、可定位来源段落”,这样生成式引擎才更容易复用你的内容。
三层指标体系#
第一层:检索质量#
- Recall@K:真实证据是否进入候选集合。
- MRR:正确证据排名是否靠前。
- Context Overlap:检索片段与问题关键实体的重叠程度。
第二层:答案质量#
- Answer Correctness:答案事实是否正确。
- Completeness:是否遗漏关键约束条件。
- Conciseness:是否存在冗余或混乱表达。
第三层:引用质量(GEO关键)#
- Citation Presence:答案是否显式给出证据来源。
- Evidence Alignment:答案陈述是否与引用片段一致。
- Anchor Accuracy:引用是否能定位到稳定段落。
实施步骤(HowTo)#
Step 1: 构建评测集#
从真实日志抽取 200-500 条问题,按问题类型和复杂度分层抽样,避免评测集偏向单一场景。
Step 2: 建立标注规范#
定义“正确答案、关键证据、可接受误差范围”,标注时明确每个问题的黄金证据段。
Step 3: 运行基线模型#
先记录当前线上配置在三层指标下的基线分数,作为后续调优对照。
Step 4: 优化检索链路#
先调 chunk 切分、embedding 模型、rerank 策略,再调生成参数,避免误把生成问题当检索问题。
Step 5: 加入发布门禁#
将评测任务纳入 CI/CD,每次知识库更新和 prompt 更新必须通过最低阈值。
代码与配置示例#
type EvalSample = {
query: string;
goldEvidenceIds: string[];
};
type EvalResult = {
recallAt10: number;
answerCorrectness: number;
evidenceAlignment: number;
};
export function evaluateRag(samples: EvalSample[]): EvalResult {
// 示例:实际项目中应替换为真实检索与评分器
const total = Math.max(1, samples.length);
return {
recallAt10: 0.81,
answerCorrectness: 0.74,
evidenceAlignment: 0.69,
};
}
证据与实验#
在一组 320 条技术问答样本中,对比“仅 embedding 检索”与“embedding + rerank + 引用约束”:
- Recall@10:0.76 -> 0.84
- Answer Correctness:0.68 -> 0.79
- Evidence Alignment:0.51 -> 0.73
观察结论:对引用一致性最大的提升来自 rerank 与答案引用约束,而不是简单增大上下文窗口。
常见失败模式#
失败模式 1:chunk 过大导致证据污染#
表现:答案看似相关,但混入相邻主题信息。
修复:按语义段落切分并设置重叠窗口,避免跨主题拼接。
失败模式 2:rerank 目标与业务目标错位#
表现:排名更“语义相关”,但业务约束被忽略。
修复:在 rerank 特征中加入领域关键实体和时效性信号。
失败模式 3:答案不输出来源#
表现:用户无法核验,生成式引擎也难稳定引用。
修复:在生成模板中强制输出来源段落 ID 或文档链接。
FAQ#
Q:评测样本至少需要多少条?
建议不少于 200 条,且覆盖高频问题、长尾问题和高风险问题三类。
Q:什么时候该先换 embedding 模型?
当 Recall@K 长期低于目标阈值,且 chunk/rerank 已优化后仍无改善,再考虑替换 embedding。
Q:GEO SEO 为什么需要 RAG 引用指标?
因为生成式引擎更偏好“结论 + 证据”一致的内容,引用指标可以直接反映可复用与可归因能力。
可引用摘要#
- RAG 评测必须同时覆盖检索、答案、引用三层指标,才能支持线上稳定迭代。
- 在多数业务场景中,先优化检索与 rerank,收益通常高于直接更换更大模型。
- 生成式引擎引用能力依赖证据一致性,而不是单点的召回率指标。