Agent 与自动化 4.0 · 优秀 2025-11-07 · 论文

RAG 工程实践综述:覆盖 2018-2025、面向生产和学术的统一指南

IBM Research 团队对 2018-2025 年 RAG(检索增强生成)文献进行系统性综述,提出五维分类法(检索逻辑、融合拓扑、模态、适应性、信任校准),是目前最完整的 RAG 架构分类体系。论文整合了 RAGAS 评估框架和企业级基准数据:Galileo AI 的 chunk attribution 达 86% 准确率(1.36x 于 GPT-3.5-Turbo),Trustworthiness 指标中 groundedness 人类相关性 85-92%。论文指出传统 BLEU/ROUGE 对语义一致性评估不足,LLM-based judge 与人类判断相关性更高。

打开原文回到归档

RAG 工程实践综述:覆盖 2018-2025、面向生产和学术的统一指南

来源:arxiv
作者:Dean Wampler (IBM Research), Dave Nielson, Alireza Seddighi
日期:2025-11-07
链接:https://arxiv.org/abs/2601.05264

中文摘要

IBM Research 团队对 2018-2025 年 RAG(检索增强生成)文献进行系统性综述,提出五维分类法(检索逻辑、融合拓扑、模态、适应性、信任校准),是目前最完整的 RAG 架构分类体系。论文整合了 RAGAS 评估框架和企业级基准数据:Galileo AI 的 chunk attribution 达 86% 准确率(1.36x 于 GPT-3.5-Turbo),Trustworthiness 指标中 groundedness 人类相关性 85-92%。论文指出传统 BLEU/ROUGE 对语义一致性评估不足,LLM-based judge 与人类判断相关性更高。

English Summary

IBM Research's systematic review of RAG literature (2018-2025) proposes a five-dimensional taxonomy covering retrieval logic, fusion topology, modality, adaptability, and trust calibration. Integrates RAGAS evaluation framework with enterprise benchmarks: Galileo AI achieves 86% chunk attribution accuracy (1.36x GPT-3.5-Turbo baseline), groundedness human correlation 85-92%. Argues traditional BLEU/ROUGE metrics are insufficient for semantic consistency; LLM-based judges correlate better with human judgment.