Agent 与自动化 4.0 · 优秀 2025-11-07 · 论文

RAG 工程实践综述：覆盖 2018-2025、面向生产和学术的统一指南

IBM Research 团队对 2018-2025 年 RAG（检索增强生成）文献进行系统性综述，提出五维分类法（检索逻辑、融合拓扑、模态、适应性、信任校准），是目前最完整的 RAG 架构分类体系。论文整合了 RAGAS 评估框架和企业级基准数据：Galileo AI 的 chunk attribution 达 86% 准确率（1.36x 于 GPT-3.5-Turbo），Trustworthiness 指标中 groundedness 人类相关性 85-92%。论文指出传统 BLEU/ROUGE 对语义一致性评估不足，LLM-based judge 与人类判断相关性更高。

打开原文回到归档

RAG 工程实践综述：覆盖 2018-2025、面向生产和学术的统一指南

来源：arxiv

作者：Dean Wampler (IBM Research), Dave Nielson, Alireza Seddighi

日期：2025-11-07

链接：https://arxiv.org/abs/2601.05264

中文摘要

IBM Research 团队对 2018-2025 年 RAG（检索增强生成）文献进行系统性综述，提出五维分类法（检索逻辑、融合拓扑、模态、适应性、信任校准），是目前最完整的 RAG 架构分类体系。论文整合了 RAGAS 评估框架和企业级基准数据：Galileo AI 的 chunk attribution 达 86% 准确率（1.36x 于 GPT-3.5-Turbo），Trustworthiness 指标中 groundedness 人类相关性 85-92%。论文指出传统 BLEU/ROUGE 对语义一致性评估不足，LLM-based judge 与人类判断相关性更高。

English Summary

IBM Research's systematic review of RAG literature (2018-2025) proposes a five-dimensional taxonomy covering retrieval logic, fusion topology, modality, adaptability, and trust calibration. Integrates RAGAS evaluation framework with enterprise benchmarks: Galileo AI achieves 86% chunk attribution accuracy (1.36x GPT-3.5-Turbo baseline), groundedness human correlation 85-92%. Argues traditional BLEU/ROUGE metrics are insufficient for semantic consistency; LLM-based judges correlate better with human judgment.

Related

继续阅读

Agents 4.0 · 优秀

AI 重构软件工程：OpenAI Harness Engineering，程序员不写代码的时代来了

AI 重构软件工程：OpenAI Harness Engineering，程序员不写代码的时代来了，OpenAI 在工程博客发布的《Harness engineering: leveraging Codex in an agent-first world》，抛出了一个颠覆软件工程界的实验结果：一支初始 3 人的工程师团队，从空 Git 仓库起步，仅用 5 个月时间，依靠 Codex+GPT-5 构建出一款拥有约 100 万行代码的一、百万代码零手写，OpenAI 工程实验二、驾驭工程：不是 AI 写代码，而是驯服

2026-03-10 · 文章

Agents 4.0 · 优秀

I Want to Become an AI Engineer (Full Course)

一篇 4800+ 字的 AI 工程师全栈学习指南，提出三层架构：Prompt Engineering（微语法，控制即时指令）→ Context Engineering（乘数，MCP + Context as Code + RAG 管道）→ Intent Engineering（差异化，组织目标编码）。用 Klarna 客服 AI 的失败案例（节省 $60M 但因 intent gap 被迫重新雇人）论证意图工程的重要性。提供 7 组件意图框架和大量可复用 prompt 模板，覆盖结构化格式、Few-Shot、CoT、元提示词、上下文审计、RAG 架构设计、MCP Server 蓝图等。

2026-03-05 · X · hoeem

Models 4.0 · 优秀

Building with Gemini Embedding 2: Agentic multimodal RAG and beyond

Gemini Embedding 2 正式GA，是首个将文本、图像、视频、音频和文档映射到统一语义空间的多模态嵌入模型。支持超过 100 种语言，单次调用可处理 8192 token 文本、6 张图像、120 秒视频、180 秒音频和 6 页 PDF。通过 task prefix 实现非对称检索，显著提升 Agentic RAG 和视觉搜索精度。法律平台 Harvey 借此 Recall@20 提升 3%，视觉搜索 Match@20 从 60% 提升至 87%。

2026-04-30 · 文章

Models 4.0 · 优秀

LLM Knowledge Bases

Karpathy 分享他用 LLM 构建个人知识库的工作流：raw/ 目录存放原始文档，LLM 增量"编译"成 .md wiki（含摘要、反向链接、概念分类文章）；用 Obsidian 作为 IDE 前端查看原始数据、编译产物和可视化；wiki 达到约 100 篇文章/40 万字后，可以直接向 LLM agent 提问复杂问题。关键发现：不需要 fancy RAG，LLM 自己会维护索引文件和文档摘要。输出形式包括 Markdown 文件、幻灯片（Marp 格式）、matplotlib 图像。还会用 LLM 做 wiki 健康检查（不一致数据、缺失数据、新文章候选）。

2026-04-05 · X · Andrej Karpathy