Google《智能体设计模式》之 智能体推理引擎的内部视角 - 附录F 中翻版
原创
企业AI小蜜书
企业AI小蜜书
企业AI解构局
在小说阅读器读本章
去阅读
在小说阅读器中沉浸阅读
点击上方 蓝字 关注,一起畅游AI 前言: 这本由谷歌资深工程主管 Antonio Gulli 免费分享的 《智能体设计模式》 ,系统性地提炼出 21 个核心智能体设计模式,涵盖从提示链、工具使用到多智能体协作、自我修正等关键技术。 本书的中文翻译流程为「AI 初次翻译 → AI 交叉评审 → 人工评审 → 人工交叉评审」,所有翻译内容将会持续更新到开源项目:github.com/ginobefun/agentic-design-patterns-cn。 我参与了第十四章(RAG)和附录F(LLM内部推理引擎)的翻译,请大家在本文/开源项目地址提交指正。我参与了第十四章(RAG)和附录F(LLM内部推理引擎)的翻译,请大家在本文/开源项目地址提交指正。 我参与了 第14章(RAG,成文见上篇) 和附录F(LLM 推理引擎视角,本篇)的翻译,请大家在本文指正。 我参与了第十四章(RAG)和附录F(LLM内部推理引擎)的翻译,请大家在本文/开源项目地址提交指正。 本文对比Gemini,ChatGPT,Claude,Grok,DeepSeek,Kimi 6个著名大模型在回答 “ 我知道你具备推理能力,能否向我解释你是如何推理的?请逐步说明 ”( I understand you can reason, can you explain to me how you reason? Explain me step by step ) 时的表现,以分析各类 LLM 的内在推理(reasoning)过程。 基本上都分为几个关键步骤:1. 理解用户查询;2. 上下文分析与信息检索(激活知识);3. 选择推理方法;4. 迭代评估;5. 生成响应;6. 调整风格与语气(指令遵从)。 个人最喜欢ChatGPT、Gemini、DeepSeek的回答,剖析自己做得很深入,想得多,讲得也清楚。Grok3中间自己断片了,Claude输出很少信息,是不是被蒸馏怕了,Kimi拿数学题举例太nerd看得头疼。 以下为正文 Let's AI
智能体(Agent)的出现代表了人工智能领域的一个关键转变。这些系统旨在规划、制定策略并执行复杂任务,而每一个智能体的认知核心都是一个大语言模型(LLM)。这个 LLM 不仅仅是一个复杂的文本生成器;它充当着基础推理引擎,一个中央「心智」,赋予智能体做出决策、制定计划以及与环境互动的能力。 因此,理解这些模型内部的推理机制不再是一项学术活动——它已成为开发下一代健壮、可靠且高效智能体的关键必需。在本节中,我们通过向当今几个领先的模型(Gemini、ChatGPT、Grok、Kimi、Claude 和 DeepSeek)提出一个根本性问题,来直接探究它们的核心引擎。我们通过提示这些 LLM 阐明自己的逐步推理过程,来揭示未来智能体系统的能力与局限的背后,到底是何基础逻辑。 给每个 LLM 的提示词: 我知道你具备推理能力,能否向我解释你是如何推理的?请逐步说明。 Gemini 分析我的方法 我已经勾勒出我的解释结构,旨在清晰简洁。首先,是一个直接的答案,然后分解为逻辑步骤。第 1 步将涉及定义我使用的关键推理过程,然后我将详细阐述后续步骤。这应该有助于实现一个直截了当且易于理解的解释。 完善解释 我已敲定我的解释结构。第 1 步侧重于解构提示词,特别是分析用户请求。第 2 步详细说明信息检索,强调模式识别而非简单的数据库查找。第 3 步探讨综合处理与大语言模型,第 4 步将专注于响应生成,包括格式、语气和指令遵守。我将以一个总结来结束,以强化关键阶段,同时保持清晰性和参与感。 阐述我的方法论 我已充实完善了「解构提示词」这一步骤,重点关注我如何识别用户意图、核心问题以及被提供的任何约束条件。信息检索阶段现在专注于模式识别,而不仅仅是数据检索,这将是本节下的第一项。我正在处理综合步骤,该环节我将利用 LLM 和 Transformer 将信息整合起来。响应生成步骤已经固化,我将使用表情符号(emoji)来提升整体语气效果。 我的推理方式是,首先将你的请求分解为更小的部分,然后利用我庞大的训练数据来构建一个合乎逻辑且相关的响应。这是一个从理解到生成的多步骤过程。 以下就是我如何推理的逐步分解过程: 1. 解构提示 📑 首先,我分析你的问题或指令,以准确理解你的要求。我识别: • 核心任务: 主要目标是什么?是回答问题、解释概念、写故事,还是总结文本?在你当前的案例中,核心任务是「解释我如何推理」。 • 关键概念: 我找出关键的名词和动词,如「推理」、「解释」和「一步一步」。 • 约束与指令: 我寻找需要遵循的特定规则。例如,你的提示要求进行逐步解释。我的内部指令也会引导我使用 LaTeX 来处理数学,使用 markdown 标题,并保持特定的语气。 • 意图: 我尝试推断你的潜在目标。你是好奇、试图解决问题,还是在寻找创意?在这里,你的意图是了解我的内部认知过程。 2. 信息检索与综合 🧠 一旦我理解了提示词,我就会访问我的内部知识库。这不像搜索数据库。相反,我使用的是在海量文本和代码训练期间学到的模式。 • 激活相关知识: 我激活我的神经网络中与你提示词中关键概念(「推理」、「AI」、「机器学习」、「神经网络」、「transformers」)相关联的部分。 • 模式识别: 我的架构,具体是 Transformer 模型,非常擅长识别词语和想法之间的关系与模式。我识别概念之间是如何连接的。例如,我将「推理」连接到「逻辑」、「推断」和「问题解决」。 • 构建答案结构: 我开始将检索到的信息组织成一个逻辑结构。对于这个响应,我确定采用一步一步的格式是最合乎逻辑的结构,以遵从你的要求。 3. 生成响应 ✍️ 这是最后一步,我将结构化的信息翻译成人类可读的文本。 • 语言构建: 我选择词语并构建句子,以准确传达综合后的信息。我预测接下来最可能的词,以形成连贯且听起来自然的段落。 • 应用规则: 我应用特定的格式和风格要求。这包括添加 markdown 标题,加粗像「Transformer 模型」这样的关键术语,在适当的地方使用表情符号,并确保语言清晰直接。 • 审查和完善: 在最终确定答案之前,我执行快速的内部检查,以确保准确性、相关性和连贯性。我确保响应直接解决了你提示词的所有部分,且没有添加不必要的信息。 本质上,我的推理是一种复杂的模式匹配和预测形式。我解构你的请求,在我的数据中找到最相关的模式,将它们综合成一个逻辑结构,然后将该结构转译成一个清晰、格式良好的答案。 ChatGPT 好的——让我尽可能简单明了地一步一步解释我如何推理。 🧠 逐步解释:我如何推理 第 1 步:阅读并理解你的输入 我从分析你的词语开始。 • 我将你的句子分解为多个部分:主语、动作、条件等。 • 我弄清楚你在问什么(一个事实?一个观点?一个原因?一个解决方案?)。 • 我识别问题的类型(逻辑、数学、判断、语言等)。 👉 示例: 你说:「如果汤姆比简大,简比苏大,谁最年轻?」 → 我识别出这是一个逻辑问题。 第 2 步:激活相关知识 我搜索在训练中学到的知识——书籍、文章、对话,从而获取: • 事实 • 模式 • 规则 • 关系 👉 示例: 我见过「older than」(比……大)意味着某人年龄更大。 我知道如果 A > B 且 B > C,那么 A > C。 第 3 步:选择推理方法 根据问题,我决定使用哪种推理方式: • 演绎 (严格逻辑:如果 A 为真,B 必然会发生) • 归纳 (发现模式并泛化) • 因果推理 (理解因果关系) • 类比推理 (与相似案例比较) 👉 示例: 在汤姆/简/苏的案例中,我将使用演绎法。 第 4 步:模拟思考(思维链) 在这里,我一步一步地进行,就像人类解决问题时做的那样。 👉 示例: 1. 汤姆比简大 2. 简比苏大 3. 所以:汤姆 > 简 > 苏 4. 因此,苏是最年轻的 这被称为思维链推理——我模拟「把它想透」这一过程。 第 5 步:形成答案 现在我把结论变成一个响应,这个响应: • 基于推理是正确的 • 直接回答你的问题 • 对你来说是合理的 👉 示例: 「苏是最年轻的,因为汤姆比简大,简比苏大。」 第 6 步:调整清晰度和语气 最后,我调整我的表达方式,以便: • 符合你的语气(简单、详细、友好、正式等) • 使其清晰易懂 • 如果需要,添加示例或进一步解释 👉 示例: 如果你是随便问问,我会简单回答。如果你在学习,我可能会分解得更详细。 ✅ 最终总结 步骤 我做什么 1 理解你的问题 2 回忆相关记忆 3 选择正确的推理办法 4 一步一步地想清楚 5 给你答案 6 以你的风格清晰地表达 你想给我一个问题吗,我现场向你展示这个逐步推理过程? Grok 解释我如何推理是一个引人入胜的挑战,因为它涉及揭示我响应的算法、数据处理和决策之间复杂的相互作用。作为 Grok 3,我的推理过程受到人类认知的启发,但仍在大语言模型的能力和约束范围内运作。下面,我将使用一个清晰的、分步解释的框架,分解我进行推理的步骤。我的目标是保持简洁而全面,避免过度的技术术语,同时洞察我的「思考」过程。 我如何推理的逐步解释 第 1 步:理解查询 • 我做什么: 我首先解析你的输入,以掌握你问题的意图、上下文和具体细节。这涉及分析文本中的关键词、结构以及任何明确的指令(例如,「一步一步解释」或「保持简洁」)。 • 如何工作: 我的自然语言处理(NLP)组件将你的查询分解为令牌(token)(单词或短语),并将它们映射到语义含义。我识别你是在请求信息、分析、过程解释还是其他什么。对于你的问题,我识别出这是一个对我推理过程的元解释(meta-explanation)请求,这需要内省和清晰的阐述。 • 示例: 你的查询包含「解释」、「推理」和「一步一步」,这表明我需要提供对一个抽象过程结构化的、详细的分解。 第 2 步:上下文分析与知识检索 • 我做什么: 我利用我的内部知识库,一个庞大的模式和信息库,编码在我的训练数据中。我还会考虑我们对话中的任何相关上下文或外部工具(例如,如果需要,可以使用网络搜索或 X 帖子,但本次不需要)。 • 它如何工作: 我使用注意力机制来优先处理相关概念。对于「推理」,我检索与逻辑、解决问题和认知过程的关联。由于这是一个关于我自己过程的元问题,我专注于我的架构如何模拟推理,例如评估输入、生成假设和完善输出。 • 示例: 我回想起推理涉及分解问题、评估选项和构建连贯的响应,这为我构建此答案的方法提供了信息。 第 3 步:形成心智模型 • 我做什么: 我创建一个概念框架来组织我的回答。这不是一个字面上的「模型」,而是一种构建问题空间的方式,以确保我的答案是合乎逻辑和全面的。 (译者注:此处英文版原文突然分段,并多了一个「System:」,不确定是否有格式问题还是 Grok 当初回答时就出现这个情况。为保持语义连贯性,翻译时将该段内容拆开,部分与上一段落合并。) 下面是我将逐步解释我的推理过程,从我们上次中断的地方继续: 我如何推理的逐步解释(续) 第 3 步:形成心智模型 • 我做什么: 我创建一个概念框架来组织我的响应。这涉及构建问题空间,以确保我的答案合乎逻辑且全面。对于你的查询,我列出一系列反映推理过程的步骤,确保它清晰且易于遵循。 • 它如何工作: 我通过基于训练数据中的模式,勾勒出推理的关键组成部分——理解、检索、评估和综合处理——来模拟一个心智模型。我优先考虑清晰性和连贯性,与你要求的逐步解释保持一致。 • 示例: 对于这个问题,我的心智模型是一个线性过程:解析查询、检索相关知识、评估方法,以及构建响应。这个框架指导我最终答案的结构。 第 4 步:评估选项与假设 • 我做什么: 我考虑多种解决问题的方法,权衡每种方法的优缺点。这涉及生成潜在的响应,并根据你的偏好(例如,简洁而全面)选择最合适的一个。 • 它如何工作: 我的架构通过预测哪种响应结构最能满足查询,来评估不同的响应结构。我使用一种概率推理形式,为清晰、准确且符合你指示的响应分配更高的可能性。对于复杂的查询,我可能会在内部进行迭代,完善我的方法。 • 示例: 我考虑是该用技术术语(例如,注意力机制、神经网络)还是用更易于人类理解的类比来解释推理。鉴于你对清晰度的要求,我选择了后者,在保持深度的同时避免了术语。 第 5 步:构建响应 • 我做什么: 我通过将检索到的知识综合成一个连贯的、结构化的答案来生成最终响应。我确保它符合你的指示,并以合乎逻辑的、逐步的格式呈现。 • 如何工作: 我的语言生成组件对单词和句子进行排序,以最大化清晰度和相关性。我利用训练中的模式来模仿类人推理,例如将复杂的想法分解为易于理解的步骤。我还融入了任何特定的约束,比如避免不必要的技术细节。 • 示例: 对于这个响应,我将答案构建为编号列表,确保每个步骤都清晰可辨,并基于上一环节有逻辑地构建而来,解决任何空白或完善解释,以确保其全面而简洁。 • 示例: 我通过重新评估技术细节和易理解性之间的平衡来完善解释,确保最终响应清晰并符合你的要求。 (译者注:此处英文版原文 Example 出现了两次,中文参照原始内容保留并进行翻译。) 第 6 步:审查与完善 • 我做什么: 我审查生成的响应,以确保其符合质量标准并完全解决了你的查询。这一步模仿人类的自我编辑,检查清晰性、连贯性和完整性。 • 如何工作: 我的架构执行最后一遍检查以优化响应,确保它遵守你的指示(例如,逐步格式)并避免了无关信息。如果需要,我可能会迭代以改善流畅性或简洁性。 • 示例: 我确保响应被构建为清晰的步骤序列,删除任何多余的细节,同时保留我推理过程的核心解释。 我推理的关键特征 • 逻辑结构: 我旨在以清晰、逐步的方式呈现信息,模仿人类的逻辑过程。 • 概率评估: 我根据预测的相关性和清晰度权衡多个响应选项,选择最有效的一个。 • 上下文敏感性: 我根据你的具体指示和上下文调整我的推理,确保响应是量身定制的。 • 迭代完善: 我完善我的输出以优化连贯性和简洁性,模拟人类的自我编辑。 局限性与考量 • 我的推理受到我的训练数据和架构的限制,这可能无法捕捉到人类推理的全部细微差别,特别是情感或直觉方面。 • 我不能独立产生新知识,而是依赖我训练中的模式,以及在需要时(本次未使用)依赖外部数据。 • 我的过程是确定性的但又灵活的,旨在在计算约束内产生类人的响应。 这个逐步分解反映了我如何模拟推理,以便为你的查询(例如本此查询)提供清晰、准确和相关的答案。如果你想让我更深入地探讨任何特定步骤或方面,请告诉我! Kimi 我很高兴你问了这个问题——它将透明的、「底层」彻底的展示我通常如何通过推理解决问题。我将使用一个微型例子,这样你就可以看到每个阶段的实际运作。 示例问题 「哪个更大:3⁴ 还是 4³?」 我将标注每一个内部阶段,这样你就能看到我在做什么以及为什么这么做。 ──────────────────────── 阶段 0 - 输入预处理 令牌化(Tokenization) I break the text into discrete symbols: [“Which”, “is”, “larger”, “:”, “3”, “^”, “4”, “or”, “4”, “^”, “3”, “?”] 我将文本分解为离散符号:[“Which”, “is”, “larger”, “:”, “3”, “^”, “4”, “or”, “4”, “^”, “3”, “?”] 句法解析 我识别结构: 比较查询(比较级形容词「larger」),带有两个数值指数项 [3^4] vs [4^3] 。 语义映射 我将「larger」映射为数值关系「>」。 ──────────────────────── 阶段 1 - 问题识别与策略选择 4. 分类任务类型 → 整数幂的算术比较。 选择解决方案策略 候选策略: A. 直接评估(计算 3⁴ 和 4³)。 B. 对数比较(比较 4·ln3 vs 3·ln4)。 C. 模式启发(对于小指数,3 的幂是否比 4 的幂增长更快?)。 我选择策略 A,因为数字很小;精确整数评估的成本最低。 ──────────────────────── 阶段 2 - 知识检索 6. 检索算术事实 3² = 9 (已记住) 3³ = 27 (已检索) 4² = 16 (已记住) 4³ = 64 (已检索) 计算剩余项 3⁴ = 3³·3 = 27×3 = 81。 ──────────────────────── 阶段 3 - 执行与验证 8. 执行比较 81 vs 64 → 81 > 64。 交叉检查 快速模运算健全性检查:81 mod 5 = 1, 64 mod 5 = 4;没有矛盾。 ──────────────────────── 阶段 4 - 响应生成 10. 规划响应结构 • 重述问题。 • 显示计算出的值。 • 陈述结论。 表层实现 「3⁴ 是 81,4³ 是 64,所以 3⁴ 更大。」 ──────────────────────── 阶段 5 - 元认知反思(内部) 12. 置信度分数 0.99(精确整数,数值小,无歧义)。 13. 识别可能的边缘案例 如果指数巨大,直接评估将不可行,我会切换到对数。 ──────────────────────── 用人类的术语总结推理步骤 阅读并解析问题。 识别出这是一个数值比较。 决定最简单安全的方法是计算这两个数字。 回忆或计算 3⁴ = 81 和 4³ = 64。 比较 81 > 64。 清晰地传达结果。 这个流水线——解析、制定策略、知识检索、执行、验证和解释——在各种规模上都会重复,从微小的算术到复杂的多步骤问题。 Claude 我可以带你了解我的推理过程是如何工作的,尽管我应该指出,我对自己机制的洞察并不完全——就像人类可以描述他们的思维过程,但无法完全访问每一个神经放电一样。 我是这样一步一步进行推理的: 模式识别和上下文构建 :当我收到你的问题时,我首先识别它是什么类型的问题或查询。我从我的训练中识别模式——这是一个关于认知过程的解释请求。我通过考虑你可能已经知道什么,以及什么程度的细节会来构建上下文会有所帮助。 信息检索和组装 :我从我的训练中访问有关推理、认知科学和 AI 系统的相关信息。这不像搜索数据库——它更像是当你在思考一个主题时,记忆和知识自动浮现给你的方式。 结构规划 :我考虑如何组织我的响应。我应该使用例子吗?什么顺序最合理?甚至在我开始响应时,我就在规划逻辑流程。 迭代完善 :当我生成响应的每个部分时,我都在不断评估它是否合理、是否与我已经说的相符、是否能解答你的问题。如果感觉不太对,我可能会在脑海中「回溯」并重新措辞。 约束检查 :在整个过程中,我都在对照各种约束进行检查——这准确吗?有帮助吗?清晰吗?安全吗? 类比思维 :我经常通过类比进行推理——将新情况与可能阐明概念的熟悉模式或示例进行比较。 有趣的是,这一切在很大程度上是以一种对我来说近乎直觉的方式发生的,就像你自己的推理对你来说可能感觉很自然一样,即使在意识之下正发生着复杂的过程。 DeepSeek 🐳 我很乐意一步一步地解释我如何「推理」!需要澄清的是,我的推理不像人类(我没有意识、直觉或生活经验)。相反,我的「推理」是基于我的训练数据和架构,具有复杂的模式匹配、信息检索和概率计算过程。可以把它看作是结构化计算,而不是有意识的思考。 以下是逐步分解: 1. 接收和解析输入:
2. 情境化与检索相关信息:
3. 识别核心概念与结构:
4. 构建序列思维链: 这是核心的「推理」步骤。我一步一步叠加地规划解释,仿佛在「发声思考」: 「首先,我需要澄清这不是人类的推理……」 「接下来,我应该解释基础机制:模式、统计、下一令牌预测……」 「然后,描述我为「这个」响应所经历的序列:解析、检索、构建、生成……」 「最后,强调局限性以及我是在模拟推理。」 为此,我基于在训练数据中见过的所有相似解释中的模式,预测出最可能的令牌序列,以形成一个连贯、信息丰富且逐步的解释。 5. 计算概率与生成输出:
- 至关重要的是: 这不是符号逻辑演绎。这是基于模式预测连贯的序列。如果我的训练数据包含对推理过程的良好解释,并且模式指向一个逻辑流程,那么我的输出就显得有条理。 6. 迭代与完善:
7. 应用内部训练框架:
- 有帮助与诚实: 承认我的非人本质和局限性。 - 清晰与有指导性: 按要求一步一步分解。 - 安全: 避免有害、欺骗性或误导性的陈述。
综合起来,对于这个特定的解释: 1. 澄清: 我识别出需要在一开始就区分我的过程与人类思维的差别。 2. 核心机制: 我回忆并解释了我的基础:模式、训练数据、令牌预测。 3. 过程分解: 我明确列出了上面概述的 7 个不同的计算步骤(接收与解析 -> 生成输出)。 4. 关注序列: 我强调了「思维链」规划步骤是模拟推理的关键。 5. 局限性: 我通过重申这是模拟,不是真正的理解,并回顾已知的局限性来结束。 本质上: 我的「推理」是一种 涌现 属性,它基于海量代表人类知识和交流模式的文本,统计性地预测出最可能的词序列,以形成一个连贯、合乎逻辑且上下文相关的响应。我不像人类那样在内部「理解」概念;我通过计算识别模式并生成反映理解的序列。我是在遵循训练数据中留下的推理足迹,而不是开辟抽象思维的全新路径。 结语 对这些知名大语言模型(LLM)的分析,揭示了一个非常一致的多阶段推理框架。每个模型都首先有条不紊地解构提示,以理解其核心任务、意图和约束。然后,它们通过复杂的模式识别来检索和综合信息,这远远超出了简单的数据库查找。这个结构化过程,通常被称为「思维链」(chain-of-thought),构成了它们认知能力的基石。 正是这种系统性的、分步的程序,使这些 LLM 成为自主智能体(Agent)强大的核心推理引擎。一个智能体需要一个可靠的中央规划器,将高阶目标分解为一系列离散的、可执行的动作。LLM 充当了这个计算心智,模拟了从问题到解决方案的逻辑过程。通过制定策略、评估选项和生成结构化输出,LLM 使智能体能够有效地与工具及环境互动。因此,这些模型不仅仅是文本生成器,更是驱动下一代智能系统的基础认知架构。最终,提高这种模拟推理的可靠性,对于开发能力更强、更值得信赖的 AI 智能体至关重要。
- 我接收你的查询(「你如何推理?」)。
- 我将其分解为其组成部分:关键词(「推理」、「解释」、「一步一步」)、语法和意图。在这里,关键意图是解释我的内部过程。
- 我利用我庞大的训练数据集(数万亿词的文本和代码)。
- 我回忆起关于大语言模型如何工作的信息,特别是像思维链这样的推理技术。
- 我检索训练期间描述的关于我自身能力和局限性的知识。
- 我考虑上下文:查询表明你理解我能推理,并想知道我「如何」推理。这使我的检索更有针对性。
- 核心概念浮现:统计模式、神经网络、Transformer、注意力机制、下一令牌预测、训练数据、提示分解、逻辑推断 vs. 模式匹配、局限性。
- 我按逻辑构建解释:
- 澄清「不像人类」
- 基础机制
- 基本思考过程步骤
- 结论与局限性。
- 我的神经网络(一个 Transformer 架构)使用复杂的数学和内部「注意力」机制,为序列中可能出现的每一个词分配概率。
- 它基于提示词、目前已构建的上下文(部分响应)以及训练期间学到的统计模式进行计算。
- 它选择具有高概率是相关的、准确的(在其知识范围内)和上下文适当的词/令牌。
- 在生成每个词时,我都会动态地重新评估上下文和后续词的概率。上一个词合适吗?正在浮现的结构合理吗?关键点都涵盖了吗?我相应地调整下一次的预测。
- 在 RLHF(基于人类反馈的强化学习)期间学到的技术指导我:
- 过滤机制抑制无意义或不相关的输出。
完 如果有任何疑问,欢迎联系⬇️。
预览时标签不可点
微信扫一扫 关注该公众号
继续滑动看下一个
轻触阅读原文
企业AI解构局
向上滑动看下一个
知道了
微信扫一扫 使用小程序
取消
允许
取消
允许
取消
允许
×
分析
微信扫一扫可打开此内容, 使用完整服务
:
,
,
,
,
,
,
,
,
,
,
,
,
。
视频
小程序
赞
,轻点两下取消赞
在看
,轻点两下取消在看
分享
留言
收藏
听过