LLM Powered Autonomous Agents（基于大语言模型的自主智能体）

这篇发表于arXiv的综述论文（arXiv:2308.11432）由北京大学等多个机构的研究者联合发表，是目前关于 LLM 自主智能体领域最全面的综述之一。

背景与动机

自主智能体一直是学术界和工业界的重要研究焦点。以往的研究通常让智能体在孤立环境中获取有限知识，这与人类的学习过程截然不同，因此智能体难以实现像人类一样的决策。

近年来，通过获取海量网络知识，大语言模型（LLM）展现了实现人类水平智能的显著潜力，由此引发了基于 LLM 的自主智能体研究热潮。

核心贡献

本文提出了一个统一框架来阐述 LLM 自主智能体的构建，涵盖大多数现有工作。框架主要包含三个部分：

1. 智能体构建（Agent Construction）

包括：

大脑模块（Brain）：基于 LLM 的核心认知引擎，负责记忆、推理和决策
感知模块（Perception）：处理来自外部环境的多模态输入
行动模块（Action）：执行具体任务和与环境交互

2. 应用领域（Applications）

论文全面概述了 LLM 自主智能体在以下领域的应用：

社会科学：包括心理学、法学、经济学、政治学等
自然科学：包括数学、化学、生物、医学等
工程学：包括工业自动化、软件开发、机器人等

3. 评估策略（Evaluation）

论文深入探讨了常用的 LLM 自主智能体评估方法，包括：

任务完成度评估
智能体能力评估
安全性与可靠性评估
人类兼容性评估

未来方向与挑战

论文还提出了几个关键挑战和未来研究方向：

1. 多智能体协作：如何让多个 LLM 智能体高效协作 2. 长期记忆机制：如何在长程任务中维护和利用记忆 3. 持续学习：如何让智能体在不遗忘先前知识的情况下持续学习 4. 可解释性：如何让智能体的决策过程更加透明可解释 5. 安全对齐：如何在开放环境中确保智能体行为安全

论文维护了一个 GitHub 仓库（github.com/Paitesanshi/LLM-Agent-Survey）用于持续跟踪该领域的最新研究进展。