【东方证券】ai agent：基于大模型的自主智能体，在探索agi的道路上前进.pdf -凯发平台

2023-08-25

26页

3mb

一、ai agent：探索 agi 的真实形态

1.1 什么是 ai agent？

ai agent（人工智能代理）是一种能够感知环境、进行决策和执行动作的智能实体。不同于传统的人工智能，ai agent 具备通过独立思考、调用工具去逐步完成给定目标的能力。比如，告诉 ai agent 帮忙下单一份外卖，它就可以直接调用 app 选择外卖，再调用支付程序下单支付，无需人类去指定每一步的操作。agent 的概念由 minsky 在其 1986 年出版的《思维的社会》一书中提出， minsky 认为社会中的某些个体经过协商之后可求得问题的解，这些个体就是 agent。他还认为 agent应具有社会交互性和智能性。agent的概念由此被引入人工智能和计算机领域，并迅速成为研究热点。但苦于数据和算力限制，想要实现真正智能的 ai agents 缺乏必要的现实条件。

大语言模型和 ai agent 的区别在于 ai agent 可以独立思考并做出行动，和 rpa 的区别在于它能够处理未知环境信息。chatgpt 诞生后，ai 从真正意义上具备了和人类进行多轮对话的能力，并且能针对相应问题给出具体回答与建议。随后各个领域的“copilot”推出，如 microsoft 365 copilot、github copilot、adobe firefly 等，让 ai 成为了办公、代码、设计等场景的“智能副驾驶”。ai agent 和大模型的区别在于，大模型与人类之间的交互是基于 prompt 实现的，用户 prompt 是否清晰明确会影响大模型回答的效果，例如 chatgpt 和这些 copilot 都需要明确任务才能得到有用的回答。而 ai agent 的工作仅需给定一个目标，它就能够针对目标独立思考并做出行动，它会根据给定任务详细拆解出每一步的计划步骤，依靠来自外界的反馈和自主思考，自己给自己创建 prompt，来实现目标。如果说 copilot 是“副驾驶”，那么 agent 则可以算得上一个初级的“主驾驶”。和传统的 rpa 相比，rpa 只能在给定的情况条件下，根据程序内预设好的流程来进行工作的处理，在出现大量未知信息、难以预测的环境中时，rpa 是无法进行工作的，ai agent 则可以通过和环境进行交互，感知信息并做出对应的思考和行动。

1.2 agent 的最终发展目标：通用人工智能 agi

ai agent 并不是一个新兴的概念，早在多年前就已在人工智能领域有了研究。例如 2014 年由 deepmind 推出的引发全球热议的围棋机器人 alphago，也可以看做是 ai agent 的一种。与之类似的还有 2017 年 openai 推出的用于玩《dota2》的 openai five，2019 年 deepmind 公布用于玩《星际争霸 2》的 alphastar 等，这些 ai 都能根据对实时接收到的信息的分析来安排和规划下一步的操作，均满足 ai agent 的基本定义。当时的业界潮流是通过强化学习的方法来对 ai agent 进行训练，主要应用场景是在游戏这类具有对抗性、有明显输赢双方的场景中。但如果想要在真实世界中实现通用性，基于当时的技术水平还难以实现。

大语言模型的浪潮推动了 ai agent 相关研究快速发展。ai agent 需要做到能够像人类一样进行交互，大语言模型强大的能力为 ai agent 的突破带来了契机。大模型庞大的训练数据集中包含了大量人类行为数据，为模拟类人的交互打下了坚实基础；另一方面，随着模型规模不断增大，大模型涌现出了上下文学习能力、推理能力、思维链等类似人类思考方式的多种能力。将大模型作为ai agent 的核心大脑，就可以实现以往难以实现的将复杂问题拆解成可实现的子任务、类人的自然语言交互等能力。大模型的快速发展大幅推动了 ai agent 的发展。

通往 agi 的道路仍需探索，ai agent 是当前的主要路线。在大模型浪潮席卷全球之时，很多人认为大模型距离真正的通用人工智能 agi 已经非常接近，很多厂商都投入了基础大模型的研究。但经过了一段时间后，大家对大模型真实的能力边界有了清晰的认知，发现大模型仍存在大量的问题如幻觉、上下文容量限制等，导致其无法直接通向 agi，于是 ai agent 成为了新的研究方向。通过让大模型借助一个或多个 agent 的能力，构建成为具备自主思考决策和执行能力的智能体，来继续实现通往 agi 的道路。openai 联合创始人 andrej karpathy 在一次开发者活动中讲到， openai 内部对 ai agents 非常感兴趣，ai agent 将是未来 ai 的前沿方向。扎克伯格也在 meta 的一季度财报电话会上提到，meta 将会把 ai agents 介绍给数十亿用户。

ai agent 可以类比为自动驾驶的 l4 阶段，距离真正实现仍有差距。根据甲子光年报告，ai 与人类的协作程度可以和自动驾驶等级进行类比。像 chatgpt 这类对话机器人可以类比 l2 级别自动驾驶，人类可以向 ai 寻求意见，但 ai 不直接参与工作；copilot 这类副驾驶工具可以类比为 l3 级别的自动驾驶，人类和 ai 共同协作完成工作，ai 根据 prompt 生成初稿，人类仅需进行修改调整；而 agent 则进一步升级为 l4，人类给定一个目标，agent 可以自己完成任务规划、工具调用等。但就如同 l4 级别的自动驾驶还未真正实现一样，ai agents 容易想象和演示，却难以实现，ai agents 的真正应用还在不确定的未来。

二、ai agent 拆解：大模型、规划、记忆与工具

一个基于大模型的 ai agent 系统可以拆分为大模型、规划、记忆与工具使用四个组件部分。6 月， openai 的应用研究主管 lilian weng 撰写了一篇博客，认为 ai agent 可能会成为新时代的开端。她提出了 agent = llm 规划技能记忆工具使用的基础架构，其中 llm 扮演了 agent 的“大脑”，在这个系统中提供推理、规划等能力。

2.1 大模型规划：agent 的“大脑”，通过思维链能力实现任务分解

llm 具备逻辑推理能力，agent 可以将 llm 的逻辑推理能力激发出来。当模型规模足够大的时候，llm 本身是具备推理能力的。在简单推理问题上，llm 已经达到了很好的能力；但在复杂推理问题上，llm 有时还是会出现错误。事实上，很多时候用户无法通过 llm 获得理想的回答，原因在于 prompt 不够合适，无法激发 llm 本身的推理能力，通过追加辅助推理的 prompt，可以大幅提升 llm 的推理效果。在《large language models are zero-shot reasoners》这篇论文的测试中，在向 llm 提问的时候追加“let’s think step by step”后，在数学推理测试集 gsm8k 上的推理准确率从 10.4%提升到了 40.7%。而 agent 作为智能体代理，能够根据给定的目标自己创建合适的 prompt，可以更好地激发大模型的推理能力。

对于需要更多步骤的复杂任务，agent 能够调用 llm 通过思维链能力实现任务分解与规划。在 ai agent 的架构中，任务分解规划的过程是基于大模型的能力来实现的。大模型具备思维链（chain of thoughts， cot）能力，通过提示模型“逐步思考”，利用更多的计算时间来将困难任务分解为更小，更简单的步骤，降低每个子任务的规模。

通过反思与自省框架，agents 可以不断提升任务规划能力。ai agent 可以对过去的行为进行自我批评和反思，从错误中学习，并为未来的步骤进行完善，从而提高最终结果的质量。自省框架使 agents 能够修正以往的决策、纠正之前的失误，从而不断优化其性能。在实际任务执行中，尝试和错误是常态，反思和自省两个框架在这个过程中起到了核心作用。

2.2 记忆：用有限的上下文长度实现更多的记忆

对 ai 智能体系统的输入会成为系统的记忆，与人类的记忆模式可实现一一映射。记忆可以定义为用于获取、存储、保留以及随后检索信息的过程。人脑中有多种记忆类型，如感觉记忆、短期记忆和长期记忆。而对于 ai agent 系统而言，用户在与其交互过程中产生的内容都可以认为是 agent 的记忆，和人类记忆的模式能够产生对应关系。感觉记忆就是作为学习嵌入表示的原始输入，包括文本、图像或其他模态；短期记忆就是上下文，受到有限的上下文窗口长度的限制；长期记忆则可以认为是 agent 在工作时需要查询的外部向量数据库，可通过快速检索进行访问。目前 agent 主要是利用外部的长期记忆，来完成很多的复杂任务，比如阅读 pdf、联网搜索实时新闻等。任务与结果会储存在记忆模块中，当信息被调用时，储存在记忆中的信息会回到与用户的对话中，由此创造出更加紧密的上下文环境。

向量数据库通过将数据转化为向量存储，解决大模型海量知识的存储、检索、匹配问题。向量是 ai 理解世界的通用数据形式，大模型需要大量的数据进行训练，以获取丰富的语义和上下文信息，导致了数据量的指数级增长。向量数据库利用人工智能中的 embedding 方法，将图像、音视频等非结构化数据抽象、转换为多维向量，由此可以结构化地在向量数据库中进行管理，从而实现快速、高效的数据存储和检索过程，赋予了 agent“长期记忆”。同时，将高维空间中的多模态数据映射到低维空间的向量，也能大幅降低存储和计算的成本，向量数据库的存储成本比存到神经网络的成本要低 2 到 4 个数量级。 embedding 技术和向量相似度计算是向量数据库的核心。embedding 技术是一种将图像、音视频等非结构化数据转化为计算机能够识别的语言的方法，例如常见的地图就是对于现实地理的 embedding，现实的地理地形的信息其实远远超过三维，但是地图通过颜色和等高线等来最大化表现现实的地理信息。在通过 embedding 技术将非结构化数据例如文本数据转化为向量后，就可以通过数学方法来计算两个向量之间的相似度，即可实现对文本的比较。向量数据库强大的检索功能就是基于向量相似度计算而达成的，通过相似性检索特性，针对相似的问题找出近似匹配的结果，是一种模糊匹配的检索，没有标准的准确答案，进而更高效地支撑更广泛的应用场景。

2.3 工具：懂得使用工具才会更像人类

ai agent 与大模型的一大区别在于能够使用外部工具拓展模型能力。懂得使用工具是人类最显著和最独特的地方，同样地，我们也可以为大模型配备外部工具来让模型完成原本无法完成的工作。 chatgpt 的一大缺点在于，其训练数据只截止到了 2021 年底，对于更新一些的知识内容它无法直接做出回答。虽然后续 openai 为 chatgpt 更新了插件功能，能够调用浏览器插件来访问最新的信息，但是需要用户来针对问题指定是否需要使用插件，无法做到完全自然的回答。ai agent 则具备了自主调用工具的能力，在获取到每一步子任务的工作后，agent 都会判断是否需要通过调用外部工具来完成该子任务，并在完成后获取该外部工具返回的信息提供给 llm，进行下一步子任务的工作。openai 也在 6 月为 gpt-4 和 gpt-3.5 更新了函数调用的功能，开发者现在可以向这两个大模型描述函数，并让模型智能地选择输出包含调用这些函数的参数的 json 对象。这是一种更可靠地将 gpt 的功能与外部工具和 api 相连的新方法，允许开发者更可靠地从模型中获得结构化的数据，为 ai 开发者提供了方便。

以 hugginggpt 为例，hugginggpt 将模型社区 huggingface 和 chatgpt 连接在一起，形成了一个 ai agent。2023 年 4 月，浙江大学和微软联合团队发布了 hugginggpt，它可以连接不同的 ai 模型，以解决用户提出的任务。hugginggpt 融合了 huggingface 中成百上千的模型和 gpt，可以解决 24种任务，包括文本分类、对象检测、语义分割、图像生成、问答、文本语音转换和文本视频转换。具体步骤分为四步： 1) 任务规划：使用 chatgpt 来获取用户请求； 2) 模型选择：根据 hugging face 中的函数描述选择模型，并用选中的模型执行 ai 任务； 3) 任务执行：使用第 2 步选择的模型执行的任务，总结成回答返回给 chatgpt； 4) 回答生成：使用 chatgpt 融合所有模型的推理，生成回答返回给用户。

三、ai agent 研究与应用进展

ai agent 发展迅速，出现多款“出圈”级研究成果。2023 年 3 月起，ai agent 领域迎来了第一次“出圈”，西部世界小镇、babyagi、autogpt 等多款重大 agent 研究项目均在短短两周内陆续上线，引发了大家对 ai agent 领域的关注。

3.1 autogpt：推动 ai agent 研究热潮

autogpt 将 ai agent 概念带“出圈”。2023 年 3 月，开发人员 significant ggravitas 在 github 上发布了开源项目 autogpt，它以 gpt-4 为驱动基础，允许 ai 自主行动，完全无需用户提示每个操作。给 autogpt 提出目标，它就能够自主去分解任务、执行操作、完成任务。作为 gpt-4 完全自主运行的最早示例之一，autogpt 迅速走红于 ai 界，并带动了整个 ai agent 领域的研究与发展，它也成为了 github 排行榜 4 月增长趋势第一名。截至 2023 年 8 月 15 日，autogpt 在 github 上已经得到了超过 14.7 万颗 star。

开源项目点燃开发者热情，基于 autogpt 的案例应用层出不穷。基于 gpt-4 的强大能力和 autogpt 带来的 agent 热潮，开发者们很快便基于 autogpt 实现了很多有趣的应用案例，例如自动实现代码 debug、自主根据财经网站信息进行投资挣钱、自主完成复杂网站建设、进行科技产品研究并生成报告等。还有开发者为 autogpt 开发了网页版本——agentgpt，仅需给定大模型的 api 即可实现网页端的 ai agent。

autogpt 仍存在成本高、响应慢、出现死循环 bug 等缺点。auto-gpt 采用的是 gpt-3.5 和 gpt-4 的 api，而 gpt-4 的单个 token 价格为 gpt-3.5 的 15 倍。假设每次任务需要 20 个 step （理想状况下），每个 step 会花费 4k tokens 的 gpt-4 使用量，prompt 和回复的平均每一千 tokens 花费是 0.05 美元（因为实际使用中回复使用的 token远远多于 prompt），假设汇率为 1 美元 = 7 人民币，那么花费就是 20*4*0.05*7=28 元人民币。而这仅是理想状况下，正常使用中经常出现需要拆分出几十上百个 step的任务，这时单个任务的处理成本就会难以接受。而且 gpt-4的响应速度远远慢于 gpt-3.5，导致 step 一多的时候任务处理会变得很慢。并且 autogpt 在遇到 gpt-4 无法解决的 step 问题时，就会陷入死循环中，不断重复没有意义的 prompt 和输出，造成大量的资源浪费和损失。

3.2 游戏领域应用：西部世界小镇与我的世界

斯坦福西部世界小镇首次创造了多个智能体生活的虚拟环境。2023 年 4 月，斯坦福大学的研究者们发表了名为《generative agents: interactive simulacra of human behavior》的论文，展示了一个由生成代理（generative agents）组成的虚拟西部小镇。这是一个交互式的沙盒环境，在小镇上，生活着 25 个可以模拟人类行为的生成式 ai agent。它们会在公园里散步，在咖啡馆喝咖啡，和同事分享当天的新闻。甚至一个智能体想举办情人节排队，这些智能体在接下来的两天里，会自动传播派对邀请的消息，结识新朋友，互相约对方一起去派对，还会彼此协调时间，在正确的时间一起出现在派对上。这种 agent 具有类似人的特质、独立决策和长期记忆等功能，它们更接近于“原生 ai agent”。在这种合作模式下，agent 不仅仅是为人类服务的工具，它们也能够在数字世界中与其他 agent 建立社交关系。

记忆流是西部世界小镇中 ai agents 的架构核心。小镇中的 agents 包含三大重要的基本要素：记忆、反思和规划，相比第二章提到的几个核心组件略有调整。这三大基本要素都基于一个核心：记忆流（memory stream），记忆流存储了 agent 的所有经历记录，是一个包含了多个观察的列表，每个观察都包含了事件描述、创建时间以及最近一次访问的时间戳，观察可以是 agent 自己的行为或从其他人那里感知到的行为。为了检索最重要的记忆以传递给语言模型，研究者确定了检索过程中需要考虑的三个因素：最近性、重要性和相关性。通过确定每条记忆基于这三个因素的分数，最后加总起来得到权重最高的记忆，作为 prompt 的一部分传递给大模型，以此来决定 agent 的下一步动作。反思和规划都是基于记忆流中的观察来进行更新与创建的。

voyager 是第一个大模型驱动，可以终身学习的游戏智能体。2023 年 5 月，英伟达开源了 voyager 这一游戏智能体。英伟达将 voyager 用在了《我的世界》这款游戏中，《我的世界》没有强加一个预定的最终目标或固定的故事情节，而是提供了一个具有无限可能性的独特游乐场。一个高效的终身学习 agent 应该具有与人类玩家类似的能力，能够根据当前技能水平和世界状态发现合适的任务，能够根据反馈学习和完善技能，不断探索世界。英伟达采用了“无梯度”的 agent 训练方法，基于 gpt-4 的 voyager 在游戏里表现优异，获得的独特物品增加了 3.3 倍，行进距离增加了 2.3 倍，解锁关键科技树里程碑的速度比之前的方法快了 15.3 倍。

voyager 由自动课程、技能库和迭代 prompt 机制三个新型组件构成。voyager 的架构与第二章提到的 ai agent 基本组件相差较大：自动课程用于提出开放式的探索目标，该课程是由 gpt-4 根据“尽可能多发现不同的东西”的总体目标生成的，会根据探索进度和 agent 状态使得探索实现最大化；技能库用于开发越来越复杂的行为，通过存储有助于成功解决某个任务的行动程序， voyager 逐步建立起一个技能库，未来可以在类似情况下进行检索。这些技能是用可执行的代码来表示的，复杂的技能则可以通过组成更简单的程序来合成。这种做法可以让 voyager 的能力随着时间的推移迅速增强，并缓解“灾难性遗忘”问题；迭代 prompt 机制引入了环境反馈、执行错误和检查任务是否成功的自我验证三种类型的反馈，根据这些反馈，gpt-4 可以自己去迭代更新 prompt，直到生成的 prompt 足以去完成当前任务。

voyager 的性能显著强于别的 agent 框架，但成本也高居不下。英伟达的研究者们系统对比了 voyager 和别的 agent 框架的的探索性能、科技树的掌握情况、地图覆盖率等指标，voyager 的性能具备显著优势。和别的 agent 框架相比，voyager 解锁科技树（木制工具→石制工具→铁制工具→钻石工具）的速度最快，且是唯一能够解锁钻石等级科技树的模型。voyager 的探索地图范围也是别的agent框架的2.3倍，发现新知识的能力大大增强。虽然voyager具备强大的性能，但是其成本开销也是巨大的，由于 voyager 需要使用 gpt-4 强大的代码生成能力，导致其成本无法降下来。同时大模型的“幻觉”问题仍然存在，比如自动课程会提出一些无法完成的任务等。但即便如此，众多业界学者仍认为 voyager 是 ai agent 领域的一大突破进展，离真正的 agi 又更近了一步。

3.3 hyperwrite：推出首个个人 ai 助理 agent

hyperwrite 推出首个个人 ai 助理 agent。2023 年 8 月 3 日，人工智能初创公司 hyperwrite 正式推出了 ai agent 的应用 personal assistant，希望可以成为人类的“数字助手”。作为 hyperwrite 的投资者，生成式 ai 初创企业 cohere 联合创始人 aidan gomez 表示：“我们将开始第一次看到真正的个人 ai 助理”。作为个人助理 agent，它可以帮助用户整理邮箱并起草回复、帮助用户订机票、订外卖、整理领英上适合的简历等，将 ai 能力无缝接入到用户的日常生活和工作流中。目前该工具还处于试用阶段，主要适用于网页浏览器场景。

personal assistant 可以自主在浏览器中完成指定任务。personal assistant 现在是以浏览器拓展插件的形式来提供服务的，用户在安装完插件并注册账户后即可开始试用。其初始页面类似于 new bing 这样的搜索引擎，仅提供一个自然语言交互的聊天框。用户输入其想要完成的目标后，该插件就会新建一个浏览器页面，并在页面以侧边栏形式展示其进行的每一步操作与思路。以 “给我一些美国现在关于 ai agent 的新观点”这一目标为例，该个人助理会先去进行相关的搜索，然后打开相关的文章页面进行阅读并总结观点，在完成阅读和总结后，它会将结果汇总并返回到聊天框中，整体用时约为 2 分钟。

目前个人 ai 助理能力仍旧有限，但潜力可期。目前 hyperwrite personal assistant 仅为 0.01 版本，其功能仍相对有限，也存在一些出错的问题，并且响应过程也较为缓慢。但我们认为，ai agent 自此迈出了走向个人消费者领域的第一步，随着未来大模型能力的进一步提升，以及算力基础设施的不断普惠，个人 ai 助理的发展潜力值得期待。

3.4 modelscopegpt：国内首个大模型调用工具

阿里云推出国内首个大模型调用工具 modelscopegpt（魔搭 gpt），是一个能实现大小模型协同的 agent 系统。在 2023 年 7 月的世界人工智能大会上，阿里云推出了面向开发者们的大模型调用工具魔搭 gpt。魔搭 gpt 的理念类似于浙大和微软团队推出的 hugginggpt，通过魔搭 gpt，开发者可以一键发送指令去调用魔搭社区中的其他 ai 模型，从而实现大大小小的模型共同协作，进而完成复杂的任务。这也是国内首款大模型调用工具 agent。

modelscopegpt 是阿里云 maas 范式在模型使用层的重要映射，旨在建立大模型生态。阿里云表示，构建 modelscopegpt 的数据集和训练方案将会对外开放，供开发者自行调用，开发者可以根据需要对不同的大模型和小模型进行组合，帮助开发者多、快、好、省地使用大模型。目前在 ai 开发者圈，魔搭社区已成中国大模型第一门户。所有模型生产者都可以上传自己的模型，验证模型的技术能力和商业化模式，并与其他社区模型进行协作，共同探索模型应用场景。 modelscopegpt 则实现了将模型生产力进行自由组合，继续强化阿里云在大模型生态建设中的领先地位。

3.5 inflection ai：高情商个人 ai——pi

inflection ai 推出主打情感陪伴的个人 ai——pi。inflection ai 是一家成立于 2022 年的人工智能初创公司，目前公司的估值已经突破 40 亿美元，在人工智能领域仅次于 openai。在 2023 年 5 月，公司推出了旗下的个人 ai 产品 pi。与 chatgpt 不同，pi 从未以专业性与替代人工作为宣传。它不能写代码，也不能帮我们生产原创内容，与时下流行的通用聊天机器人相反，pi 只能进行友好的对话，提供简洁的建议，甚至只是倾听。它的主要特征是富有同情心、谦虚好奇、幽默创新，具有良好的情商，可以根据用户的独特兴趣和需求提供无限的知识与陪伴。inflection 自开发 pi 开始，就确定了 pi 将作为个人智能（personal intelligence），而不仅仅是辅助人工作的工具。

pi 的核心是公司研发的 inflection-1 大模型，性能媲美 gpt-3.5。inflection-1 是 inflection ai 推出的大模型，根据公司的评估测试，inflection-1 在多任务语言理解、常识问题等多项测试中的性能都略胜于 gpt-3.5、llama 等常用的大模型，但在代码能力上要落后于 gpt-3.5。不过这是公司的差异化竞争所在，pi 作为一个以情感陪伴为主的 agent 并不需要拥有很强的代码和辅助工作能力。和辅助工作的 agent 不同，pi 能够满足更多的情感陪伴需求。作为一个具有高情商的 ai agent， pi 能够以更加日常和生活化的语言和用户进行交流，而不是以一个冰冷的工作 ai 的口吻。pi 的回复非常贴近生活，语气十分得体，而它对你当下状态和事态发展的关心就像心理医生或者你最好的朋友。当 pi 在回复可能带有负面情绪的问题时，它也会避免使用任何俏皮的表情或者轻快的口吻去冒犯用户。它甚至会在回复中使用emoji，让用户觉得更像是和真正的人类在进行对话一样。 pi 还能够记住与用户的对话内容，并随着时间的推移而更加了解用户。pi 的出现，弥补了传统型人工智能对人类情绪欲望的忽视。我们认为，类似于 pi 这样能够提供情绪价值的个人 ai agent 存在着较大的市场空间。

3.6 agentbench：llm 的 agent 能力评估标准

清华大学联合团队提出世界首个大模型 ai agent 能力的评估标准。尽管当前 ai 智能体研究异常火热，但 ai 行业缺乏一个系统化和标准化的基准来评估 llm 作为 agent 的智能水平。2023 年 8 月，清华大学、俄亥俄州立大学、加州大学伯克利分校的研究团队便提出了首个系统性的基准测试——agentbench，用来评估 llm 作为 agent 在各种真实世界挑战和 8 个不同环境中的能力表现（如推理和决策能力）。这 8 个环境分别是：操作系统、数据库、知识图谱、卡牌对战游戏、家务事、横向思维谜题、网络购物、网页浏览。基于这 8 个环境，研究团队设计了不同的真实世界挑战，涵盖了代码场景和生活场景，比如用 sql 语言从一些表格里提取需要的数、玩卡牌游戏取得胜利、从网页预订机票等。

gpt-4 性能遥遥领先，开源模型能力显著弱于闭源模型。研究者选择了 25 种主流的大模型 api 来进行 agent 能力评估，涵盖了闭源模型（如 openai 的 gpt-4、gpt-3.5 等）和开源模型（llama 2和baichuan等）。根据测试结果来看，gpt-4基本上在所有环境中都占据领先地位，是名副其实的当前大模型能力边界。闭源模型 anthropic 的 claude 以及 openai 的 gpt-3.5 水平相差不大，而常见的一些开源模型vicuna、dolly等由于尺寸和闭源模型相差了至少一个数量级，性能评估显著较弱。我们认为，虽然 llm 能够在自然语言交流等 nlp 上达到基本的类人水平，但在关注行动有效性、上下文长度记忆、多轮对话一致性和代码生成执行等 agent 重要能力上的表现仍旧相对落后，基于 llm 的 ai agent 的发展空间仍具潜力。

四、“agent ”有望成为未来 ai 领域产品主流

4.1 ai agent 有望多个领域实现落地应用

ai agent 是释放 llm 潜能的关键，agent 和人的合作将越来越多。当前像 gpt-4 这样的大模型具备很强的能力，但是其性能的发挥却主要依赖于用户写的 prompt 是否足够合适。ai agent 则将用户从 prompt 工程中解放出来，仅需提供任务目标，以大模型作为核心的 ai agent 就能够为大模型提供行动能力，去完成目标。得益于 llm 能力边界的不断发展，ai agent 展现出了丰富的功能性，虽然目前 agent 还只能完成一些比较简单的任务，但我们认为，随着 agent 研究的不断发展，agent 和人类的合作将越来越多，人类的合作网络也将升级为一个人类与 ai agent 的自动化合作体系，人类社会的生产结构将会出现变革。 ai agent 有望多个领域实现落地应用，有的已经出现好用的 demo 产品。ai agent 已经在各个领域得到了初步的应用和发展，未来将有望成为 ai 应用层的基本架构，包括 to c、to b 产品等。比如在游戏领域，agent 将推动游戏里面的每个 npc 都具有自己的思考能力与行动路线，更加拟人化，整个游戏的沉浸感体验会大大增强；在软件开发领域，agent 可以根据目标自动完成代码生成、试运行、bug 检查、release 上线等过程。把 agent 系统作为 ai 应用产品的核心，能够实现比仅采用大模型产品辅助人类工作更高的工作效率，人类的生产力会进一步释放。

距离真正的 agi 还有很长的发展之路，“agent ”有望成为未来产品的主流。虽然目前有许多类别的 agent，但大多很粗浅，远远谈不上 agi。即使是最简单的 agent 应用，语音助手或智能外呼系统，其复杂性以及如何引入环境 feedback 等问题，都未得到有效解决。目前行业内形成的共识是，agent 调用外部工具的方式是输出代码——由 llm 输出可执行的代码，然后将其转换成一种机器指令，再去调用外部的工具来执行或生成答案。openai 近期推出的 function call 能力也证明了这一点。这也是为什么 gpt-4 在 agents 系统里很受欢迎的原因，gpt-4 强大的代码能力在当下仍旧找不到可替代的大模型。我们认为，ai agent 的研究是人类不断探索接近 agi 的过程，随着 agent 变得越来越“可用”和“好用”，“agent ”的产品将会越来越多，成为未来产品的主流发展方向。

4.2 2b 垂类 agent 认知正在形成，有望率先落地

2b 和垂直领域仍是 ai agents 容易率先落地的方向。由于 agent 对环境反馈的依赖性较强，具备显著特点的企业环境是更加适合 agent 建立起对某一个垂直领域认知的场景。传统的企业与 ai 结合应用更多的是在流程任务自动化，通过定义规则来提升一线员工的工作效率。而 agent 则能够更进一步地提升一线员工的工作质量，通过将企业在私域业务上的知识与经验传授给 agent，让 agent 能够成为该领域一个虚拟的“专家”智能体，去指导和帮助经验较为匮乏的一线员工，在让一线员工的工作质量大幅提升的同时，也能让一线员工快速成长起来。并且从时间上来看，一个经验丰富的高级员工是需要很长时间的培养的，而通过训练得到的垂类 agent 是很容易实现低成本规模化复制的。理想状态下，企业能够实现给每一位一线员工都配备一位甚至多位垂类 agent 来辅助工作，员工的单位生产力将会有大幅提升。大模型时代的到来加速了 ai 技术的平民化，我们认为，随着科技水平的不断发展，未来 5-10 年间 ai 智能的成本将会快速降低，企业为每一位员工搭配 agent 的愿景将有望实现。

用户对 agent 的认知正在形成，初创企业正在卡位。当前关于 ai agent 的研究主要还是以学术界和开发者为主，商业化产品极少，agent 的未来产品形态如何仍未有定论。但是用户对于 agent 的关注度正在提升，agent 对于效率提升的认知正在形成，可能未来几年间就会涌现出大量以 agent 作为核心的产品应用到各行各业。目前，已经有一些初创公司开始以企业的智能体平台作为主要的产品研发方向，例如澜码科技正在打造基于 llm 的企业级 agent 平台。垂直领域专家通过 agent 平台定义工作流程，完成工作方法论的构建，设计 agent 对话模式以便于更清晰地表达业务；一线员工用自然语言提出需求，调度 agent 完成任务，能够极大地提升工作流程自动化的灵活性，降低成本，是对传统工作方式的颠覆式创新。长远来看，我们认为这类 agent 平台有可能成为 2b 领域人机交互的入口级平台。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）