分享

收藏

点赞

  1. 主页 > 资讯 > 智慧城市

百度沈抖:智能体是大模型落地的最佳形态

智能体是人工智能时代的网站,是目前最能激发大模型潜力的应用方向

在电影《钢铁侠》中,钢铁侠有一个名叫“贾维斯”(J. A.R. V. I. S.)的全能人工智能管家,只用语音对话就能自主解决众多难题。贾维斯的全称是“Just A Rather Very Intelligent System”(只是一个相当聪明的智能系统)。虽然用的是“Just”(只是)这样轻描淡写的词,但实际上要实现这个效果是非常具有挑战性的。

然而,人工智能的研究人员并没有放弃,一直在探索,而且也有了一定的成果。例如,在大模型浪潮里,智能体就在扮演大模型和现实世界的连接者这一角色,通过高效的自主决策,努力成为一位为用户服务的超级管家。李彦宏在多个场合表示,智能体是人工智能时代的网站,是目前最能激发大模型潜力的应用方向。

2024年5月,OpenAI的首席执行官萨姆·奥尔特曼在麻省理工学院参加活动时提出,智能体将是人工智能的杀手级应用。2024年11月,黄仁勋在英伟达AI峰会上表示,未来有两种类型的人工智能会非常受欢迎:数字人工智能工作者(智能体)和物理人工智能(机器人技术)。吴恩达在参加2024年Snowflake(互联网服务和基础设施公司)峰会开发者日时也表示,智能体工作流将在今年推动人工智能取得巨大进步,甚至可能超过下一代基础模型。被如此多大咖看好的智能体到底怎么样,将带来什么影响呢?下文会对此问题进行详细阐述。

 一、自主决策、自主执行 

当我们跟大模型互动、向大模型发布指令时,例如“请帮我设定闹钟”,我们希望得到的不是大模型详细地解释闹钟是什么,或者回复设定闹钟的几个步骤,而是希望它真的去做,希望它能代替人类完成闹钟设定。这就是智能体的需求来源。

那么,如何定义智能体呢?1986年,美国人工智能研究学者马文·明斯基出版了一本书,名字是《心智社会》。在这本书中,他探讨了人类思维是如何产生的。他认为,人类思维是通过许多较小的、具有专门功能的智能体的相互作用而产生的,智能的本质就是许多有着各异能力的智能体之间进行受管理的互动。

这可以算是第一次科学意义上对智能体的定义。根据明斯基的看法,这些智能体可以是简单的计算模型,它们能够处理特定的任务或信息,并且可以交互,有时甚至是相互竞争。智能体既可以相互独立,也能够协同工作,从而形成一个复杂的系统,产生智能行为。

明斯基的理论,打破了传统上认为智能是单一、集中过程的观念,而是强调智能的分布式和协同性,并为人工智能智能体的构建提供了参照理论。

人类与人工智能协同的模式可以分为三种(见图2-4)。

fe86d5cf5d66b95720e45c206e067811.png

第一种是嵌入模式,即以人类为主完成绝大部分工作,人工智能只是在某(几)个任务中提供信息或建议,人类自主结束工作。在这种模式下,人工智能更像一个工具。

第二种是副驾驶模式,即人类和人工智能共同协作。人工智能会参与更多流程,然后经人类修改确认后,人类自主结束工作。在这种模式下,人工智能更像一个同事。

第三种是智能体模式,即人工智能完成绝大部分工作,人类只需要设定目标、监督即可。人工智能会根据目标,做出任务拆分、工具选择、进度控制等行为,并且最终由人工智能来结束工作。在这种模式下,人工智能更像一个管家。

从这个分类就可以看出,智能体能够自主理解、规划决策、执行复杂任务。它接到一个任务后,会进行自主思考、任务拆分、方案规划,并调用工具,全程自动完成任务,具有积极性、反应性、自主性和社交能力。

积极性意味着智能体不仅告诉用户“如何做”,它更愿意去做。反应性意味着智能体能够快速对环境变化做出反应。自主性意味着能够自主地去完成这些任务,无须持续的外部控制或干预。社交能力意味着智能体可以和人类、其他智能体等进行交互、协作。

一句话总结就是,智能体技术提升了人工智能的自主行动力,使人工智能越来越像人。

 二、智能体和大模型的关系 

智能体是目前最能激发大模型潜力的应用方向。

大模型与人类之间的交互是基于提示词(Prompt)实现的,用户的提示词是否清晰、明确,会影响大模型回答的效果。而需要智能体工作时,仅需给定一个目标,智能体就能够针对目标独立思考并做出行动。大模型时代的智能体,意味着是基于大模型技术的代理,是大模型技术落地的理想形态。

实际上,构建智能体并不是大模型时代才有的想法,在此之前研发人员便进行了尝试。例如,在发展强化学习的过程中就引入了智能体,通过引入奖惩机制,智能体可以通过反复尝试和学习做出最佳的决策。基于这个思路,也就有了AlphaGo的诞生,以及在围棋界战胜顶级人类玩家的战绩。然而,受限于算法、算力、数据等资源,当时的智能体并不具备很强的通用性。而大模型技术则使智能体可以更泛化,更适合复杂场景。

 三、智能体的演进 

斯图尔特·罗素和彼得·诺维格所著的《人工智能:一种现代方法》一书表示,根据感知的智能和能力程度的不同,智能体被分为五类。

一是简单反射智能体。这类智能体的决策过程仅依赖于当前感知到的环境状态,不会考虑过去的信息或未来的状态。它们对环境的感知和行动选择是直接映射的,没有内部状态或记忆,也不涉及复杂的决策过程。例如避障机器人,当检测到障碍物后,就会立即停止或转向。

二是模型驱动的智能体。这类智能体会维护一个关于环境状态的内部模型,并基于这个模型来改进决策过程。决策时,会考虑当前感知和内部模型,以做出最佳决策。例如一些智能导航,可以根据当前路况和内置地图规划路线。

三是基于目标的智能体。这类智能体会设定一个或多个目标,并根据目标做出决策。它们会评估不同行动方案对实现目标的潜在贡献,并选择最佳可行方案。例如扫地机器人,可以根据目标位置规划最优路径,确保把地面清理干净。

四是基于效用的智能体。这类智能体不仅关注目标的实现,还能评估不同行为对实现目标的效用或价值。评估每个行动的后果后,选择预期效用最大的行动。理想的家庭智能助手就应该如此,例如当观测到用户情绪需要提升时,可以在调节灯光、播放音乐、烹饪美食、预备睡眠等行为中选择最有效的一项。

五是学习智能体。这类智能体具备从经验中学习的能力,会根据历史交互来改进其行为。它会使用各种机器学习算法来调整行为策略,以更好地适应环境。例如,AlphaGo就是如此,通过大量对弈学习棋局策略和规则,并在比赛中不断优化自己的决策。如果按照这个分类,那么当前的智能体则是基于大模型的智能体。这类智能体可以充分发挥大模型的泛化能力,适合复杂环境。而且,随着大模型能力的提升,智能体的能力也会得到提升。

 四、智能体的四大核心模块 

关于智能体的架构并没有统一的划分,从工程实现上,除了大模型基础,通常可以再划分出四大核心模块,分别是规划、记忆、工具、行动,即“智能体= 大模型+ 规划+ 记忆+ 工具+ 行动”,其中大模型扮演了智能体的“大脑”,在这个系统中提供推理、规划等能力。a 智能体整体架构如图2-5 所示。 

ed578871b1b76f7874f9d56611c73c4b.png

(一)规划

规划主要包括子目标拆解、反思与自我批评、思维链。

子目标拆解,是将一个复杂任务拆解成一系列更小、更易于管理和解决的子目标的过程。可以确定任务中的关键目标,将任务拆解为顺序步骤、并行任务、子任务等类型,确定优先级之后进行资源分配。这种“一步一步”的方式,非常符合人类思维方式,从而确保智能体可以处理复杂任务、复杂场景。

反思与自我批评,是智能体在执行任务的过程中,对自己的行为、决策和结果进行评估,并根据评估结果进行调整和优化的能力。简单来说,就是持续学习,从错误中成长。这对于提高智能体的智能水平和适应性非常重要。

思维链,迫使大模型将推理过程划分为中间步骤,展示其思考过程。

(二)记忆

记忆可以分为短期记忆和长期记忆。其中,短期记忆是指在处理当前任务或与用户交互时,存储和处理临时性信息的能力,可以来自用户输入的提示,或者大模型上下文能力。短期记忆容量相对有限,通常用于理解用户意图、生成回答、任务状态跟踪等场景。

长期记忆是长期存储和处理持久性信息的能力,可以来自用户的历史数据、知识库、模型参数等。长期记忆通常通过利用外部的向量存储和快速检索来存储和召回信息,可以用于个性化服务、智能推荐等场景。

(三)工具

工具模块指的是智能体为了完成任务或达成目标,所能够使用的外部资源、API(应用程序接口)、数据集、硬件接口或软件组件。这些工具扩展了智能体的能力,使其能够执行原本不可能完成或不高效的任务。

工具类型丰富,包括信息检索、通信、可视化、自动化等,例如日历、计算器、代码解释器、搜索等。工具模块可以提升智能体的能力扩展性。

(四)行动

依靠规划、记忆、工具等模块,智能体决策出最终需要执行的动作是什么,并通过连接到智能体的执行器(如显示屏、机械臂等)进行输出。

 五、工作流程 

从智能体的工作流程来看,可以简单地划分为三个步骤:感知、规划、执行。

(一)感知

感知是智能体智能化和自主性的基础,也是智能体与外部环境交互的第一步。它通过传感器、摄像头、麦克风等设备收集外部信息,包括文本数据、声音、视觉图像等。这些信息随后被转化为计算机可处理的数据格式。

感知能力突破了大模型的文本限制,从而使智能体能够像人类一样感知世界,实时获取环境状态,为后续的分析和决策提供基础数据。

(二)规划

在获取到感知数据后,智能体会利用大模型等技术对这些数据进行分析,包括特征提取、模式识别等过程。通过分析数据、提取有价值的信息,从而识别环境的模式,发现数据背后的规律和趋势,并据此进行进一步推理和判断。

在分析感知数据后,智能体会利用规划和推理等技术来制定决策。规划技术能够将复杂任务拆解成多个子任务,并定义好这些子任务之间的逻辑关系。推理技术则帮助智能体根据已有知识和当前情况推导出最合适的行动方案。

规划是智能体的核心,也是自主性和灵活性的体现,决定了行动的效率和效果,是实现目标和任务的关键步骤。

(三)执行

在制定了决策方案后,接着就是通过行动模块将决策转化为实际行动。行动模块负责调用各种外部工具(如API、数据库等)和内部资源(如处理器、内存等),以实现决策方案中的具体动作。执行对智能体实现其价值至关重要。

 六、智能体的应用展望 

智能体被誉为大模型时代最佳的落地方式,适用范围广,特别是在需要自动化、智能化处理任务的场景中,可以发挥显著效果,包括金融、在线教育、智能客服、政务、IT(信息技术)等。

例如,用户有一个需求,希望大模型制定一个国庆节去山西旅游三天两晚的计划,路线参考游戏《黑神话:悟空》中涉及的山西景点。用户希望住在品质好且性价比高的酒店,好评优先,价格在500元以内,而且用户希望自驾。

用户通常会怎么做呢?先用百度App查一下山西涉及《黑神话:悟空》的景点,再规划三天两晚的旅游攻略,然后用旅游类App 挑选酒店、比价,最后用百度地图App 按顺序规划好自驾的路线。这个过程中的每一步都需要用户自己手动完成,要用到3~4 个App。

有了智能体之后就会不一样。智能体会先打开百度App查找山西涉及《黑神话:悟空》景点的三天两晚旅游攻略;然后又自主地打开一款旅行App,筛选出适合的酒店,看了价格后又会用另一款旅行App 找同一家酒店比价,它发现这次第二款旅行App 上的价格更低,便进行了预订;最后它会打开百度地图App规划好一条最合适的自驾路线。最终输出一份完整的行程规划。

总结而言,智能体可以将大模型的技术更加便捷、高效地在现实里发挥作用,而无须用户过多干预。同时也可以随着大模型技术的提升自动优化性能。智能体的开发实例、行业应用等更多内容,我们将放到第四章、第五章进行详细阐述。

赛文荐书:本文摘选于《大模型浪潮——商业机遇、产业变革与未来趋势》一书。该书是由百度集团执行副总裁、百度智能云事业群总裁沈抖撰写,该书以ChatGPT引发全球关注为背景,针对人工智能大模型技术从实验室到产业化的演进路径进行系统性阐述,旨在回应公众对大模型认知不足的实践需求。全书采用“技术-产业-社会”三维分析框架,构建起“历史脉络—技术内核—行业赋能—未来图景”的认知框架,梳理大模型的历史演进、技术突破与商业化价值。

微信图片_2026-01-19_161114_295.jpg


未经许可,任何人不得复制、转载、或以其他方式使用本网站的内容。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明等材料,与我们联系,我们将及时沟通与处理。

加载中~

你可能也喜欢这些文章




稿
意见反馈0
商务合作

商务合作 扫码联系

返回顶部