大模型驱动AI Agent,个性化应用成为可能
行业定义
AI Agent(人工智能代理)是一种能够感知环境、进行决策和执行动作的智能实体,具备通过独立思考、调用工具去逐步完成给定目标的能力,也可以称为“智能体”或“智能业务助理”。在大模型技术驱动下,让人们以自然语言为交互方式高自动化地执行和处理专业或繁复的工作任务,从而极大程度释放人员精力。
大语言模型(LLM,Large language Model)的浪潮推动了AI Agent相关研究快速发展,AI Agent是当前通往AGI的主要探索路线。LLM擅长处理和生成文本,可回答问题、写文章、生成创意内容、帮助编程等。但LLM是一个被动的工具,仅在有输入时才会产生输出。LLM与人类之间的交互是基于prompt实现的,用户prompt是否清晰明确会影响大模型回答的效果。
AI Agent则提供了更广泛的功能,仅需给定一个目标,就能够针对目标独立思考并做出行动,它会根据给定任务详细拆解出每一步的计划步骤,依靠来自外界的反馈和自主思考,为自己创建prompt以实现目标。可以说,AI Agent是真正释放LLM潜能的关键,是连接LLM与AGI的桥梁,为LLM核心提供强大的行动能力。同样,和传统RPA相比,RPA只能在给定的情况条件下,根据程序内预设流程来处理工作,而AI Agent则可以通过环境交互,信息感知做出对应的思考和行动。
大模型Agent的能力可以定义为“大模型+记忆+主动规划+函数调用”,基于LLM的AI Agent由三个部分组成,分别是感知端(Perception)、控制端(Brain)和行动端(Action)。控制端处于核心地位,大脑模块承担记忆、思考以及决策制定等基础工作,感知模块则负责接受和处理来自外部环境的多样化信息,如声音、文字、图像、位置等,最后,行动模块通过生成文本、API调用、使用工具等方式来执行任务以及改变环境。
AI Agent有四点关键属性,即独立性、反应性、主动性以及社交能力,而LLM作为AI Agent的大脑具有极高的适配度。独立性(Autonomy)指AI Agent不仅具备按照人类的明确指令完成任务的能力,还对其行动和内部状态拥有一定程度的控制,表现出独立发起和执行行动的能力。反应性(Reactivity)指其对环境中的即时变化和刺激做出快速反应的能力。主动性(Pro-activeness)是其能积极主动地采取以目标为导向的行动,AI Agent可以在行动中进行推理、制定计划和采取主动措施,以实现特定目标或应对环境变化。最后,社交能力(Social Ability)则是AI Agent可通过某种交流语言与其他Agent(包括人类)进行交互,如理解或生成文字的能力。
AI Agent这一概念提出时间仍较短,公司融资事件数量较少,自2021年起,融资事件数量有所增加,但总融资金额仍较少。2023年随着ChatGPT的兴起以及ChatGPT Turbo的发布,AI Agent在众多AI项目中脱颖而出,一举成为了包括Open AI在内行业中期望值最高的项目。截至目前2023年AI Agent赛道发生融资事件13起,总融资金额约735亿人民币,公司融资均值为56.54亿人民币。
相关企业
智谱AI
智谱AI是一家AI知识智能技术开发商,由清华大学计算机系知识工程实验室的技术成果转化而来。智谱AI致力于打造新一代认知智能大模型,专注于做大模型的中国创新。公司合作研发了中英双语千亿级超大规模预训练模型GLM-130B,并基于此推出对话模型ChatGLM,开源单卡版模型ChatGLM-6B。同时,团队还打造了AIGC模型及产品矩阵,包括AI提效助手智谱清言、高效率代码模型CodeGeeX、多模态理解模型CogVLM和文生图模型CogView等。公司践行Model as a Service(MaaS)的市场理念,推出大模型MaaS开放平台,打造高效率、通用化的“模型即服务”AI开发新范式。
创立至今的四年多,智谱 AI 已完成四轮融资,投资方包括君联资本、启明创投、中科创星、美团、蚂蚁、阿里、腾讯、小米、金山、顺为、Boss 直聘、好未来、红杉、高瓴等多家机构。在2023年9月,智谱AI完成最新一轮融资,估值约10亿美元。作为大模型赛道的“完成式”企业,智谱AI在B轮融资聚集了腾讯和阿里,AI风口的天时、大厂建立模型服务生态的地利,以及智谱AI本身的技术实力,缺一不可。
智子引擎
智子引擎是一家多模态大模型初创公司,公司发布了第一款应用级多模态 ChatGPT 产品“元乘象 ChatImg”。元乘象 ChatImg的参数量在百亿级别,主要使用了图文对数据和 VQA 数据作为训练集,同时进行图文匹配、图文检索、图像描述生成、文本描述生成等多种任务的训练。根据用户输入的图片或文字,“元乘象 ChatImg”可以进行智能聊天、讲故事、写广告等。
澜码科技
澜码科技是一家数据飞轮公司,大模型企业自动化运营中台研发商。澜码科技基于大语言模型的驱动,从而为企业定制研发“中间层”自动化运营中台,打造低代码/无代码的人机交互界面。通过提供自动化平台,从而在效率场景下学习人们在PC/手机/会议等场景下的技能,建构出自己独特的多模态基础大模型。
基于大语言模型,澜码科技研发了能够连接人和系统的企业级Agent平台Ask XBot。Ask XBot的操作分为两层:第一层,专家通过传统的拖、拉、拽以及新兴的对话交互的方式定义工作流程,教授机器协助一线员工高效高质完成工作的方法论。第二层,一线员工通过自然语言指令,控制机器协助完成数据分析、资料调取等工作。平台能够将人与系统连接、交互过程中的数据,进行有效沉淀,并抽取、挖掘出对企业有业务价值的信息或数据,从而进一步重塑业务流程。
澜码科技于2023年8月完成数千万元A轮融资,该轮由IDG资本、联新资本等机构参与投资。目前CGL等猎头和招聘企业是澜码科技的主要服务对象,在招聘的垂直场景下,简历和专业筛选流程数据丰富,企业对自动化筛选服务的需求旺盛;此外,借助猎头和招聘公司,可有效地将Ask XBot接入招聘公司服务的客户场景中,从而打通渠道。之后,澜码科技将使用本轮融资继续技术研发与产品创新,探索更多场景下大模型技术的应用和落地,赋能更多企业构建AI能力。
2023年11月,微软开发者大会Ignite 2023在西雅图拉开帷幕
微软在Ignite会上介绍了Copilot这一新的产品,Copilot(副驾)将嵌入其全线产品,如网页、PC端,借助Copilot,帮助员工更有效地协作、更有创意地工作、更快地查找信息并保持更长时间的流畅状态。从OpenAI的GPTs助理到微软的Copilot,都预示着自定义人工智能更进一步发展的可能。
2023年11月,Ada发布由推理引擎驱动的客户服务AI Agent
Ada提供了全球领先的客户服务自动化平台,推理引擎赋予了AI智能代理解决问题以及目的导向的能力,得以解决更加复杂的问题。使得AI Agent不仅可以理解客户提出的问题,还能提出解决方案。同样,AI Agent是高度可训练的,同培训新员工一样部署人工智能代理,通过审查记录来了解其性能,并通过明确的目标来测评其性能。
2023年9月,复旦NLP团队发布80页大模型Agent综述
复旦大学自然语言处理团队(FudanNLP)推出LLM-based Agents综述论文,全文长达86页。文中从AI Agent的历史出发,全面梳理了基于大型语言模型的智能代理现状,包括LLM-based Agent的背景、构成、应用场景、以及备受关注的代理社会。同时,文中探讨了Agent相关的前瞻开放问题,对于相关领域的未来发展趋势具有重要价值。
2023年8月,清华团队打造首个AI agent系统性基准测试问世
随着AI智能体的研究不断火热,目前AI行业需要一个系统化和标准化的基准来评估 LLMs作为代理的智能水平。来自清华大学、俄亥俄州立大学、加州大学伯克利分校的研究团队便提出了首个系统性的基准测试——AgentBench,用以评估LLMs作为智能体在各种真实世界挑战和8个不同环境中的表现(如推理和决策能力)。
微信扫码关注该文公众号作者