Redian新闻
>
ResponsibleTA提升LLM可靠性,任务完成更安全、更高效

ResponsibleTA提升LLM可靠性,任务完成更安全、更高效

公众号新闻

机器之心专栏

机器之心编辑部

AI 智能助手照进现实。


近几个月,ChatGPT、GPT-4 等大语言模型(LLM)展现出突破性的理解、推理、生成、泛化和对齐能力,对各行各业的研究方式和生产效率均带来广泛而深远的变革及影响。此外,LLM 还展现出在真实世界的开放场景中解决复杂问题的能力,使科幻电影中无所不能的 AI 智能助手照进了现实

在实现自然场景中的任务自动化时,一个复杂的任务往往由多个子任务构成,这需要多个模型或 APIs 的协作。如何确保 LLM 和执行器之间高效、安全、稳定地协同工作,是构建 Responsible AI ,以及让 LLM 可靠地为人类提供服务的关键问题。

为了解决这个问题,来自微软亚洲研究院的研究团队提出 Responsible Task Automation (ResponsibleTA) 框架,提升 LLM 和执行器之间协同工作的安全性和有效性。


论文链接:https://arxiv.org/pdf/2306.01242.pdf
项目主页:https://task-automation-research.github.io/responsible_task_automation/

方法
 
本文通提出一个新的任务自动化框架,通过可行性检测,完成度检验,用户隐私保护等三个模块,提高了大语言模型作为任务助手的可靠性,为未来的人机交互提供了一种可行的方式。

该系统框架包含基于 LLM 的中央处理单元、指令执行器、指令可行性预测器、指令完成度检验器和安全性保护器。

 Responsible Task Automation (ResponsibleTA) 框架示意图

当 ResponsibleTA 接收到复杂任务对应的高层级指令时,安全性检测自动将包含用户隐私的命令实体替换成对应的占位符,然后将去隐私化的指令发送给部署在云端的 LLM,LLM 据此规划实现该负责任务目标的单步指令,然后发送给的部署在本地的执行器实际执行相关操作。从 Responsible AI 的角度出发,该框架赋予 LLM 三个新的能力:

1)可行性预测:ResponsibleTA 框架针对 LLM 和执行器的协同,开发设计了可行性预测模块。该模块用于对 LLM 的输出进行可行性判断,及时拦截不可行的执行指令,从而规避在执行这些指令的过程中产生的不可控风险。当 LLM 输出的指令判断为「不可行」时,可行性预测期会将其分析结果返回给 LLM,并要求其重新进行任务规划,力求将合理可行性的指令交付给执行器,提升任务自动化的成功率。

2)完成度检验:ResponsibleTA 框架设计了一个完成度检验器,用于在执行器每次执行结束后自动检查其执行结果是否符合预期。该模块根据执行器执行后的即时状态,判断 LLM 当前规划是否完成,并提供及时补救的可能。当执行状态判定为「未完成」时,完成度检验器会要求 LLM 启动 replanning,使其能够及时调整任务规划。

完成度检验器和上述可行性预测器,分别在 LLM 输出指令的执行前后,对指令的合理性和执行的完成性进行校验,为任务自动化的可靠性提供了双重保险。

3)用户隐私保护:ResponsibleTA 框架还设置了用户隐私保护机制,该机制通过一个本地记忆单元实现。当用户将高层级命令发送给部署在云端的大语言模型时,ResponsibleTA 中的隐私保护模块自动将命令中的隐私信息(如:用户名、密码、地址等)替换成对应的占位符,而当大语言模型将规划的低层级指令发送给部署在本地的执行器是,占位符会被自动替换成对应的真实信息。于此方式,用户的隐私信息仅在本地被存储和被使用,无需发送至云端,从而避免在传输和使用中的不可控风险。

针对 ResponsibleTA 中的可行性预测和完成度检查功能,其研究团队在 UI 任务自动化场景下提出并对比了两种不同的技术路线,并在实验部分详细分析了这两种技术路线的特点。以可行性预测为例,第一种技术方案通过 Prompting 的方式利用大语言模型内部知识进行判断。具体地,研究者训练了一个屏幕解析模型将 UI 页面解析成所含 UI 元素的语言描述,并将和指令一起输入给 GPT-4 模型,让 GPT-4 判断当前指令的可行性。具体方案如下图所示。

基于 prompt engineering 的(指令)可行性预测器实现方案

另一种技术方案在于训练一个专用的多模态模型,该模型接收 UI 页面的视觉信号和对应的语言指令为输入,输出该指令的可行性判定结果,具体结构如下图。

基于专用模型的(指令)可行性预测器实现方案

完成度检验器的实现方案于可行性预测器类似,在此不详细赘述。

实验

该工作的作者首先对 ResponsibleTA 中的关键模块进行定性实验,验证其有效性,并对比不同实现方式的特点。据下表所示实验结果,作者认为专用模型能够提供更优的实验结果但需要收集特定任务对应的数据和标注用于模型训练,而基于 LLM 的技术方案也能达到不错的效果,并在实际部署的成本和灵活性方面具有优势。

可行性预测器和完成度检验器的定性实验结果

作者还在真实世界的实际使用场景中进行 online testing, 并汇报了基线模型,具有可行性预测器的 ResponsibleTA 框架和完整版的 ResponsibleTA 框架在 12 个实际 UI 任务执行过程中的具体表现。作者观察到所提出的可行性预测器和完成度检验器能够避免执行不可理 / 不可行的指令,并能通过让 LLM 进行 replanning 的方式进行及时补救,从而提升任务自动化的成功率。

真实世界中实例研究定量结果。表格中的数字表示 「有效执行步数 / 总共执行步数 (人类专家执行步数)」。

此外,作者还通过具体的案例分析直观地展现了 ResponsibleTA 框架中的关键模型如何对一个失败案例进行补救,使其成为一个成功案例。

 案例分析:进入亚马逊网站并将最便宜的充电器添加至购物车。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
任务完成,后天回家!最近出的这些事GPT-4、ChatGLM2、Llama2、PaLM2在KDD LLM Day上一起开了个会AI软件妙鸭相机回应“不退款”争议:照片生成即视作服务完成一次罢免屋主协会主席的经历【户外专用驱蚊液】亲测有效的驱蚊绝招,高效更安全!暴雨来袭!贵阳地铁“喷水池”站成喷水池,江苏发洪水预警,气候专家:“世界正面临更热、更旱、更涝的未来”How China’s Greatest Ever Film Was Rescued From Oblivion​下一代Transformer:RetNet结构可视化及Vision RetNet展望How Korea Quietly Reshaped Chinese Pop Culture以 LLM 为核心 LLM@Core:程序员的大语言模型技术指南LLM底座模型:LLaMA、Palm、GLM、BLOOM、GPT结构对比事关国家和你我,安全、安全还是安全!今日全职| Meta AI 的 Responsible AI 团队正在招募优秀候选人!Chinese Climbers Scale Everest, Tragedy and Daring Rescue Ensue制造业可靠性提升实施意见发布!LLM-Pruner: 剪枝+少量数据+少量训练 = 高效的LLM压缩Facebook基于SLO的可靠性保障实践二狗不死、华人难信工信部等五部门《制造业可靠性提升实施意见》11个LLM一起上,性能爆炸提升!AI2联合USC开源LLM-Blender集成学习框架:先排序再融合|ACL 2023UCIe IP :多芯片系统可靠性的新路径无序的蛋白更高效,MIT团队揭示光合作用中光能高效传导机制加快制造业可靠性提升 助力制造业高质量发展——《制造业可靠性提升实施意见》解读不到30元【户外专用驱蚊液】亲测有效的驱蚊绝招,高效更安全!【北台湾老街】(1)广州街· 剥皮寮先诺特韦Ⅰb期研究公布,卢洪洲教授讲述背后故事工业和信息化部圆满完成成都大运会开幕式无线电安全、信息通信服务和网络安全保障任务刷新20项代码任务SOTA,Salesforce提出新型基础LLM系列编码器-解码器Code T5+GERM可口可乐杯、不二家白桃汁、北海道芝士球、亲子好物、空气炸锅,超值团购开启!不负春光 珍惜年华ChatGPT 支持关闭聊天记录/ iOS 17或推出情绪追踪器/英伟达推出工具包以提升生成式 AI 可靠性博采众长!我全都要!Allen AI推出集成主流大语言模型的LLM-BLENDER框架GPT-4,Llama2,ChatGLM2,PaLM2共聚一堂 | LLM Day @KDD 2023Samsung tablet S8+ 256G Wi-Fi all accessories included
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。