Redian新闻
>
罗格斯大学华人团队开源OpenAGI平台:语言模型是AGI的入口,领域专家模型不可或缺

罗格斯大学华人团队开源OpenAGI平台:语言模型是AGI的入口,领域专家模型不可或缺

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】语言模型是打开AGI大门的关键钥匙。


人类所具有的智能,可以将一些最基础的能力,通过某种组合变成一种复杂能力,并可以用来解决复杂的、多步骤的任务。


这种能力对人工智能(AI)的发展来说同样重要,在迈向最终的通用人工智能(AGI)的过程中,除了开发大规模智能模型外,如何让这些模型具有「利用各种特定领域专家模型以解决复杂任务的能力」也同样重要。


在大型语言模型(LLMs)上取得的最新进展让我们看到了语言模型强大的学习和推理能力,有望成为未来AGI的接口以控制、执行外部模型以解决复杂任务


最近,来自罗格斯大学的一个华人团队开源了一个AGI研究平台OpenAGI,专门用于提供复杂的、多步骤的任务,并辅助有特定任务的数据集、评估指标和各种可扩展的模型。


论文链接:https://arxiv.org/pdf/2304.04370.pdf

项目链接:https://github.com/agiresearch/OpenAGI


OpenAGI将复杂的任务制定为自然语言查询,并作为语言模型的输入;随后由语言模型进行选择、合成并执行OpenAGI提供的模型来解决该任务。


此外,文中还提出了一个从任务反馈中强化学习(RLTF)的机制,使用任务解决的结果作为反馈来提高语言模型的任务解决能力;即语言模型负责综合各种外部模型来解决复杂的任务,而RLTF则提供反馈来提高其任务解决能力,从而实现自我改进的人工智能的反馈循环机制


研究人员认为,语言模型操作各种专家模型解决复杂任务的范式是实现AGI的一个很有前途的方法。


在实验部分,研究人员使用OpenAGI对几个成熟的语言模型进行了评估,其规模从7.7亿到1750亿参数不等。


初步研究结果表明,即使是规模较小的语言模型,当与适当的学习模式(如RLTF)配对时,也具有超越更大规模模型的潜力


语言模型是AGI的入口


最近发布的大型语言模型(LLMs),如GPT-3、LLaMA、Flan-T5等都展现出了对自然语言的深入理解能力,并可以生成连贯的、上下文相关的回复,具有卓越的学习和推理能力,可以适用于选择、合成和执行外部专家模型以解决复杂的任务。


语言模型也并不局限于文本数据,同样可以应用在涉及多模态的复杂任务中,如图像和文本的处理,以及特定领域知识的整合;在理解和生成文本的过程中,语言模型起到至关重要的作用,可以帮助AI处理各种问题。


通过整合不同领域的知识和技能,开放领域模型合成(Open-domain Model Synthesis,OMS)具有推动人工通用智能(AGI)发展的潜力、 使得人工智能能够解决各种各样的问题和任务。


虽然该领域已有研究人员进行了初步尝试,但仍有几个关键问题需要解决:


1、可扩展性(Extensibility), 一些相关工作使用固定数量的模型,如WebGPT和 ToolFormer,导致很难在后续进一步扩展模型的能力;


2、非线性任务规划( Nonlinear Task Planning):目前的研究大多局限于用线性任务规划方案来解决问题,即每个子任务必须在下一个子任务开始之前完成,这种方式可能无法解决过于复杂的、涉及多模态的任务;


3、定量评估(Quantitative Evaluation):许多现有的工作只提供了定性的结果(如HuggingGPT)只依靠人类的主观评价,很难快速、公正地评估LLM的规划能力,无法确定所采用的策略是否最优。


OpenAGI平台


OpenAGI平台的目标就是缓解上述三个局限性,其中包含多样化的特定领域专家模型和复杂的多步骤任务,支持单模态或多模态输入,并有相应的数据集作支撑。



OpenAGI的具体工作流程为:

1)选择自然语言任务描述和任务相关的数据集;

2)将任务描述作为输入送入大型语言模型以生成解决方案,可能需要将解决方案映射到功能模型名称,或使用约束生成直接生成模型名称;

3)选择和合成模型,并执行以处理数据样本;

4)评估语言模型的任务解决能力可以通过比较输出和真实标签的一致性。

模型与数据集


OpenAGI内的专家模型主要来自于Hugging Face的transformers和diffusers库、以及Github存储库。


OpenAGI的系统设计很灵活,用户可以自行接入领域任务与模型,目前包括:


语言相关的模型



视觉相关的模型



视觉-语言相关的模型



数据集方面为了能够与各自模型的训练数据集保持一致或相似,主要包括:ImageNet-1K、COCO、CNN/Daily Mail、SST2、TextVQA、SQuAD等;


在确定了原始数据集后,采用数据增强方法从不同的角度对数据集进行扩充,以构建复杂的、多步骤的任务,包括高斯模糊、高斯噪声、灰度、低分辨率、翻译、单词遮罩。


评估指标包括CLIP分数(图文相似度)、BERT分数(文本相似度)、ViT分数(视觉相似度)。


局限性


不过OpenAGI也进一步暴露了目前各种模型的局限性:


1. 分布外泛化(Out-of-Distribution Generalization)


因为特定领域的专家模型对训练数据的分布有强烈的依赖性,在泛化能力上可能十分有限,当处理来自不同来源的、表现出分布变化的图像时,原始模型序列变得无效了。



上图的例子中,在大多数情况下,只有少数颜色被模型准确地恢复,并且可能是不正确的;此外噪音和模糊的存在,对人类观察者来说仍然是高度可感知的。


2. 最优任务规划(Optimal Task Planning)


结合不同的模型来产生解决方案的方法有很多,可能使我们难以确定最佳的方法;并且对于一个给定的任务来说,有可能存在多个有效的解决方案,但每个解决方案的质量可能差别很大。



例如,上图中以不同的顺序执行相同的四个模型会导致明显不同的结果。与第一种方法相比,第二种方法的结果表现出明显更多的噪音和颜色不一致的情况。


因此,对于大型语言模型来说,从各种可能性中确定并实施最佳的任务计划是至关重要的


3. 非线性任务结构(Nonlinear Task Structures)


在模型执行过程中,一个模型可能需要一个以上的输入,而每个输入都需要由前一个模型产生,从而导致解决方案的非线性(树状)结构。


在这种情况下,采用非线性任务规划可以更有效地整合不同的输入,更有效地对模型进行并行处理以达到预期的结果。


然而,将这种非线性任务规划能力纳入大型语言性会带来更大的挑战,有可能超出语言模型的任务解决能力范围。


RLTF+非线性任务规划


为了解决「分布外泛化」和「最优任务规划」的问题,研究人员提出了从任务反馈中进行强化学习(Reinforcement Learning from Task Feedback,RLTF)的机制,基于在执行大型语言模型中设计的解决方案后从任务中获取的性能反馈,可以有效地完善语言模型的规划策略,从而形成了一个增强的、更具适应性的系统。



事实上,在面对现实世界的任务时,仅仅依靠输入文本的学习对大型语言模型来说是不够的;任务反馈提供了额外的信息,将LLM的学习轨迹引向改进且有效的解决方案。


对于「非线性任务结构」问题,研究人员提出了非线性任务规划,利用beam search作为一种有效的半自回归解码方法,在每个解码步骤中,不同的假设(hypotheses)被视为不同输入的平行可操作解决方案,而非相互竞争的假设。


为了达到这个目的,语言模型必须满足三个条件:1)只生成模型名称,没有无关的标记;2)生成有效的模型序列;3)必要时为不同的输入生成并行的模型序列。



如果一个任务需要对多个输入进行并行处理,如文本和图像,那么在生成时,一个以文本为输入的可操作方案和另一个以图像为输入的方案将被生成并并行地执行。


实验结果


与LLaMA-7b和Flan-T5-Large相比,GPT-3.5-turbo在零样本和少样本学习设置中都表现出优越的性能,在BERT评分、ViT评分和整体性能中都取得了更高的评分。



LLaMA-7b虽然表现不如GPT-3.5-turbo,但与它的零样本学习性能相比,在少样本学习中表现出更好的整体性能;不过在相同设置下,其性能仍远低于GPT-3.5-turbo。


与零样本和少样本学习策略相比,使用微调或来自任务反馈的强化学习(RLTF)时,Flan-T5-Large展现出明显的性能提升。


在进一步的分析中可以发现,在零样本的情况下,大多数语言模型都很难生成有效的任务规划,更不用说最佳解决方案;特别是,GPT-3.5倾向于产生重复的内容,随后映射到相同的模型名称。



同时,LLaMA-7b和Flan-T5-Large受制于它们的零样本能力,同样未能生成一个合理的计划。


在少样本的设置中,加入了几个手动标注的任务计划作为指导生成的指令后,可以看到任务计划的质量得到了显著的改善。



三个语言模型都能在短时间内生成合理的规划,与所提供的例子在语义上相似的解决方案。


参考资料:
https://github.com/agiresearch/OpenAGI





微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
从LLM到MLLM,多模态大规模语言模型KOSMOS-1赋予了语言模型看见世界的能力又一国产大模型来了,超对称联合复旦大学发布 120 亿参数语言模型 BBT-2, 已开源3月27日 | 萨塞克斯大学语言班转租更便宜 | 萨塞克斯大学转租 | 萨塞克斯暑假转租 | 布莱顿短租 | 莱顿租房信息汇总7 Papers & Radios | Meta「分割一切」AI模型;从T5到GPT-4盘点大语言模型无需人力标注!悉尼大学华人团队提出「GPT自监督标注」范式,完美解决标注成本、偏见、评估问题OpenAI 联合创始人、首席科学家 Ilya Sutskever 解读大语言模型的底层逻辑与未来边界微软与谷歌之战:语言模型会取代搜索引擎吗?Agustín Hernández:中美洲建筑背景下的未来主义巨构成长路上不可或缺的两件事:一是阅读,二是走天下Meta最新语言模型LLaMA论文研读:小参数+大数据的开放、高效基础语言模型阅读笔记剑桥华人团队开源PandaGPT:首个横扫「六模态」的大型基础模型《卖给洋人》和华人华侨的区别7 Papers & Radios | BERT上下文长度达200万token;华人团队通用分割模型SEEMChatGPT 是男的「AI专家」贾斯汀·卡塞尔:语言模型更像“鹦鹉学舌”,下一步人工智能浪潮是多模态AI清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下增薪谈判僵局 新州罗格斯大学257年首次教职员罢工 州长介入协调清华朱军团队开源UniDiffuser:首个基于Transformer的多模态扩散大模型!文图互生、改写全拿下!OpenAI CEO:大语言模型规模已接近极限,并非越大越好谷歌、OpenAI 都白干,开源才是终极赢家!谷歌内部文件泄露:欲借开源打败 OpenAI8-14岁大奖文学,今年暑期书单中不可或缺的一部!薪资入不敷出!罗格斯大学近万教员大罢工,影响6.7万学生纽约洛克菲勒,记忆依旧GPT-4平替来了!华人团队开源miniGPT-4,只需23G显存,画草稿写网站,还能帮你修洗衣机ByConity与主流开源OLAP引擎(Clickhouse、Doris、Presto)性能对比分析招聘 | 美国罗格斯大学基础生物实验室Wong Lab诚聘博士后 (神经生物和代谢方向)美国入境档案--贝聿铭、蔡葵和张之江,1935年罗格斯大学建校史上首次教职工会联合罢工!清华朱军团队开源UniDiffuser:首个基于Transformer的多模态扩散大模型军旅故事原创系列(44)背黑锅 戴绿帽Meta 开源多语言大模型,可识别 4000 多种语言、错误率仅为 OpenAI 产品的一半微软也搞起了开源小模型!利用OpenAI的ChatGPT和GPT-4 训练,实力碾压当前最强开源模型NLP大规模语言模型推理实战:大语言模型BLOOM推理工具测试实践与效果分析实录碾压ChatGPT?Meta开源多语言大模型,可识别4000多种语言、错误率仅为OpenAI产品的一半OpenAI CEO:大语言模型规模已接近极限;余承东:造车 2025 不赢,以后没机会;苹果或曝多款新电脑 | 极客早知道
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。