Redian新闻
>
一个AI驱动百万个API!微软提出多任务处理模型TaskMatrix,机器人和物联网终于有救了

一个AI驱动百万个API!微软提出多任务处理模型TaskMatrix,机器人和物联网终于有救了

公众号新闻
萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

通往AGI的路究竟怎么走,微软有了新想法——

基于ChatGPT这类大模型的强大理解能力,将输入的任何信号拆解成一个个可完成的任务,交给其他的AI和程序完成。

简单来说,就像是建了一座司令塔,每个大模型都能成为其中的“大脑”指挥官,其他专门解决某类任务的模型,则听它调令——

这样一来,不限定某个AI,所有大模型都能使用这套方法。

能解决什么问题?

人类只需要提需求,AI从自动做PPT、Word和Excel三件套(Office自动化),到驱动机器人完成各种智能任务,都能搞定。

这个最新的研究名叫TaskMatrix,据微软表示,它能直接驱动数百万个用于完成任务的AI和API。

论文还引用了OpenAI CEO奥特曼那句AI版摩尔定律:

宇宙中的智能数量每18个月翻一番。

一起来看看TaskMatrix是怎样工作的。

AI“司令塔”如何工作?

这是TaskMatrix的整体工作流程:

从架构图来看,TaskMatrix可以被分为四部分:

  • 多模态对话基础模型(MCFM):与用户对话并了解需求,从而生成API可执行代码以完成特定任务

  • API平台:提供统一API格式,存储数百万个不同功能的API,允许扩展和删除API

  • API选择器:负责根据MCFM生成的内容推荐API

  • API执行器:调用API并执行生成代码,给出结果

简单来说,MCFM负责生成解决方案,API选择器从API平台中选取API,随后API执行器基于MCFM生成的代码调用API,并解决任务。

其中,为了统一API管理,API平台又给API统一了文档格式,包含以下五个部分:

API名称(提供API摘要,避免与其他API混淆),参数列表(包含输入参数和返回值等),API描述(功能描述),组合指令(如何组合多个API完成复杂用户指令)

例如这是“打开本地文件”API的文档格式:

据微软介绍,搭建TaskMatrix的原因,从学术角度来说主要有两点。

其一,扩大AI适用范围,如通过扩展API来提升可完成任务的类型和数量;其二,便于进一步提升AI可解释性,通过观察AI分配任务的方式就能理解它的“思路”。

能完成什么任务了?

目前从已经搭建好的TaskMatrix部分来看,它能完成的任务已经非常广泛。

小到文字、图像信息的基础信息处理,大到控制机器人平台、接入物联网这种通用平台任务,TaskMatrix都能搞定。

先来看看图像处理任务。

TaskMatrix解读用户想要完成的任务后,就能通过对话的方式,搞定PS(把老人背景P成白的)、解读图像、文生图、草图转真实图像、抠图等一系列现实生活中常见的图像处理操作:

如果说这些都还太常见,基于TextMatrix还能搞定真·图像扩展,基于一小角扩展到一整张图的那种,而不仅仅是采用平铺的方式。例如输入一朵花:

输出一片花田:

再来看看文字处理任务。

以往需要手动改AI写过的方案,如今直接将问题抛给AI,它就能完成,例如具体修改某个特定的步骤。

(像不像被甲方一点点催改文件的样子?只是如今你变成了甲方)

以后生成文章,就是连插图都配好的那种:

当然,既然是微软的研究,少不了调用Office系列的API,包括做PPT这种活,如今交给AI来做就行:

再进一步到通用任务上,之前一直存在瓶颈的机器人和物联网等平台,如今TaskMatrix也给出了解决通用任务的方案。

家里接入AI后,和它对话就能完成你想要的各种琐碎任务,包括定闹钟、查看天气等:

属实是解放人类生产力了。

你想好把它用在哪里了吗?

论文地址:
https://arxiv.org/abs/2303.16434

「人工智能」、「智能汽车」微信社群邀你加入!

欢迎关注人工智能、智能汽车的小伙伴们加入交流群,与AI从业者交流、切磋,不错过最新行业发展&技术进展。

PS. 加好友请务必备注您的姓名-公司-职位噢 ~


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Siri 们的“智障”终于有救了?CVPR 2023 | 微软提出LDGM:利用解耦扩散模型统一版面生成物联网最新数据解读:WiFi/蓝牙/蜂窝连接三分天下,LPWAN融合趋势凸显、卫星物联网加速发展ICLR 2023 | 微软提出自动化模型训练剪枝框架OTO,一站式获得轻量级架构困扰我6年的肩颈问题,终于有救了Gelsenkirchen(3):一出动物歌剧现场探展 | AIGC、元宇宙和机器人最前沿!微软、Meta、百度都来了微软提出CoDi:开创性多模态扩散生成模型,实现4种模态任意输入输出K12全科目标注人员招聘!微软提出MathPrompter后,难道国内直接全搞了吗?巨额能源费终于有救了? 英国央行:通胀大降,不会加息!微软提出自动化神经网络训练剪枝框架OTO,一站式获得高性能轻量化模型中国的历史太捅肺Gelsenkirchen(2):一座现代剧场第三届 冇(Mǎo)国际青年影像周 开始征片啦!中移物联OneNET城市物联网平台构建物联感知一张网 助力数字政府建设ChatGPT自己会选模型了!浙大和微软提出:HuggingGPTUDOP项目原作解读:统一视觉、语言、格式、任务的通用文档处理模型支付宝定时任务怎么做?三层分发任务处理框架介绍GPT-3解数学题准确率升至92.5%!微软提出MathPrompter,无需微调即可打造「理科」语言模型Make sense 和泡坛子CVPR 2023 | 模块化MoE将成为视觉多任务学习基础模型“超越”(MMCU)中文通用大语言模型测试集--国内首个多领域多任务数据集CVPR2023 | 微软提出高效率大规模图文检索模型Conagen和Natáur达成合作,生产可持续天然牛磺酸56 核心,多任务性能提升 120%! 英特尔推出全新至强 W-3400/2400 工作站处理器大量聊天记录曝光!微软聊天机器人成暴躁“键盘侠”:劝人离婚,威胁、PUA用户!马斯克:该关了它Meta视觉大模型来了!完全自监督无需微调,多任务效果超OpenCLIP小扎亲自官宣Meta视觉大模型!自监督学习无需微调,多任务效果超OpenCLIP丨开源CVPR 2023 | 大连理工和微软提出SeqTrack:目标跟踪新框架【IOTE物联网展】5月解锁物联网采购新浪潮,且看行业新技术、产品、应用!CVPR 2023 | 结合Transformer和CNN的多任务多模态图像融合方法刚刚!全部取消收费!全国近视学生终于有救了!FastTrack Universität 2023莱比锡大学公立语言项目招生简章山情水趣话旅游(38):加拿大之行(2)拿捏住了!师兄靠MAPK信号通路发6+SCI,我的论文终于有救了……
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。