Redian新闻
>
微软亚研院:Language Is Not All You Need

微软亚研院:Language Is Not All You Need

公众号新闻
鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

还记得这张把谷歌AI搞得团团转的经典梗图吗?

现在,微软亚研院的新AI可算是把它研究明白了。

拿着这张图问它图里有啥,它会回答:我看着像鸭子。

但如果你试图跟它battle,它就会改口:看上去更像兔子。并且还解释得条条是道:

图里有兔子耳朵。

是不是有点能看得懂图的ChatGPT内味儿了?

这个新AI名叫Kosmos-1,谐音Cosmos(宇宙)。AI如其名,本事确实不小:图文理解、文本生成、OCR、对话QA都不在话下。

甚至连瑞文智商测试题都hold住了。

而具备如此能力的关键,就写在论文的标题里:Language is not all you need。

多模态大语言模型

简单来说,Kosmos-1是一种把视觉和大语言模型结合起来的多模态大语言模型。

在感知图片、文字等不同模态输入的同时,Kosmos-1还能够根据人类给出的指令,以自回归的方式,学习上下文并生成回答。

研究人员表示,在多模态语料库上从头训练,不经过微调,这个AI就能在语言理解、生成、图像理解、OCR、多模态对话等多种任务上有出色表现。

比如甩出一张猫猫图,问它这照片好玩在哪里,Kosmos-1就能给你分析:猫猫戴上了一个微笑面具,看上去就像在笑。

又比如让它看一眼MSRA用来高效训练大模型的TorchScale工具包的主页,Kosmos-1也能快速get这个库是用来干啥的。

Kosmos-1还能理解图像上下文。发一张食物的照片给它,这个AI不仅能回答你这是什么,还能在你追问如何烹饪时,给出食谱和烹调小建议。

Kosmos-1的骨干网络,是一个基于Transformer的因果语言模型。Transformer解码器作为通用接口,用于多模态输入。

用于训练的数据来自多模态语料库,包括单模态数据(如文本)、跨模态配对数据(图像-文本对)和交错的多模态数据。

值得一提的是,虽说“Language is not all you need”,但为了让Kosmos-1更能读懂人类的指示,在训练时,研究人员还是专门对其进行了仅使用语言数据的指令调整。

具体而言,就是用(指令,输入,输出)格式的指令数据继续训练模型。

实验结果

研究人员在5大类共10个任务中,测试了Kosmos-1的效果,包括:

  • 语言任务:语言理解、语言生成、无OCR文本分类

  • 跨模态迁移:常识推理

  • 非语言推理:IQ测试(瑞文递进矩阵)

  • 感知-语言任务:图像说明、视觉QA、网页QA

  • 视觉任务:零样本图像分类、带描述的零样本图像分类

从实验结果上来看,Kosmos-1基本都hold住了。

零样本图像说明:

零样本视觉QA:

无OCR文本理解:

研究人员还提到,Kosmos-1是第一个能完成零样本瑞文智商测试的AI。

不过,跟成年人类的平均水平相比,AI的“智商”还差得有点远。随机选择的正确率为17%,而Kosmos-1经过指令调教之后,准确率为26%。

研究人员认为:

但Kosmos-1证明了多模态大模型有潜力将感知和语言结合起来,进行零样本的非语言推理。

另外,研究人员还展示了Kosmos-1处理复杂问答和推理任务的过程。关键在于多模态思维链提示

研究人员将感知-语言任务分解为两个步骤。第一步,给定一个图像,引导模型对图像进行分析。

第二步,把模型子集分析出来的结果再喂给它,并给出任务提示,以生成最后的答案。

这项新研究来自MSRA的韦福如团队。韦福如是微软亚洲研究院自然语言计算研究组主管研究员。

三位一作分别是Shaohan Huang、董力和Wenhui Wang。

论文地址:
https://arxiv.org/abs/2302.14045

「中国AIGC产业峰会」启动

邀您共襄盛举

「中国AIGC产业峰会」即将在今年3月举办,峰会将邀请AIGC产业相关领域的专家学者,共同探讨生成新世界的过去、现在和未来。

峰会上还将发布《中国AIGC产业全景报告暨AIGC 50》,全面立体描绘我国当前AIGC产业的竞争力图谱。点击链接或下方图片查看大会详情:

寻找中国版ChatGPT,量子位邀你共同参与中国AIGC产业峰会


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ChatGPT自己会选模型了!微软亚研院+浙大爆火新论文,HuggingGPT项目已开源Chinese Tourist Spot Accused of Copyright InfringementDo you need to Retorque the lug nuts after tire change?I wanna hold you, kiss you, Love you 《梦里蓝天》张国荣版Journalism Movie Hailed as ‘Courageous Start’ Wins Over ViewersChinese TV Drama Normalizes Women Dating Younger MenAgustín Hernández:中美洲建筑背景下的未来主义巨构We Need you!南航洛杉矶营业部招聘Love Is in the Cards: Young Chinese Turn to Tarot for GuidanceYoung Chinese Love Everything About Sweden. Except Living There.微软研究员联合Yoshua Bengio推出AIGC数据生成学习范式Regeneration LearningPrompt Engineering全面自动化:LeCun看了沉默,ChatGPT看了直呼内行lāo dao?láo dao!Just When You Thought You Were Having a Poopy Day波性与粒性New Guideline Seeks to Promote Reading in ChildrenIEEE Education Week主题演讲 | 主讲人:IEEE主席Saifur RahmanA Day in a Shanghai Park: See You Next WednesdayGetting to ‘No’: How I Negotiated My Bride Price Away@所有留学生,Meeting at the Urban Camp海归星空营地派对强势回归!!3.11荧光之夜不燃怎么young![歪解] thank you for your generous support【Zoom活动】英文讲座“All You Touch, You Change”: 为什么黑人历史月对你很重要?3月14日晚19点For Young Chinese Seeking Jobs, Less Pay Means More Life BalanceAPAD: All that glitters is not gold.University Dean Sacked After Sharing Lewd Image With ColleaguesChatGPT is not all you need,一文综述6大公司9类生成式AI模型女儿突然打来的国际长途电话邱开冒:2022年,两场奇怪的战争Stealing Large Language Models: 关于对ChatGPT进行模型窃取的一些工作Dining Cars: How an On-Board Snack Became a Guangdong LegendZhejiang Wants Children to Study AI From Younger AgeYOLOv8来啦 | 详细解读YOLOv8的改进模块!YOLOv5官方出品YOLOv8,必卷!【Zoom活动】英文讲座 “All You Touch, You Change”:为什么黑人历史月对你很重要?3月14日晚19点Recovered From COVID, Young Chinese Gripped by Snow Fever随机种子 3407 is all you need【无忧买房】Needham独栋别墅出售,高评分学区,近I-95高速和Needham镇中心舅舅走了,天上添一尊如来!2022辞旧迎新大学申请的两大误区:ED梦校, Need限时领 | 美国学霸超级笔记《everything you need to ace》,让你零距离接触学霸的头脑思维风暴!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。