Redian新闻
>
微软亚研院:Language Is Not All You Need

微软亚研院:Language Is Not All You Need

公众号新闻
鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

还记得这张把谷歌AI搞得团团转的经典梗图吗?

现在,微软亚研院的新AI可算是把它研究明白了。

拿着这张图问它图里有啥,它会回答:我看着像鸭子。

但如果你试图跟它battle,它就会改口:看上去更像兔子。并且还解释得条条是道:

图里有兔子耳朵。

是不是有点能看得懂图的ChatGPT内味儿了?

这个新AI名叫Kosmos-1,谐音Cosmos(宇宙)。AI如其名,本事确实不小:图文理解、文本生成、OCR、对话QA都不在话下。

甚至连瑞文智商测试题都hold住了。

而具备如此能力的关键,就写在论文的标题里:Language is not all you need。

多模态大语言模型

简单来说,Kosmos-1是一种把视觉和大语言模型结合起来的多模态大语言模型。

在感知图片、文字等不同模态输入的同时,Kosmos-1还能够根据人类给出的指令,以自回归的方式,学习上下文并生成回答。

研究人员表示,在多模态语料库上从头训练,不经过微调,这个AI就能在语言理解、生成、图像理解、OCR、多模态对话等多种任务上有出色表现。

比如甩出一张猫猫图,问它这照片好玩在哪里,Kosmos-1就能给你分析:猫猫戴上了一个微笑面具,看上去就像在笑。

又比如让它看一眼MSRA用来高效训练大模型的TorchScale工具包的主页,Kosmos-1也能快速get这个库是用来干啥的。

Kosmos-1还能理解图像上下文。发一张食物的照片给它,这个AI不仅能回答你这是什么,还能在你追问如何烹饪时,给出食谱和烹调小建议。

Kosmos-1的骨干网络,是一个基于Transformer的因果语言模型。Transformer解码器作为通用接口,用于多模态输入。

用于训练的数据来自多模态语料库,包括单模态数据(如文本)、跨模态配对数据(图像-文本对)和交错的多模态数据。

值得一提的是,虽说“Language is not all you need”,但为了让Kosmos-1更能读懂人类的指示,在训练时,研究人员还是专门对其进行了仅使用语言数据的指令调整。

具体而言,就是用(指令,输入,输出)格式的指令数据继续训练模型。

实验结果

研究人员在5大类共10个任务中,测试了Kosmos-1的效果,包括:

  • 语言任务:语言理解、语言生成、无OCR文本分类

  • 跨模态迁移:常识推理

  • 非语言推理:IQ测试(瑞文递进矩阵)

  • 感知-语言任务:图像说明、视觉QA、网页QA

  • 视觉任务:零样本图像分类、带描述的零样本图像分类

从实验结果上来看,Kosmos-1基本都hold住了。

零样本图像说明:

零样本视觉QA:

无OCR文本理解:

研究人员还提到,Kosmos-1是第一个能完成零样本瑞文智商测试的AI。

不过,跟成年人类的平均水平相比,AI的“智商”还差得有点远。随机选择的正确率为17%,而Kosmos-1经过指令调教之后,准确率为26%。

研究人员认为:

但Kosmos-1证明了多模态大模型有潜力将感知和语言结合起来,进行零样本的非语言推理。

另外,研究人员还展示了Kosmos-1处理复杂问答和推理任务的过程。关键在于多模态思维链提示

研究人员将感知-语言任务分解为两个步骤。第一步,给定一个图像,引导模型对图像进行分析。

第二步,把模型子集分析出来的结果再喂给它,并给出任务提示,以生成最后的答案。

这项新研究来自MSRA的韦福如团队。韦福如是微软亚洲研究院自然语言计算研究组主管研究员。

三位一作分别是Shaohan Huang、董力和Wenhui Wang。

论文地址:
https://arxiv.org/abs/2302.14045

「中国AIGC产业峰会」启动

邀您共襄盛举

「中国AIGC产业峰会」即将在今年3月举办,峰会将邀请AIGC产业相关领域的专家学者,共同探讨生成新世界的过去、现在和未来。

峰会上还将发布《中国AIGC产业全景报告暨AIGC 50》,全面立体描绘我国当前AIGC产业的竞争力图谱。点击链接或下方图片查看大会详情:

寻找中国版ChatGPT,量子位邀你共同参与中国AIGC产业峰会


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
For Young Chinese Seeking Jobs, Less Pay Means More Life BalanceWe Need you!南航洛杉矶营业部招聘Dining Cars: How an On-Board Snack Became a Guangdong Legend波性与粒性Just When You Thought You Were Having a Poopy DayI wanna hold you, kiss you, Love you 《梦里蓝天》张国荣版[歪解] thank you for your generous support女儿突然打来的国际长途电话Zhejiang Wants Children to Study AI From Younger AgeJournalism Movie Hailed as ‘Courageous Start’ Wins Over ViewersIEEE Education Week主题演讲 | 主讲人:IEEE主席Saifur Rahman舅舅走了,天上添一尊如来!Love Is in the Cards: Young Chinese Turn to Tarot for GuidanceStealing Large Language Models: 关于对ChatGPT进行模型窃取的一些工作University Dean Sacked After Sharing Lewd Image With ColleaguesRecovered From COVID, Young Chinese Gripped by Snow FeverPrompt Engineering全面自动化:LeCun看了沉默,ChatGPT看了直呼内行邱开冒:2022年,两场奇怪的战争@所有留学生,Meeting at the Urban Camp海归星空营地派对强势回归!!3.11荧光之夜不燃怎么young!Getting to ‘No’: How I Negotiated My Bride Price AwayA Day in a Shanghai Park: See You Next Wednesday【Zoom活动】英文讲座“All You Touch, You Change”: 为什么黑人历史月对你很重要?3月14日晚19点微软研究员联合Yoshua Bengio推出AIGC数据生成学习范式Regeneration Learning【Zoom活动】英文讲座 “All You Touch, You Change”:为什么黑人历史月对你很重要?3月14日晚19点大学申请的两大误区:ED梦校, Needlāo dao?láo dao!ChatGPT is not all you need,一文综述6大公司9类生成式AI模型APAD: All that glitters is not gold.YOLOv8来啦 | 详细解读YOLOv8的改进模块!YOLOv5官方出品YOLOv8,必卷!Chinese TV Drama Normalizes Women Dating Younger Men随机种子 3407 is all you need限时领 | 美国学霸超级笔记《everything you need to ace》,让你零距离接触学霸的头脑思维风暴!Agustín Hernández:中美洲建筑背景下的未来主义巨构2022辞旧迎新【无忧买房】Needham独栋别墅出售,高评分学区,近I-95高速和Needham镇中心Do you need to Retorque the lug nuts after tire change?Young Chinese Love Everything About Sweden. Except Living There.New Guideline Seeks to Promote Reading in ChildrenChatGPT自己会选模型了!微软亚研院+浙大爆火新论文,HuggingGPT项目已开源Chinese Tourist Spot Accused of Copyright Infringement
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。