Redian新闻
>
Transformer一作来卷多模态!学术图表也能看懂,100毫秒极速响应|免费试玩

Transformer一作来卷多模态!学术图表也能看懂,100毫秒极速响应|免费试玩

公众号新闻
明敏 发自 凹非寺
量子位 | 公众号 QbitAI

最近多模态大模型是真热闹啊。

这不,Transformer一作携团队也带来了新作,一个规模为80亿参数的多模态大模型Fuyu-8B

而且发布即开源,模型权重在Hugging Face上可以看到。

该模型具备强大的图像理解能力。

照片、图表、PDF、界面UI都不在话下。

能从这么一张复杂的食物网里理清楚各个生物之间的关系。

提问:道格拉斯冷杉针叶缺失了,哪种生物会灭绝?

回答:红树田鼠。

也能从密密麻麻的连线图里找到,权游“小指头”扮演者Aidan Gillen出演过HBO两个系列的剧。

看得懂专业图表,可以帮你找到想要的数据。

提问:(左图)24、32、33、42这组数字序列中丢了哪个数?
回答:29

一张包含多个图表的PDF也难不倒它。提问:加州哪里的工作前景不错?

Fuyu-8B可以准确找到对应的信息块,并给出正确答案“洛杉矶”。

而且Fuyu-8B的处理速度很快,研究团队表示100毫秒内可反馈大图像处理结果。

同时它还很“轻巧”,不仅模型规模没超百亿,还没有使用图像编码器

这让它能更快速进行训练和推理,并支持处理任意大小图像

Hugging Face联创兼CTO看了都有点激动,表示假如自己还没有创业,那么这个项目会启发他做点什么。

该成果来自Transformer一作Ashish Vaswani所在创业公司Adept。

目前该模型已开源,demo可线上试玩。

一个只有解码器的Transformer

现在在Hugging Face上即可体验Fuyu-8B的能力。

Demo中提供了两种任务。

  • 看图问答

  • 图像概述

可以上传一张图片然后对大模型进行提问。

或者是直接让它看图然后描述图片内容。

大模型的常识水平不错,比如问它一道甜点是怎么做的?

它给出的回答是:

这道甜点是用一层层的酥皮做成的,上面点缀着开心果和帕玛森奶酪。

测试了下中文能力,发现它能理解中文,但是“习惯性”用英文回答。

模型采用了一种简单的架构:纯解码器Transformer

它没有图像编码器。图像块(image patch)绕过embedding lookup,即在嵌入矩阵中查找特定输入的过程,直接映射到Transformer的第一层。

这种架构使得模型能支持任意图像分辨率。

研究团队删除了图像特定位置嵌入,并按扫描线顺序(raster-scan order)输入尽可能多的图像token。

通过一个特殊的图像转换行符号,模型能知道在什么时候断行。

由此模型在训练时可以使用任意大小的图像。

这种架构也更进一步简化了模型的训练和推理过程。

这种架构模式也引起了不少网友的关注,有人就表示,之前总觉得大模型图像理解能力差是因为使用了固定大小的patch。

但Fuyu-8B反驳了他的这一想法。

实验结果显示Fuyu-8B在多个任务中性能优于PaLM-e-12B和QWEN-VL(10B)。

研究团队还表示,刷榜不是他们本次工作的最终目的,所以模型没有进行优化。

他们构建这个大模型的真正目的是为了提升自家产品的能力。

Adept团队致力于打造一个AI Copilot。

这个Copilot能够理解用户屏幕上的内容(比如网页、PPT、PDF、图表等),并能辅助人类快速完成工作。

这就要求大模型需要能理解环境信息,同时可以代替人类进行操作。换言之,需要大模型能具备超强的图像理解能力。

所以这也是为啥Fuyu-8B会很强调对UI的理解能力。

比如它能理解你打开的窗口,以及窗口内的信息。

Adept:新晋独角兽

带来这一新工作的团队是Adept。

这是一家由Transformer一作、前OpenAI工程副总裁等业内大佬共同创立的AI公司。

它成立于2022年4月。目前已完成B轮融资,总融资额达4.15亿美元,公司估值超过10亿美元。

首席科学家是Ashish Vaswani。他是《Attention is all you need》的第一作者,平常看论文时经常出现的“(Vaswani et al., 2017)”就是这位大佬。

他博士毕业于南加州大学,在谷歌大脑工作已有5年。

Transformer的另一位作者Niki Parmar也加入了该团队。
她在印度上完大学后,同样在南加州大学读完硕士,在谷歌工作了近7年。

创始人兼CEO David Luan,是前OpenAI加州实验室工程副总裁,参与过GPT-2、GPT-3、CLIP、DALL-E等模型的开发,后来加入谷歌,曾任谷歌大脑大模型研究的Director。

Adept致力于打造一个AI Copilot。

团队在去年推出的首项工作,就颇有AutoGPT那感觉。

他们打造的Action Transformer(ACT-1),会使用浏览器、Excel等,能理解人类给出的命令并完成相应操作。

比如想要在Excel表格中加上利润、利润率,只需把这段话输入给AI,它就能自己在对应行列创建公式完成任务了。

同时该团队还非常关注开源工作。

今年先后推出的两项工作Persimmon-8B和Fuyu-8B,都已对外开源。

Demo试玩:
https://huggingface.co/spaces/adept/fuyu-8b-demo

参考链接:
[1]
https://www.adept.ai/blog/fuyu-8b
[2]https://twitter.com/AdeptAILabs/status/1714682413983601046
[3]https://twitter.com/julien_c/status/1714694606095310876?s=20
[4]https://twitter.com/main_horse/status/1714684833488949519?s=20

最“in”大模型 | 专栏文章

数亿参数怎么一键压缩?如何兼顾大模型的性能与安全?一行代码如何优化模型与加速?关于大模型的玩法都在这里了,更会手把手教你如何加速大模型推理!


戳下方图片即可跳转专栏文章页面。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ICML 2023 | 神经网络大还是小?Transformer模型规模对训练目标的影响MIT研究人员将Transformer与图神经网络结合,用于设计全新蛋白质Transformer+强化学习,DeepMind让大模型成为机器人感知世界的大脑Transformer+强化学习,谷歌DeepMind让大模型成为机器人感知世界的大脑当下一代Transformer遇上ViT:Vision RetNet已来!Meta对Transformer架构下手了:新注意力机制更懂推理矩阵成真!Pytorch最新工具mm,3D可视化矩阵乘法、Transformer注意力百度谷歌成为AI黄埔军校,Transformer八子融资超8.7亿刀!「AI行业全景报告」总结GenAI大爆发PyTorch最新工具mm来了!3D可视化矩阵乘法、Transformer注意力!Yann LeCun点赞!Meta对Transformer架构下手了:新注意力机制更懂推理相聚多伦多(十三)无可奈何花落去如何降低视觉Transformer计算成本?时间冗余方法让人大吃一惊用 Transformer 评估蛋白质结合界面,区分天然蛋白复合物和不正确构象屠榜顶会!Transformer中文视频教程发布文学城我喜欢的有才德的妇人Transformer就是个支持向量机南开&山大&北理工团队开发trRosettaRNA:利用Transformer网络自动预测RNA 3D结构LLM-as-Agent、VLAM的机会、「算力困境」和对Transformer的质疑起底PC新机皇:高通4nm芯片,Arm架构Windows系统,内置Transformer加速,还配了5G和WiFi7Transformer 一起动手编码学原理卢涛:后登纳德时代,IPU架构引领Transformer向高阶版演进听我说,Transformer它就是个支持向量机Transformer的上下文学习能力是哪来的?Transformer变革3D建模,MeshGPT生成效果惊动专业建模师,网友:革命性ideaICCV 2023 | 通向3D感知大模型的必由之路!UniTR:统一多模态Transformer Encoder!特斯拉为什么全力押注Transformer?咀外文嚼汉字(272)宰鸡烹羊刀狼NeurIPS 2023 | MCUFormer: 可在内存有限微控制器上部署的Vison Transformer模型Transformer变革3D建模!MeshGPT来了!效果惊动专业建模师。。。NeurIPS 2023 | MixFormerV2:基于Transformer的高效跟踪器围绕 transformers 构建现代 NLP 开发环境ICCV 2023 | 新注意力!清华黄高团队提出FLatten Transformer视觉新主干红色日记 5.21-31笑谈邂逅(35)顶撞书记被免职NeurIPS 2023 | 结合脉冲神经网络和Transformer的纯加法Transformer
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。