国际科技财经博客移民网络热点娱乐民生时事公众号

>

我的眼睛就是尺！80亿参数OtterHD带你「清明上河图」数骆驼！南洋理工华人团队打造

我的眼睛就是尺！80亿参数OtterHD带你「清明上河图」数骆驼！南洋理工华人团队打造

公众号新闻

2023-11-27 05:11

新智元报道

编辑：好困

【新智元导读】最近，由南洋理工华人团队新提出的80亿参数多模态大模型OtterHD，不仅可以搞定让GPT-4V都发愁的难题，甚至还可以数出来《清明上河图》（局部）里到底有多少只骆驼！

想知道《清明上河图》里面有多少头骆驼吗？来看看这个支持超高清输入的多模态模型吧。

最近，来自南洋理工的华人团队基于Fuyu-8B打造出了80亿参数的多模态大模型OtterHD。

论文地址：https://arxiv.org/abs/2311.04219

与受限于固定尺寸视觉编码器的传统模型不同，OtterHD-8B具有处理灵活输入尺寸的能力，确保了其在各种推理需求下的通用性。

同时，团队还提出了一个全新的基准测试MagnifierBench，可以细致地评测LLM辨别大尺寸图像中物体的微小细节和空间关系的能力。

结果显示，OtterHD-8B的表现，尤其是在直接处理高分辨率输入时，远远优于同类模型。

效果演示

如下图中，询问清明上河图（局部）中有多少只骆驼，图片输入达到了2446x1766像素，模型也能成功对答。

面对曾让GPT4-V发愁的数苹果问题，模型也成功的数出了其中包含11个苹果。

除了论文中展示的高清输入的例子，我们也进行了一些测试，下图我们让模型假设用户是一个剑桥大学的PhD，解释这个图是什么意思。

其中模型的回答中准确的识别出图片中的Black Hole和White Hole等信息，并且识别出其是一个tunnel-like structure，然后给出了详细的解释。

下图中，让模型解释图中关于能源占比的情况，模型准确识别了图中的几类能源以及其占比随时间变化的情况。

下图关于换灯泡的流程图，模型准确理解了流程图的含义并且给出了一步一步的详细指导。

80亿参数指令微调OtterHD-8B

值得注意的是，基于Fuyu-8B的OtterHD-8B是第一个在最大1024×1024输入上进行训练的开源指令微调大语言模型。

此外，在推理过程中，它还能进一步扩展到更大的分辨率（如1440×1440）。

训练细节

在初步实验中团队发现，Fuyu在响应某些基准测试中的特定指令时表现不佳，这导致模型在MME和MMBench上的性能非常弱。

为了解决这些问题，团队基于370K条混合数据对Fuyu模型进行指令微调，并参考 LLaVA-1.5使用了相似的指令模板来规范模型回答的格式。

在训练阶段，所有数据集都被组织成指令/应答对，汇总到统一的 dataloader中，并进行统一采样，以确保代表性的完整性。

为了增强建模代码，团队使用了FlashAttention-2和FlashAttention资源库中的算子融合技术。

得益于Fuyu简化的架构，如图2所示，这些修改大大提高了GPU的利用率和吞吐量。

具体来说，团队提出的方法可以在8×A100 GPU上以3小时/epoch的速度完成全参数训练，而LoRA微调后每epoch只需1小时。

在使用AdamW优化器训练模型时，批大小为64，学习率设置为1×10^-5，权重衰减为0.1。

超精细评测基准MagnifierBench

人类视觉系统可以自然地感知视野内物体的细节，但目前用于测试LMM的基准并没有特别侧重于评估这方面的能力。

随着Fuyu和OtterHD模型的出现，我们第一次将输入图像的分辨率扩展到了更大的范围。

为此，团队基于Panoptic Scene Graph Generation（PVSG）数据集，制作了一个涵盖166幅图像共283组问题的全新测试基准MagnifierBench。

PVSG数据集由视频数据组成，其中包含大量杂乱无章的复杂场景，尤其是第一人称的家务视频。

在标注阶段，团队仔细检查了数据集中的每个问题-答案对，剔除了那些涉及大型物体，或者很容易用常识性知识回答的问题。例如，遥控器大多都是黑的，很容易猜到，而红黄等颜色则不在此列。

如图3所示，MagnifierBench设计的问题类型包括识别、数字、颜色相关问题等。该数据集的一个重要标准是，问题必须足够复杂，就连标注者都必须在全屏模式下，甚至放大图像才能准确回答。

与简短的回答相比，LMM更擅长在对话环境中生成扩展的回答。

- 多选题

这里模型面对的是一个问题和多个答案选项。为了引导模型以单个字母（如 A、B、C）作答，团队在指令「答案」前直接加上给定选项中的字母作为问题前的提示。在这种情况下，只有完全符合正确选项的答案才被视为准确答案。

- 开放题

多个选项会简化任务，因为随机猜测有25%的正确率。此外，这并不能反映聊天助手所面临的真实场景，因为用户通常不会向模型提供预定义的选项。为了消除这种潜在的偏差，团队还以直截了当、不设任何提示选项的开放式方式向模型提出问题。

实验分析

研究结果表明，虽然很多模型在MME和POPE等既定基准上取得了高分，但它们在MagnifierBench上的表现却往往不尽如人意。另一方面，OtterHD-8B在MagnifierBench上表现出色。

为了进一步探索提高分辨率的效果以及OtterHD对不同、可能更大分辨率的泛化能力，团队使用固定或动态分辨率对Otter8B进行了训练。

x轴表明，随着分辨率的提高，会有更多的图像token被发送到语言解码器，从而提供了更多的图像细节。

结果表明，分辨率越高，MagnifierBench的性能越好。

由于平均文本token数保持不变，因此随着分辨率的增加，图像与文本token数的比例也逐渐增大。

这一变化突出了LMM分辨率的重要性，尤其是对于需要复杂视觉关联的任务。

此外，固定训练方法和动态训练方法之间的性能差异凸显了动态调整大小的优势，尤其是防止特定分辨率的过拟合。

而且，动态策略还可以让模型泛化到训练期间未见的更大分辨率（1440）。

一些对比

结论

基于Fuyu-8B的创新架构，研究团队提出的OtterHD-8B模型能有效处理各种分辨率的图像，摆脱了大多数LMM中固定分辨率输入的限制。

与此同时，OtterHD-8B在处理高分辨率图像方面的表现格外出色。

这一点在新的MagnifierBench基准测试中尤为明显，该基准的目的是评估LMM在复杂场景中辨别细节的能力，突出了对不同分辨率更加灵活的支持的重要性。

参考资料：

https://arxiv.org/abs/2311.04219

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

一家人野餐时黑熊忽然上桌，妈妈淡定捂住儿子眼睛就完事？这？？从“不容青史尽成灰”谈起解决大模型复现难、协作难，这支95后学生团队打造了一个国产AI开源社区南洋理工大学招收机器学习方向博士后/博士生/研究助理探班《清明上河图密码》，拆解国剧虚拍样本秘籍大模型集体失控！南洋理工新型攻击，主流AI无一幸免大模型勇闯洛圣都，加封「GTA五星好市民」！南洋理工、清华等发布视觉可编程智能体Octopus：打游戏、做家务全能干 7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据｜ACL 2023 AI早知道｜微软Copilot将可免费使用GPT-4Turbo；国产670亿参数大模型DeepSeek亮相【喜报】J同学喜获南洋理工访学offer | 科藤留学 “你”“我”“他”背景提升学员｜喜报！伦敦大学学院、南洋理工、香港科技大学、香港城市大学、伦敦大学国王学院、纽约大学、昆士兰大学offer来了！每多吃一口这两类肉，就更容易得心血管疾病、糖尿病；你的眼睛是不是提前衰老了？斯坦福科学家首创“眼睛老化时钟”｜本周论文推荐冰雹和雷雨云毕业前3个月冲刺全职！南加大硕士上岸「百度」数据挖掘工程师使用 mkosi 构建 RHEL 和 RHEL UBI 镜像 | Linux 中国新加坡南洋理工和国立大学「2024年本科申请时间与要求」汇总！中国石化与新加坡南洋理工大学梦幻联动，助力能源至净红色日记打苇机 8.26-31 疯了！多伦多市地税将飙涨10.5%！围观大多伦多各城市地税调涨：涨1位数or涨2位数聚焦 | 新加坡南洋理工大学刘宏教授解读“中国与全球南方——跨界治理的视野和知识转移的实践”重度硬菜，烤整只骆驼！意念操纵机器人成真！李飞飞团队打造，做家务玩游戏样样能行用魔法打败魔法，南洋理工大学学者首次实现全自动化攻陷各大厂商大模型聊天机器人加州| 超级火山要喷发了？加州理工华裔科学家发现火山大爆发的迹象，若喷发洛杉矶将被掩埋新加坡南洋理工大学招生！区块链技术理学硕士申请入学流程指南加州超级火山要喷发了？加州理工华裔科学家发现火山大爆发的迹象，若喷发洛杉矶将被掩埋 250刀HP NOTEBOOK - 14S-DF0010TU 14" HD LAPTOP - INTEL CELERON N40 开封城的吸血游戏（揭秘清明上河图背后的残忍真相）新中式“宝藏”首饰，国风小众又百搭，过年吸睛就是它！南洋理工最新Matter: 可编程离散单元组装的复杂三维曲面 AlmaLinux 正开发成为不包含 RHEL 代码但兼容 RHEL 的发行版本假如张择端，画了粤港澳上河图两情难相知（十五）专注图表理解，腾讯、南洋理工等开源图表羊驼大模型ChartLlama

热点事件追踪