Redian新闻
>
专注图表理解,腾讯、南洋理工等开源图表羊驼大模型ChartLlama

专注图表理解,腾讯、南洋理工等开源图表羊驼大模型ChartLlama

公众号新闻
机器之心专栏
机器之心编辑部

在图像理解领域,多模态大模型已经充分展示了其卓越的性能。然而,对于工作中经常需要处理的图表理解与生成任务,现有的多模态模型仍有进步的空间。

尽管当前图表理解领域中的最先进模型在简单测试集上表现出色,但由于缺乏语言理解和输出能力,它们无法胜任更为复杂的问答任务另一方面,基于大语言模型训练的多模态大模型的表现也不尽如人意,主要是由于它们缺乏针对图表的训练样本。这些问题严重制约了多模态模型在图表理解与生成任务上持续进步。

近期,腾讯联合南洋理工大学、东南大学提出了 ChartLlama。研究团队创建了一个高质量图表数据集,并训练了一个专注于图表理解和生成任务的多模态大型语言模型。ChartLlama 结合了语言处理与图表生成等多重性能,为科研工作者和相关专业人员提供了一个强大的研究工具。


论文地址:https://arxiv.org/abs/2311.16483
主页地址:https://tingxueronghua.github.io/ChartLlama/
ChartLlama 的团队构思出了一种巧妙的多元化数据收集策略,通过 GPT-4 生成特定主题、分布和趋势的数据,来确保数据集的多样性。研究团队综合开源的绘图库与 GPT-4 的编程能力,来编写图表代码,生成精确的图形化数据表示。此外,研究团队还运用 GPT-4 描述图表内容和生成问答对,为每个图表生成了丰富多样的训练样本,以确保经过训练的模型能够充分的理解图表。


图表理解领域中,传统模型仅能实现诸如读取图表中的数字这种简单的 QA 任务,无法对较复杂的问题进行回答。具体来说,它们难以跟随较长的指令,在涉及数学运算的问答中,也经常出现运算错误,而 ChartLlama 可以有效的避免此类问题,具体对比如下所示:


统任务之外,研究团队也定义了若干新任务,其中有三个任务涉及到了图表生成,论文中给出了相关示例:

给定图表和指令,进行图表重建与图表编辑的示例


根据指令和原始数据,生成图表的示例

在各种基准数据集上,ChartLlama 都达到了 SOTA 水平,需要的训练数据量也更少。其灵活的数据生成与收集方法,极大地拓宽了图表理解与生成任务中图表和任务的种类,推动了该领域的发展。
方法概述
ChartLlama 设计了一种灵活的数据收集方法,利用 GPT-4 的强大语言能力和编程能力,创建了丰富的多模态图表数据集。
ChartLlama 的数据收集包括三个主要阶段:
  • 图表数据生成:ChartLlama 不仅从传统数据源收集数据,还利用 GPT-4 的能力产生合成数据。通过提供特定的特征,如主题、分布和趋势,从而引导 GPT-4 产生多样化和平衡的图表数据。由于生成的数据包含了已知的数据分布特性,这使得指令数据的构建更加灵活和多样。
  • 图表生成:接着,利用 GPT-4 强大的编程能力,使用开源库(如 Matplotlib)根据已生成的数据和函数文档来编写图表绘制脚本,生成了一系列精心渲染的图表。由于图表的绘制完全是基于开源工具,这种算法可以生成更多类型的图表用于训练。对比已有数据集,例如 ChatQA,只支持三种图表类型, ChartLlama 所构建的数据集支持多达 10 种图表类型,而且可以任意扩展。
  • 指令数据生成:除了图表渲染外,ChartLlama 还进一步利用 GPT-4 来描述图表内容,构造多种多样的问答数据,以确保训练过的模型能全面理解图表。这个全面的指令调整语料库,融合了叙述文本、问题 - 答案对以及图表的源代码或修改后的代码。过往的数据集只支持 1-3 种图表理解任务,而 ChartLlama 支持多达 10 种图表理解与生成任务,能够更好的帮助训练图文大模型理解图标中的信息。
经过以上步骤,ChartLlama 创建了包含多种任务和多种图表类型的数据集。其中不同类型的任务、图表在总数据集中的占比如下所示:

更详细的指令及其说明请参考论文原文。

实验结果

无论是传统任务还是新的任务,ChartLlama 都展现了最优越的性能。传统任务包括图表问答、图表总结,以及图表的结构化数据提取。对比 ChartLlama 和此前最先进的模型,结果如下图所示:
研究人员也评估了 ChartLlama 所独有的任务能力,包括图表代码生成,图表总结和图表编辑,同时也构造了对应任务的测试集,并与当前最强的开源图文大模型 LLaVA-1.5 进行了对比,结果如下所示:
研究团队还在类型各异的图表中测试了 ChartLlama 的问答准确率,和之前的 SOTA 模型 Unichart 以及提出的基线模型进行了对比,结果如下:
总的来说,ChartLlama 不仅推动了多模态学习的边界,也为图表的理解和生成提供了更精确和高效的工具。无论是在学术写作还是在企业演示中,ChartLlama 都将使图表的理解和创造变得更加直观和高效,在生成和解读复杂视觉数据方面迈出了重要的一步。
对此研究感兴趣的读者可以移步论文原文,了解更多研究内容。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
人手一个编程助手!北大最强代码大模型CodeShell-7B开源,性能霸榜,IDE插件全开源阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报聚焦 | 新加坡南洋理工大学刘宏教授解读“中国与全球南方——跨界治理的视野和知识转移的实践”学习《林黛玉经典语录》(六)北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型新加坡南洋理工和国立大学「2024年本科申请时间与要求」汇总!2024第一个千亿IPO要来了,张一鸣曾想收购,腾讯、红杉与富达为股东南洋理工大学招收机器学习方向博士后/博士生/研究助理用魔法打败魔法,南洋理工大学学者首次实现全自动化攻陷各大厂商大模型聊天机器人新加坡正式免签!留学热度瞬间暴增!从体制内到南洋理工学长:不如国内“鸡血”!大模型集体失控!南洋理工新型攻击,主流AI无一幸免中国石化与新加坡南洋理工大学梦幻联动,助力能源至净新加坡南洋理工大学招生!区块链技术理学硕士申请入学流程指南UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源北大开源代码大模型CodeShell,提供了配套的IDE插件大模型勇闯洛圣都,加封「GTA五星好市民」!南洋理工、清华等发布视觉可编程智能体Octopus:打游戏、做家务全能干悄悄话见不得人?讯飞医疗递交IPO申请;Meta发开源大模型Code Llama 70B;马化腾称两年内不会有纯原生AI大应用丨AIGC大事日报小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大【喜报】J同学喜获南洋理工访学offer | 科藤留学能编程,会搜索,中国原生大模型ChatGLM3发布选择GPT-3.5、还是微调Llama 2等开源模型?综合比较后答案有了背景提升学员|喜报!伦敦大学学院、南洋理工、香港科技大学、香港城市大学、伦敦大学国王学院、纽约大学、昆士兰大学offer来了!我的眼睛就是尺!80亿参数OtterHD带你「清明上河图」数骆驼!南洋理工华人团队打造GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发头像|𝐒𝐡𝐚𝐫𝐞·招桃花头像国产大模型开源一哥再登场,最强双语LLM「全家桶」级开源!340亿参数超越Llama2-70B原来我也是被顶替的人大模型都会标注图像了,简单对话即可!来自清华&NUS南洋理工最新Matter: 可编程离散单元组装的复杂三维曲面6020 血壮山河之随枣会战 南昌之战 13世界各国的产假比较手把手教你剪「羊驼」,陈丹琦团队提出LLM-Shearing大模型剪枝法马斯克称每年要投资数十亿美元在AI硬件上;Meta发布开源大模型Code Llama 70B丨AIGC日报Immunity | 清华大学药学院张从刚课题组报道新型cGAMP降解酶和新型cGAS-STING通路小分子抑制剂
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。