Redian新闻
>
论文插图也能自动生成了!用到了扩散模型,还被ICLR 2023接收!

论文插图也能自动生成了!用到了扩散模型,还被ICLR 2023接收!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【扩散模型和Transformer】交流群

转载自:机器之心 | 编辑:杜伟、梓文

如果论文中的图表不用绘制,对于研究者来说是不是一种便利呢?有人在这方面进行了探索,利用文本描述生成论文图表,结果还挺有模有样的呢!


生成式 AI 已经风靡了人工智能社区,无论是个人还是企业,都开始热衷于创建相关的模态转换应用,比如文生图、文生视频、文生音乐等等。


最近呢,来自 ServiceNow Research、LIVIA 等科研机构的几位研究者尝试基于文本描述生成论文中的图表。为此,他们提出了一种 FigGen 的新方法,相关论文还被 ICLR 2023 收录为了 Tiny Paper。



论文地址:https://arxiv.org/abs/2306.00800


也许有人会问了,生成论文中的图表有什么难的呢?这样做对于科研又有哪些帮助呢?


科研图表生成有助于以简洁易懂的方式传播研究结果,而自动生成图表可以为研究者带来很多优势,比如节省时间和精力,不用花大力气从头开始设计图表。此外设计出具有视觉吸引力且易理解的图表能使更多的人访问论文。


然而生成图表也面临一些挑战,它需要表示框、箭头、文本等离散组件之间的复杂关系。与生成自然图像不同,论文图表中的概念可能有不同的表示形式,需要细粒度的理解,例如生成一个神经网络图会涉及到高方差的不适定问题。


因此,本文研究者在一个论文图表对数据集上训练了一个生成式模型,捕获图表组件与论文中对应文本之间的关系。这就需要处理不同长度和高技术性文本描述、不同图表样式、图像长宽比以及文本渲染字体、大小和方向问题。


在具体实现过程中,研究者受到了最近文本到图像成果的启发,利用扩散模型来生成图表,提出了一种从文本描述生成科研图表的潜在扩散模型 ——FigGen。


这个扩散模型有哪些独到之处呢?我们接着往下看细节。


模型与方法


研究者从头开始训练了一个潜在扩散模型。


首先学习一个图像自动编码器,用来将图像映射为压缩的潜在表示。图像编码器使用 KL 损失和 OCR 感知损失。调节所用的文本编码器在该扩散模型的训练中端到端进行学习。下表 3 为图像自动编码器架构的详细参数。


然后,该扩散模型直接在潜在空间中进行交互,执行数据损坏的前向调度,同时学习利用时间和文本条件去噪 U-Net 来恢复该过程。



至于数据集,研究者使用了 Paper2Fig100k,它由论文中的图表文本对组成,包含了 81,194 个训练样本和 21,259 个验证样本。下图 1 为 Paper2Fig100k 测试集中使用文本描述生成的图表示例。



模型细节


首先是图像编码器。第一阶段,图像自动编码器学习一个从像素空间到压缩潜在表示的映射,使扩散模型训练更快。图像编码器还需要学习将潜在图像映射回像素空间,同时不丢失图表重要细节(如文本渲染质量)。


为此,研究者定义了一个具有瓶颈的卷积编解码器,在因子 f=8 时对图像进行下采样。编码器经过训练可以最小化具有高斯分布的 KL 损失、VGG 感知损失和 OCR 感知损失。


其次是文本编码器。研究者发现通用文本编码器不太适合生成图表任务。因此他们定义了一个在扩散过程中从头开始训练的 Bert transformer,其中使用大小为 512 的嵌入通道,这也是调节 U-Net 的跨注意力层的嵌入大小。研究者还探索了不同设置下(8、32 和 128)的 transformer 层数量的变化。


最后是潜在扩散模型。下表 2 展示了 U-Net 的网络架构。研究者在感知上等效的图像潜在表示中执行扩散过程,其中该图像的输入大小被压缩到了 64x64x4,使扩散模型更快。他们定义了 1,000 个扩散步骤和线性噪声调度。



训练细节


为了训练图像自动编码器,研究者使用了一个 Adam 优化器,它的有效批大小为 4 个样本、学习率为 4.5e−6,期间使用了 4 个 12GB 的英伟达 V100 显卡。为了实现训练稳定性,他们在 50k 次迭代中 warmup 模型,而不使用判别器。


对于训练潜在扩散模型,研究者也使用 Adam 优化器,它的有效批大小为 32,学习率为 1e−4。在 Paper2Fig100k 数据集上训练该模型时,他们用到了 8 块 80GB 的英伟达 A100 显卡。


实验结果


在生成过程中,研究者采用了具有 200 步的 DDIM 采样器,并且为每个模型生成了 12,000 个样本来计算 FID, IS, KID 以及 OCR-SIM1。稳重使用无分类器指导(CFG)来测试超调节。


下表 1 展示了不同文本编码器的结果。可见,大型文本编码器产生了最好的定性结果,并且可以通过增加 CFG 的规模来改进条件生成。虽然定性样本没有足够的质量来解决问题,但 FigGen 已经掌握了文本和图像之间的关系。



下图 2 展示了调整无分类器指导(CFG)参数时生成的额外 FigGen 样本。研究者观察到增加 CFG 的规模(这在定量上也得到了体现)可以带来图像质量的改善。



下图 3 展示了 FigGen 的更多生成示例。要注意样本之间长度的变化,以及文本描述的技术水平,这会密切影响到模型正确生成可理解图像的难度。



不过研究者也承认,尽管现在这些生成的图表不能为论文作者提供实际帮助,但仍不失为一个有前景的探索方向。


更多研究细节请参阅原论文。

点击进入—>【目标检测和Transformer】交流群


最新CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


扩散模型和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-扩散模型或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如扩散模型或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
炸裂!最新CVPR2023、ICML2023、AAAI2023、ACL2023论文+Code大合集!I bond利率再大降, 杀出一匹狼扩散模型「读脑术」,自动化所MindDiffuser清晰重建人脑视觉画面CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型ICLR 2023杰出论文奖得主分享:用于密集预测任务的通用小样本学习器ICLR 2023 | DIFFormer: 扩散过程启发的TransformerCVPR 2023 | Collaborative Diffusion 怎样让不同的扩散模型合作?WPS AI内测版开放体验,自动生成的PPT长这样!谷歌优化扩散模型!在三星手机上运行Stable Diffusion,12秒内出图!【北台湾老街】(2)艋舺 - 台北市发源地· 龙山寺阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅【附PDF】整理了114篇医疗论文,含cvpr2023医疗论文+经典论文+医疗论文综述等ICLR 2023 Spotlight | Yoshua Bengio团队新作,生成拓展流网络扩散模型还能预测地震和犯罪?清华团队最新研究提出时空扩散点过程陶哲轩新论文:部分证明著名素数猜想,新方法用到了自己的旧模型基于扩散模型的音频驱动说话人生成,云从&上交数字人研究入选ICASSP 2023人在江湖ICLR 2023|UniVL-DR: 多模态稠密向量检索模型开源了!UniControl:可控视觉生成的统一扩散模型ICLR 2023邀你加入精选论文讲解直播间论文插图也能自动生成了,用到了扩散模型,还被ICLR接收CVPR 2023 | 多个扩散模型相互合作,新方法实现多模态人脸生成与编辑蛋白质侧链预测新方法DiffPack:扩散模型也能精准预测侧链构象!加强互联网诊疗监管!严禁使用AI自动生成处方《心是一片宁静的海》&《虞兮叹》十分钟读懂Diffusion:图解Diffusion扩散模型ICLR 2023 | 大模型上下文学习的无限扩展方法:kNN PromptingICLR 2023 Oral | ToMe:无需训练的Token融合模型加速算法CVPR'23 最佳论文候选 | 采样提速256倍!蒸馏扩散模型生成图像质量媲美教师模型港大和微软提出Uni-ControlNet:可控制扩散模型再添一员!我厉害吗?他比我更厉害!Stable Diffusion一周年:这份扩散模型编年简史值得拥有微软提出CoDi:开创性多模态扩散生成模型,实现4种模态任意输入输出既是自编码器,也是RNN,DeepMind科学家八个视角剖析扩散模型90%的人不知道!这个自动生成随机数的函数太好用了!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。