Redian新闻
>
7 Papers | 超越GPT 3.5的小模型;对ChatGPT摸底考试

7 Papers | 超越GPT 3.5的小模型;对ChatGPT摸底考试

公众号新闻

机器之心 & ArXiv Weekly 

参与:杜伟、楚航、罗若天

本周论文包括2D 图像脑补 3D 人体;马逊发布超越 GPT 3.5 的小模型等研究。


目录

  1. Structure and Content-Guided Video Synthesis with Diffusion Models 
  2. EVA3D: Compositional 3D Human Generation from 2D Image Collections
  3. Multimodal Chain-of-Thought Reasoning in Language Models
  4. Is ChatGPT a General-Purpose Natural Language Processing Task Solver?
  5. Toolformer: Language Models Can Teach Themselves to Use Tools 
  6. Looped Transformers as Programmable Computers 
  7. AudioLDM: Text-to-Audio Generation with Latent Diffusion Models

论文 1:Structure and Content-Guided Video Synthesis with Diffusion Models

  • 作者:Patrick Esser 、 Johnathan Chiu 等
  • 论文地址:https://arxiv.org/pdf/2302.03011.pdf

摘要:近日,曾参与创建 Stable Diffusion 的 Runway 公司推出了一个新的人工智能模型「Gen-1」,该模型通过应用文本 prompt 或参考图像指定的任何风格,可将现有视频转化为新视频。

具体来说,Gen-1 支持几种编辑模式:

1、风格化。将任何图像或 prompt 的风格转移到视频的每一帧。
2、故事板。将模型变成完全风格化和动画的渲染。
3、遮罩。分离视频中的主题并使用简单的文本 prompt 对其进行修改。
4、渲染。通过应用输入图像或 prompt,将无纹理渲染变成逼真的输出。
5、定制化。通过自定义模型以获得更高保真度的结果,释放 Gen-1 的全部功能。

在该公司官方网站上发布的 demo 中,展示了 Gen-1 如何丝滑地更改视频风格,来看几个示例。

比如将「街道上的人」变成「粘土木偶」,只需要一行 prompt:


推荐:从文本生成图像,再到给视频加特效,下一个 AIGC 爆发点要出现了吗?

论文 2:EVA3D: Compositional 3D Human Generation from 2D Image Collections

  • 作者:Fangzhou Hong 等
  • 论文地址:https://arxiv.org/abs/2210.04888

摘要:在 ICLR 2023 上,南洋理工大学 - 商汤科技联合研究中心 S-Lab 团队提出了首个从二维图像集合中学习高分辨率三维人体生成的方法 EVA3D。得益于 NeRF 提供的可微渲染,近期的三维生成模型已经在静止物体上达到了很惊艳的效果。但是在人体这种更加复杂且可形变的类别上,三维生成依旧有很大的挑战。本文提出了一个高效的组合的人体 NeRF 表达,实现了高分辨率(512x256)的三维人体生成,并且没有使用超分模型。EVA3D 在四个大型人体数据集上均大幅超越了已有方案,代码已开源。


推荐:2D 图像脑补 3D 人体,衣服随便搭,还能改动作。

论文 3:Multimodal Chain-of-Thought Reasoning in Language Models

  • 作者:Zhuosheng Zhang 等
  • 论文地址:https://arxiv.org/abs/2302.00923

摘要:众所周知,ChatGPT 是在 GPT-3.5 系列模型的基础上微调而来的,我们看到很多研究也在紧随其后紧追慢赶,但是,与 ChatGPT 相比,他们的新研究效果到底有多好?近日,亚马逊发布的一篇论文提出了包含视觉特征的 Multimodal-CoT,该架构在参数量小于 10 亿的情况下,在 ScienceQA 基准测试中,比 GPT-3.5 高出 16 个百分点 (75.17%→91.68%),甚至超过了许多人类。

下图为 Multimodal CoT 两阶段过程:使用文本(问题 + 上下文)和视觉特征来产生逻辑依据。


推荐:超越 GPT 3.5 的小模型来了!

论文 4:Is ChatGPT a General-Purpose Natural Language Processing Task Solver?

  • 作者:Chengwei Qin 等
  • 论文地址:https://arxiv.org/pdf/2302.06476.pdf

摘要:ChatGPT 真的是「通才」吗?单拎出哪项能力都能完胜其他模型吗?哪些任务是 ChatGPT 擅长的,哪些不是?为了系统地探索这些问题,南洋理工大学博士生 Chengwei Qin、斯坦福大学计算机科学助理教授杨笛一等人进行了大量实验。

该研究主要比较了 ChatGPT 和 GPT-3.5 (textdavinci-003) 在不同任务下的 zero-shot 学习性能。


推荐:ChatGPT 真的是「通才」吗?杨笛一等人给它来了个摸底考试。

论文 5:Toolformer: Language Models Can Teach Themselves to Use Tools

  • 作者:Timo Schick 等
  • 论文地址:https://arxiv.org/pdf/2302.04761v1.pdf

摘要:在自然语言处理任务中,大型语言模型在零样本和少样本学习方面取得了令人印象深刻的结果。然而,所有模型都存在固有的局限性,往往只能通过进一步扩展来部分解决。具体来讲,模型的局限性包括无法访问最新信息、会对事实产生「信息幻觉」、低资源语言理解困难、缺乏进行精确计算的数学技能等等。

解决这些问题的一种简单方法就是给模型配备外部工具,如搜索引擎、计算器或日历。然而,现有方法通常依赖于大量的人工注释,或将工具的使用限制在特定的任务设置下,使得语言模型与外部工具的结合使用难以推广。为了打破这种瓶颈,近期 Meta AI 提出了一种称为 Toolformer 的新方法,使得语言模型学会「使用」各种外部工具。如下为 Toolformer 的典型预测。


推荐:语言模型自己学会用搜索引擎了?Meta AI 提出 API 调用自监督学习方法 Toolformer。

论文 6:Looped Transformers as Programmable Computers

  • 作者:Angeliki Giannou 等
  • 论文地址:https://arxiv.org/pdf/2301.13196.pdf

摘要:在本文中,作者展示了 Transformer 网络可以通过使用特定权重对它们进行硬编码并将它们置于一个循环中来模拟复杂的算法和程序。作者通过对 Attention 进行逆向工程来模拟基本计算块来做到这一点,例如对输入序列的编辑操作、非线性函数、函数调用、程序计数器和条件分支。作者的论文证明了使用单个循环或递归将 Transformer 的输出序列连接回其输入的重要性,从而避免对深度模型的需要。如下为用作实现小型指令集计算机构建块的三个 Transformer 块的示意图。


推荐:作者展示了 Transformer 网络可以通过使用特定权重对它们进行硬编码并将它们置于一个循环中来模拟复杂的算法和程序。

论文 7:AudioLDM: Text-to-Audio Generation with Latent Diffusion Models

  • 作者:Haohe Liu 等
  • 论文地址:https://arxiv.org/abs/2301.12503

摘要:给出一段文字,人工智能就可以生成音乐,语音,各种音效,甚至是想象的声音,比如黑洞和激光枪。最近由英国萨里大学和帝国理工学院联合推出的 AudioLDM,在发布之后迅速火遍国外,一周内在推特上收获了近 300 次的转发和 1500 次的点赞。在模型开源第二天,AudioLDM 就冲上了 Hugging Face 热搜榜第一名,并在一周内进入了 Hugging Face 最受喜欢的前 40 名应用榜单(共约 25000),也迅速出现了很多基于 AudioLDM 的衍生工作。



推荐:开源模型、单卡训练,带你了解爆火的文本指导音频生成技术 AudioLDM。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Chinese University Offers Course to Excel in Civil Service Exam超越GPT 3.5的小模型来了!参加为体育生开办的训练营微软再扔AI聊天画图炸弹!视觉模型加持ChatGPT,Visual ChatGPT横空出世我们的孩子该如何应对ChatGPT挑战?德国科学家爸爸这样说8点1氪:复旦MOSS团队回应内测国内首个类ChatGPT模型;全球第5例艾滋病治愈者出现;10省份放宽公务员年龄限制至40周岁【双龙喜相逢】贺春龙12+《最远的你是我最近的爱》斜阳FT.碧蓝天谷歌内部发“红色代码”警告,CEO 亲自部署重组 AI 业务以应对ChatGPT威胁斯坦福等学者对ChatGPT做了在NLP几乎所有任务上的优劣势分析佛罗伦萨,乌菲齐、老廊桥、及其建筑师突然出手!意大利封杀ChatGPT!马斯克也下场呼吁限制ChatGPT!AI发展可能超越人类思维?ChatGPT真的是「通才」吗?杨笛一等人给它来了个摸底考试马云现身杭州29秒视频曝光,打脸外媒,发表对ChatGPT的看法ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇微信回应头像褪色,部分C刊不准隐瞒ChatGPT使用,微软推进裁员,Opera新版集成ChatGPT,这就是今天的其它大新闻!7 Papers & Radios | GPT-4学会反思;ChatGPT数据标注比人便宜20倍7 Papers & Radios | 一块GPU跑ChatGPT体量模型;AI绘图又一神器ControlNet对ChatGPT的焦虑,可能是人类存在主义的忧伤法国、西班牙对 ChatGPT 展开调查;知乎发布知海图 AI 中文大模型;FF91 首款量产车下线 | 极客早知道FastTrack Universität 2023莱比锡大学公立语言项目招生简章特斯拉超算芯片,可超越GPGPU?集成ChatGPT后必应日活量首破亿!微软推出Azure OpenAI ChatGPT 服务,GPT-4下周发布ChatGPT封杀潮,禁入学校,AI顶会特意改规则,LeCun:要不咱把小模型也禁了?开源版ChatGPT来了?多数任务效果超越GPT3,已开源!科早ChatGPT:如何应对ChatGPT?二级市场闭门研讨会精选 | S7E01 硅谷徐老师爱的雕像7 Papers & Radios | Meta「分割一切」AI模型;从T5到GPT-4盘点大语言模型【南北碰碰胡】北方#43《穿过你的黑发的我的手》百度版ChatGPT确定为“文心一言”/ 戴尔裁员5%/ 苹果要开会应对ChatGPT…今日更多新鲜事在此Stealing Large Language Models: 关于对ChatGPT进行模型窃取的一些工作包邮送6本!NLP与ChatGPT的碰撞:大模型和小模型联合发力应对ChatGPT,中国AI需要这三种能力一期针对ChatGPT的全面测评:涵盖功能、性能、用户体验 |InfoQ测评室微软发布Visual ChatGPT:视觉模型加持ChatGPT实现丝滑聊天倪闽景:面对ChatGPT,传统教育已被逼入墙角?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。