Redian新闻
>
7 Papers | 浙大研究获SIGMOD 2023最佳论文;GPT-4拿下最难数学推理数据集新SOTA

7 Papers | 浙大研究获SIGMOD 2023最佳论文;GPT-4拿下最难数学推理数据集新SOTA

公众号新闻

机器之心 & ArXiv Weekly 

参与:楚航、罗若天、梅洪源

本周论文包括 10% 成本定制专属类 GPT-4 多模态大模型;GPT-4 拿下最难数学推理数据集新 SOTA 等研究。


目录:

  1. Transfer Visual Prompt Generator across LLMs 
  2. Progressive-Hint Prompting Improves Reasoning in Large Language Models
  3. AutoML-GPT: Automatic Machine Learning with GPT
  4. MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers
  5. Unlimiformer: Long-Range Transformers with Unlimited Length Input 
  6. Detecting Logic Bugs of Join Optimizations in DBMS
  7. REASONER: An Explainable Recommendation Dataset with Multi-aspect Real User Labeled Ground Truths

论文 1:Transfer Visual Prompt Generator across LLMs

  • 作者:Ao Zhang 、 Hao Fei 等
  • 论文地址:https://arxiv.org/pdf/2305.01278.pdf

摘要:本文提出的 VPGTrans 方法,可以快速 (少于 10% 训练时间) 将已有的多模态对话模型的视觉模块迁移到新的语言模型,且达到类似或更优效果。比如,相比于从头训练视觉模块,本文可以将 BLIP-2 FlanT5-XXL 的训练开销从 19000 + 人民币缩减到不到 1000 元:


通过 VPGTrans 框架可以根据需求为各种新的大语言模型灵活添加视觉模块。比如在 LLaMA-7B 和 Vicuna-7B 基础上制作了 VL-LLaMA 和 VL-Vicuna。

开源多模态对话模型:本文开源了 VL-Vicuna,可实现高质量的多模态对话:


推荐:10% 成本定制专属类 GPT-4 多模态大模型。

论文 2:Progressive-Hint Prompting Improves Reasoning in Large Language Models

  • 作者:Chuanyang Zheng、Zhengying Liu 等
  • 论文地址:https://arxiv.org/abs/2304.09797

摘要:近期,华为联和港中文发表论文《Progressive-Hint Prompting Improves Reasoning in Large Language Models》,提出 Progressive-Hint Prompting (PHP),用来模拟人类做题过程。在 PHP 框架下,Large Language Model (LLM) 能够利用前几次生成的推理答案作为之后推理的提示,逐步靠近最终的正确答案。要使用 PHP,只需要满足两个要求: 1) 问题能够和推理答案进行合并,形成新的问题;2) 模型可以处理这个新的问题,给出新的推理答案。


结果表明,GP-T-4+PHP 在多个数据集上取得了 SOTA 结果,包括 SVAMP (91.9%), AQuA (79.9%), GSM8K (95.5%) 以及 MATH (53.9%)。该方法大幅超过 GPT-4+CoT。比如,在现在最难的数学推理数据集 MATH 上,GPT-4+CoT 只有 42.5%,而 GPT-4+PHP 在 MATH 数据集的 Nember Theory (数论) 子集提升 6.1%, 将 MATH 整体提升到 53.9%,达到 SOTA。

推荐:GPT-4 拿下最难数学推理数据集新 SOTA。

论文 3:AutoML-GPT: Automatic Machine Learning with GPT

  • 作者:Shujian Zhang、Chengyue Gong 等
  • 论文地址:https://papers.labml.ai/paper/35151be0eb2011edb95839eec3084ddd

摘要:近期,来自德克萨斯州大学奥斯汀分校的研究者提出一种新思路 —— 开发任务导向型 prompt,利用 LLM 实现训练 pipeline 的自动化,并基于此思路推出新型系统 AutoML-GPT。

AutoML-GPT 使用 GPT 作为各种 AI 模型之间的桥梁,并用优化过的超参数来动态训练模型。AutoML-GPT 动态地接收来自 Model Card [Mitchell et al., 2019] 和 Data Card [Gebru et al., 2021] 的用户请求,并组成相应的 prompt 段落。最后,AutoML-GPT 借助该 prompt 段落自动进行多项实验,包括处理数据、构建模型架构、调整超参数和预测训练日志。

AutoML-GPT 通过最大限度地利用其强大的 NLP 能力和现有的人工智能模型,解决了各种测试和数据集中复杂的 AI 任务。大量实验和消融研究表明,AutoML-GPT 对许多人工智能任务(包括 CV 任务、NLP 任务)是通用的、有效的。


推荐:通用系统 AutoML-GPT 来了。

论文 4:MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers

  • 作者:Lili Yu 、 Daniel Simig 等
  • 论文地址:https://arxiv.org/pdf/2305.07185.pdf

摘要:Meta AI 发表的一篇新论文,提出了一种名为「 MEGABYTE」的多尺度解码器架构,可以对超过一百万字节的序列进行端到端可微建模。

重要的是,该论文展现出了抛弃 tokenization 的可行性,被 Karpathy 评价为「很有前途(Promising)」。

该方法将字节序列分割成固定大小的 patch,和 token 类似。

MEGABYTE 模型由三部分组成:

1. patch 嵌入器,它通过无损地连接每个字节的嵌入来简单地编码 patch;
2. 全局模块 —— 带有输入和输出 patch 表征的大型自回归 transformer;
3. 局部模块 —— 一个小型自回归模型,可预测 patch 中的字节。

至关重要的是,该研究发现对许多任务来说,大多数字节都相对容易预测(例如,完成给定前几个字符的单词),这意味着没有必要对每个字节都使用大型神经网络,而是可以使用小得多的模型进行 intra-patch 建模。


推荐:一定要「分词」吗?Andrej Karpathy:是时候抛弃这个历史包袱了。

论文 5:Unlimiformer: Long-Range Transformers with Unlimited Length Input

  • 作者:Amanda Bertsch 、 Uri Alon 等
  • 论文地址:https://arxiv.org/pdf/2305.01625v1.pdf

摘要:来自卡内基梅隆大学的研究者引入了 Unlimiformer。这是一种基于检索的方法,这种方法增强了预训练的语言模型,以在测试时接受无限长度的输入。

Unlimiformer 可以被注入到任何现有的编码器 - 解码器 transformer 中,能够处理长度不限的输入。给定一个长的输入序列,Unlimiformer 可以在所有输入 token 的隐藏状态上构建一个数据存储。然后,解码器的标准交叉注意力机制能够查询数据存储,并关注前 k 个输入 token。数据存储可以存储在 GPU 或 CPU 内存中,能够次线性查询。

Unlimiformer 可以直接应用于经过训练的模型,并且可以在没有任何进一步训练的情况下改进现有的 checkpoint。Unlimiformer 经过微调后,性能会得到进一步提高。本文证明,Unlimiformer 可以应用于多个基础模型,如 BART(Lewis et al.,2020a)或 PRIMERA(Xiao et al.,2022),且无需添加权重和重新训练。在各种长程 seq2seq 数据集中,Unlimiformer 不仅在这些数据集上比 Longformer(Beltagy et al.,2020b)、SLED(Ivgi et al.,2022)和 Memorizing transformers(Wu et al.,2021)等强长程 Transformer 表现更好,而且本文还发现 Unlimiform 可以应用于 Longformer 编码器模型之上,以进行进一步改进。



推荐:Unlimiformer 把上下文长度拉到无限长。

论文 6:Detecting Logic Bugs of Join Optimizations in DBMS

  • 作者机构:浙江大学

摘要:浙大的研究者提出了一种名为 Transformed Query Synthesis(TQS)的方法。在检测 DBMS 中连接优化的逻辑漏洞任务上,TQS 是一种普适且成本高效的全新工具。

为了展现该方法的通用性和有效性,研究者在四个常用 DBMS 上对 TQS 进行了评估:MySQL、MariaDB、TiDB 和 PolarDB。运行了 24 小时后,TQS 成功找到了 115 个漏洞,包括 MySQL 中 31 个、MariaDB 中 30 个、TiDB 中 31 个、PolarDB 中 23 个。通过分析根本原因,可归纳出这些漏洞的类型,其中 MySQL 中的漏洞有 7 种、MariaDB 有 5 种、TiDB 有 5 种、PolarDB 有 3 种。研究者已经将发现的漏洞提交给相应的社区并且收到了积极的反馈。

图 2 给出了 TQS 的架构概况。给定一个基准数据集和目标 DBMS,TQS 通过基于数据集生成查询来搜索 DBMS 可能存在的逻辑漏洞。TQS 有两大关键组件:数据引导的模式和查询生成(DSG)和知识引导的查询空间探索(KQE):


推荐:浙大研究获 SIGMOD 2023 最佳论文。

论文 7:REASONER: An Explainable Recommendation Dataset with Multi-aspect Real User Labeled Ground Truths

  • 作者:Xu Chen 、 Jingsen Zhang 等
  • 论文地址:https://arxiv.org/pdf/2303.00168.pdf

摘要:来自中国人民大学和华为的研究者联合构建了一个新的可解释推荐数据集 ——REASONER (Real Users Labeled Multi-aspect Explanations for Explainable Recommendation)。

该数据集构建于视频推荐场景,包含了多种推荐解释目的的真值,例如,增强推荐说服力、解释信息量以及用户满意度等。可广泛应用于可解释推荐、推荐系统纠偏以及基于心理学的推荐等领域。同时,该研究也开发了一个可解释推荐工具包,包含了十个知名的可解释推荐模型方便大家使用。

REASONER 数据集具有以下几个亮点:

  • 多模态的候选解释:用户可以根据自身偏好为每个推荐的视频选择文本解释或视觉解释。
  • 多方面的解释真值:从推荐说服力、解释信息量和用户满意度三个方面提供推荐解释真值。
  • 真实用户标注:数据集中的解释真值的标注者正是产生交互记录的人。
  • 丰富的用户特征:该研究收集了参与用户的多方面的特征信息(已脱敏)。

推荐:多角度、真实用户标注,人大 & 华为推出可解释推荐数据集 REASONER。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ACL 2023最佳论文出炉!CMU西交大等摘桂冠,杰出论文奖华人学者占半壁江山7 Papers & Radios | GPT-4学会反思;ChatGPT数据标注比人便宜20倍7 Papers & Radios | OpenAI用GPT-4解释GPT-2;Meta开源多感官基础模型浙大研究生公务员考试排第一,因4年前发表辱华言论被举报后,官方回应长篇小说《如絮》第一百零三章 哈尔滨-1952-1953年 2 任务GPT-4拿下最难数学推理数据集新SOTA,新型Prompting让大模型推理能力狂升爆火的「GPT-4 MIT本科数学满分」论文作弊,数据集本身有问题大幅优化推理过程,字节高性能Transformer推理库获IPDPS 2023最佳论文奖【23年5月】心内科上月最受关注的SCI论文;这个医院发布的论文累计影响因子最高ChatGPT自己会选模型了!微软亚研院+浙大爆火新论文,HuggingGPT项目已开源意外地好!!!!!Microsoft 必应图像创建者ChatGPT长出狗身子!波士顿动力ChatGPT狗,说话、整理数据超级6【23年5月】心外科上月最受关注的SCI论文;这个医院发表的论文累计影响因子最高北工大校友Cheng Zhang获SIGGRAPH最佳博士论文奖中国团队自动驾驶大模型斩获CVPR最佳论文;Stability AI推出新文生图模型;京东大模型即将发布丨AIGC大事日报首个感知决策一体化自动驾驶通用大模型!商汤联合团队获CVPR 2023最佳论文二年级选课,忽闻一夜 GPT 来,千课 万课 AI 开SIGGRAPH 2023最佳论文公布!山大、港大获奖!北大、腾讯光子获提名近十年首次,国内机构上海AI Lab、武大、商汤研究获CVPR 2023最佳论文风靡全美的数学启蒙读物,美国小学推荐教材!不一样的教学方式,让孩子天然亲近数学,爱上数学!ACL 2023奖项公布:3篇最佳论文、39篇杰出论文,多家国内机构上榜OpenAI出手解决GPT-4数学推理:做对一步立刻奖励!论文数据集全开放,直接拿下SOTA爱晒衣服的日本人斜风细雨不须归九剑一魂 - 第23回 太子遇害 贾后伏诛(九)MGM、MolGPT、PAR、Uni-Mol、K-Bert、MolCLR…你都掌握了吗?一文总结生物制药必备经典模型(三)等了49年!!!中国大陆首个SIGMOD最佳论文奖出炉!!!联合浙大斩获SIGMOD最佳论文,PolarDB团队解读产学合作新范式韦神出的这道题火了,GPTCVPR 2023最佳论文候选!真实高精3D物体数据集OmniObject3D一天自动发现四大数据库100+漏洞,浙大研究获SIGMOD 2023最佳论文上海AI实验室联合团队获CVPR最佳论文奖 | CVPR 2023LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理阿里开源大模型治理数据集;华为推出AI存储新品;OpenAI被美国FTC调查丨AIGC大事日报CVPR 2023最佳论文候选出炉!武大、港中文、商汤等国内机构多篇入选CVPR 2023最佳论文候选出炉,12篇上榜!武大、港中文、商汤等国内机构多篇入选AAAI 2023 | 浙大成像实验室创建ReLoBlur数据集及LBAG局部模糊感知门控网络
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。