Redian新闻
>
7 Papers & Radios | Meta「分割一切」AI模型;从T5到GPT-4盘点大语言模型

7 Papers & Radios | Meta「分割一切」AI模型;从T5到GPT-4盘点大语言模型

公众号新闻

机器之心 & ArXiv Weekly 

参与:楚航、罗若天、梅洪源

本周论文包括 Meta 发布「分割一切」AI 模型;国内 20 余位研究者联合撰写大型语言模型综述等。


目录


  1. Segment Anything

  2. Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning

  3. A Survey of Large Language Models

  4. HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace

  5. RPTQ: Reorder-based Post-training Quantization for Large Language Models

  6. Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners

  7. MATHPROMPTER: MATHEMATICAL REASONING USING LARGE LANGUAGE MODELS 

  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Segment Anything


  • 作者:Alexander Kirillov、Eric Mintun 等

  • 论文地址:https://arxiv.org/abs/2304.02643


摘要:Meta 发布了新模型 Segment Anything Model (SAM) 。他们在博客中介绍说,「SAM 已经学会了关于物体的一般概念,并且它可以为任何图像或视频中的任何物体生成 mask,甚至包括在训练过程中没有遇到过的物体和图像类型。SAM 足够通用,可以涵盖广泛的用例,并且可以在新的图像『领域』上即开即用,无需额外的训练。」在深度学习领域,这种能力通常被称为零样本迁移,这也是 GPT-4 震惊世人的一大原因。


除了模型,Meta 还发布了一个图像注释数据集 Segment Anything 1-Billion (SA-1B),据称这是有史以来最大的分割数据集。该数据集可用于研究目的,并且 Segment Anything Model 在开放许可 (Apache 2.0) 下可用。


如下面动图所示,SAM 能很好的自动分割图像中的所有内容:



推荐:Meta 发布「分割一切」AI 模型,CV 或迎来 GPT-3 时刻。


论文 2:Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning


  • 作者:Pan Lu、Liang Qiu 等

  • 论文地址:https://arxiv.org/abs/2209.14610


摘要:来自 UCLA 和艾伦人工智能研究院(AI2) 的研究人员推出了 Tabular Math Word Problems (TabMWP) ,这是一个包含了 38,431 个开放领域问题的数据集,需要同时在文本和表格数据上进行数学推理得到正确答案。TabMWP 中的每个问题都与一个上下文相关联,这个上下文包含图片、文本或结构化格式的表格。


研究人员在 TabMWP 上评估了包括 Few-shot GPT-3 等不同的预训练模型。正如已有的研究发现,Few-shot GPT-3 很依赖 in-context 示例的选择,这导致其在随机选择示例的情况下性能相当不稳定。这种不稳定在处理像 TabMWP 这样复杂的推理问题时表现得更加严重。为了解决这一问题,作者提出了 PromptPG 方法,这种方法将示例的选择转化成强化学习中的 contextual bandit 问题,并且利用 Policy Gradient 训练一个策略网络来学习从少量的训练数据中选择最优的 in-context 示例。实验结果表明,他们提出的 PromptPG 方法在回答问题的准确性上超过最优基准(Few-shot CoT GPT-3)5.31%,并且相对于随机选择的 in-context examples,他们的方法显著降低了预测的方差,提升了这类方法的稳定性。



推荐:PromptPG:当强化学习遇见大规模语言模型。


论文 3:A Survey of Large Language Models


  • 作者:Wayne Xin Zhao、Kun Zhou 等

  • 论文地址:https://arxiv.org/abs/2303.18223


摘要:考虑到 LLMs 的快速技术进步,中国人民大学的二十几位研究者通过背景知识、关键发现和主流技术等三方面回顾了 LLMs 的最新进展,尤其关注 LLMs 的预训练、自适应调优、使用和能力评估。此外他们还总结和开发 LLMs 的可用资源,讨论了未来发展方向等问题。对于领域内研究人员和工程师而言,这份综述是一份极其有用的学习资源。


在进入正文前,我们先来看 2019 年以来出现的各种大语言模型(百亿参数以上)时间轴,其中标黄的大模型已开源。



推荐:大型语言模型综述全新出炉:从 T5 到 GPT-4 最全盘点,国内 20 余位研究者联合撰写。


论文 4:HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace


  • 作者:Yongliang Shen、Kaitao Song 等

  • 论文地址:https://arxiv.org/abs/2303.17580


摘要:来自浙江大学和微软亚研的研究者最近提出了一种让 LLM 充当控制器的新方法,让 LLM 来管理现有的 AI 模型以解决复杂的 AI 任务,并且使用语言作为通用接口。该研究提出的 HuggingGPT 是一个利用 LLM 连接机器学习社区(例如 HuggingFace)中各种 AI 模型以解决复杂 AI 任务的系统。


具体来说,HuggingGPT 在收到用户请求时使用 ChatGPT 进行任务规划,根据 HuggingFace 中可用的功能描述选择模型,用选定的 AI 模型执行每个子任务,并根据执行结果汇总响应。借助 ChatGPT 强大的语言能力和 HuggingFace 丰富的 AI 模型,HuggingGPT 能够完成覆盖不同模态和领域的复杂 AI 任务,并在语言、视觉、语音等具有挑战性的任务中取得了令人印象深刻的结果。HuggingGPT 为走向通用人工智能开辟了一条新的道路。


HuggingGPT 是一个协作系统,大型语言模型(LLM)充当控制器、众多专家模型作为协同执行器。其工作流程共分为四个阶段:任务规划、模型选择、任务执行和响应生成。



推荐:用 ChatGPT「指挥」数百个模型,HuggingGPT 让专业模型干专业事。


论文 5:RPTQ: Reorder-based Post-training Quantization for Large Language Models


  • 作者:Zhihang Yuan

  • 论文地址:https://arxiv.org/abs/2304.01089


摘要:在这篇论文中,来自后摩智能、腾讯 AI Lab、华中科技大学、北京大学、伊利诺伊理工学院的研究人员发现量化大型语言模型的主要挑战来自于通道之间不同的激活范围,而不仅仅是离群值问题。


作者提出了一种新颖的基于重排序的量化方法 RPTQ,解决了量化大型语言模型激活的问题。RPTQ 通过重新排列激活中的通道,然后将它们分簇进行量化,从而降低通道范围差异的影响。


此外,作者通过避免显式重新排序来减少存储和计算开销。该工作首次将 LLM 模型的激活量化推向 3 比特。激活值的 3 比特量化同时也能与权重的 3 比特量化共同使用,大幅度降低了大型欲言模型的开销。


推荐:基于重排序的新量化方法RPTQ。


论文 6:Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners


  • 作者:Zitian Chen、Yikang Shen 等

  • 论文地址:https://arxiv.org/abs/2212.08066


摘要:UMass Amherst 淦创团队提出了 Mod-Squad 模型,它可以从多任务大模型中提取针对单一任务的相同性能小模型,在 Taskonomy 大数据集和 PASCALContext 数据集上取得了最佳效果。


如下图所示, Mod-Squad 的结构就是将 Mixture-of-expert (MoE) 引入 Vision Transformer (ViT)。MoE 是一种机器学习模型,其中多个专家组成了一个混合模型。每个专家都是一个独立的模型,并且每个模型对于不同的输入有不同的贡献。最后,所有专家的贡献被加权并组合在一起以得到最终的输出。这种方法的优势在于它可以根据输入图像的内容动态地选择最佳的专家并且控制计算量。


Mod-Squad: 将专家组 (mixture-of-expert) 插入到 Vision Transformer.


推荐:模块化 MoE 将成为视觉多任务学习基础模型。


论文 7:MATHPROMPTER: MATHEMATICAL REASONING USING LARGE LANGUAGE MODELS


  • 作者:Shima Imani 、Liang Du 等

  • 论文地址:https://arxiv.org/pdf/2303.05398.pdf


摘要:来自微软的研究者从人类解决数学问题的方式中获得灵感,将其分解为更简单的多步骤程序,并在每个步骤中利用多种方式来验证他们的方法。


本文提出的方法 ——MathPrompter,就是试图将这种思维过程的一部分转移到大型语言模型答案生成过程中。图 1 概述了 MathPrompter 解决一个数学推理问题所遵循的步骤。



推荐:让大模型像学生一样解数学题,正确率提升 14%,微软的 MathPrompter 了解一下。


ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天、梅洪源发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:

本周 10 篇 NLP 精选论文是:


1. MEGClass: Text Classification with Extremely Weak Supervision via Mutually-Enhancing Text Granularities.  (from Jiawei Han)

2. On the Pareto Front of Multilingual Neural Machine Translation.  (from Liang Chen)

3. oBERTa: Improving Sparse Transfer Learning via improved initialization, distillation, and pruning regimes.  (from ChengXiang Zhai)

4. To Asymmetry and Beyond: Structured Pruning of Sequence to Sequence Models for Improved Inference Efficiency.  (from ChengXiang Zhai)

5. REFINER: Reasoning Feedback on Intermediate Representations.  (from Boi Faltings)

6. Self-Refine: Iterative Refinement with Self-Feedback.  (from Yiming Yang)

7. Lego-Features: Exporting modular encoder features for streaming and deliberation ASR.  (from Tara N. Sainath)

8. Practical Conformer: Optimizing size, speed and flops of Conformer for on-Device and cloud ASR.  (from Tara N. Sainath)

9. Instruction Tuning with GPT-4.  (from Jianfeng Gao)

10. Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations.  (from Dragomir Radev)

本周 10 篇 CV 精选论文是:


1. Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime.  (from Andrew Zisserman)

2. Where are we in the search for an Artificial Visual Cortex for Embodied Intelligence?.  (from Pieter Abbeel, Jitendra Malik)

3. Bridging the Gap between Model Explanations in Partially Annotated Multi-label Classification.  (from Cordelia Schmid)

4. Segment Anything.  (from Alexander C. Berg, Piotr Dollár, Ross Girshick)

5. HaLP: Hallucinating Latent Positives for Skeleton-based Self-Supervised Learning of Actions.  (from Rama Chellappa)

6. JacobiNeRF: NeRF Shaping with Mutual Information Gradients.  (from Leonidas Guibas)

7. GINA-3D: Learning to Generate Implicit Neural Assets in the Wild.  (from Leonidas Guibas, Dragomir Anguelov)

8. VDN-NeRF: Resolving Shape-Radiance Ambiguity via View-Dependence Normalization.  (from Leonidas Guibas)

9. Diffusion Action Segmentation.  (from Mubarak Shah)

10. DexDeform: Dexterous Deformable Object Manipulation with Human Demonstrations and Differentiable Physics.  (from Hao Su, Joshua B. Tenenbaum)

本周 10 篇 ML 精选论文是:


1. Scalable Bayesian Meta-Learning through Generalized Implicit Gradients.  (from Georgios B. Giannakis)

2. GenPhys: From Physical Processes to Generative Models.  (from Max Tegmark)

3. Accelerating exploration and representation learning with offline pre-training.  (from Doina Precup, Rob Fergus)

4. Counterfactual Learning on Graphs: A Survey.  (from Charu Aggarwal)

5. On the Effect of Initialization: The Scaling Path of 2-Layer Neural Networks.  (from Michael Unser)

6. PopulAtion Parameter Averaging (PAPA).  (from Yan Zhang)

7. A Survey on Vertical Federated Learning: From a Layered Perspective.  (from Kai Chen)

8. Accelerating Wireless Federated Learning via Nesterov's Momentum and Distributed Principle Component Analysis.  (from Victor C. M. Leung)

9. ConvBLS: An Effective and Efficient Incremental Convolutional Broad Learning System for Image Classification.  (from C. L. Philip Chen, Tong Zhang)

10. E($3$) Equivariant Graph Neural Networks for Particle-Based Fluid Mechanics.  (from Johannes Brandstetter)


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CV不存在了?Meta发布"分割一切"AI模型,CV或迎来GPT-3时刻!分割一切后,SAM又能分辨类别了:Meta/UTAustin提出全新开放类分割模型卷爆CV!46篇分割一切模型(SAM)二创论文大盘点Meta最新语言模型LLaMA论文研读:小参数+大数据的开放、高效基础语言模型阅读笔记单卡就能跑的大模型等效GPT-3!Meta发布大语言模型LLaMA,大小从7B到65B不等宁可离婚也要回国当「分割一切」遇上图像修补:无需精细标记,单击物体实现物体移除、内容填补、场景替换FastTrack Universität 2023莱比锡大学公立语言项目招生简章Meta 突然宣布,明天要再次裁员4000人!Meta新模型“分割一切”:抠图完成究极进化,计算机视觉迎来GPT-3时刻邓小平给华国锋效忠信三上得逞用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型CV不存在了?Meta发布「分割一切」AI 模型,CV或迎来GPT-3时刻Meta 股票今天大跌,花街也看不过天天裁员的公司老板了一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了Meta发布全新大语言模型,号称比ChatGPT更强,单GPU上就能跑,后续或将开源Meta「分割一切」超进化版来了!IDEA领衔国内顶尖团队打造:检测、分割、生成一切,狂揽2k星华人团队颠覆CV!SEEM完美分割一切爆火,一键分割「瞬息全宇宙」Meta版ChatGPT来了?小扎、LeCun官宣650亿参数SOTA大语言模型LLaMA褪黑素能预防睡眠不足导致的记忆缺陷;大型语言模型综述全新出炉:从T5到GPT-4最全盘点|本周论文推荐7 Papers & Radios | OpenAI用GPT-4解释GPT-2;Meta开源多感官基础模型重磅!CV不存在了?CV或迎来GPT-3时刻,Meta发布「分割一切」AI 模型AI分割一切!智源提出通用分割模型SegGPT,「一通百通」的那种大型语言模型综述全新出炉!从T5到GPT-4最全盘点,国内20余位研究者联合撰写分割一切深度图!港科技、南洋理工等开源「SAD」:根据几何信息分割图像分割一切还不够,还要检测一切、生成一切,SAM二创开始了从LLM到MLLM,多模态大规模语言模型KOSMOS-1赋予了语言模型看见世界的能力Google/Meta/Amazon狗脸麻LAYOFF后大面积招人Meta staff engineer 被layoff 了,要卖房了7 Papers & Radios | 一块GPU跑ChatGPT体量模型;AI绘图又一神器ControlNet流浪地球二观后感分割一切又一力作!北京智源提出通用分割模型SegGPT分割一切后,Segment Anything又能分辨类别了:Meta/UTAustin提出全新开放类分割模型NLP大规模语言模型推理实战:大语言模型BLOOM推理工具测试实践与效果分析实录3D版「分割一切」来了!NUS华人团队最新模型,单视图重建3D,又快又准谢霆锋和王菲11年的感情,终于输给了钱,身家10亿,看清这段感情案例山东一维修工人惦记女主人,在卧室发生关系,女子崩溃报警Meta/G被竞争同事抢先升Manager怎么办比SAM分割一切更全能!华人团队提出SEEM:通用分割新模型大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。