Redian新闻
>
7 Papers & Radios | AI绘画引入人类反馈;微软多模态ChatGPT?

7 Papers & Radios | AI绘画引入人类反馈;微软多模态ChatGPT?

公众号新闻

机器之心 & ArXiv Weekly 

参与:楚航、罗若天、梅洪源

本周重要论文包括谷歌研究院和加州大学伯克利分校在文本到图像模型中引入人类反馈、以及微软最新的多模态大模型等


目录:

  1. Language Is Not All You Need: Aligning Perception with Language Models
  2. Learning Harmonic Molecular Representations on Riemannian Manifold
  3. Single-cell biological network inference using a heterogeneous graph transformer
  4. Towards Stable Test-time Adaptation in Dynamic Wild World
  5. A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT
  6. Aligning Text-to-Image Models using Human Feedback
  7. Large Torsion Thin Artificial Muscles Tensegrity Structure for Twist Manipulation
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)

论文 1:Language Is Not All You Need: Aligning Perception with Language Models

  • 作者:Shaohan Huang 等
  • 论文地址:https://arxiv.org/pdf/2302.14045.pdf


摘要:微软团队介绍了一个多模态大型语言模型(MLLM)——KOSMOS-1,它可以感知一般模态、遵循指令(零样本学习)以及在上下文中学习(少样本学习)。研究目标是使感知与 LLM 保持一致,模型能够看到(see)和说话(talk)。研究者按照 METALM 的方式从头开始训练 KOSMOS-1。

推荐:微软多模态 ChatGPT 来了?16 亿参数搞定看图答题、智商测验等任务。

论文 2:Learning Harmonic Molecular Representations on Riemannian Manifold

  • 作者:Yiqun Wang 等
  • 论文地址:https://openreview.net/pdf?id=ySCL-NG_I3


摘要:分子表示学习在 AI 辅助药物发现研究中起着至关重要的作用。在传统药物研发中,常用的分子对接模型需要进行大量的构型采样与优化,并筛选出较为稳定的结构。这类策略效率较低,难以应用于高通量的蛋白质对接任务。

本文介绍的基于分子表面黎曼流形的深度学习表示方法 (Harmonic Molecular Representation, HMR) 实现了更准确、高效的蛋白质对接模型开发。HMR 用二维黎曼流形建模分子表面,结合调合分析技术与神经网络实现流形上几何、化学信号的多尺度传播和两个蛋白质表面之间的匹配度比较,进而利用「蛋白质拼图」的逻辑实现蛋白质分子刚性对接 (rigid protein docking) 。实验表明,基于 HMR 的分子对接模型比当前深度学习 SOTA [1] 有更高的准确性,并且较传统分子对接方法提速 100 倍以上。

推荐:ICLR 2023 | 初探 AI 拼图模型预测蛋白质复合物结构。

论文 3:Single-cell biological network inference using a heterogeneous graph transformer

  • 作者:Anjun Ma 等


  • 论文地址:https://www.nature.com/articles/s41467-023-36559-0#Sec9



摘要:单细胞多组学 (scMulti-omics) 技术允许同时量化多种模态,以捕捉复杂分子机制和细胞异质性的复杂性。现有工具无法有效地推断出不同细胞类型中 active 生物网络以及这些网络对外部刺激的反应。

山东大学等多机构研究团队开发了基于深度学习的单细胞数据多组学分析平台 ——DeepMAPS,用于从 scMulti-omics 进行生物网络推理。DeepMAPS 在异构图中对 scMulti-omics 进行建模,并使用多头图(multi-head graph)Transformer 以稳健的方式学习局部和全局上下文中的细胞和基因之间的关系。

推荐:山东大学团队提出基于异构图 Transformer 的单细胞生物网络推理。

论文 4:Towards Stable Test-time Adaptation in Dynamic Wild World

  • 作者:Shuaicheng Niu 等
  • 论文地址:https://openreview.net/pdf?id=g2YraF75Tj


摘要:测试时自适应(Test-Time Adaptation,TTA)方法在测试阶段指导模型进行快速无监督 / 自监督学习,是当前用于提升深度模型分布外泛化能力的一种强有效工具。然而在动态开放场景中,稳定性不足仍是现有 TTA 方法的一大短板,严重阻碍了其实际部署。

为此,来自华南理工大学、腾讯 AI Lab 及新加坡国立大学的研究团队,从统一的角度对现有 TTA 方法在动态场景下不稳定原因进行分析,指出依赖于 Batch 的归一化层是导致不稳定的关键原因之一,另外测试数据流中某些具有噪声 / 大规模梯度的样本容易将模型优化至退化的平凡解。基于此进一步提出锐度敏感且可靠的测试时熵最小化方法 SAR,实现动态开放场景下稳定、高效的测试时模型在线迁移泛化。本工作已入选 ICLR 2023 Oral。

如下为 Test-Time Adaptation 示意图及其与现有方法特点对比。

推荐:Batch Norm 层等暴露 TTA 短板,开放环境下解决方案来了。

论文 5:A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT

  • 作者:Ce Zhou 等 
  • 论文地址:https://arxiv.org/pdf/2302.09419.pdf


摘要:在最近的一篇综述文章中,来自密歇根州立大学、北京航空航天大学、理海大学等机构的研究者仔细梳理了该领域的几百篇论文,主要聚焦文本、图像和图学习领域的预训练基础模型,值得一读。杜克大学教授、加拿大工程院院士裴健,伊利诺大学芝加哥分校计算机科学系特聘教授俞士纶,Salesforce AI Research 副总裁熊蔡明都是该论文作者之一。

推荐:从 BERT 到 ChatGPT,百页综述梳理预训练大模型演变史。

论文 6:Aligning Text-to-Image Models using Human Feedback

  • 作者:Kimin Lee 等
  • 论文地址:https://arxiv.org/pdf/2302.12192v1.pdf


摘要:语言建模领域,从人类反馈中学习已经成为一种用来「对齐模型行为与人类意图」的强大解决方案。这类方法通过人类对模型输出的反馈,首先学习一个旨在反映人类在任务中所关心内容的奖励函数,通过一种强化学习算法(如近端策略优化 PPO)使用学得的奖励函数来优化语言模型。这种带有人类反馈框架的强化学习(RLHF)已经成功地将大规模语言模型(例如 GPT-3)与复杂的人类质量评估结合起来。

近日,受 RLHF 在语言领域的成功,谷歌研究院和加州伯克利的研究者提出了使用人类反馈来对齐文本到图像模型的微调方法

推荐:学习 ChatGPT,AI 绘画引入人类反馈会怎样?。

论文 7:Large Torsion Thin Artificial Muscles Tensegrity Structure for Twist Manipulation

  • 作者:Ryota Kobayashi 等
  • 论文地址:https://ieeexplore.ieee.org/document/10016717


摘要:在制造机器人的过程中,灵活、适当地组合各种性能是一项挑战任务,因为这些性能有时是相互矛盾的。比方制造一个既灵活又强壮的机器人并非易事,但也不是不可能。最近一项研究中,东京工业大学制造出了这样一种机器人,它具有高度灵活性,同时仍保持其「肌肉」内的高度张力,使其躯体能进行充分的扭转,从而完成困难的任务。研究结果发表在 1 月 13 日的《IEEE 机器人和自动化通讯》。 

推荐:拧瓶盖螺丝,高度灵活的柔性机器人为你开可口可乐。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天、梅洪源发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:
本周 10 篇 NLP 精选论文是:
1. ChatAug: Leveraging ChatGPT for Text Data Augmentation.  (from Wei Liu, Dinggang Shen)
2. Competence-Based Analysis of Language Models.  (from ChengXiang Zhai)
3. Automatic Prompt Augmentation and Selection with Chain-of-Thought from Labeled Data.  (from Tong Zhang)
4. Frauds Bargain Attack: Generating Adversarial Text Samples via Word Manipulation Process.  (from Wei Liu)
5. Dependency Dialogue Acts -- Annotation Scheme and Case Study.  (from Martha Palmer, Marilyn Walker)
6. Augmented Transformers with Adaptive n-grams Embedding for Multilingual Scene Text Recognition.  (from Yaochu Jin)
7. Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback.  (from Jianfeng Gao)
8. Interactive Text Generation.  (from Jianfeng Gao)
9. ProofNet: Autoformalizing and Formally Proving Undergraduate-Level Mathematics.  (from Dragomir Radev)
10. Soft Prompt Guided Joint Learning for Cross-Domain Sentiment Analysis.  (from Yi Yang)

本周 10 篇 CV 精选论文是:
1. Decoupling Human and Camera Motion from Videos in the Wild.  (from Jitendra Malik)
2. Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning.  (from Ivan Laptev, Josef Sivic, Cordelia Schmid)
3. Weakly-supervised HOI Detection via Prior-guided Bi-level Representation Learning.  (from Tinne Tuytelaars)
4. DA-BEV: Depth Aware BEV Transformer for 3D Object Detection.  (from Lei Zhang)
5. ESceme: Vision-and-Language Navigation with Episodic Scene Memory.  (from Dacheng Tao)
6. Nearest Neighbors Meet Deep Neural Networks for Point Cloud Analysis.  (from Jianbo Shi)
7. PointFlowHop: Green and Interpretable Scene Flow Estimation from Consecutive Point Clouds.  (from C.-C. Jay Kuo)
8. Point Cloud Forecasting as a Proxy for 4D Occupancy Forecasting.  (from Deva Ramanan)
9. Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection to Image-Text Pre-Training.  (from Shaogang Gong, Yang Liu)
10. Monocular Depth Estimation using Diffusion Models.  (from David J. Fleet)

本周 10 篇 ML 精选论文是:
1. Consistency Models.  (from Ilya Sutskever)
2. PaGE-Link: Path-based Graph Neural Network Explanation for Heterogeneous Link Prediction.  (from Christos Faloutsos)
3. Active Reward Learning from Multiple Teachers.  (from Stuart Russell)
4. D4FT: A Deep Learning Approach to Kohn-Sham Density Functional Theory.  (from Shuicheng Yan)
5. On the Role of Emergent Communication for Social Learning in Multi-Agent Reinforcement Learning.  (from Katia Sycara)
6. Subspace based Federated Unlearning.  (from Dacheng Tao)
7. OmniForce: On Human-Centered, Large Model Empowered and Cloud-Edge Collaborative AutoML System.  (from Wei Liu, Dacheng Tao)
8. AdaSAM: Boosting Sharpness-Aware Minimization with Adaptive Learning Rate and Momentum for Training Deep Neural Networks.  (from Dacheng Tao)
9. High-dimensional analysis of double descent for linear regression with random projections.  (from Francis Bach)
10. Benign Overfitting in Linear Classifiers and Leaky ReLU Networks from KKT Conditions for Margin Maximization.  (from Peter L. Bartlett, Nathan Srebro)

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
7 Papers & Radios | 一块GPU跑ChatGPT体量模型;AI绘图又一神器ControlNet学习ChatGPT,AI绘画引入人类反馈会怎样?下载量暴增10倍!微软必应集成ChatGPT后需求大爆发;4省份上调最低工资标准;淘宝已屏蔽ChatGPT关键词丨邦早报FastTrack Universität 2023莱比锡大学公立语言项目招生简章连百年梗图都整明白了!微软多模态「宇宙」搞定IQ测试,仅16亿参数AAAI 2023 | 多模态对话的SPRING来了!无需标注就能做多模态问答预训练集成ChatGPT后必应日活量首破亿!微软推出Azure OpenAI ChatGPT 服务,GPT-4下周发布《Love Is A Battlefield》给女神节 3/8 & 3/9 活动打 call多模态如何自监督?爱丁堡等最新「自监督多模态学习」综述:目标函数、数据对齐和模型架构美国入境档案--唐梁、林京、章奇苹果「余额宝」 四天吸金 69 亿元;微软拟 10 倍价推私有版 ChatGPT;ChatGPT 「建国」做女王 | 极客早知道ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇王慧文「中国 OpenAI」创业,源码、真格入局;Temu砸亿元,超级碗首秀;微软ChatGPT产品将推手机版 | 极客早知道J6事件的Law & Order。我的结论:川普和绝大部分人合法,佩罗西等人渎职导致骚乱;和理由如下GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结了?更年期离异GPT-4发布!谁能迭代ChatGPT?还得是OpenAI自己微软多模态ChatGPT来了?16亿参数搞定看图答题、智商测验等任务东西方理性差异与欲望温莎底特律行重磅!微软发布 ChatGPT 版搜索引擎,用上了比 ChatGPT 更强大的技术胡适问:为什么要信仰共产党?ChatGPT 进军 B 端?消息称微软将允许企业创建定制版 ChatGPT微软多模态ChatGPT来了?搞定看图答题、智商测验等任务!【放开你的心】《茶香夜雨》翻唱:爱晚亭&丽莎 视频来自网络素材。7 Papers & Radios | 21℃室温超导引爆物理圈;微软发布视觉ChatGPT【放开你的心】我的心让你牵 & 永恒的舞曲微信回应头像褪色,部分C刊不准隐瞒ChatGPT使用,微软推进裁员,Opera新版集成ChatGPT,这就是今天的其它大新闻!科早ChatGPT:如何应对ChatGPT?二级市场闭门研讨会精选 | S7E01 硅谷徐老师7 Papers & Radios | GPT-4学会反思;ChatGPT数据标注比人便宜20倍ChatGPT 核心技术大起底——InstructGPT:研究人类反馈数据比加大模型规模更重要!大胆提前预测美国大选:川普必胜 & 普京必胜7 Papers & Radios | ICLR 2023杰出论文奖;微软GPT-4完整测评"𝙇𝙚𝙖𝙙 𝙏𝙝𝙚 𝘾𝙝𝙖𝙧𝙜𝙚"广告#创译挑战震撼!GPT-4来了,支持多模态,全面吊打ChatGPT,完虐标准化考试GPT-4震撼发布:多模态大模型,升级ChatGPT和必应,开放API,太太太强了!微软再扔AI聊天画图炸弹!视觉模型加持ChatGPT,Visual ChatGPT横空出世微软宣布开源DeepSpeed-Chat ,训练提速15倍以上,有望实现人手一个ChatGPT?我内测了微软最新的 ChatGPT 版必应:比 ChatGPT 更像人,但有一个大隐患重磅 | 我内测了微软最新的 ChatGPT 版必应:比 ChatGPT 更像人,但有一个大隐患
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。