Redian新闻
>
7 Papers & Radios | 21℃室温超导引爆物理圈;微软发布视觉ChatGPT

7 Papers & Radios | 21℃室温超导引爆物理圈;微软发布视觉ChatGPT

公众号新闻

机器之心 & ArXiv Weekly 

参与:楚航、罗若天、梅洪源

本周论文包括微软亚洲研究院提出的视觉 ChatGPT;罗切斯特大学的物理学家 Ranga Dias 及其团队实现了一种超导体,其能在室温和接近常压的环境下工作。

目录:

  1. Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models 
  2. Evidence of near-ambient superconductivity in a N-doped lutetium hydride
  3. Understanding and Unifying Fourteen Attribution Methods with Taylor Interactions 
  4. MAGE: MAsked Generative Encoder to Unify Representation Learning and Image Synthesis
  5. PaLM-E: An Embodied Multimodal Language Model 
  6. Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages
  7. Dropout Reduces Underfitting
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)

论文 1:Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

  • 作者:Chenfei Wu 、 Shengming Yin 、 Weizhen Qi 等
  • 论文地址:https://arxiv.org/pdf/2303.04671.pdf


摘要:微软亚洲研究院的研究者提出了一个名为 Visual ChatGPT 的系统,他们将 ChatGPT 和多个 SOTA 视觉基础模型连接,实现在对话系统中理解和生成图片。为了方便复现,该研究已经将代码完全开源。

他们不是从头开始训练一个新的多模态 ChatGPT,而是直接基于 ChatGPT 构建 Visual ChatGPT,并结合了各种 VFM。为了弥合 ChatGPT 和这些 VFM 之间的差距,该研究提出了一个 Prompt Manager,其支持以下功能:

1)明确告诉 ChatGPT 每个 VFM 的功能并指定输入输出格式; 
2) 将不同的视觉信息,例如 png 图像、深度图像和 mask 矩阵,转换为语言格式以帮助 ChatGPT 理解; 
3) 处理不同 VFM 的历史、优先级和冲突。

下图为 Visual ChatGPT 概览。左边进行了三轮对话,中间是 Visual ChatGPT 如何迭代调用 Visual Foundation Models 并提供答案的流程图。右侧展示了第二次 QA 的详细过程。


推荐:视觉 ChatGPT 来了,微软发布,代码已开源。

论文 2:Evidence of near-ambient superconductivity in a N-doped lutetium hydride

  • 作者:Nathan Dasenbrock-Gammon、Elliot Snider 等
  • 论文地址:https://www.nature.com/articles/s41586-023-05742-0


摘要:本周二下午,在拉斯维加斯举行的美国物理学会(APS March Meeting)三月年度会议上,罗切斯特大学的物理学家 Ranga Dias 发表了一场座无虚席的演讲,他宣布他和他的团队已经实现了该领域的百年梦想:一种超导体,能在室温和接近常压的环境下工作。

在新研究中,人们锻造的化合物成功在 21 摄氏度(69.8 华氏度,294K)和大约 1 吉帕的压力下无电阻地传导电流。这仍然是一个很大的压力 —— 大约是马里亚纳海沟最深处压力的 10 倍 —— 但它比以前使用类似材料进行的实验所需的压力低 100 多倍。

近环境下镥 - 氮 - 氢的超导性压力

推荐:21℃室温超导引爆物理圈。

论文 3:Understanding and Unifying Fourteen Attribution Methods with Taylor Interactions

  • 作者:Huiqi Deng 、 Na Zou 等
  • 论文地址:https://arxiv.org/pdf/2303.01506.pdf


摘要:本文提出了「统一解释 14 种输入单元重要性归因算法的内在机理」。表 1 展示了十四种不同的归因算法分别是如何对独立效应与交互效应进行分配。


此外,本文还提出了以下三条评估准则,以评价某一个归因算法是否公平合理地分配独立效应和交互效应。(1)准则一:分配过程中涵盖所有独立效应和交互效应。(2)准则二:避免将独立效应和交互分配给无关的输入单元。(3)准则三:完全分配。

推荐:理解并统一 14 种归因算法,让神经网络具有可解释性。

论文 4:MAGE: MAsked Generative Encoder to Unify Representation Learning and Image Synthesis

  • 作者:Tianhong Li、Huiwen Chang 等
  • 论文地址:https://arxiv.org/abs/2211.09117


摘要:来自 MIT 和 Google Research 的研究人员提出了一种基于图像语义符掩码的表征学习方法,首次在一个统一的框架中实现了图像生成和表征学习,并在多个数据集上取得了 SOTA 表现。研究论文已被 CVPR 2023 接收,相关代码与预训练模型已开源。

本文作者提出了 MAGE(Masked Generative Encoder),首次实现了统一的图像生成和特征提取模型。与 MIM 直接作用于图像的掩码方法不同,MAGE 提出了基于图像语义符的 masked image token modeling 方法。如图所示,MAGE 首先使用 VQGAN [3] 编码器将原始图像转换为离散的语义符。之后,MAGE 对其进行随机掩码,并使用基于 transformer 的 encoder-decoder 结构对掩码进行重构,重构后的语义符可以通过 VQGAN 解码器生成原始图像。通过在训练中使用不同的掩码率,MAGE 可以同时进行生成模型(接近 100% 掩码率)和表征学习(50%-80% 掩码率)的训练。如图 1 所示,MAGE 重建出的图像不仅具有与原始图像一致的语义信息,还能够同时保证生成图像的多样性与真实性。

图 2:MAGE 结构图

推荐:谷歌、MIT 提出统一框架 MAGE:表征学习超 MAE,无监督图像生成超越 Latent Diffusion。

论文 5:PaLM-E: An Embodied Multimodal Language Model

  • 作者:Danny Driess 、 Fei Xia 等
  • 论文地址:https://palm-e.github.io/assets/palm-e.pdf


摘要:谷歌推出的具身语言模型 PaLM-E,它可以将连续的传感器数据直接整合到语言模型里,从而使得语言模型能够做出更有根据的推理。值得一提的是,他们之所以将此模型命名为 PaLM-E,是因为本文使用了 2022 年谷歌发布的 PaLM 作为预训练语言模型。

PaLM-E-562B 在 OK-VQA 基准上实现了 SOTA 性能,而不依赖特定于任务的微调。除此以外,PaLM-E-562B 在其他任务上也表现良好,包括零样本多模态思维链 (CoT) 推理、少样本提示、OCR-free 数学推理和多图像推理等。

如下图,给定一张图像,并向 PaLM-E 提问:「如果一个机器人想在这里发挥作用,它应该采取哪些步骤?」PaLM-E 给出的回答是:首先清理桌子,清理垃圾,然后挪动椅子,擦椅子,最后把椅子放回原处。PaLM-E 的回答看起来很符合逻辑。


推荐:5620 亿参数,最大多模态模型控制机器人,谷歌把具身智能玩出新高度。

论文 6:Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages

  • 作者:Yu Zhang、Wei Han 等
  • 论文地址:https://arxiv.org/abs/2303.01037v2


摘要:谷歌公开了通用语音模型 (USM) 的信息,这是支持 1000 种语言的第一步。USM 包含一系列 SOTA 语音模型,带有 20 亿参数,经过 1200 万小时的语音和 280 亿个文本句子的训练,涵盖 300 多种语言。USM 不仅可以对英语和普通话等广泛使用的语言执行自动语音识别(ASR),还可以对阿姆哈拉语、宿雾语、阿萨姆语、阿塞拜疆语等使用人数很少的语言执行自动语音识别。

谷歌证明了利用大型未标记的多语言数据集来预训练模型的编码器,并用较小的标记数据集进行微调,能够让模型识别使用人数非常少的语言。此外,谷歌的模型训练过程可以有效地适应新的语言和数据。

USM 支持的语言示例。

推荐:谷歌的野心:通用语音识别大模型已经支持 100 + 语言。

论文 7:Dropout Reduces Underfitting

  • 作者:Zhuang Liu、Zhiqiu Xu 等
  • 论文地址:https://arxiv.org/abs/2303.01500


摘要:近日在一篇论文《Dropout Reduces Underfitting》中,Meta AI、加州大学伯克利分校等机构的研究者展示了如何使用 dropout 来解决欠拟合问题。

他们首先通过对梯度范数的有趣观察来研究 dropout 的训练动态,然后得出了一个关键的实证发现:在训练初始阶段,dropout 降低小批量的梯度方差,并允许模型在更一致的方向上更新。这些方向也更与整个数据集的梯度方向保持一致,具体如下图 1 所示。


研究者提出了 early dropout(即 dropout 仅在训练早期使用),来帮助欠拟合模型更好地拟合。与无 dropout 和标准 dropout 相比,early dropout 降低了最终的训练损失。相反,对于已经使用标准 dropout 的模型,研究者建议在早期训练 epoch 阶段移除 dropout 以降低过拟合。他们将这一方法称为 late dropout,并证明它可以提升大模型的泛化准确率。下图 2 比较了标准 dropout、early 和 late dropout。

推荐:改进 Hinton 的 Dropout:可以用来减轻欠拟合了。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天、梅洪源发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:


本周 10 篇 NLP 精选论文是:


1. Stylometric Detection of AI-Generated Text in Twitter Timelines.  (from Huan Liu)

2. Extracting Accurate Materials Data from Research Papers with Conversational Language Models and Prompt Engineering -- Example of ChatGPT.  (from Dane Morgan)

3. Towards Interpretable and Efficient Automatic Reference-Based Summarization Evaluation.  (from Dragomir Radev)

4. Adaptive Knowledge Distillation between Text and Speech Pre-trained Models.  (from Erik Cambria)

5. Let's Get Personal: Personal Questions Improve SocialBot Performance in the Alexa Prize.  (from Marilyn Walker)

6. Automatically Summarizing Evidence from Clinical Trials: A Prototype Highlighting Current Challenges.  (from Denis Jered McInerney)

7. Guilt Detection in Text: A Step Towards Understanding Complex Emotions.  (from Alexander Gelbukh)

8. Prompt-Based Learning for Thread Structure Prediction in Cybersecurity Forums.  (from Chitta Baral)

9. RweetMiner: Automatic identification and categorization of help requests on twitter during disasters.  (from Young-Koo Lee)

10. Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec Language Modeling.  (from Furu Wei)



本周 10 篇 CV 精选论文是:


1. Generalized Semantic Segmentation by Self-Supervised Source Domain Projection and Multi-Level Contrastive Learning.  (from Jian Sun)

2. Where We Are and What We're Looking At: Query Based Worldwide Image Geo-localization Using Hierarchies and Scenes.  (from Mubarak Shah)

3. A Meta-Learning Approach to Predicting Performance and Data Requirements.  (from Bernt Schiele, Stefano Soatto)

4. Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection.  (from Jie Yang, Lei Zhang)

5. Centroid-centered Modeling for Efficient Vision Transformer Pre-training.  (from Dacheng Tao)

6. AZTR: Aerial Video Action Recognition with Auto Zoom and Temporal Reasoning.  (from Dinesh Manocha)

7. SoftMatch Distance: A Novel Distance for Weakly-Supervised Trend Change Detection in Bi-Temporal Images.  (from Licheng Jiao)

8. PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling.  (from Kai Chen)

9. TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and Clustering.  (from Horst Bischof)

10. Word-As-Image for Semantic Typography.  (from Daniel Cohen-Or, Ariel Shamir)



本周 10 篇 ML 精选论文是:


1. Exploration via Epistemic Value Estimation.  (from John Shawe-Taylor)

2. Mark My Words: Dangers of Watermarked Images in ImageNet.  (from Klaus-Robert Müller)

3. Multi-Symmetry Ensembles: Improving Diversity and Generalization via Opposing Symmetries.  (from Marin Soljacic)

4. On the Expressiveness and Generalization of Hypergraph Neural Networks.  (from Joshua B. Tenenbaum, Leslie Pack Kaelbling)

5. Planning with Large Language Models for Code Generation.  (from Joshua B. Tenenbaum)

6. Neural Operator Learning for Long-Time Integration in Dynamical Systems with Recurrent Neural Networks.  (from George Em Karniadakis)

7. Graph Decision Transformer.  (from Dacheng Tao)

8. CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a Context Synergized Hyperbolic Network.  (from Dinesh Manocha)

9. Tensorized LSSVMs for Multitask Regression.  (from Johan A.K. Suykens)

10. Provable Data Subset Selection For Efficient Neural Network Training.  (from Daniela Rus)


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
21℃的室温超导真的要来了?让子弹再飞一会儿 |【经纬低调分享】【君在我心】之【云深情也深 】& 【今夜想起你 】& 【爱在我心中】《Love Is A Battlefield》给女神节 3/8 & 3/9 活动打 call日本啊,日本(二十二)中国寺庙,日本寺庙J6事件的Law & Order。我的结论:川普和绝大部分人合法,佩罗西等人渎职导致骚乱;和理由如下微软再扔AI聊天画图炸弹!视觉模型加持ChatGPT,Visual ChatGPT横空出世7 Papers & Radios | 一块GPU跑ChatGPT体量模型;AI绘图又一神器ControlNet​GPT-4 全面接入Office全家桶;南京大学发布室温超导重复实验,未能观察到超导相变 | 环球科学要闻央视春晚的元宇宙技术,微软发布AI声音生成工具VALL-E,百度将推出类ChatGPT风格机器人,2023WebRTC预测…爆炸性消息!-269℃→21℃!美科学家宣布突破“室温超导”技术,颠覆物理学?微软发布 ChatGPT 版搜索引擎和浏览器;抖音回应全国上线外卖传闻;OpenAI 官网访问量增长 35 倍 | 极客早知道今日财经|抖音否认3.1上线全国外卖服务;微软推出ChatGPT产品美股大涨;传特斯拉将推出擎天柱,引爆4.5万亿市场微信回应头像褪色,部分C刊不准隐瞒ChatGPT使用,微软推进裁员,Opera新版集成ChatGPT,这就是今天的其它大新闻!完整现场视频!21℃室温超导引爆物理圈,曾被撤稿研究再登Nature21℃室温超导引爆物理圈,一场新的能源革命要来了?物理界炸了!21℃实现室温超导,Nature凌晨刊发撤稿团队新研究,赌城现场被人群挤爆21℃实现室温超导,Nature凌晨刊发撤稿团队新研究,赌城现场被人群挤爆突破室温超导技术科学家回应质疑/GPT-4或下周发布/小鹏回应多名高管离职ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇全球炸锅!21℃室温超导不是梦,美科学家被撤稿后再登Nature【放开你的心】我的心让你牵 & 永恒的舞曲7 Papers & Radios | AI绘画引入人类反馈;微软多模态ChatGPT?AI炸翻物理学!21度室温超导预定诺奖?Nature撤稿教授反获OpenAI投资21℃「室温超导」成世纪骗局?中科院物理所发布验证论文,没复现成功视觉ChatGPT来了,微软发布,代码已开源微软发布Visual ChatGPT:视觉模型加持ChatGPT实现丝滑聊天7 Papers & Radios | GPT-4学会反思;ChatGPT数据标注比人便宜20倍传推特砍至 1300 人,马斯克:比那多一倍;1.79 亿人看「竖屏春晚」;微软发布 Azure OpenAI | 极客早知道7 Papers & Radios | ICLR 2023杰出论文奖;微软GPT-4完整测评警幻仙姑的人间真容苏月的婚姻路(完)"𝙇𝙚𝙖𝙙 𝙏𝙝𝙚 𝘾𝙝𝙖𝙧𝙜𝙚"广告#创译挑战苹果「余额宝」 四天吸金 69 亿元;微软拟 10 倍价推私有版 ChatGPT;ChatGPT 「建国」做女王 | 极客早知道重磅!微软发布 ChatGPT 版搜索引擎,用上了比 ChatGPT 更强大的技术刚刚,中科院物理所发文!"室温超导"爆火,"超导维权群"却已建好…【放开你的心】《茶香夜雨》翻唱:爱晚亭&丽莎 视频来自网络素材。毛泽东儿子接受贫下中农再教育集成ChatGPT后必应日活量首破亿!微软推出Azure OpenAI ChatGPT 服务,GPT-4下周发布哇!五年前我就这么牛了 ?美国研究团队宣称实现“室温超导”引爆资本市场!这个关键元素中国产量很高!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。