7 Papers & Radios | Hinton前向-前向神经网络训练算法；科学家造出「虫洞」登Nature封面

2022-12-04 04:12

机器之心 & ArXiv Weekly Radiostation

参与：杜伟、楚航、罗若天

本周主要论文包括：Hinton 在 NeurIPS 2022 会议上对 Forward-Forward（FF）网络的解读；科学家们创造了有史以来第一个虫洞，研究论文登上《Nature》杂志的封面等研究。

The Forward-Forward Algorithm: Some Preliminary Investigations
The Architectural Bottleneck Principle
Traversable wormhole dynamics on a quantum processor
Integers expressible as the sum of two rational cubes
Synthesizing Coherent Story with Auto-Regressive Latent Diffusion Models
An empirical analysis of compute-optimal large language model training
Galvatron: Efficient Transformer Training over Multiple GPUs Using Automatic Parallelism
ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：The Forward-Forward Algorithm: Some Preliminary Investigations

作者：Geoffrey Hinton
论文地址：https://www.cs.toronto.edu/~hinton/FFA13.pdf

摘要：在 NeurIPS 2022 会议上，图灵奖得主、深度学习先驱 Geoffrey Hinton 被邀请发表演讲。Hinton 此次演讲的主题为《The Forward-Forward Algorithm for Training Deep Neural Networks》。在演讲中，Geoffrey Hinton 表示，「机器学习研究社区在意识到深度学习对计算机构建方式的影响上一直表现缓慢。」他认为，人工智能的机器学习形式将引发计算机系统的变革，这是一种将 AI「放入你的烤面包机」的新型软硬结合。

在这次演讲中，Hinton 花了大部分时间谈论一种新的神经网络方法，他称之为 Forward-Forward（FF）网络，它取代了几乎所有神经网络中使用的反向传播技术。Hinton 提出，通过去除反向传播，前向网络可能更合理地接近现实生活中在大脑中发生的情况。

Hinton 表示，FF 方法可能更适合普通的计算硬件。「当前如果要实现这样的事情，我们必须有一个将在专属硬件中运行的学习程序，必须要学习利用该专属硬件的具体属性，而不知道所有这些属性是什么。但我认为前向算法是一个有潜力的选项。」

推荐：图灵奖得主、深度学习先驱 Hinton 在关于深度学习影响计算机构建方式、神经网络算法等方面分享了他的最新观点。

论文 2：The Architectural Bottleneck Principle

作者：Tiago Pimentel 、 Josef Valvoda 等
论文地址：https://arxiv.org/pdf/2211.06420.pdf

摘要：本文中，来自剑桥大学、苏黎世联邦理工学院的研究者提出架构瓶颈原则 (ABP，architectural bottleneck principle) 作为构建有用 probe 的指南，并试图测量神经网络中的一个组件可以从馈送到它的表示中提取多少信息。为了估计给定组件可以提取多少信息，该研究发现 probe 应该与组件完全相同。根据这一原理，该研究通过注意力 probe 来估计有多少句法信息可用于 transformer。

结果表明，大多数（尽管不是全部）句法信息都可以通过这种简单的注意力头架构提取：英语句子平均包含 31.2 bit 的句法树结构信息，而注意力 probe 可以提取 28.0 bits 信息。更进一步，在 BERT、ALBERT 和 RoBERTa 语言模型上，一个句子的语法树大部分是可以被 probe 提取的，这表明这些模型在组成上下文表示时可以访问句法信息。然而，这些模型是否真的使用了这些信息，仍然是一个悬而未决的问题。

图中展示了主要结果。

推荐：剑桥和 ETH Zurich 的研究者从一个新的角度探讨了 probing，不关心模型编码了多少信息，而是关心它的组件可以提取多少信息。

论文 3：Traversable wormhole dynamics on a quantum processor

作者：Daniel Jafferis、Alexander Zlokapa 等
论文地址：https://www.nature.com/articles/s41586-022-05424-3

摘要：科学家们创造了有史以来第一个虫洞，研究论文登上了《Nature》杂志的封面。虫洞就像一个全息图，由存储在微型超导电路中的量子比特信息或「qubit」组成。该研究通过操纵量子比特，成功通过虫洞发送了信息。

为了创建虫洞，研究者从一个大的量子系统开始，把它当作一个神经网络。反向传播更新了系统的参数以保持引力特性，而稀疏化减少了系统的大小。他们应用机器学习来学习一个系统，只保留了一个关键的引力特征：使用负能量冲击波的重要性。训练数据集比较了粒子穿越一个用负能量撑开的虫洞和用正能量塌缩的虫洞的动态。通过确保学到的系统保留这种不对称性，他们得到了一个与虫洞动力学一致的稀疏模型。

在粒子撞上负能量冲击波后，混乱的模式有效地反向进行：当粒子从虫洞中出现时，就好像墨滴通过完全撤消其原来的湍流扩散而重新组合在一起。如果在任何一个时间点上，发生了一个小错误，混沌动力学就不会自我撤消，粒子也就无法通过虫洞了。

推荐：科学家造出史上首个「虫洞」，登 Nature 封面。

论文 4：Integers expressible as the sum of two rational cubes

作者：Levent Alpöge、Manjul Bhargava 等
论文地址：https://arxiv.org/abs/2210.10730

摘要：今年早些时候，三位数学家讨论了数论中最古老的问题之一：有多少整数可以写成两个分数（有理数）的立方之和。例如，数字 6 = (17/21)^3 + (37/21)^3，而 13 = (7/3)^3+(2/3)^3。

几十年来，数学家们一直猜测整数中有一半可以写成这种形式，就像奇数和偶数一样。数学家已经计算出，如果世界七大数学难题之一 BSD 猜想被证实，那么大约 59% 的数字都可以写成两个有理数的立方和。但这个比例数据仅能提供一些参考而已。

如下图所示，蓝色方格内的数字可以写成两个有理数的立方和；其他则不能。

在 10 月下旬发表的一篇论文中，三位数学家证明了至少有 2/21（约 9.5%）和最多 5/6（约 83%）的整数可以写成两个分数的立方之和。值得一提的是，论文作者之一 Manjul Bhargava 在 2014 年因其对椭圆曲线研究做出的贡献而获得菲尔兹奖。

推荐：千禧年大奖难题 BSD 猜想有了新进展。

论文 5：Synthesizing Coherent Story with Auto-Regressive Latent Diffusion Models

作者：Xichen Pan 、 Pengda Qin 等
论文地址：https://arxiv.org/pdf/2211.10950.pdf

摘要：本文中，来自滑铁卢大学、阿里巴巴集团等机构的研究者提出了自回归潜在扩散模型（auto-regressive latent diffusion model, AR-LDM），从故事可视化和故事延续入手。故事的可视化旨在合成一系列图像，用来描述用句子组成的故事；故事延续是故事可视化的一种变体，与故事可视化的目标相同，但基于源框架（即第一帧）完成。这一设置解决了故事可视化中的一些问题（泛化问题和信息限制问题），允许模型生成更有意义和连贯的图像。

具体来说， AR-LDM 采用了历史感知编码模块，其包含一个 CLIP 文本编码器和 BLIP 多模态编码器。对于每一帧，AR-LDM 不仅受当前字幕的指导，而且还以先前生成的图像字幕历史为条件。这允许 AR-LDM 生成相关且连贯的图像。

如下图 2a 所示，AR-LDM 利用历史字幕和图像来生成未来帧。图 2b 显示了 AR-LDM 的详细架构。

推荐：用扩散模型合成连贯视觉故事，输入字幕就能脑补画面，代词 ta 都分得清。

论文 6：An empirical analysis of compute-optimal large language model training

作者：Jordan Hoffmann、Sebastian Borgeaud、Arthur Mensch 等
论文地址：https://www.deepmind.com/publications/an-empirical-analysis-of-compute-optimal-large-language-model-training

摘要：该研究提出一个问题：给定固定的 FLOPs 预算，模型的大小和训练 token 数应该如何权衡？该研究对这种权衡进行了建模，并基于该模型进行预测，同时训练与该预测相对应的模型。由此产生的模型明显更小，但包含了更多的 token，性能优于其对应模型，同时由于模型尺寸更小，在下游任务中也更实用。总而言之，这项工作为社区在语言模型背景下思考规模的方式提供了新的思路，这也可能对 AI 的其他领域有用。

推荐：NeurIPS 2022 获奖论文。

论文 7：Galvatron: Efficient Transformer Training over Multiple GPUs Using Automatic Parallelism

作者：Xupeng Miao、Yujie Wang 等
论文地址：https://arxiv.org/abs/2211.13878

摘要：北大河图团队提出了一款分布式训练神器 Galvatron，以实现大模型的高效自动并行，研究论文入选国际顶会 VLDB 2023。

研究者们提出了一些系列工作来探索混合并行的自动搜索：一类工作主要讨论了同时考虑数据并行和模型并行的搜索空间，代表性工作包括 FlexFlow，Tofu，另一类工作则产生于流水并行场景，将其与数据并行相结合，代表性工作包括 PipeDream，DAPPLE。在此基础上还有一些衍生工作，如 Unity、Alpa，进一步扩展了自动并行的探索范围。北大河图团队提出的系统「惊破天」Galvatron 同样属于自动并行搜索的研究领域，但相比于现有工作，该系统主要拥有三方面优势。

Galvatron 工作流程及用户使用接口展示。

推荐：北大河图发布分布式训练神器 Galvatron。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation，在 7 Papers 的基础上，精选本周更多重要论文，包括NLP、CV、ML领域各 10 篇精选，并提供音频形式的论文摘要简介，详情如下：

本周 10 篇 NLP 精选论文是：

1. Open Relation and Event Type Discovery with Type Abstraction. (from Jiawei Han)

2. Learning to Select from Multiple Options. (from Philip S. Yu)

3. Towards Generalized Open Information Extraction. (from Jian Sun)

4. Guiding Neural Entity Alignment with Compatibility. (from Bing Liu)

5. Dependency-aware Self-training for Entity Alignment. (from Bing Liu)

6. Noisy Label Detection for Speaker Recognition. (from Lei Zhang)

7. Anger Breeds Controversy: Analyzing Controversy and Emotions on Reddit. (from Kai Chen)

8. ExtremeBERT: A Toolkit for Accelerating Pretraining of Customized BERT. (from Tong Zhang)

9. ConvLab-3: A Flexible Dialogue System Toolkit Based on a Unified Data Format. (from Jianfeng Gao, Minlie Huang)

10. Chaining Simultaneous Thoughts for Numerical Reasoning. (from Minlie Huang)

本周 10 篇 CV 精选论文是：

1. AFR-Net: Attention-Driven Fingerprint Recognition Network. (from Anil K. Jain)

2. Instance-Specific Image Goal Navigation: Training Embodied Agents to Find Object Instances. (from Jitendra Malik)

3. Shape-Guided Diffusion with Inside-Outside Attention. (from Trevor Darrell)

4. Scaling Language-Image Pre-training via Masking. (from Kaiming He)

5. SinGRAF: Learning a 3D Generative Radiance Field for a Single Scene. (from Leonidas Guibas)

6. Procedural Image Programs for Representation Learning. (from Antonio Torralba, Phillip Isola)

7. Exploiting Category Names for Few-Shot Classification with Vision-Language Models. (from Ming-Hsuan Yang)

8. LUMix: Improving Mixup by Better Modelling Label Uncertainty. (from Alan Yuille, Philip Torr)

9. Localization vs. Semantics: How Can Language Benefit Visual Representation Learning?. (from Alan Yuille)

10. Super-CLEVR: A Virtual Benchmark to Diagnose Domain Robustness in Visual Reasoning. (from Alan Yuille)

本周 10 篇 ML 精选论文是：

1. Self-Supervised Continual Graph Learning in Adaptive Riemannian Spaces. (from Philip S. Yu)

2. PyTorch Adapt. (from Serge Belongie)

3. Towards True Lossless Sparse Communication in Multi-Agent Systems. (from Katia Sycara)

4. MegaBlocks: Efficient Sparse Training with Mixture-of-Experts. (from Matei Zaharia)

5. Knowledge-Aware Federated Active Learning with Non-IID Data. (from Dacheng Tao)

6. Responsible Active Learning via Human-in-the-loop Peer Study. (from Dacheng Tao)

7. Will My Robot Achieve My Goals? Predicting the Probability that an MDP Policy Reaches a User-Specified Behavior Target. (from Thomas G. Dietterich)

8. DimenFix: A novel meta-dimensionality reduction method for feature preservation. (from Evangelos Milios)

9. Supervised Contrastive Prototype Learning: Augmentation Free Robust Neural Network. (from Laurent Itti)

10. Quantization-aware Interval Bound Propagation for Training Certifiably Robust Quantized Neural Networks. (from Daniela Rus)

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章