Redian新闻
>
7 Papers & Radios | NeurIPS'22获奖论文;英伟达一句话生成3D模型

7 Papers & Radios | NeurIPS'22获奖论文;英伟达一句话生成3D模型

公众号新闻

机器之心 & ArXiv Weekly Radiostation

参与:杜伟、楚航、罗若天

本周主要论文包括 NeurIPS 2022 获奖论文;英伟达提出的一句话生成 3D 模型等研究。


目录


  1. Is Out-of-Distribution Detection Learnable?

  2. Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

  3. Elucidating the Design Space of Diffusion-Based Generative Models

  4. One Venue, Two Conferences: The Separation of Chinese and American Citation Networks 

  5. Human-level play in the game of Diplomacy by combining language models with strategic reasoning

  6. Magic3D: High-Resolution Text-to-3D Content Creation

  7. Sleep prevents catastrophic forgetting in spiking neural networks by forming a joint synaptic weight representation

  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Is Out-of-Distribution Detection Learnable?


  • 作者:Zhen Fang、Yixuan Li、Jie Lu、 Jiahua Dong、Bo Han、Feng Liu

  • 论文地址:https://openreview.net/forum?id=sde_7ZzGXOE


摘要:这项工作提供了分布外 (OOD) 检测的理论研究,重点关注此类模型可学习的条件。该工作使用 PAC(probably approximately correct)学习理论表明 OOD 检测模型仅在数据分布空间和预测模型空间的某些条件下是 PAC 可学习的。该研究还提供了 3 个具体的不可能定理,可以用来确定 OOD 检测在实际环境中的可行性,为现有的 OOD 检测方法提供了理论基础。这项工作还提出了新的理论问题,例如关于 near-OOD 检测的可学习性。该研究将在 OOD 检测这个重要的研究领域产生广泛的理论和实践影响。


推荐:NeurIPS 2022 Main Track 杰出论文。


论文 2:Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding


  • 作者:Chitwan Saharia、William Chan、Saurabh Saxena 等

  • 论文地址:https://openreview.net/forum?id=08Yk-n5l2Al


摘要:基于扩散过程的高质量图像生成模型已在机器学习领域产生巨大的影响。该研究代表了此类模型的 SOTA 水平之一,并创新性地展示了独立训练的大型语言模型与大规模图像解码器的有效结合。这种实用的解耦很可能成为大规模文本到图像模型的主导范例。该研究的成果令人印象深刻。


推荐:NeurIPS 2022 Main Track 杰出论文。


论文 3:Elucidating the Design Space of Diffusion-Based Generative Models


  • 作者:Tero Karras、Miika Aittala、Timo Aila、Samuli Laine

  • 论文地址:https://openreview.net/forum?id=k7FuTOWMOc7


摘要:这篇论文通过调查思考,将先前的研究组织成一个连贯的共同框架,以促成新的建模改进,这是该研究的研究方法。该研究的重点是包含某种形式扩散过程的图像生成模型,尽管训练此类模型存在困难,但这种模型最近变得非常流行。这篇论文对基于扩散过程的模型的理解和实现做出了重要贡献。


推荐:NeurIPS 2022 Main Track 杰出论文。


论文 4:One Venue, Two Conferences: The Separation of Chinese and American Citation Networks


  • 作者:Bingchen Zhao 、 Yuling Gu 等

  • 论文地址:https://arxiv.org/pdf/2211.12424.pdf


摘要:本文中,来自爱丁堡大学以及艾伦人工智能研究所等机构的研究人员,对中国研究人员和美国研究人员之间的差异进行了探索。研究中他们采用了 NeurIPS 引用数据,以此来分析美国和中国机构对学术研究的影响。结果发现中国机构对美国和欧洲的论文引用很少(under-cite),而美国和欧洲机构对中国的论文引用也很少。



根据图表显示,我们可以看出美国和中国的论文在多大程度上没有引用对方的文章。从中国对美国论文的引用量来看,虽然美国论文占了数据集的 60%(总共 1792 篇,图 1 左显示美国大约 1100 篇),但它们被中国论文引用的数量只占 34%(图 1 右)。


美国对中国论文的引用差距则更显著:虽然中国论文占数据集的 34%,但它们只占美国引用数的 9%。


作为对比,我们来看看美国对欧洲论文的引用,对比很明显:尽管在此次实验中,NeurIPS 论文数据集中的中国论文数量是欧洲论文的 6 倍,但美国机构引用中国论文的频率低于欧洲论文。 


该研究还观察到每个地区自引的频率都高于被其他地区引用的频率:中国为 21%, 美国为 41%,欧洲为 14%。美国和欧洲的研究界有着相似的引用行为,对中国论文的引用很少,而中国机构引用美国和欧洲论文的频率低于其他地区。


推荐:研究发现,中国和美国相互引用较少。


论文 5:Human-level play in the game of Diplomacy by combining language models with strategic reasoning


  • 作者:COLIN FLAHERTY 、DANIEL FRIED 等

  • 论文地址:https://www.science.org/doi/10.1126/science.ade9097


摘要:Meta 构建的智能体 CICERO,成为首个在 Diplomacy 中达到人类水平的 AI。CICERO 通过在在线版本 webDiplomacy.net 上证明了这一点,其中 CICERO 的平均得分是人类玩家的两倍多,并且在玩过不止一场游戏的参与者中排名前 10%。


CICERO 的核心是一个可控的对话模型和一个战略推理引擎。在游戏的每一点,CICERO 都会查看 game board 及其对话历史,并对其他玩家可能采取的行动进行建模。然后制定计划来控制语言模型,将它的计划告知其他玩家,并为与他们协调良好的其他玩家提出合理的行动建议。


为了构建一个可控对话模型,Meta 从一个具有 27 亿参数的类 BART 语言模型开始,并在来自互联网的文本上进行了预训练,还在 webDiplomacy.net 上对 40000 多个人类游戏进行了微调。



推荐:争取盟友、洞察人心,最新的 Meta 智能体是个谈判高手。


论文 6:Magic3D: High-Resolution Text-to-3D Content Creation


  • 作者:Chen-Hsuan Lin、Jun Gao、Luming Tang 等

  • 论文地址:https://arxiv.org/abs/2211.10440


摘要:英伟达提出 Magic3D ,可以在 40 分钟内创建高质量的 3D 网格模型,比 DreamFusion 快 2 倍(后者平均需要 1.5 小时),同时还实现了更高的分辨率。统计表明相比 DreamFusion,61.7% 的人更喜欢英伟达的新方法。


Magic3D 是一种从粗到精的优化方法,其中使用不同分辨率下的多个扩散先验来优化 3D 表征,从而生成视图一致的几何形状以及高分辨率细节。Magic3D 使用监督方法合成 8 倍高分辨率的 3D 内容,速度也比 DreamFusion 快 2 倍。


Magic3D 的整个工作流程分为两个阶段:在第一阶段,该研究优化了类似于 DreamFusion 的粗略神经场表征,以实现具有基于哈希网格(hash grid)的内存和计算的高效场景表征。


在第二阶段该方法切换到优化网格表征。这个步骤很关键,它允许该方法在高达 512 × 512 的分辨率下利用扩散先验。由于 3D 网格适用于快速图形渲染,可以实时渲染高分辨率图像,因此该研究利用基于光栅化的高效微分渲染器和相机特写来恢复几何纹理中的高频细节。



一只坐在睡莲上的蓝色箭毒蛙:



推荐:一句话生成 3D 模型。


论文 7:Sleep prevents catastrophic forgetting in spiking neural networks by forming a joint synaptic weight representation


  • 作者:Ryan Golden、Jean Erik Delanois 等

  • 论文地址:https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1010628


摘要:在一项新研究中,研究人员分析了神经网络灾难性遗忘背后的机制以及睡眠对于预防问题的效果。研究人员没有使用传统的神经网络,而是使用了一种更接近人类大脑的「脉冲神经网络」。


在人工神经网络中,神经元的输出随着输入的变化而不断变化。相比之下,在脉冲神经网络(SNN)中,一个神经元只有在给定数量的输入信号后,才会产生输出信号,这一过程是对真正生物神经元行为的真实再现。由于脉冲神经网络很少发射脉冲,因此它们比典型的人工神经网络传输的数据更少,原则上也需要更少的电力和通信带宽。


正如预期的那样,脉冲神经网络具有这样一个特点:在初始学习过程中会出现灾难性遗忘,然而,在之后的几轮学习后,经过一段时间间隔,参与学习第一个任务的神经元集合被重新激活。这更接近神经科学家目前认为的睡眠过程。


简单来说就是:SNN 使得之前学习过的记忆痕迹能够在离线处理睡眠期间自动重新激活,并在不受干扰的情况下修改突触权重。


图 1A 显示了一个前馈脉冲神经网络,用于模拟信号从输入到输出。位于输入层 (I) 和隐藏层 (H) 之间的神经元接受无监督学习 (使用非奖励 STDP),H 层和输出 (O) 层之间的神经元则接受强化学习 (使用奖励 STDP 实现)。



推荐:研究者发现想要避免神经网络的「灾难性遗忘」,它们需要像人一样睡眠。


ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各 10 篇精选,并提供音频形式的论文摘要简介,详情如下:


本周 10 篇 NLP 精选论文是:

1. Enhancing Self-Consistency and Performance of Pre-Trained Language Models through Natural Language Inference.  (from Christopher D. Manning)
2. Semi-Supervised Lifelong Language Learning.  (from Jian Sun)
3. Continual Learning of Natural Language Processing Tasks: A Survey.  (from Bing Liu)
4. Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks.  (from William W. Cohen)
5. PAL: Program-aided Language Models.  (from Yiming Yang, Jamie Callan)
6. Coreference Resolution through a seq2seq Transition-Based System.  (from Michael Collins)
7. Is the Elephant Flying? Resolving Ambiguities in Text-to-Image Generative Models.  (from Kai-Wei Chang, Richard Zemel)
8. Time-Aware Datasets are Adaptive Knowledgebases for the New Normal.  (from Calton Pu)
9. Best-$k$ Search Algorithm for Neural Text Generation.  (from Silvio Savarese)
10. Pairwise Instance Relation Augmentation for Long-tailed Multi-label Text Classification.  (from Lin Xiao)


本周 10 篇 CV 精选论文是:

1. Learning to Imitate Object Interactions from Internet Videos.  (from Jitendra Malik)
2. AVATAR submission to the Ego4D AV Transcription Challenge.  (from Cordelia Schmid)
3. CDDSA: Contrastive Domain Disentanglement and Style Augmentation for Generalizable Medical Image Segmentation.  (from Yinan Chen, Dimitris N. Metaxas)
4. MatrixVT: Efficient Multi-Camera to BEV Transformation for 3D Perception.  (from Xiangyu Zhang)
5. Retrieval-Augmented Multimodal Language Modeling.  (from Jure Leskovec, Wen-tau Yih)
6. Person Image Synthesis via Denoising Diffusion Model.  (from Mubarak Shah)
7. Query Efficient Cross-Dataset Transferable Black-Box Attack on Action Recognition.  (from Rohit Gupta, Mubarak Shah)
8. GlowGAN: Unsupervised Learning of HDR Images from LDR Images in the Wild.  (from Hans-Peter Seidel, Christian Theobalt)
9. Unsupervised 3D Keypoint Estimation with Multi-View Geometry.  (from Pascal Fua)
10. Adaptive Edge-to-Edge Interaction Learning for Point Cloud Analysis.  (from Dacheng Tao)


本周 10 篇 ML 精选论文是:

1. imitation: Clean Imitation Learning Implementations.  (from Stuart Russell)
2. Shortcomings of Top-Down Randomization-Based Sanity Checks for Evaluations of Deep Neural Network Explanations.  (from Klaus-Robert Müller)
3. Spectral Adversarial Training for Robust Graph Neural Network.  (from Liang Chen)
4. BESS: Balanced Entity Sampling and Sharing for Large-Scale Knowledge Graph Completion.  (from Andrew Fitzgibbon)
5. Masked Autoencoding for Scalable and Generalizable Decision Making.  (from Pieter Abbeel)
6. Scalable Collaborative Learning via Representation Sharing.  (from Ramesh Raskar)
7. NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision Research.  (from Yee Whye Teh, Razvan Pascanu, Marc'Aurelio Ranzato)
8. Robust DNN Surrogate Models with Uncertainty Quantification via Adversarial Training.  (from Jia Li)
9. Emergence of a stochastic resonance in machine learning.  (from Ying-Cheng Lai)
10. An ensemble of VisNet, Transformer-M, and pretraining models for molecular property prediction in OGB Large-Scale Challenge @ NeurIPS 2022.  (from Tie-Yan Liu)

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
NeurlPS 2022 | 用于医学图像分割的类感知生成对抗TransformerNeurIPS 2022 | 这个图像生成模型启发于电动力学!PFGM:泊松流生成模型推特不再优先审查新冠不实信息;亚马逊云科技 re:Invent 全球大会开幕;英伟达训练AI玩MC获奖 | 极客早知道一时猜忌误终身 !一文盘点NeurIPS'22杰出论文亮点!英伟达AI大佬一句话总结每篇重点,一并看透今年技术趋势NeurIPS 2022 | 一句话让3D模型生成逼真外观风格!精细到照片级细节!毛泽东创建工农红军靠民主军纪7 Papers & Radios | 扩散模型只用文字PS照片;MIT泊松流生成模型击败扩散模型一句话生成3D模型,但只需2D数据训练|谷歌&UC BerkeleyNeurIPS 2022 | FCOS-LiDAR:全卷积单阶段3D目标检测报名悉尼马拉松之后。。。NeurIPS 2022 | 利用多光照信息的单视角NeRF算法S^3-NeRF,可恢复场景几何与材质信息7 Papers & Radios | ECCV 2022最佳论文;Transformer在试错中自主改进建模师也危险了?OpenAI公布Point-E,AI迈出“生成3D模型”第一步一颗GPU,秒出3D模型!OpenAI重磅新作:Point-E用文本即可生成三维点云模型ChatGPT 走红后 DeepMind 不甘示弱,推出剧本写作 AI,一句话生成一个剧本马斯克点赞!DeepMind神AI编剧,一句话生成几万字剧本秋日琐记7 Papers & Radios | 李德毅院士认知物理学前瞻性观点论文;AI从零开始学会玩我的世界NeurIPS 2022 | 重振PointNet++雄风!PointNeXt:改进模型训练和缩放策略审视PointNet++3D版DALL-E来了!谷歌发布文本3D生成模型DreamFusion,给一个文本提示就能生成3D模型!NeurIPS 2022 | 一句话让三维模型生成逼真外观风格,精细到照片级细节从学生比例看美国大城市的未来OpenAI ChatGPT走红,DeepMind不甘示弱,推出剧本写作AI,一句话生成一个剧本NeurIPS 2022 | 中科院&图森未来提出FSD:全稀疏的3D目标检测器已成功移植全球首例3D生物打印耳朵!3D Bio Therapeutics引领3D生物打印技术
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。