7 Papers & Radios | 谷歌开源机器人领域transformer；DeepMind推出剧本写作AI

公众号新闻

2022-12-18 04:12

机器之心 & ArXiv Weekly Radiostation

参与：杜伟、楚航、罗若天

本周主要论文包括谷歌机器人团队提出的多任务模型——Robotics Transformer 1 (RT-1)，以及 DeepMind 用一句话生成一个剧本的写作型 AI。

目录：

RT-1: Robotics Transformer for Real-World Control at Scale
Abstract Visual Reasoning with Tangram Shapes
Re^3 : Generating Longer Stories With Recursive Reprompting and Revision
BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis
Parameter-Efficient Masking Networks
CLIPVG: Text-Guided Image Manipulation Using Differentiable Vector Graphics
Co-Writing Screenplays and Theatre Scripts with Language Models An Evaluation by Industry Professionals
ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：RT-1: Robotics Transformer for Real-World Control at Scale

作者：Anthony Brohan 等
论文地址：https://robotics-transformer.github.io/assets/rt1.pdf

摘要：谷歌机器人团队等提出了 Robotics Transformer 1 (RT-1)。这是一种多任务模型，可以 tokenize 机器人的输入和输出动作，从而在运行时实现高效推理，使实时控制成为可能。

RT-1 模型在包含 130k 个 episode 的大型真实机器人数据集上进行训练，该数据集涵盖了 700 多项任务，使用 Everyday Robots (EDR) 的 13 台机器人在 17 个月内收集而成。数据集中展示的一组高级技能包括拾取和放置物品、打开和关闭抽屉、将物品放入和取出抽屉、将细长的物品直立放置、敲倒物体、拉出餐巾纸和打开罐子。

推荐：轻松完成 700 多条指令、成功率达 97%！谷歌开源机器人领域 transformer。

论文 2：Abstract Visual Reasoning with Tangram Shapes

作者：Anya Ji 等
论文地址：https://arxiv.org/pdf/2211.16492.pdf

摘要：在这篇论文中，康奈尔大学等机构的研究者介绍了「KiloGram」，一个用于研究人类和机器的抽象视觉推理的资源库。KiloGram 在两个方面极大地改进了现有资源。

首先，研究者策划并数字化了 1016 个形状，创造了一个比现有工作中使用的集合大两个数量级的集合。这个集极大地增加了对整个命名变化范围的覆盖，提供了一个关于人类命名行为的更全面的视角。第二，该集合不是把每个七巧板当作一个单一的整体形状，而是当成由原始的拼图碎片构成的矢量图形。这种分解能够对整个形状和它们的部分进行推理。研究者利用这个新的数字化七巧板图形集合来收集大量的文本描述数据，反映了命名行为的高度多样性。

推荐：EMNLP 2022 最佳长论文。

论文 3：Re^3 : Generating Longer Stories With Recursive Reprompting and Revision

作者：Kevin Yang 等
论文地址：https://arxiv.org/pdf/2210.06774.pdf

摘要：在今天的人工智能领域，AI 写作神器层出不穷，技术和产品可谓日新月异。如果说 OpenAI 两年前发布的 GPT-3 在文笔上还稍欠火候，那么前段时间的 ChatGPT 的生成结果可以算是「文笔华丽、情节饱满、逻辑自洽兼而有之」。

有人说，AI 要是动起笔来，那真是没人类什么事了。但不管是人类还是 AI，一旦把「字数要求」提高，文章就会变得更难「驾驭」。近日，华人 AI 研究科学家田渊栋和其他几位研究者最近一起发布了一个新的语言模型——Re^3，这项研究也入选了 EMNLP 2022。

推荐：符合人类创作过程的 AIGC：自动生成长故事的模型出现了。

论文 4：BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis

作者：Haiyang Liu 等
论文地址：https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136670605.pdf

摘要：华为东京研究所 - Digital Human Lab 与东京大学等合作进行了研究，提出了目前为止最大规模的数字人多模态数据集：BEAT （Body-Expression-Audio-Text），由 76 小时动捕设备采集的谈话数据和语义 - 情感标注组成。原始数据包含肢体和手部动捕数据，AR Kit 标准 52 维面部 blendshape 权重，音频与文本，标注数据包含 8 类情感分类标签，以及动作类型分类和语义相关度打分。

在 BEAT 的基础上提出的新基线模型 CaMN (Cascade-Motion-Network) 采取级联神经网络结构，由 BEAT 中其余三种模态和标注作为输入，在动作生成任务上显著优于现有 SoTA (state-of-the-art) 算法。论文已于 ECCV2022 上发表，数据集已经开源。

推荐：76 小时动捕，最大规模数字人多模态数据集开源。

论文 5：Parameter-Efficient Masking Networks

作者：Yue Bai 等
论文地址：https://arxiv.org/abs/2210.06699

摘要：为了处理更复杂的任务，近年来神经网络的规模也在不断变大，如何高效的储存和传输神经网络变得十分重要。另一方面，随着彩票假说（Lottery Ticket Hypothesis (LTH)）的提出，随机稀疏神经网络最近展现出很强的潜力，如何利用这种潜力来提高网络的存储和传输效率也很值得探索。

美国东北大学和罗切斯特理工的研究者提出参数集约型掩码网络（Parameter-Efficient Masking Networks (PEMN)）。作者首先探索了有限数量随机数生成的随机网络的表征能力。实验表明，即使网络由有限数量的随机数生成，通过选择不同的子网络结构，其依然具有很好的表征能力。文章已被 NeurIPS 2022 接受。代码已开源。

推荐：如何提高存储、传输效率？参数集约型掩码网络效果显著。

论文 6：CLIPVG: Text-Guided Image Manipulation Using Differentiable Vector Graphics

作者：Yiren Song 等
论文地址：https://arxiv.org/abs/2212.02122

摘要：2022 年是人工智能生成内容（AI Generated Content，AIGC）爆发的一年，其中一个热门方向就是通过文字描述（text prompt）来对图片进行编辑。已有方法通常需要依赖在大规模数据集上训练的生成模型，不仅数据采集和训练成本高昂，且会导致模型尺寸较大。这些因素给技术落地于实际开发和应用带来了较高的门槛，限制了 AIGC 的发展和创造力发挥。

针对以上痛点，网易互娱 AI Lab 与上海交通大学合作进行了研究，创新性地提出一套基于可微矢量渲染器的解决方案——CLIPVG，首次实现了在不依赖于任何生成模型的情况下，进行文字引导的图像编辑。该方案巧妙地利用矢量元素的特性对优化过程进行约束，因此不仅能够避免海量数据需求和高昂的训练开销，在生成效果上也达到了最优的水准。论文已被 AAAI 2023 收录。

推荐：首次不依赖生成模型，一句话让 AI 修图！

论文 7：Co-Writing Screenplays and Theatre Scripts with Language Models An Evaluation by Industry Professionals

作者：PIOTR MIROWSKI 等
论文地址：https://arxiv.org/pdf/2209.14958.pdf

摘要：你是否有过这种体验：某一天逛街的时候，脑子里突然冒出来一个好玩的故事，但你一时想不到更多的细节，也没有一块完整的时间去把它写出来？DeepMind 新出的一款剧本写作 AI——Dramatron 或许可以帮到你。

Dramatron 是一个「联合写作」工具，你给它一句话描述中心戏剧冲突（比如 James 在有 Sam 鬼魂出没的后院发现了一口井），它就能自动写出标题、角色、场景描述和对话。

推荐：OpenAI ChatGPT 走红，DeepMind 不甘示弱，推出剧本写作 AI，一句话生成一个剧本。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation，在 7 Papers 的基础上，精选本周更多重要论文，包括NLP、CV、ML领域各 10 篇精选，并提供音频形式的论文摘要简介，详情如下：

本周 10 篇 NLP 精选论文是：

1. Attributed Question Answering: Evaluation and Modeling for Attributed Large Language Models. (from William W. Cohen, Michael Collins)

2. Feature-Level Debiased Natural Language Understanding. (from Maarten de Rijke)

3. Build-a-Bot: Teaching Conversational AI Using a Transformer-Based Intent Recognition and Question Answering Architecture. (from Cynthia Breazeal)

4. MORTY: Structured Summarization for Targeted Information Extraction from Scholarly Articles. (from Sören Auer)

5. Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation. (from Dragomir Radev)

6. Momentum Contrastive Pre-training for Question Answering. (from Irwin King)

7. TRIP: Triangular Document-level Pre-training for Multilingual Language Models. (from Haoyang Huang)

8. MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are Better Dense Retrievers. (from Kun Zhou, Ji-Rong Wen)

9. Visually-augmented pretrained language models for NLP tasks without images. (from Kun Zhou, Ji-Rong Wen)

10. Retrieval-based Disentanglement with Distant Supervision. (from Lei Chen)

本周 10 篇 CV 精选论文是：

1. Child PalmID: Contactless Palmprint Recognition. (from Anil K. Jain)

2. MAViL: Masked Audio-Video Learners. (from Jitendra Malik)

3. REVEAL: Retrieval-Augmented Visual-Language Pre-Training with Multi-Source Multimodal Knowledge Memory. (from Kai-Wei Chang, Cordelia Schmid)

4. PromptonomyViT: Multi-Task Prompt Learning Improves Video Transformers using Synthetic Scene Data. (from Ariel Shamir, Trevor Darrell)

5. BKinD-3D: Self-Supervised 3D Keypoint Discovery from Multi-View Videos. (from Pietro Perona)

6. DiffAlign : Few-shot learning using diffusion based synthesis and alignment. (from Rama Chellappa)

7. LADIS: Language Disentanglement for 3D Shape Editing. (from Leonidas Guibas)

8. Fighting Malicious Media Data: A Survey on Tampering Detection and Deepfake Detection. (from Larry S. Davis)

9. Joint Spatio-Temporal Modeling for Semantic Change Detection in Remote Sensing Images. (from Bing Liu, Lorenzo Bruzzone)

10. DIP: Differentiable Interreflection-aware Physics-based Inverse Rendering. (from Ming-Hsuan Yang)

本周 10 篇 ML 精选论文是：

1. On the Relationship Between Explanation and Prediction: A Causal View. (from Bernhard Schölkopf)

2. Localized Contrastive Learning on Graphs. (from Philip S. Yu)

3. MABSplit: Faster Forest Training Using Multi-Armed Bandits. (from Sebastian Thrun)

4. Faster Maximum Inner Product Search in High Dimensions. (from Sebastian Thrun)

5. Transductive Linear Probing: A Novel Framework for Few-Shot Node Classification. (from Huan Liu)

6. Matrix Profile XXVII: A Novel Distance Measure for Comparing Long Time Series. (from Liang Wang, Eamonn Keogh)

7. Reliable extrapolation of deep neural operators informed by physics or sparse observations. (from George Em Karniadakis)

8. Accelerating Dataset Distillation via Model Augmentation. (from Lei Zhang)

9. Safety Correction from Baseline: Towards the Risk-aware Policy in Robotics via Dual-agent Reinforcement Learning. (from Dacheng Tao)

10. Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks. (from Dacheng Tao)

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章