Redian新闻
>
7 Papers & Radios | 谷歌开源机器人领域transformer;DeepMind推出剧本写作AI

7 Papers & Radios | 谷歌开源机器人领域transformer;DeepMind推出剧本写作AI

公众号新闻

机器之心 & ArXiv Weekly Radiostation

参与:杜伟、楚航、罗若天

本周主要论文包括谷歌机器人团队提出的多任务模型——Robotics Transformer 1 (RT-1),以及 DeepMind 用一句话生成一个剧本的写作型 AI。

目录:


  1. RT-1: Robotics Transformer for Real-World Control at Scale

  2. Abstract Visual Reasoning with Tangram Shapes

  3. Re^3 : Generating Longer Stories With Recursive Reprompting and Revision

  4. BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis

  5. Parameter-Efficient Masking Networks

  6. CLIPVG: Text-Guided Image Manipulation Using Differentiable Vector Graphics

  7. Co-Writing Screenplays and Theatre Scripts with Language Models An Evaluation by Industry Professionals

  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:RT-1: Robotics Transformer for Real-World Control at Scale


  • 作者:Anthony Brohan 等

  • 论文地址:https://robotics-transformer.github.io/assets/rt1.pdf


摘要:谷歌机器人团队等提出了 Robotics Transformer 1 (RT-1)。这是一种多任务模型,可以 tokenize 机器人的输入和输出动作,从而在运行时实现高效推理,使实时控制成为可能。


RT-1 模型在包含 130k 个 episode 的大型真实机器人数据集上进行训练,该数据集涵盖了 700 多项任务,使用 Everyday Robots (EDR) 的 13 台机器人在 17 个月内收集而成。数据集中展示的一组高级技能包括拾取和放置物品、打开和关闭抽屉、将物品放入和取出抽屉、将细长的物品直立放置、敲倒物体、拉出餐巾纸和打开罐子。



推荐:轻松完成 700 多条指令、成功率达 97%!谷歌开源机器人领域 transformer。


论文 2:Abstract Visual Reasoning with Tangram Shapes


  • 作者:Anya Ji 等

  • 论文地址:https://arxiv.org/pdf/2211.16492.pdf


摘要:在这篇论文中,康奈尔大学等机构的研究者介绍了「KiloGram」,一个用于研究人类和机器的抽象视觉推理的资源库。KiloGram 在两个方面极大地改进了现有资源。


首先,研究者策划并数字化了 1016 个形状,创造了一个比现有工作中使用的集合大两个数量级的集合。这个集极大地增加了对整个命名变化范围的覆盖,提供了一个关于人类命名行为的更全面的视角。第二,该集合不是把每个七巧板当作一个单一的整体形状,而是当成由原始的拼图碎片构成的矢量图形。这种分解能够对整个形状和它们的部分进行推理。研究者利用这个新的数字化七巧板图形集合来收集大量的文本描述数据,反映了命名行为的高度多样性。



推荐:EMNLP 2022 最佳长论文。


论文 3:Re^3 : Generating Longer Stories With Recursive Reprompting and Revision


  • 作者:Kevin Yang 等

  • 论文地址:https://arxiv.org/pdf/2210.06774.pdf


摘要:在今天的人工智能领域,AI 写作神器层出不穷,技术和产品可谓日新月异。如果说 OpenAI 两年前发布的 GPT-3 在文笔上还稍欠火候,那么前段时间的 ChatGPT 的生成结果可以算是「文笔华丽、情节饱满、逻辑自洽兼而有之」。


有人说,AI 要是动起笔来,那真是没人类什么事了。但不管是人类还是 AI,一旦把「字数要求」提高,文章就会变得更难「驾驭」。近日,华人 AI 研究科学家田渊栋和其他几位研究者最近一起发布了一个新的语言模型——Re^3,这项研究也入选了 EMNLP 2022。



推荐:符合人类创作过程的 AIGC:自动生成长故事的模型出现了。


论文 4:BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis


  • 作者:Haiyang Liu 等

  • 论文地址:https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136670605.pdf


摘要:华为东京研究所 - Digital Human Lab 与东京大学等合作进行了研究,提出了目前为止最大规模的数字人多模态数据集:BEAT (Body-Expression-Audio-Text),由 76 小时动捕设备采集的谈话数据和语义 - 情感标注组成。原始数据包含肢体和手部动捕数据,AR Kit 标准 52 维面部 blendshape 权重,音频与文本,标注数据包含 8 类情感分类标签,以及动作类型分类和语义相关度打分。


在 BEAT 的基础上提出的新基线模型 CaMN (Cascade-Motion-Network) 采取级联神经网络结构,由 BEAT 中其余三种模态和标注作为输入,在动作生成任务上显著优于现有 SoTA (state-of-the-art) 算法。论文已于 ECCV2022 上发表,数据集已经开源。



推荐:76 小时动捕,最大规模数字人多模态数据集开源。


论文 5:Parameter-Efficient Masking Networks


  • 作者:Yue Bai 等

  • 论文地址:https://arxiv.org/abs/2210.06699


摘要:为了处理更复杂的任务,近年来神经网络的规模也在不断变大,如何高效的储存和传输神经网络变得十分重要。另一方面,随着彩票假说(Lottery Ticket Hypothesis (LTH))的提出,随机稀疏神经网络最近展现出很强的潜力,如何利用这种潜力来提高网络的存储和传输效率也很值得探索。


美国东北大学和罗切斯特理工的研究者提出参数集约型掩码网络(Parameter-Efficient Masking Networks (PEMN))。作者首先探索了有限数量随机数生成的随机网络的表征能力。实验表明,即使网络由有限数量的随机数生成,通过选择不同的子网络结构,其依然具有很好的表征能力。文章已被 NeurIPS 2022 接受。代码已开源。



推荐:如何提高存储、传输效率?参数集约型掩码网络效果显著。


论文 6:CLIPVG: Text-Guided Image Manipulation Using Differentiable Vector Graphics


  • 作者:Yiren Song 等

  • 论文地址:https://arxiv.org/abs/2212.02122


摘要:2022 年是人工智能生成内容(AI Generated Content,AIGC)爆发的一年,其中一个热门方向就是通过文字描述(text prompt)来对图片进行编辑。已有方法通常需要依赖在大规模数据集上训练的生成模型,不仅数据采集和训练成本高昂,且会导致模型尺寸较大。这些因素给技术落地于实际开发和应用带来了较高的门槛,限制了 AIGC 的发展和创造力发挥。


针对以上痛点,网易互娱 AI Lab 与上海交通大学合作进行了研究,创新性地提出一套基于可微矢量渲染器的解决方案——CLIPVG,首次实现了在不依赖于任何生成模型的情况下,进行文字引导的图像编辑。该方案巧妙地利用矢量元素的特性对优化过程进行约束,因此不仅能够避免海量数据需求和高昂的训练开销,在生成效果上也达到了最优的水准。论文已被 AAAI 2023 收录。



推荐:首次不依赖生成模型,一句话让 AI 修图!


论文 7:Co-Writing Screenplays and Theatre Scripts with Language Models An Evaluation by Industry Professionals


  • 作者:PIOTR MIROWSKI 等

  • 论文地址:https://arxiv.org/pdf/2209.14958.pdf


摘要:你是否有过这种体验:某一天逛街的时候,脑子里突然冒出来一个好玩的故事,但你一时想不到更多的细节,也没有一块完整的时间去把它写出来?DeepMind 新出的一款剧本写作 AI——Dramatron 或许可以帮到你。


Dramatron 是一个「联合写作」工具,你给它一句话描述中心戏剧冲突(比如 James 在有 Sam 鬼魂出没的后院发现了一口井),它就能自动写出标题、角色、场景描述和对话。



推荐:OpenAI ChatGPT 走红,DeepMind 不甘示弱,推出剧本写作 AI,一句话生成一个剧本。


ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各 10 篇精选,并提供音频形式的论文摘要简介,详情如下:


本周 10 篇 NLP 精选论文是:


1. Attributed Question Answering: Evaluation and Modeling for Attributed Large Language Models.  (from William W. Cohen, Michael Collins)
2. Feature-Level Debiased Natural Language Understanding.  (from Maarten de Rijke)
3. Build-a-Bot: Teaching Conversational AI Using a Transformer-Based Intent Recognition and Question Answering Architecture.  (from Cynthia Breazeal)
4. MORTY: Structured Summarization for Targeted Information Extraction from Scholarly Articles.  (from Sören Auer)
5. Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation.  (from Dragomir Radev)
6. Momentum Contrastive Pre-training for Question Answering.  (from Irwin King)
7. TRIP: Triangular Document-level Pre-training for Multilingual Language Models.  (from Haoyang Huang)
8. MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are Better Dense Retrievers.  (from Kun Zhou, Ji-Rong Wen)
9. Visually-augmented pretrained language models for NLP tasks without images.  (from Kun Zhou, Ji-Rong Wen)
10. Retrieval-based Disentanglement with Distant Supervision.  (from Lei Chen)



本周 10 篇 CV 精选论文是:

1. Child PalmID: Contactless Palmprint Recognition.  (from Anil K. Jain)
2. MAViL: Masked Audio-Video Learners.  (from Jitendra Malik)
3. REVEAL: Retrieval-Augmented Visual-Language Pre-Training with Multi-Source Multimodal Knowledge Memory.  (from Kai-Wei Chang, Cordelia Schmid)
4. PromptonomyViT: Multi-Task Prompt Learning Improves Video Transformers using Synthetic Scene Data.  (from Ariel Shamir, Trevor Darrell)
5. BKinD-3D: Self-Supervised 3D Keypoint Discovery from Multi-View Videos.  (from Pietro Perona)
6. DiffAlign : Few-shot learning using diffusion based synthesis and alignment.  (from Rama Chellappa)
7. LADIS: Language Disentanglement for 3D Shape Editing.  (from Leonidas Guibas)
8. Fighting Malicious Media Data: A Survey on Tampering Detection and Deepfake Detection.  (from Larry S. Davis)
9. Joint Spatio-Temporal Modeling for Semantic Change Detection in Remote Sensing Images.  (from Bing Liu, Lorenzo Bruzzone)
10. DIP: Differentiable Interreflection-aware Physics-based Inverse Rendering.  (from Ming-Hsuan Yang)


本周 10 篇 ML 精选论文是:

1. On the Relationship Between Explanation and Prediction: A Causal View.  (from Bernhard Schölkopf)
2. Localized Contrastive Learning on Graphs.  (from Philip S. Yu)
3. MABSplit: Faster Forest Training Using Multi-Armed Bandits.  (from Sebastian Thrun)
4. Faster Maximum Inner Product Search in High Dimensions.  (from Sebastian Thrun)
5. Transductive Linear Probing: A Novel Framework for Few-Shot Node Classification.  (from Huan Liu)
6. Matrix Profile XXVII: A Novel Distance Measure for Comparing Long Time Series.  (from Liang Wang, Eamonn Keogh)
7. Reliable extrapolation of deep neural operators informed by physics or sparse observations.  (from George Em Karniadakis)
8. Accelerating Dataset Distillation via Model Augmentation.  (from Lei Zhang)
9. Safety Correction from Baseline: Towards the Risk-aware Policy in Robotics via Dual-agent Reinforcement Learning.  (from Dacheng Tao)
10. Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks.  (from Dacheng Tao)


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
DeepMind新作!无需权重更新、微调,Transformer在试错中自主改进!超越ConvNeXt!Transformer 风格的卷积网络视觉基线模型Conv2Former了解Transformers是如何“思考”的OpenAI ChatGPT走红,DeepMind不甘示弱,推出剧本写作AI,一句话生成一个剧本昨天上课的大妈的不寻常故事EeSen、FSMN、CLDNN、BERT、Transformer-XL…你都掌握了吗?一文总结语音识别必备经典模型(二)平价买到高级感!IKEA全新 OBEGRÄNSAD系列,全系列都好看!ChatGPT 走红后 DeepMind 不甘示弱,推出剧本写作 AI,一句话生成一个剧本Fast and Effective!一文速览轻量化Transformer各领域研究进展最高加速9倍!字节跳动开源8比特混合精度Transformer引擎一文浅谈Graph Transformer领域近期研究进展从打倒土豪劣绅到人人斗私批修谷歌新作!Transformer杀入机器人领域!RT-1:97%成功率,轻松完成700多条控制指令!Transformer作者离职创业的公司,想从老东家谷歌再拿2亿美元融资强化学习中的Transformer发展到哪一步了?清北联合发布TransformRL综述了解 Transformers 是如何“思考”的7 Papers & Radios | 无残差连接训练深度transformer;DeepMind写代码AI登Science封面文学城,老中们的精神养老院​NeurIPS 2022 | IPMT:用于小样本语义分割的中间原型挖掘TransformerTransformer如何做扩散模型?伯克利最新《transformer可扩展扩散模型》论文7 Papers & Radios | 推理速度比Stable Diffusion快2倍;视觉Transformer统一图像文本再掀强化学习变革!DeepMind提出「算法蒸馏」:可探索的预训练强化学习Transformer7 Papers & Radios | 谷歌开源机器人领域transformer;DeepMind推出剧本写作AIICRA 2023 | CurveFormer:基于Transformer的3D车道线检测新网络超越ConvNeXt!Conv2Former:用于视觉识别的Transformer风格的ConvNet学完这个教程,小白也能构建Transformer模型,DeepMind科学家推荐更快更强!EfficientFormerV2来了!一种新的轻量级视觉TransformerDeepMind新作:无需权重更新、提示和微调,transformer在试错中自主改进7 Papers & Radios | ECCV 2022最佳论文;Transformer在试错中自主改进DeepMind“反向”搭建Transformer方法火了:由可解释程序设计AI,项目已开源Transformer作者创业的公司,想从老东家谷歌再拿2亿美元融资!新发!华裔女演员头像银币球场不速客,圆头大尾狸
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。