Redian新闻
>
7 Papers & Radios | OpenAI用GPT-4解释GPT-2;Meta开源多感官基础模型

7 Papers & Radios | OpenAI用GPT-4解释GPT-2;Meta开源多感官基础模型

公众号新闻

机器之心 & ArXiv Weekly 

参与:楚航、罗若天、梅洪源

本周重要论文有 Meta AI开源的多感官 AI 基础模型,用图像对齐了所有模态,还有 OpenAI 开始用 AI 解读 AI 的新研究。


目录:


  1. Language models can explain neurons in language models

  2. EgoLocate: Real-time Motion Capture, Localization, and Mapping with Sparse Body-mounted Sensors

  3. IMAGEBIND: One Embedding Space To Bind Them All

  4. DetGPT: Detect What You Need via Reasoning

  5. A Unified Spatial-Angular Structured Light for Single-View Acquisition of Shape and Reflectance

  6. PandaLM: Reproducible and Automated Language Model Assessment

  7. DreamFace: Progressive Generation of Animatable 3D Faces under Text Guidance

  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Language models can explain neurons in language models


  • 作者:Steven Bills、Nick Cammarata 等

  • 论文地址:https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html


摘要:可解释性研究的一种简单方法是首先了解 AI 模型各个组件(神经元和注意力头)在做什么。传统的方法是需要人类手动检查神经元,以确定它们代表数据的哪些特征。这个过程很难扩展,将它应用于具有数百或数千亿个参数的神经网络的成本过于高昂。


所以 OpenAI 提出了一种自动化方法 —— 使用 GPT-4 来生成神经元行为的自然语言解释并对其进行评分,并将其应用于另一种语言模型中的神经元 —— 此处他们选择了 GPT-2 为实验样本,并公开了这些 GPT-2 神经元解释和分数的数据集。第一步用 GPT-4 生成解释。


第二步使用 GPT-4 进行模拟。


第三步对比。


推荐:OpenAI 用 GPT-4 解释了 GPT-2 三十万个神经元:智慧原来是这个样子。


论文 2:EgoLocate: Real-time Motion Capture, Localization, and Mapping with Sparse Body-mounted Sensors


  • 作者:Xinyu Yi、Yuxiao Zhou 等

  • 论文地址:https://arxiv.org/abs/2305.01599


摘要:近年来,基于惯性的人体动作捕捉技术迅速发展。它们通过在人体上穿戴惯性传感器,实时测量人体的运动信息。然而这就好比一个人在蒙着眼睛走路 —— 我们可以感受到身体的运动,但随着时间的累积,我们越来越难以确定自己的位置。


本文则试图打开惯性动作捕捉的「眼睛」。通过额外佩戴一个手机相机,我们的算法便有了「视觉」。它可以在捕获人体运动的同时感知环境信息,进而实现对人体的精确定位。该项研究来自清华大学徐枫团队,已被计算机图形学领域国际顶级会议 SIGGRAPH2023 接收。本文人体动作捕捉与环境建图技术如下动图所示。


推荐:6 个惯性传感器和 1 个手机实现人体动作捕捉、定位与环境重建。


论文 3:IMAGEBIND: One Embedding Space To Bind Them All


  • 作者:Rohit Girdhar、 Alaaeldin El-Nouby 等

  • 论文地址:https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf


摘要:在人类的感官中,一张图片可以将很多体验融合到一起,比如一张海滩图片可以让我们想起海浪的声音、沙子的质地、拂面而来的微风,甚至可以激发创作一首诗的灵感。图像的这种「绑定」(binding)属性通过与自身相关的任何感官体验对齐,为学习视觉特征提供了大量监督来源。理想情况下,对于单个联合嵌入空间,视觉特征应该通过对齐所有感官来学习。然而这需要通过同一组图像来获取所有感官类型和组合的配对数据,显然不可行。


最近,很多方法学习与文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅限于用于训练的模态对。因此,视频 - 音频嵌入无法直接用于图像 - 文本任务,反之亦然。学习真正的联合嵌入面临的一个主要障碍是缺乏所有模态融合在一起的大量多模态数据。


今日,Meta AI 提出了 ImageBind,它通过利用多种类型的图像配对数据来学习单个共享表示空间。该研究不需要所有模态相互同时出现的数据集,相反利用到了图像的绑定属性,只要将每个模态的嵌入与图像嵌入对齐,就会实现所有模态的迅速对齐。Meta AI 还公布了相应代码。


推荐:用图像对齐所有模态,Meta 开源多感官 AI 基础模型,实现大一统。


论文 4:DetGPT: Detect What You Need via Reasoning


  • 作者:Renjie Pi、Jiahui Gao 等

  • 论文地址:https://detgpt.github.io/


摘要:本文中,来自港科大 & 港大的研究人员提出了一个全开源模型 DetGPT (全名 DetectionGPT),只需微调三百万参数量,让模型轻松拥有了复杂推理和局部物体定位能力,可以泛化到大多数场景。这意味着模型能够通过自身知识的推理来理解人类抽象指令,轻松识别图片中的人类感兴趣的物体!


DetGPT 可以让用户用自然语言操作一切,不需要繁琐的命令或者界面。同时还具备智能推理和目标检测能力,可以准确地理解用户的需求和意图。例如人类发一个语言指令 “我想喝冷饮”,机器人首先在场景里搜索冷饮,但是没有找到。于是开始思考 “场景里没有冷饮,我应该去哪里找”。通过强大的常识推理能力模型想到了冰箱,于是扫描场景画面发现了冰箱,成功锁定饮料位置!


推荐:能看图、会聊天,还会跨模态推理和定位,能落地复杂场景的 DetGPT 来了。


论文 5:A Unified Spatial-Angular Structured Light for Single-View Acquisition of Shape and Reflectance


  • 作者:Xianmin Xu、Yuxin Lin 等

  • 论文地址:https://svbrdf.github.io/


摘要:如何数字化真实世界中的复杂物体是计算机图形学与计算机视觉中的经典问题,在文化遗产、电子商务和电影特效等诸多领域有着广泛的应用。高精度数字化结果由三维几何与高维外观组成,能在虚拟世界中高保真地重现出本体在任意光照和视角下的「流光溢彩」。


为了提升数字化采集中的信噪比,浙江大学计算机辅助设计与图形系统全国重点实验室和杭州相芯科技有限公司的研究团队首次提出了能同时采集几何与外观信息的轻量级高维结构光光源,通过 LED 阵列与 LCD 面板组合,等效构建了 3072 个分辨率约为 320x320 的投影仪,仅用单个相机即可实现 0.27mm 的几何重建精度以及 SSIM=0.94 的外观重建精度,在复杂物体重建实验中超越了 SOTA。相关研究论文已被 CVPR 2023 接收。


下图左为团队自研结构光硬件原型,包括 64x48 的 LED 阵列、一个 1920x1080 分辨率的 LCD 遮罩(通过对普通液晶显示器拆卸后得到)和一台相机。图中为使用单个 LED 能投影一组遮罩图案来采集三维几何。图右为多个 LED 能投影光照图案穿过全透明遮罩来采集高维外观。


推荐:LED 阵列 + LCD 面板 = 3072 个投影仪:浙大 - 相芯联合团队实现复杂物体高质量数字化建模。


论文 6:PandaLM: Reproducible and Automated Language Model Assessment


  • 作者:Yidong Wang、Yidong Wang 等

  • 论文地址:https://github.com/WeOpenML/PandaLM


摘要:大模型的发展可谓一日千里,指令微调方法犹如雨后春笋般涌现,大量所谓的 ChatGPT “平替” 大模型相继发布。在大模型的训练与应用开发中,开源、闭源以及自研等各类大模型真实能力的评测已经成为提高研发效率与质量的重要环节。


北京大学、西湖大学等机构的研究者提出了一种全新的大模型评估范式 PandaLM。PandaLM 通过训练一个专门用于评估的大模型,对大模型能力进行自动化且可复现的测试验证。PandaLM 于 4 月 30 日在 GitHub 上发布,是全球首个评估大模型的大模型。相关论文会在近期公布。


下面三张表的结果说明人类,gpt-3.5-turbo 与 PandaLM-7B 对于各个模型之间优劣关系的判断完全一致。


推荐:可复现、自动化、低成本、高评估水平,首个自动化评估大模型的大模型 PandaLM 来了。


论文 7:DreamFace: Progressive Generation of Animatable 3D Faces under Text Guidance


  • 作者:Longwen Zhang、Qiwei Qiu 等

  • 论文地址:https://arxiv.org/abs/2304.03117


摘要:在科技迅速发展的今天,生成式人工智能和计算机图形学领域的研究日益引人注目,影视制作、游戏开发等行业正面临着巨大的挑战和机遇。本文将为您介绍一项 3D 生成领域的研究 ——DreamFace,它是首个支持 Production-Ready 3D 资产生成的文本指导渐进式 3D 生成框架,能够实现文本生成可驱动的 3D 超写实数字人。


这项工作已经被计算机图形领域国际顶级期刊 Transactions on Graphics 接收,并将在国际计算机图形顶级会议 SIGGRAPH 2023 上展示。DreamFace 框架概述图如下所示。


推荐:DreamFace:一句话生成 3D 数字人?


ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天、梅洪源发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:

本周 10 篇 NLP 精选论文是:


1. Beyond Good Intentions: Reporting the Research Landscape of NLP for Social Good.  (from Bernhard Schölkopf)

2. Read it Twice: Towards Faithfully Interpretable Fact Verification by Revisiting Evidence.  (from Philip S. Yu)

3. Think Rationally about What You See: Continuous Rationale Extraction for Relation Extraction.  (from Irwin King, Philip S. Yu)

4. A Survey on Out-of-Distribution Detection in NLP.  (from Jian Sun)

5. Alleviating Over-smoothing for Unsupervised Sentence Representation.  (from Jian Pei, Jia Li)

6. A Unified Evaluation Framework for Novelty Detection and Accommodation in NLP with an Instantiation in Authorship Attribution.  (from Bing Liu)

7. Residual Prompt Tuning: Improving Prompt Tuning with Residual Reparameterization.  (from Jimmy Ba)

8. LACoS-BLOOM: Low-rank Adaptation with Contrastive objective on 8 bits Siamese-BLOOM.  (from Brian Williams)

9. Train Global, Tailor Local: Minimalist Multilingual Translation into Endangered Languages.  (from Alex Waibel)

10. Active Retrieval Augmented Generation.  (from Yiming Yang, Jamie Callan)


本周 10 篇 CV 精选论文是:


1. Child Palm-ID: Contactless Palmprint Recognition for Children.  (from Anil K. Jain)

2. Simple Token-Level Confidence Improves Caption Correctness.  (from Trevor Darrell, Marcus Rohrbach)

3. Self-supervised Pre-training with Masked Shape Prediction for 3D Scene Understanding.  (from Bernt Schiele)

4. MMoT: Mixture-of-Modality-Tokens Transformer for Composed Multimodal Conditional Image Synthesis.  (from Dacheng Tao)

5. DynamicKD: An Effective Knowledge Distillation via Dynamic Entropy Correction-Based Distillation for Gap Optimizing.  (from Licheng Jiao)

6. HuManiFlow: Ancestor-Conditioned Normalising Flows on SO(3) Manifolds for Human Pose and Shape Distribution Estimation.  (from Roberto Cipolla)

7. Reconstructing Animatable Categories from Videos.  (from Deva Ramanan)

8. Scan2LoD3: Reconstructing semantic 3D building models at LoD3 using ray casting and Bayesian networks.  (from Daniel Cremers)

9. Self-Supervised Instance Segmentation by Grasping.  (from Pieter Abbeel)

10. Group Activity Recognition via Dynamic Composition and Interaction.  (from Zheng Wang)


本周 10 篇 ML 精选论文是:


1. Symbolic Regression on FPGAs for Fast Machine Learning Inference.  (from Maurizio Pierini)

2. Contrastive Graph Clustering in Curvature Spaces.  (from Philip S. Yu)

3. Flexible Job Shop Scheduling via Dual Attention Network Based Reinforcement Learning.  (from Gang Wang, Jian Sun)

4. Large Language Model Programs.  (from Wen-tau Yih, Jason Weston)

5. Best-Effort Adaptation.  (from Corinna Cortes, Mehryar Mohri)

6. FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance.  (from Matei Zaharia)

7. A Generative Modeling Framework for Inferring Families of Biomechanical Constitutive Laws in Data-Sparse Regimes.  (from George Em Karniadakis)

8. FedNC: A Secure and Efficient Federated Learning Method Inspired by Network Coding.  (from Khaled B. Letaief)

9. Spectrum Breathing: Protecting Over-the-Air Federated Learning Against Interference.  (from Yonina C. Eldar)

10. Language models can generate molecules, materials, and protein binding sites directly in three dimensions as XYZ, CIF, and PDB files.  (from Alán Aspuru-Guzik)


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
OpenAI劲敌融资13亿美元;中国团队推首颗AI全自动设计CPU;全球首个医疗多模态基础模型群发布丨AIGC大事日报Holiday Special 七月上 望七月 ~~ poem & song by 盈盈 & AP微软开源多模态聊天机器人 Visual ChatGPT7 Papers & Radios | 爆火论文打造《西部世界》雏形;OpenAI终结扩散模型李时珍没上大学读博也能成名医微软也搞起了开源小模型!利用OpenAI的ChatGPT和GPT-4 训练,实力碾压当前最强开源模型用ChatGPT秒建大模型!OpenAI全新插件杀疯了,接入代码解释器一键getPrompt Sapper:基础模型的灵魂伴侣,AI服务的创新工场【美国春天母亲节5原创钢琴三部曲 “粉衣蓝裙”不表白庆六一艺术节】《美丽夏天温柔的雨》&《爱的童话》&《雷雨之后》【美国春天母亲节5年回顾原创三部曲六一钢琴节】我为柳宗元《小石潭记》作曲 &《让我们唱在夏天里》&《卖火柴的小女孩》真人7 Papers & Radios | LeCun世界模型首次尝试;Meta开源文本音乐生成模型Prompt一键抠图!Meta发布史上首个图像分割基础模型,开创CV新范式中国AI大模型地图发布;GPT研究烧掉30亿美金;美团正自研基础模型丨AIGC大事日报灵感碰撞,重铸感官,与迪丽热巴和马伯骞开启一场感官之旅乌克兰的黑洞【美国春天母亲节献礼4女高音三部曲 舞台艺术节255】春天原创现场舞台:《妈妈是天使》&《游子吟:三春晖》&《春天摇篮》CVPR 2023 | 可扩展的视频基础模型预训练范式:训练出首个十亿参数量视频自监督大模型OpenAI用GPT-4解释了GPT-2三十万个神经元!用AI打败AI上交大&上海AI lab研发胸部X-ray疾病诊断基础模型,成果入选Nature子刊人的脑子里,有多少种思绪华裔数学家用GPT-4解数学难题;清华唐杰团队发布WebGLM;全国人大法工委回应“AI换脸”现象丨AIGC大事日报剑桥华人团队开源PandaGPT:首个横扫「六模态」的大型基础模型并非Meta开发!名为MetaGPT的AI模型近日开源【君在我心】之【云深情也深 】& 【今夜想起你 】& 【爱在我心中】前哨速览:Temu/Shein面临假货监管问题,机器人多感官AI算法平台诞生微软总裁:中国将是 ChatGPT 的主要对手;Moss 大模型开源;推特正在为百万粉丝账号恢复蓝 V 认证 | 极客早知道7 Papers & Radios | GPT-4学会反思;ChatGPT数据标注比人便宜20倍7 Papers & Radios | Meta「分割一切」AI模型;从T5到GPT-4盘点大语言模型有一种“毁容”叫陈好,当初的女神“万人迷”,如今形象宛如大妈碾压ChatGPT?Meta开源多语言大模型,可识别4000多种语言、错误率仅为OpenAI产品的一半Meta开源多感官AI模型;“ChatGPT之父”推出世界币App;传出门问问赴港IPO丨AIGC大事日报在线可玩:阿里开源多模态大模型mPLUG-Owl,电影问答、梗图理解、多轮聊天……OpenAI聘用华人高管带领ChatGPT产品团队;荣耀回应新设公司自研芯片传言;Meta或取消远程办公 | AI一周资讯OpenAI要为GPT-4解决数学问题了:奖励模型指错,解题水平达到新高度Meta 开源多语言大模型,可识别 4000 多种语言、错误率仅为 OpenAI 产品的一半Agustín Hernández:中美洲建筑背景下的未来主义巨构ICML 2023 | 基于模块化思想,阿里达摩院提出多模态基础模型mPLUG-2演员出名的年龄开源多模态大模型哪家强?TOP12榜单来了,GitHub揽获2.2k+星Opera推出Opera One,将取代Opera浏览器
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。