Redian新闻
>
7 Papers & Radios | GPT-4学会反思;ChatGPT数据标注比人便宜20倍

7 Papers & Radios | GPT-4学会反思;ChatGPT数据标注比人便宜20倍

公众号新闻

机器之心 & ArXiv Weekly 

参与:楚航、罗若天、梅洪源

本周论文包括美国东北大学、MIT 等机构提出的 Reflexion,该方法赋予智能体动态记忆和自我反思的能力;苏黎世大学的研究者证明了 ChatGPT 在多项注释任务(包括相关性、立场、主题和框架检测)上优于众包工作平台和人类工作助理等研究。


目录
  1. Fairness-guided Few-shot Prompting for Large Language Models
  2. ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks
  3. Blind Video Deflickering by Neural Filtering with a Flawed Atlas 
  4. Reflexion: an autonomous agent with dynamic memory and self-reflection 
  5. Disentanglement with Biological Constraints: A Theory of Functional Cell Types
  6. Emergence of Maps in the Memories of Blind Navigation Agents
  7. Erasing Concepts from Diffusion Models 
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Fairness-guided Few-shot Prompting for Large Language Models
  • 作者:Huan Ma、Changqing Zhang 等

  • 论文地址:https://arxiv.org/abs/2303.13217


摘要:本文从 “预测偏差” 的角度重新审视了 NLP 领域中的 prompt 优化问题,发现了一个关键现象:一个给定的 prompt 的质量取决于它的内在偏差。基于这个现象,文章提出了一个基于预测偏差的替代标准来评估 prompt 的质量,该度量方法能够在不需要额外开发集 (development set) 的情况下通过单个前向过程来评估 prompt。
具体来说,通过在一个给定的 prompt 下输入一个 “无内容” 的测试,期望模型输出一个均匀的预测分布(一个 “无内容” 的输入不包含任何有用的信息)。因此,文中利用预测分布的均匀性来表示给定 prompt 的预测偏差。这与先前的后校准方法 [4] 用的指标类似,但与后校准在固定的 prompt 情况下使用这个 metric 进行概率后校准不同的是,文中进一步探索了其在自动搜索近似 prompt 中的应用。并通过大量实验证实了一个给定 prompt 的内在偏差和它在给定测试集上的平均任务表现之间的相关性。
该工作提出了两种新颖的策略以高效的方式搜索高质量的 prompt:(1) T-fair-Prompting (2) G-fair-Prompting。
推荐:重新审视 Prompt 优化问题,预测偏差让语言模型上下文学习更强。
论文 2:ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks
  • 作者:Fabrizio Gilardi、Meysam Alizadeh 等

  • 论文地址:https://arxiv.org/abs/2303.15056


摘要:近日,来自苏黎世大学的研究者证明了 ChatGPT 在多项注释任务(包括相关性、立场、主题和框架检测)上优于众包工作平台和人类工作助理。
此外,研究人员还做了计算:ChatGPT 的每条注释成本不到 0.003 美元 —— 大约比 MTurk 便宜 20 倍。这些结果显示了大型语言模型在大幅提高文本分类效率方面的潜力。
研究人员使用了之前的研究收集的 2382 条推文样本。这些推文由训练有素的注释者(研究助理)标记为五种不同的任务:相关性、立场、主题和两种框架检测。实验中,研究者将任务作为零样本分类提交给 ChatGPT,并同时给 MTurk 上的众包工作者,然后根据两个基准评估了 ChatGPT 的性能:相对于众包平台上人类工作者的准确性,以及相对于研究助理注释者的准确性。
结果发现,在五分之四的任务上,ChatGPT 的零样本准确率高于 MTurk。对于所有任务,ChatGPT 的编码器协议都超过了 MTurk 和训练有素的注释者。此外在成本上,ChatGPT 比 MTurk 便宜得多:五个分类任务在 ChatGPT(25264 个注释)上的成本约为 68 美元,在 MTurk(12632 个注释)上的成本约为 657 美元。

图 1. 与 MTurk 上高分标注人相比,ChatGPT zero-shot 的文本标注能力。ChatGPT 在五项任务中的四项中的准确性优于 MTurk。
推荐:ChatGPT 数据标注比人便宜 20 倍,而且还更准。
论文 3:Blind Video Deflickering by Neural Filtering with a Flawed Atlas
  • 作者:Chenyang Lei 、 Xuanchi Ren

  • 论文地址:https://arxiv.org/pdf/2303.08120.pdf


摘要:该 CVPR 2023 论文致力于研究一种通用的闪烁去除方法:(1)对于各种闪烁模式或水平均具有较高的泛化性(例如,旧电影、高速相机拍摄的慢动作视频),(2)仅需要一段闪烁视频,并不需要其他辅助信息(例如,闪烁类型、额外的时间一致视频)。由于该方法没有过多假设,它具有广泛的应用场景。
通过两个关键的观察和设计,作者成功提出了一个通用的、无需额外指导的通用去闪烁方法,可以消除各种闪烁伪影。
一种良好的盲去闪烁模型应该具有跟踪所有视频帧之间对应点的能力。视频处理中的多数网络结构只能采用少量帧作为输入,导致感知野较小,无法保证长期一致性。研究者观察到神经图集非常适合闪烁消除任务,因此将引入神经图集到这项任务中。神经图集是视频中所有像素的统一且简洁的表示方式。如图 (a) 所示,设 p 为一个像素,每个像素 p 被输入到映射网络 M 中,该网络预测 2D 坐标(up,vp),表示像素在图集中对应的位置。理想情况下,不同帧之间的对应点应该共享图集中的一个像素,即使输入像素的颜色不同也应该如此。也就是说,这可以确保时间一致性。
其次,虽然从共享的图层中获取的帧是一致的,但图像的结构存在缺陷:神经图层不能轻松地建模具有大运动的动态对象;用于构建图层的光流也不完美。因此,作者们提出了一种神经过滤策略,从有缺陷的图层中挑选好的部分。研究者们训练了一个神经网络来学习两种类型的失真下的不变性,这两种失真分别模拟了图层中的伪影和视频中的闪烁。在测试时,该网络可作为过滤器很好地工作,以保留一致性属性并阻止有缺陷的图层中的伪影。
推荐:一键去除视频闪烁。
论文 4:Reflexion: an autonomous agent with dynamic memory and self-reflection
  • 作者:Noah Shinn 、 Beck Labash

  • 论文地址:https://arxiv.org/pdf/2303.11366.pdf


摘要:在最近的一篇论文中,来自美国东北大学、MIT 等机构的研究者提出 Reflexion,该方法赋予智能体动态记忆和自我反思的能力。
为了验证方法的有效性,该研究评估了智能体在 AlfWorld 环境中完成决策任务的能力,以及在 HotPotQA 环境中完成知识密集型、基于搜索问答任务的能力,在这两项任务的成功率分别为 97% 和 51%。
Reflexion 智能体的整体架构如下图 1 所示,其中 Reflexion 利用 ReAct(Yao et al., 2023)。在第一次试验中,智能体从构成初始查询的环境中获得任务,然后智能体执行由 LLM 生成的一系列动作,并从环境中接收观察和奖励。对于提供描述型或持续型奖励的环境,该研究将输出限制为简单的二元成功状态以确保适用性。
推荐:当 GPT-4 反思自己错了:性能提升近 30%,编程能力提升 21%。
论文 5:Disentanglement with Biological Constraints: A Theory of Functional Cell Types
  • 作者:James C. R. Whittington, Will Dorrell

  • 论文地址:https://openreview.net/pdf?id=9Z_GfhZnGH


摘要:该研究受生物学启发,揭示了机器学习和神经科学之间有趣的联系,并从数学上证明机器学习中的约束会导致线性网络解缠结(disentanglement)。该研究还通过实验表明,相同的约束对于非线性情况也是有效的。总的来说,这项研究从数学的角度对单个神经元和大脑结构给出了更深层的理解。
推荐:ICLR 2023 杰出论文奖提名。
论文 6:Emergence of Maps in the Memories of Blind Navigation Agents
  • 作者:Erik Wijmans、Manolis Savva 等

  • 论文地址:https://openreview.net/pdf?id=lTt4KjHSsyl


摘要:该论文基于认知科学和机器学习的跨学科方法,让仅具备自我运动(egomotion)(不具备其他任何感知)的导航智能体学得有效表征,并实现有效导航。该研究对表征学习具有重要意义。
推荐:ICLR 2023 杰出论文奖。
论文 7:Erasing Concepts from Diffusion Models
  • 作者:Rohit Gandikota 、 Joanna Materzynska 等

  • 论文地址:https://arxiv.org/pdf/2303.07345v1.pdf


摘要:在最近的一篇论文中,来自美国东北大学、麻省理工学院的作者提出了一种在预训练之后有选择地从文本条件模型的权重中删除单个概念的方法。
此前的方法侧重于数据集过滤、post-generation 过滤或推理指导,而本文提出的方法不需要重新训练,这对于大型模型来说是不可思议的。基于推理的方法可以审查或有效引导模型输出的方式以避免生成不需要的概念。相比之下,本文的方法直接从模型的参数中将概念移除,从而可以安全地分配其权重。
下图展示了训练过程。
推荐:Stable Diffusion 学会在绘画中直接「擦除」侵权概念。
ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天、梅洪源发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:

本周 10 篇 NLP 精选论文是:


1. A comprehensive evaluation of ChatGPT's zero-shot Text-to-SQL capability.  (from Philip S. Yu)

2. ReCOGS: How Incidental Details of a Logical Form Overshadow an Evaluation of Semantic Interpretation.  (from Christopher D. Manning, Christopher Potts)

3. Towards Making the Most of ChatGPT for Machine Translation.  (from Dacheng Tao)

4. Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models: A Case Study on ChatGPT.  (from Dacheng Tao)

5. Language Models can Solve Computer Tasks.  (from Pierre Baldi)

6. Training Language Models with Language Feedback at Scale.  (from Kyunghyun Cho)

7. Bias or Diversity? Unraveling Semantic Discrepancy in U.S. News Headlines.  (from Jiebo Luo)

8. Zero-shot Entailment of Leaderboards for Empirical AI Research.  (from Sören Auer)

9. Scaling Expert Language Models with Unsupervised Domain Discovery.  (from Noah A. Smith)

10. GPTEval: NLG Evaluation using GPT-4 with Better Human Alignment.  (from Yang Liu)


本周 10 篇 CV 精选论文是:


1. AutoAD: Movie Description in Context.  (from Andrew Zisserman)

2. AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot AV-ASR.  (from Cordelia Schmid)

3. PAIR-Diffusion: Object-Level Image Editing with Structure-and-Appearance Paired Diffusion Models.  (from Nicu Sebe, Trevor Darrell)

4. SCADE: NeRFs from Space Carving with Ambiguity-Aware Depth Estimates.  (from Leonidas Guibas)

5. FlexNeRF: Photorealistic Free-viewpoint Rendering of Moving Humans from Sparse Views.  (from Larry S. Davis)

6. BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown Objects.  (from Dieter Fox, Jan Kautz)

7. Physics-Driven Diffusion Models for Impact Sound Synthesis from Videos.  (from Antonio Torralba)

8. Masked Diffusion Transformer is a Strong Image Synthesizer.  (from Ming-Ming Cheng, Shuicheng Yan)

9. InceptionNeXt: When Inception Meets ConvNeXt.  (from Shuicheng Yan)

10. TimeBalance: Temporally-Invariant and Temporally-Distinctive Video Representations for Semi-Supervised Action Recognition.  (from Mubarak Shah)


本周 10 篇 ML 精选论文是:


1. Ideal Abstractions for Decision-Focused Learning.  (from Eric Horvitz)

2. Physics-informed PointNet: On how many irregular geometries can it solve an inverse problem simultaneously? Application to linear elasticity.  (from Leonidas J. Guibas)

3. Planning with Sequence Models through Iterative Energy Minimization.  (from Joshua Tenenbaum)

4. An EMO Joint Pruning with Multiple Sub-networks: Fast and Effect.  (from Licheng Jiao)

5. Federated Learning without Full Labels: A Survey.  (from Yang Liu, Kai Chen)

6. Fairness-Aware Data Valuation for Supervised Learning.  (from Mário A. T. Figueiredo)

7. Predicting Adverse Neonatal Outcomes for Preterm Neonates with Multi-Task Learning.  (from Jiebo Luo)

8. Neural Collapse Inspired Federated Learning with Non-iid Data.  (from Deng Cai)

9. Adaptive Riemannian Metrics on SPD Manifolds.  (from Nicu Sebe)

10. How Does Attention Work in Vision Transformers? A Visual Analytics Attempt.  (from Liang Wang, Kwan-Liu Ma)


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
【君在我心】之【云深情也深 】& 【今夜想起你 】& 【爱在我心中】谷歌Bard被曝直接抄ChatGPT数据,BERT一作投诉CEO后投奔OpenAI韦神出的这道题火了,GPT苹果「余额宝」 四天吸金 69 亿元;微软拟 10 倍价推私有版 ChatGPT;ChatGPT 「建国」做女王 | 极客早知道Scale AI:大模型还需要数据标注吗?ChatGPT带火AI芯片,赚翻了的英伟达发布新核弹:ChatGPT专用GPU,让推理提速10倍!二年级选课,忽闻一夜 GPT 来,千课 万课 AI 开7 Papers & Radios | OpenAI用GPT-4解释GPT-2;Meta开源多感官基础模型一次只要0.003美元,比人类便宜20倍!ChatGPT让数据标注者危矣「恺望数据」获新一轮战略融资,以「自动化产线+规模化人力」提升数据标注效率|36氪首发邓小平在中共中央会议上的检讨谷歌Bard是拿ChatGPT数据训练的?BERT一作抗议无果,跳槽OpenAI...GPT7 Papers & Radios | AI绘画引入人类反馈;微软多模态ChatGPT?OpenAI 千亿市值背后:外包数据标注员月薪不到两千,每天标注 20 万个单词下载量暴增10倍!微软必应集成ChatGPT后需求大爆发;4省份上调最低工资标准;淘宝已屏蔽ChatGPT关键词丨邦早报重访西班牙(8)-飘香的欧洲果园《墨尔本的秋天》为女神节打call"𝙇𝙚𝙖𝙙 𝙏𝙝𝙚 𝘾𝙝𝙖𝙧𝙜𝙚"广告#创译挑战「恺望数据」获新一轮战略融资,以「自动化产线+规模化人力」提升数据标注效率|早起看早期FastTrack Universität 2023莱比锡大学公立语言项目招生简章我为ChatGPT做数据标注后受到了“精神创伤”:月薪不到两千,每天标注20万个单词ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇Gpt 4一出,谁与争锋被阴了…律师用ChatGPT数据打官司,结果判例全是AI胡诌ChatGPT要把数据标注行业干掉了?比人便宜20倍,而且还更准打败鹤岗,成为最便宜城市​:10万元买8套房!最便宜2000元一套,却有无数人逃离​谷歌顶级AI专家加入OpenAI 曾警告谷歌不要用ChatGPT数据训练Bard打败鹤岗,成为最便宜城市​:10万元买8套房,最便宜2000元一套…集成ChatGPT后必应日活量首破亿!微软推出Azure OpenAI ChatGPT 服务,GPT-4下周发布投资人竞相追逐的数据标注公司,能撑起国产ChatGPT野心吗?|数智前瞻Bard是拿ChatGPT数据训练的?谷歌顶级科学家抗议无果,出走OpenAI千亿ChatGPT的狂欢和月薪3K的数据标注员【元宵快闪】《萱草花》+ 春节真人秀答案片链接见内,24小时后删除ChatGPT标注数据比人类便宜20倍,80%任务上占优势 | 苏黎世大学7 Papers & Radios | 21℃室温超导引爆物理圈;微软发布视觉ChatGPT7 Papers & Radios | 一块GPU跑ChatGPT体量模型;AI绘图又一神器ControlNetGPT-4写代码能力提升21%!MIT新方法让LLM学会反思,网友:和人类的思考方式一样喜剧片:你会遇到一个高大黝黑的陌生人65岁知名浙商突发心脏病去世;ChatGPT被曝曾雇佣数据标注“血汗工厂”;华为再次回应:不造车丨邦早报
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。