Redian新闻
>
综述:NLP中的 Human in the Loop

综述:NLP中的 Human in the Loop

公众号新闻

作者 | 太子长琴 

整理 | NewBeeNLP

进NLP群—>加入NLP交流群

ChatGPT 大火,今天聊聊其模型训练的一个关键词:Human in the loop

这篇文章基于一篇 Survey,就是如何将人类的反馈放在 NLP 过程中,这个过程可以是训练,也可以是部署后,也可以是数据标注阶段。总之,它泛指把人类的反馈与 NLP 过程结合。

  • 论文:Putting Humans in the Natural Language Processing Loop: A Survey
  • 地址:https://aclanthology.org/2021.hcinlp-1.8.pdf

在正式开始前,我们需要先说明几个业界常用的概念:

  • HITL:Human in the loop 的简称,将人置于循环迭代
  • HCI:Human machine interaction 的简称,人机互动

首先要说的是动机——HITL 有啥用,为啥要 HITL?两个很重要的原因:

  • 提升模型效果(分类、对话和 QA 等)和泛化能力。
  • 提升模型可解释性和可用性(用户创建的特征词典、QA 中用户生成的对抗 Q 等)并提升用户体验。

HITL任务

具体有哪些实践任务呢?

文本分类

NLP 基础任务,一般是这么做的:先训练一个分类器,然后基于该分类器结果人工进行标注,合并已标注数据持续训练模型。

具体点来说,包括以下一些操作:

  • 交互式地编辑文本特征或标注新文档。
  • 主动学习,选择那些能带来最大信息增益的样本而不是随机样本给标注人员,更少的样本达到同等效果。
  • 将主动学习组件扩展到标签(文档)之外的特征(单词)采样。
  • 使用一个构建好的字典增加可解释性。

解析和实体链接

一些有意思的做法包括:

  • 再训练时将用户反馈作为软约束惩罚 Parser。
  • 战略性采样要呈现给标注人员的样本。

主题建模

具体做法包括:

  • 通过添加、删除或更改每个主题中单词的权重来优化经过训练的模型。然后,使用用户更新的特征和权重,模型更有可能生成有用的主题。
  • 强调终端用户的需求(以及他们的反馈),而不是仅仅收集算法方便的反馈。

摘要和翻译

具体做法包括:

  • 在两个模型生成的「摘要对上」收集人类反馈,然后训练奖励模型预测偏好。此奖励模型用于训练策略以使用强化学习生成摘要。
  • 收集显式和隐式人类反馈,通过将反馈与强化学习结合使用来改进机器翻译模型。

对话和 QA

主要有两大类:

  • 在线反馈系统:持续收集反馈;或持续定时更新,对于低分的结果要求用户给出反馈,作为新的训练样本。
  • 离线反馈系统:离线批量更新,一般由标注人员批量生成对抗问题。

HITL流程

上面总的来说都是一些在 NLP 具体任务上的做法,每一个都涉及到相关 paper,我们可以简单的将其归纳为这么一个流程:

  • 首先搞一个/多个已有系统。在线、离线均可,实际任务或标注任务都行。
  • 从已有系统给出结果。这里样例的选取可以考虑能带来最大信息增益的、或者分数较低的、或者特征不显著的样本等等。
  • 根据给出的结果收集反馈。这包括标注(判断已有模型给出的答案对不对,或哪个更好等等),直接让用户更新/反馈(好不好、哪个好、自然文本、直接更新特征等等)。
  • 根据反馈结果重新优化模型。有的可以直接作为样本,有的可以作为训练时的约束;可以在线实时更,也可以离线批量更。
  • 重复这个流程。

HITL交互

首先是交互媒介,一般包括两种:图形接口和自然语言接口。后者是模拟对话的形式,剩下的基本都是前者。

接下来是用户反馈的类型,刚刚上面已经提到一些,这里归纳一下:

  • 二元反馈(是/否,好/不好,满意/不满意等等)。
  • 打分反馈(5、10、100 等为满分,给结果一个分值评价;按结果的好坏排序也属于这种)。
  • 自然语言反馈:自然语言接口居多,根据反馈的文本可以直接作为更细模型的样本或依据。

最后是使用方式,上面也提到一些,不过从算法角度看,可以分成两种:

  • active learning:交互式让用户给出(设计的想要的)反馈。
  • reinforcement learning:根据用户反馈采取行动以最大化累计奖励。

前者直接优化目标,后者优化策略;前者学习表征,后者学习规则。

HITL方向

首先是在 NLP 系统中扮演起更广泛的角色:

  • 作为更好理解模型和提升最终用户体验的一种方法。比如用户反馈可以用来缓解模型偏见。
  • 考虑让模型工程师和最终用户参与到 NLP 开发流程。比如用户可以在运行时观察到模型的行为或者更改模型特征权重,给用户更多的控制权。

然后是要设计以 Human 为中心的系统,比如:在 HITL 界面添加模型解释线索,提高反馈质量(把原理告诉反馈者)。未来方向包括:

  • 人类反馈具有主观性,应该从谁那里收集,执行某些任务是否需要专业知识?这个主要体现在终端用户这里。
  • 如何呈现模型学到的东西,以及需要哪些反馈?如何可视化模型从用户反馈中学习后的变化?
  • 如何动态选择最有帮助的反馈,如何引导用户提供有用的反馈?
  • 如何评估收集到的反馈?因为这些反馈可能充满噪声,甚至误导性。
  • 严格的用户研究,以评估 HITL 系统的有效性和模型性能。
  • 开源工具,发布新的 HITL NLP 工作时共享用户研究协议。
  • 创建和共享人类反馈数据集。

这一部分内容看起来比较亮眼,关于方向的梳理极具指导意义,尤其是 Human 为中心的系统设计,站在一个宏观和整体的角度对 HITL 进行了思考。从系统的角度看,这和原来的设计可能完全不一样,要考虑的问题更加全面,而且角度也大相径庭。这一块也是目前已有系统非常不完善的地方,尤其是国内的一些应用,无法直视。




进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
The Chinese Online Slang That Took Over the Internet in 2022Can a Cleanup Campaign Cleanse This Misogynist Online Forum?译者课堂137:The relationship between AI and humans[歪解] the grass is always greener on the other sideDark Rumors on Chinese Social Media Alarm the Thai Gov’t天赋“易昺(bǐng)”,创造历史!【Locker Room】LOL联赛?篮球全明星?Lockerroom有什么新活?NLP中关于数据增强的最新综述恭喜L同学和W同学获得加州顶尖寄宿高中The Athenian School雅典纳中学录取!|普林顿录取捷报巴黎,巴黎(3)NNLM、RNNLM、LSTM-RNNLM、Bi-lstm、GPT-1…你都掌握了吗?一文总结语音识别必备经典模型(一)GitHub/GitLab同天宣布裁员,最高比例10%!GitHub所有办公室不再续租Looking for Closure, a Grandson Built a Ghost in the MachineChatGPT——NLP大结局?大错特错!NLP还有很多事情可以搞入冬后的农贸市场When the Countryside Is the Art北京内推 | 微软亚洲互联网工程院NLP Science组招聘NLP研究实习生【Career Forum|4.1】Fight the Career Winter in the Tech Industry!邓小平垂帘听政胜过于慈禧太后老 爸 阳 了!志玲姐姐被曝日本“拍piàn”?片段流出,网友:你怎么沦落成这样 ……美国最新综述:新冠药Paxlovid与常见心血管用药的相互作用和配伍禁忌Out with the old, in with the new. JuniorCoach is here for you你猜,今天我和谁一起看世界杯的决赛!斯坦福5.5万人研究:30年,男人长(cháng)了3厘米,但并非好事MLNLP前沿综述分享第五期 | 胡琳梅@北京理工大学:知识增强的预训练语言模型前沿研究进展【九零后老妈随笔】03/07/2023 Only the locals would know!NLP大规模语言模型推理实战:大语言模型BLOOM推理工具测试实践与效果分析实录总结22-23年NLP等在GNN领域最新的研究综述以及研究趋势Black Gold: The Fate of the Wig Capital of the World潞晨科技招聘:NLP/AIGC大模型算法,​AI编译器开发,云计算研发等使用Hugging Face和IPU在Paperspace上快速制作NLP应用原型Standing Tall: A Runner’s Unlikely Journey to the Top — of TreesiPhone XS 64gb gold unlocked battery health 77%Divorce Mediation Helping Couples Stay Together
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。