Redian新闻
>
今日arXiv最热NLP大模型论文:微软:用大模型分析用户满意度,让智能系统更善解人意

今日arXiv最热NLP大模型论文:微软:用大模型分析用户满意度,让智能系统更善解人意

科技
 夕小瑶科技说 原创
 作者 | 芒果

引言:关于大模型分析用户满意度的探索

该研究强调了用户满意度估计(USE)的准确性和可解释性在改善对话系统中的重要性。现有的基于特征化机器学习模型或文本嵌入的方法在提取模式和可解释性方面存在限制。文章提出利用大语言模型(LLMs)能更有效地从用户的自然语言中提取出用户满意度的可解释信号。并且作者通过监督学习的方式开发了一种新的方法——监督提示用户满意度量表 (SPUR),这种方法不仅具有更高的准确性,而且更具解释性。

论文标题
Interpretable User Satisfaction Estimation for Conversational Systems with Large Language Models

论文链接:
https://arxiv.org/pdf/2403.12388.pdf

用户满意度估计(USE)的现状与局限性

用户满意度估计(USE)对于理解、评估和持续改进对话系统至关重要。在通用(如ChatGPT和Bing Copilot)和特定任务(如客户服务聊天机器人)的对话系统中,用户以多样的对话模式表达他们的满意或不满意。现有基于特征化机器学习模型或文本嵌入的方法在提取可泛化模式方面存在不足,并且难以解释。例如,基于表示学习的方法由于使用了神经模型(如嵌入),因此相对不透明,提供的关于满意/不满意的对话模式洞察较少。同样的限制也适用于训练大型语言模型(LLM)的奖励模型,例如RLHF和RLAIF。这些模型产生的连续“奖励”分数旨在区分人类更偏好的输出,而不解释为何一个对话比其他对话得分更高。

一些先前的工作通过特征化的机器学习模型解决了USE的解释需求。然而,基于LLM的对话系统的增长意味着用户在对话系统中的查询可能现在反映了手工制作的领域和意图(例如,面向任务、问答、闲聊等),因此基于领域特定特征的方法对这些多样的对话模式具有有限的泛化性。

SPUR方法介绍

1. 监督式提取:捕捉用户满意/不满意的表达

研究者提出的SPUR方法首先通过监督式提取阶段使用提示来从标记的训练集中提取用户满意度的信号。在这个阶段,利用GPT-4的强大自然语言理解和推理能力,通过提示来获取有意义且可解释的满意/不满意模式。例如,给定一个用户与AI代理的对话,研究人员会询问用户如何表达满意,并将这些表达归纳为最多三个理由。

2. 规则总结:构建用户满意度评估的标准

在监督式提取阶段提取的模式可能会因不同对话的文本描述而表现出显著的变化,它们的相对重要性可能不一致。尽管文本描述不同,但大多数提取的模式在语义上是相似的。因此,规则总结阶段的目标是进一步压缩提取的模式,并识别在训练集中频繁出现的满意/不满意模式。这一过程的结果是建立了一个清晰的基于提取模式的USE评估标准。

3. 用户满意度评估:应用规则进行满意度打分

在学习了满意度和不满意度规则后,研究者将生成的规则作为指令集成到第三个提示中,提供给GPT-4以评分用户满意度。规则项为GPT-4提供了一致的决策标准,并提高了GPT-4在USE上的性能。对于每个规则项,提示要求GPT-4做出二元决策,判断给定对话是否展示了所描述的行为。如果答案是"是",提示进一步指示GPT-4评估表达的模式对用户的整体满意/不满意影响的可能性,评分范围为1-10(低到高)。如果答案是"否",得分为0。在输出每个规则项的得分后,进一步将得分聚合为一个代表给定对话中用户整体满意度的SAT得分。

实验设计:数据集、基线模型与评估指标

本研究旨在通过大语言模型(LLMs)提高用户满意度估计(USE)的准确性和可解释性。为了评估提出的方法——监督式提示用户满意度评分标准(SPUR),研究者使用了包括通用型(如ChatGPT和Bing Copilot)和任务导向型(如客服聊天机器人)的对话系统中的数据集。这些系统中的用户通过多样化的对话模式表达他们的满意或不满意。

作为基线模型,研究者考虑了基于特征化机器学习模型和文本嵌入的现有方法,如RLHF(Reinforcement Learning from Human Feedback)和RLAIF(Reinforcement Learning with Augmented Imitation Feedback)。此外,还比较了SPUR与其他几种LLM基础方法,包括ZeroShot和FewShot,以及基于嵌入的方法,如线性回归、USDA和ASAP。

评估指标方面,采用了准确率(Accuracy)、精确度(Precision)、召回率(Recall)和F1分数(F1 Score)作为衡量模型性能的关键指标。这些指标基于标签分布加权,以考虑数据集中的不平衡性。

实验结果与分析:SPUR方法性能评估

1. 在有限训练数据下的USE表现

实验结果表明,在有限的训练数据下,SPUR方法的性能优于其他方法。SPUR在不同数据集上的准确率、精确度、召回率和F1分数均优于基线模型。这表明,通过学习的评分标准(rubrics)进行提示,可以为LLMs提供比手工制作的特征集更好的指导。

2. 规则总结的重要性与跨领域适用性

通过将从Bing Copilot学习到的评分标准应用于其他数据集,研究者发现,针对特定领域数据学习的评分标准可以显著提高USE的性能,平均F1分数提高了13%。这表明,以往研究中使用的手工制作特征无法泛化到不同类型的对话系统中。然而,通过LLM的评分标准总结过程,可以为每个任务/领域学习针对性的评分标准项,从而提高USE的准确性。

3. 不同对话系统中的满意度/不满意度模式差异

研究结果显示,不同类型的对话系统展现了不同的对话模式。例如,Bing Copilot作为一个通用型问答系统,信息的不准确性是导致不满意的主要原因。而MWOZ作为一个预订聊天机器人,大多数不满意来自于缺乏主动性或妥协服务。这表明,不同的对话系统有不同的服务目标,因此导致用户满意/不满意的原因与系统的目标相关。

知识蒸馏:将SPUR规则应用于大规模数据

1. 知识蒸馏过程

知识蒸馏是将SPUR学习到的评分准则应用于大规模数据的过程。首先,将单个评分准则项蒸馏成一个基于嵌入的模型,该模型可以在不需要LLM提示的情况下大规模应用。其次,将评分准则项作为特征添加到基于嵌入的模型中,以增加在有更多可用训练数据的数据集上仅使用嵌入模型的准确性。

实验展示了如何将学习到的评分准则扩展应用到两种方式。首先,展示了如何将单个评分准则项蒸馏到一个基于嵌入的模型中,该模型可以在不需要LLM提示的情况下应用。接着,展示了如何将评分准则项作为特征添加到一个基于嵌入的模型中,以提高在有更多训练数据的数据集上的准确性。

2. 知识蒸馏的实际应用

在实际应用中,通过提示GPT-4生成了100K个Bing Copilot对话的标签,用于知识蒸馏。研究者计算了每个对话的嵌入(例如,使用OpenAI ada-002),并训练了一个分类器(逻辑回归)来从GPT-4中蒸馏知识,即学习从嵌入到评分准则标签的映射。研究者对两个评分准则项(感激和负面反馈)进行了知识蒸馏,并训练了相应的分类器。结果表明,知识蒸馏过程能够成功地从GPT-4中提取给定评分准则项的知识。

结论与局限性

1. SPUR的贡献

SPUR方法的主要贡献在于其能够在有限的训练样本情况下,通过LLM捕获用户满意/不满意的表达模式,并将这些模式转化为清晰、可解释的评价标准。这些评价标准不仅提高了分类的准确性,还因其可解释性而具有较高的实用价值。实验结果显示,SPUR在不同类型的对话系统中均优于现有方法,并能够提供影响用户满意度的深入见解。

2. SPUR面临的挑战

首先,SPUR框架在处理数百万对话时成本较高,这限制了其在大规模应用中的实用性。尽管提出了知识蒸馏方法来降低评估过程的成本,但仍需要进一步的研究来证明这种方法的稳健性。

其次,SPUR的性能在训练集较小时优于其他方法,但随着训练集大小的增加,其性能提升的边际效应逐渐减弱。这表明,尽管SPUR在小规模数据集上表现出色,但在大规模数据集上可能需要进一步的优化和调整。

最后,SPUR的迭代提示框架虽然能够提取和总结用户满意度的信号,但这一过程可能需要大量的计算资源和时间。因此,未来的工作需要集中在提高SPUR的效率上,以减少其在大规模应用中的成本。

总体而言,SPUR为对话系统中的用户满意度估计提供了一个新颖且有效的框架,但其在成本、效率和规模化应用方面仍有待进一步的研究和改进。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
今日arXiv最热NLP大模型论文:NAACL24实锤语言学对大模型“负优化”,抽象语义表示+思维链有损表现今日arXiv最热NLP大模型论文:GPT-4理解武林外传中的含蓄表述,达人类水平今日arXiv最热大模型论文:大模型也来看球,还能判断是否犯规今日arXiv最热NLP大模型论文:微软发布可视思维链VoT,提高大模型空间想象力今日arXiv最热NLP大模型论文:引入噪声,可提升RAG检索效果超30%??今日arXiv最热NLP大模型论文:华东师大发布对话级大模型幻觉评价基准DiaHalu今日arXiv最热大模型论文:清华把大模型用于城市规划,回龙观和大红门地区成研究对象今日arXiv最热NLP大模型论文:韩国团队提出ResearchAgent系统,模仿人类产出论文idea今日arXiv最热NLP大模型论文:对指令太敏感?山东大学提出一致性对齐法,治好大模型敏感体质!今日arXiv最热NLP大模型论文:面向不确定性感知的Language Agent今日arXiv最热CV大模型论文:国产开源视觉大模型InternVL 1.5发布,赶超GPT-4V水准【七律】銀婚贈友人今日arXiv最热NLP大模型论文:像人一样浏览网页执行任务,腾讯AI lab发布多模态端到端Agent《扫花游 - 听雪》今日arXiv最热NLP大模型论文:伯克利&DeepMind联合研究,RaLMSpec让检索增强LLM速度提升2-7倍!与美丽一生同学的通信今日arXiv最热NLP大模型论文:Github万星!北航发布零代码大模型微调平台LlamaFactory今日arXiv最热NLP大模型论文:COLING2024发布数据集揭示从莎士比亚时期开始的性别偏见今日arXiv最热NLP大模型论文:清华大学:大语言模型的常见词僻意理解能力竟不如中学生今日arXiv最热NLP大模型论文:CMU最新综述:工具使用,大模型的神兵利器今日arXiv最热NLP大模型论文:一文读懂大模型的prompt技术今日arXiv最热NLP大模型论文:微软提出SliceGPT,删除25%模型参数,性能几乎无损共和党人在做逆淘汰今日arXiv最热NLP大模型论文:揭露大语言模型短板,北京大学提出事件推理测试基准逛台北的年货大街(多图)今日arXiv最热大模型论文:浙江大学:如何减轻视觉大模型中的幻觉问题今日arXiv最热NLP大模型论文:IBM研究院提出Genie方法,自动生成高质量数据集今日arXiv最热NLP大模型论文:浙江大学:蒸一蒸,多Agent变成单一模型,效果更好今日arXiv最热NLP大模型论文:天津大学发布大模型数学能力细粒度评价基准FineMath今日arXiv最热大模型论文:首个面向AI的python编程框架,提升大模型编程能力新思路今日arXiv最热NLP大模型论文:大模型RAG新宠!浙江大学发布自反馈检索增强方法今日arXiv最热NLP大模型论文:又到美国大选年,南加大教你如何用ChatGPT影响竞选今日arXiv最热NLP大模型论文:斯坦福发布法律指令数据集LawInstruct,统一17个辖区24种语言今日arXiv最热NLP大模型论文:超越GPT-4,清华发布网页导航智能体AutoWebGLM今日Arxiv最热NLP大模型论文:复旦大学最新研究,如何让大模型说出“我不知道”?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。