Redian新闻
>
震撼开源!首个1万多人共同标注的35种语言的高质量对话数据集来啦

震撼开源!首个1万多人共同标注的35种语言的高质量对话数据集来啦

公众号新闻


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | 夕小瑶的卖萌屋
作者 | 小戏

“数据”!“数据”!“数据”!

大模型时代,最珍贵的是什么?是 Transformer 的架构吗?是 RLHF 的方法吗?

不是!是数据,是高质量的数据,是高质量且开源的数据!

这种数据 OpenAI 有,谷歌有,微软有,但是我们没有。

不过这种“没有”的状况可能从今天起要画上一个句点,因为一个名为“OpenAssistant”的高质量人工标注的对话数据集震撼开源。

这个数据集由13500名全球志愿者共同标注完成,拥有包含 35 种语言在内的 66497 个完整的对话树,其中共 161443 条消息,以及 461292 条优质的人类评分。

基于这个开源数据集,作者们也训练出了第一个完全开源的基于人类数据训练的大规模语言模型,在作者进行的一项实验中显示,OpenAssistant 的回复与 GPT-3.5-turbo(ChatGPT)的表现相当,相对胜率为 48.3% 对 51.7%。最关键的是,这是一个从数据集到模型完全开源的项目。基于这个模型,作者也构建了熟悉的聊天界面供我们使用。

作者们表示,希望大家都可以参与到这个开源项目的建设中来,真正实现 OpenAssistant创立之初“Conversational Al for everyone”的目标。

Chat 界面: 

https://open-assistant.io/chat 

项目主页:

https://open-assistant.io 

数据集地址: 

https://huggingface.co/datasets/OpenAssistant/oasst1

代码地址:

https://github.com/LAION-AI/Open-Assistant 

论文地址:

https://ykilcher.com/oa-paper

数据集结构

整体而言,如下图所示,数据集由 Conversation Tree 构成,树的每个节点代表对话中志愿者给出的消息,而根节点代表工作人员最初给的提示(Prompt),从根节点到其中任意一个节点都可以被成为一次有效的对话,每个对话还会记录诸如“时间戳”、“语言”等元数据,每个节点都会有等级或评分排序作为标注。

数据收集

OpenAssistant Conversations 数据集使用众包方法,通过一个 Web-app 接口进行收集。作者团队们利用任务分类的方式使得收集数据的流程更高效,同时得以保证任务分类的准确性和数据质量,充分利用志愿者的工作时间。

整套收集流程有:

  • 创造提示

  • 志愿者回复

  • 提示器(工作人员/机器)回复

  • 标记提示/回复

  • 排序志愿者回复

为了确保收集到的数据真实可信,作者团队们构建了“Contributor Guidelines”,供志愿者们更好的完成数据的收集工作。同时,也引入诸如排行榜、奖励机制、人工再次审核等方式,以最大程度的提升数据集的质量,利用好志愿者门参与工作的有限时间。

数据集构成

数据集共包含 161,443条消息,分布在 66,497 个对话树中,涵盖了 35 种不同的语言,标注了 461,292 个质量评分,其中包含了 8,576 条合成的消息以及 152,867 条由人工提交的消息。作者团队将数据集进行了不同程度的过滤和筛选,其中 10,968 个对话树已经被认为是完整的,包含总共 92,365 个消息。同时,作者们也将消息的品质分为了多个类别,并采用人工标注的方式进行了质量评价。值得注意的是,这个数据集的主要语言是英语与西班牙语,其中英语占总数据的42.8%,西班牙语占31.4%。这可能是由于 OpenAssistant 社区起源于以英语为主的开源社区,并且该数据集在西班牙的机器学习社区中得到了广泛的宣传和推广。

此外,还有一个值得注意的点是数据集中的大部分消息来源于少数几个用户,如下图所示,这一现象非常有可能导致数据集存在偏见,尽管作者团队在数据收集的过程中已经使用多种手段避免比如直接的复制粘贴的情况,但是这一问题不可避免的仍然存在。

志愿者基本情况

为了深入了解参与构建与标注的志愿者的基本情况,作者团队对志愿者的基本信息进行了统计,其中226位参与者接受并回答了调查问卷。其中 201 人是男性,10 人是女性,5 位认为自己是非二元性别,10 位选择保密。同时,志愿者们的教育水平与对人工智能的理解也有显著差异,也对 AI 技术抱持不同的技术立场。

实验

作者们基于两种不同的训练方法—— Pythia 和 LLaMA,构建了 Pythia-12B,LLaMA-13B和目前为止最大的 LLaMA-30B 模型。并且,基于 Pythia-12B 对数据集进行了实验验证。通过构建一系列实验问题,分别通过 Pythia-12B 和 ChatGPT 得到了问题答案,并将这些答案编撰为问卷送往社区收集数据以完成对比 ChatGPT 的偏好研究。截至目前,共收到 348 份有效的答案,通过数据分析可以发现,Pythia-12B 在比赛中获胜的概率是 48.3%。

此外,作者团队采用基于 Detoxify 的有害信息检测方法,获取六种不同类别的自动化评级,对信息进行分类,判断消息是否有害、淫秽、威胁、侮辱、攻击某个身份或具有性暗示性质。利用自动化有害信息评级,系统地评估这些评级和人工构建的有害信息标签(仇恨言论,不适当和性内容)之间的关系,如下图所示。

最后,利用有害信息监测,作者们评估了自己的数据收集流程,可以发现,作者团队使用的数据收集方式有效避免了有害信息进入数据集。

数据集限制

由于标注过程不可避免的一些原因,作者们认为当下这个数据集仍有一些限制。这些限制主要来自于标注者的主观和文化偏见、用户贡献的不平衡分布以及可能存在的不安全内容。

数据集的主观和文化偏见主要来自于志愿者的文化背景和特点。虽然多文化背景的志愿者为数据集做出了贡献,但由于这些志愿者共同的年龄结构和性别等特点,导致数据集可能存在偏见。用户贡献的不平衡分布也会导致某些价值观和兴趣被过分强调,而其他更多元化的观点则被忽视。

此外,数据集中可能存在不安全的内容,虽然已经执行了检测和删除操作,但这一操作并不完美,因此仍存在不安全内容,这也增加了使用数据集训练的语言模型的安全性问题。

同时,基于该数据集训练的语言模型也会存在“机器幻觉”,产生有毒或充满仇恨的内容,导致不公平和歧视性的结果。

总结

尽管当下这个数据集尚且并不完美,它的数据量,它的收集过程中蕴藏的偏见都有可能制约它更大的发展。但是归根结底, 1 总是要大于 0。

或许正如作者本人所说,将这个全球众包完成的高质量数据集开源,绝对可以促进 AI 社区创造出更多“神奇”的东西。同时,这个开源的数据集,也有可能成为大模型商用领域的一个 “Game Changer”。

那么在这个数据集上究竟可以展现怎样的潜力呢?那就要看我们如何在这个 1 上做加减乘除了吧


技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
520,练习“爱的5种语言”Golf Town打折扣震撼开启!多种选择最高 40% OFF!重访西班牙(13)-白银之路的礼赞一步登天,从唯唯诺诺到飞扬跋扈开源AltDiffusion-m18 ,18种语言文图生成all in one党建引领,高质量发展,建设世界一流律师事务所——律师行业高质量发展论坛暨2023盈科全球合伙人大会圆满举办280万条多模态指令-响应对,八种语言通用,首个涵盖视频内容的指令数据集MIMIC-IT来了OpenAI 千亿市值背后:外包数据标注员月薪不到两千,每天标注 20 万个单词Meta 开源多语言大模型,可识别 4000 多种语言、错误率仅为 OpenAI 产品的一半我为自己点个赞 - 作曲/编曲/演唱:南方Sky能翻译35种语言的黑科技词典笔,仅售200多!1秒查词,真人发音!SeaTunnel毕业!首个国人主导的数据集成项目成为Apache顶级项目美国国税局提供多种语言的税务帮助OpenAI推出ChatGPT企业版:用户有权决定对话数据和API数据的去留丨最前线无需人力标注!悉尼大学华人团队提出「GPT自监督标注」范式,完美解决标注成本、偏见、评估问题中文对话大模型BELLE全面开源!(附:数据+模型+轻量化)CVPR 2023 | 港中大&IDEA开源首个大规模全场景人体数据集Human-Art碾压ChatGPT?Meta开源多语言大模型,可识别4000多种语言、错误率仅为OpenAI产品的一半全球最大ChatGPT开源平替来了!支持35种语言,写代码、讲笑话全拿捏最新RLHF拯救语言模型「胡说八道」!微调效果比ChatGPT更好,两名华人共同一作大模型迎来「开源季」,盘点过去一个月那些开源的LLM和数据集中国AI之光!秒查词,翻译35种语言,真人发音,一支笔全搞定我为ChatGPT做数据标注后受到了“精神创伤”:月薪不到两千,每天标注20万个单词全球最火音乐节河滨县震撼开场调用多个ChatGPT API相互对话,清华开源的多轮对话数据UltraChat来了李小冉的胸,余男的唇,秦岚的腰,这些中年女星性感起来能迷死人以高质量审计监督护航上海经济社会高质量发展!市委审计委员会今天举行会议渡十娘|有表情,会多种语言的Amecas会不会是“兰姆达魔咒”?!“超越”(MMCU)中文通用大语言模型测试集--国内首个多领域多任务数据集SmartHK “推动高质量发展 ‧ 香港论坛”成功举办:肩负推进粤港澳大湾区高质量发展融合使命娃娃机免费玩!纽约首家"赛博朋克风"潮玩专卖店震撼开业!盲盒手办积木挑花眼!对话最伟大的头脑,与最聪明的人共同进化|沸腾知识节Meta开源大模型:支持4000+语言识别,1100+种语音文本转换刘知远团队提出:如何通过扩大高质量指导性对话数据集,来提高模型的性能和效率王菲一家今年照片曝出,亮点却是窦靖童被李亚鹏和周迅夹在中间
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。