Redian新闻
>
弱智吧:大模型变聪明,有我一份贡献

弱智吧:大模型变聪明,有我一份贡献

公众号新闻
机器之心报道
机器之心编辑部
被门夹过的核桃,还能补脑吗?

在中文网络上流传着这样一段话:弱智吧里没有弱智。


百度「弱智吧」是个神奇的地方,在这里人人都说自己是弱智,但大多聪明得有点过了头。最近几年,弱智吧的年度总结文章都可以顺手喜提百度贴吧热度第一名。所谓总结,其实就是给当年吧里的弱智发言排个名。

各种高质量的段子在这里传入传出,吸引了无数人的围观和转载,这个贴吧的关注量如今已接近 300 万。你网络上看到的最新流行词汇,说不定就是弱智吧老哥的杰作。


随着十几年的发展,越来越多的弱智文学也有了奇怪的风格,有心灵鸡汤,有现代诗,甚至有一些出现了哲学意义。

最近几天,一篇人工智能领域论文再次把弱智吧推上了风口浪尖。


引发 AI 革命的大模型因为缺乏数据,终于盯上了弱智吧里无穷无尽的「数据集」。有人把这些内容拿出来训练了 AI,认真评测对比一番,还别说,效果极好。

接下来,我们看看论文讲了什么。

最近,大型语言模型(LLM)取得了重大进展,特别是在英语方面。然而,LLM 在中文指令调优方面仍然存在明显差距。现有的数据集要么以英语为中心,要么不适合与现实世界的中国用户交互模式保持一致。

为了弥补这一差距,一项由 10 家机构联合发布的研究提出了 COIG-CQIA(全称 Chinese Open Instruction Generalist - Quality Is All You Need),这是一个高质量的中文指令调优数据集。数据来源包括问答社区、维基百科、考试题目和现有的 NLP 数据集,并且经过严格过滤和处理。

此外,该研究在 CQIA 的不同子集上训练了不同尺度的模型,并进行了深入的评估和分析。本文发现,在 CQIA 子集上训练的模型在人类评估以及知识和安全基准方面取得了具有竞争力的结果。

研究者表示,他们旨在为社区建立一个多样化、广泛的指令调优数据集,以更好地使模型行为与人类交互保持一致。

本文的贡献可以总结如下:

  • 提出了一个高质量的中文指令调优数据集,专门用于与人类交互保持一致,并通过严格的过滤程序实现;
  • 探讨了各种数据源(包括社交媒体、百科全书和传统 NLP 任务)对模型性能的影响。为从中国互联网中选择训练数据提供了重要见解;
  • 各种基准测试和人工评估证实,在 CQIA 数据集上微调的模型表现出卓越的性能,从而使 CQIA 成为中国 NLP 社区的宝贵资源。


  • 论文地址:https://arxiv.org/pdf/2403.18058.pdf
  • 数据地址:https://huggingface.co/datasets/m-a-p/COIG-CQIA
  • 论文标题:COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning

COIG-CQIA 数据集介绍

为了保证数据质量以及多样性,本文从中国互联网内的优质网站和数据资源中手动选择了数据源。这些来源包括社区问答论坛、、内容创作平台、考试试题等。此外,该数据集还纳入了高质量的中文 NLP 数据集,以丰富任务的多样性。具体来说,本文将数据源分为四种类型:社交媒体和论坛、世界知识、NLP 任务和考试试题。 

  • 社交媒体和论坛:包括知乎、SegmentFault 、豆瓣、小红书、弱智吧。
  • 世界知识:百科全书、四个特定领域的数据(医学、经济管理、电子学和农业)。
  • NLP 数据集:COIG-PC 、COIG Human Value 等。
  • 考试试题:中学和大学入学考试、研究生入学考试、逻辑推理测试、中国传统文化。

表 1 为数据集来源统计。研究者从中国互联网和社区的 22 个来源总共收集了 48,375 个实例,涵盖从常识、STEM 到人文等领域。


图 2 说明了各种任务类型,包括信息提取、问答、代码生成等。


图 3 演示了指令和响应的长度分布。


为了分析 COIG-CQIA 数据集的多样性,本文遵循先前的工作,使用 Hanlp 工具来解析指令。


实验结果

该研究在不同数据源的数据集上对 Yi 系列模型(Young et al., 2024)和 Qwen-72B(Bai et al., 2023)模型进行了微调,以分析数据源对模型跨领域知识能力的影响,并使用 Belle-Eval 上基于模型(即 GPT-4)的自动评估来评估每个模型在各种任务上的性能。

表 2、表 3 分别显示了基于 Yi-6B、Yi-34B 在不同数据集上进行微调得到的不同模型的性能。模型在头脑风暴、生成和总结等生成任务中表现出色,在数学和编码方面表现不佳。



下图 4 显示了 CQIA 和其他 5 个基线(即 Yi-6B-Chat、Baichuan2-7B-Chat、ChatGLM2-6B、Qwen-7B-Chat 和 InternLM-7B-Chat)的逐对比较人类评估结果。结果表明,与强基线相比,CQIA-Subset 实现了更高的人类偏好,至少超过 60% 的响应优于或与基线模型相当。这不仅归因于 CQIA 能够对人类问题或指令生成高质量的响应,还归因于其响应更符合现实世界的人类沟通模式,从而导致更高的人类偏好。


该研究还在 SafetyBench 上评估了模型的安全性,结果如下表 4 所示:


在 COIG Subset 数据上训练的模型性能如下表 5 所示:






© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
《双双燕 - 怀春》今日arXiv最热NLP大模型论文:天津大学发布大模型数学能力细粒度评价基准FineMath大模型的“瘦身”革命:巨头逐鹿轻量化大模型 | 大模型一周大事卷疯了!最强开源大模型Llama 3发布,最大参数4000亿,小扎内心:大模型比元宇宙香多了AI早知道|360安全大模型3.0发布;通义听悟上线音视频问答助手;腾讯混元大模型参数规模扩展至万亿让大模型不再「巨无霸」,这是一份最新的大模型参数高效微调综述【阿格贝贝书架一代二代】孩子书太多了,添个大书架吧:占地不到1㎡,多装几百本书!(有升级款)全球顶尖AI研究者中国贡献26%;1320亿参数大模型开源;Anthropic大模型测评首超GPT-4丨AIGC大事日报吃饭不健康,癌症风险可能更高!《细胞》发现糖代谢致癌新机制;弱智吧竟成最佳中文AI训练数据?测试远超知乎豆瓣小红书|本周论文推荐董宇辉退出微博!我却从他身上看到孩子变聪明的真相……今日帖,今日读——— 刘德华长得太像陈云帖 美国女巫赫文莉帖股市帖 经济不振帖 金主爱帖 孙殿英盗墓两座,八路军盗墓14AI早知道|马斯克Grok大模型开源;荣耀正式发布首款AI PC;苹果谷歌和OpenAI商谈iPhone大模型使用什么弱智吧,叫哲学哥!恭喜弱智吧,打败AI进我的收藏夹吃灰吧:大模型加速超全指南来了太太们的聚会 · 台北樱花盛开开源大模型火了!(附99个大模型微调模型/数据/工具)!科学家发现改变血型新方法:A型B型变万能O型 | 经济学人(泛读)破解大模型安全难题,360推出大模型安全能力框架今日arXiv最热NLP大模型论文:大模型RAG新宠!浙江大学发布自反馈检索增强方法52、长篇家庭伦理小说《嫁接》第十三章 节日血拼(2)大模型如何用于游戏?游戏玩家代理与大模型综述:方法、应用与挑战今日arXiv最热大模型论文:清华把大模型用于城市规划,回龙观和大红门地区成研究对象今日arXiv最热NLP大模型论文:微软:用大模型分析用户满意度,让智能系统更善解人意《花信风之立春》用这条丝巾来点缀穿搭,瞬间就能让整套平淡的造型变得时髦高级!今日arXiv最热NLP大模型论文:华东师大发布对话级大模型幻觉评价基准DiaHalu360安全大模型3.0来了!垂直大模型,他们这么训清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!今日arXiv最热大模型论文:大模型也来看球,还能判断是否犯规北京内推 | 阿里淘天集团招聘大模型/多模态大模型算法实习生北京内推 | 微软亚洲研究院WWE大模型团队招聘大模型研究实习生没想到吧,中文互联网上最好的大模型语料库是:弱智吧AI早知道|商汤发布日日新5.0大模型;微软推出小语言模型Phi-3;腾讯旗下协作SaaS产品全面接入混元大模型200+ 大模型产品全景盘点!探索大模型带来的创新机遇【立即获取报告】
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。