Redian新闻
>
Deita: 用高质量数据在微调中“四两拨千斤”

Deita: 用高质量数据在微调中“四两拨千斤”

公众号新闻

题目

Deita: 针对大模型对齐中高质量指令数据筛选的研究及其相关工具

内容

  1. Deita概括:工具、数据与模型 (5mins)
  2. 大模型对齐进展介绍(5 mins)
  3. 数据高效指令微调介绍(10mins)
  4. Deita的数据筛选策略与研究发现(15mins)
  5. 实验发现与总结(5mins)
  6. QA讨论环节(20mins)

介绍

指令微调是大语言模型对齐人类使用偏好,价值观的关键技术。先前的工作发现,利用少量的高质量指令微调数据进行训练,大语言模型就能在对齐用户偏好上取得不错的性能。

然而,现阶段我们仍然缺少对指令微调中高质量数据挑选较为系统的研究,也尚不清楚仅用少量高质量指令微调数据训练出的模型性能上限到底在哪里。

在本篇工作中我们首先系统探究了不同的指令微调数据筛选方法的效果,并且提出了一种简单有效的Score-first Diversity-aware数据筛选策略。我们使用少量基于该策略筛选的高质量数据,训练得到了我们的Deita (Data-Efficient Instruction Tuning for Alignment) 模型。

实验显示,我们的模型仅仅通过6千条自动筛选的微调(SFT)数据和一万条随机采样的DPO (Direct Preference Optimization) 数据进行训练,就可以在大模型对齐公开榜单MT-Bench和AlpacaEval上取得7.5590.06%的性能,超越一众使用了10倍以上数据量进行微调的大语言模型,取得了“四两拨千斤“的效果。

我们的数据筛选工具、数据以及模型都开源在了github[1],欢迎大家使用以及提出意见,我们会持续更新我们的Deita。

主持人

薛博阳
香港中文大学在读博士
导师:黄锦辉教授
方向:LLM, Reliable AI
论文:EMNLP, ICASSP, TASLP
主页:https://amourwaltz.github.io

分享嘉宾

刘威,目前是上海科技大学三年级硕士,导师为屠可伟老师。现在在上海人工智能实验室实习。同时也在香港科技大学HKUST NLP进行远程访问,同何俊贤老师合作。在ACL,EMNLP,NAACL,AAAI等国际会议发表论文多篇,并在上述会议担任审稿人。

主页:https://vpeterv.github.io

预约

时间

2024.1.13 10:30-11:30
本周六上午不见不散~

视频号和b站都可预约~

进群

为了方便讨论,建立了一个交流群,分享嘉宾也在里面,可以面对面探讨更多细节~

参考资料

[1]

deita github: https://github.com/hkust-nlp/deita



备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群


id:DLNLPer,记得备注呦

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
快消外企社招 | Lagardère拉格代尔,世界三大旅行零售商之一,百年外企,平均月薪17.2k,0经验可投,留学生有优势提升科技创新能力,推动重点产业链高质量发展——2024年推动工业和信息化高质量发展系列述评之二谷歌MIT最新研究证明:高质量数据获取不难,大模型就是归途低质量的独处,不如高质量的社交线上开售!大模型时代的向量数据库 AI 技术论坛圆满收官“14.6元10斤”的砂糖橘,点进去却成了1斤试吃装……商家:下单要另选规格中美直航:南航、厦航微调中美直航时刻。其余航司开售4月之后航班向量数据库,是大模型原生应用的基石OpenAI内斗背后:e/acc和EA两拨人吵起来了?有什么值得学的“向量数据库”还是“向量搜索插件 + SQL 数据库”?PingCAP 黄东旭:我对 2024 年数据库发展趋势的思考何立峰:以推动上市公司高质量发展助力信心提振、资本市场稳定和经济高质量发展穆迪下调中国主权信用评级展望,财政部回应OpenAI开发者大会后的向量数据库和RAG,一起来这场论坛聊聊英国游玩:令人恼火的“车事儿”!低成本快速定制大模型,这次我们来深度探讨下RAG 和向量数据库原创丨弹道导弹齐射,伊朗打击以色列机构!中国四两拨千斤巧妙加持!“贾玲瘦100斤”霸屏热搜!医生提醒……“援外18个月,我瘦了整整20斤”“贾玲瘦100斤”霸屏热搜,体脂率只有10%?医生提醒……没必要非得固守纯向量数据库!专访亚马逊云科技数据库负责人推动信息通信业高质量发展,为新型工业化夯实数字基础——2024年推动工业和信息化高质量发展系列述评之四网红Stanley杯被爆质量问题!用高毒性的铅制造!还知情不报!英国发现首例猪流感H1N2病例!民调中工党领先保守党20%|工签门槛或将涨至4万镑!消失2年,贾玲“暴瘦100斤”冲上热搜:真相在这里今年向量数据库“杀疯了”,但纯向量数据库“凉”了?| 盘点克罗地亚斯普利特(Split),街头漫步红色日记 董老逝世 4.1-15贾玲新作定档,“减肥100斤”爆上热搜宾州斯通利花园(Stoneleigh garden),思绪飞扬一路走来(三十八)纯向量数据库和向量插件都有局限,那未来发展有其他方向吗?大模型落地,向量数据库能做什么?破10亿!“正面”PK沈腾,“瘦100斤”贾玲晒照,网友:瘦成刘敏涛!张艺谋掉队了?还有2部电影票房不到百万……今日arXiv最热NLP大模型论文:IBM研究院提出Genie方法,自动生成高质量数据集Trends in Cancer | 浙江大学吴息凤团队发表健康医疗大数据在癌症研究中的应用
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。