Redian新闻
>
探索“数据菜谱”无限可能:首届Data-Juicer大模型数据竞赛

探索“数据菜谱”无限可能:首届Data-Juicer大模型数据竞赛

公众号新闻

课程学什么?

数据是LLaMA、Alpaca等大语言模型(LLM) 的“食物” ,你心中的大模型米其林菜单会是什么样呢?


尊敬的数智大厨们,进军LLM厨房的时刻到了!为了给LLM准备更高质量、更丰富和更易消化的“美味佳肴”,阿里云、魔搭(ModelScope)社区及天池平台推出了首届Data-Juicer大模型数据竞赛。我们希望以data-centric的比赛形式,推动社区对大模型数据质量的理解和优化,进一步改进大模型能力。


本次竞赛,FT-Data Ranker1B赛道7B赛道,是一次全新的“料理”展,您会在其中大展技艳,研发独家秘方,制作食物来改进大语言模型。您将使用主办方限定的原材料(候选数据集),直接对其进行清洗、过滤和增强处理。然后,使用经您精心加工的料理(新数据集),间接投喂给限定的基础模型(进行微调优化),最终在限定测试集上进行评测打分和排序。


本次比赛中,我们强调构建“数据菜谱”(Data Recipe),并使用一站式的数据处理工具Data-Juicer。Data-Juicer为参赛者提供了系统化、开箱即用、可复用的大量算子、工具和示例菜谱。参赛者可以利用其内置能力、或是自由研发新的算子工具,进行数据分析和加工处理。



此次比赛将在公平的环境下,让参赛者全情投入数据处理的研究,只有数据处理方式不同,其它因素如基础模型、测试集、训练数据量、训练脚本、模型架构等都将在各选手之间保持一致。



为了参赛者能更灵活地参赛,本次比赛按照模型大小及参与训练数据集的大小分为了1B/7B两个赛道。不仅如此,参赛者将有机会赢取高达五万元人民币的现金奖励,并获取精美的阿里云、魔搭社区周边奖品。


作为前瞻,此次比赛只是Data-Juicer LLM系列赛的第一场,后续拟举办更多诸如“Better Mixture"和"CC Miner"等数据比赛,大模型爱好者们将有机会挑战探索数据源的最优混合比例,以及如何从海量Web类数据(如CommonCrawl)中挖掘更多价值。


快拿起你的“烹饪”工具,一起研发新的LLM数据菜谱吧!我们诚挚地邀请所有的大模型爱好者、渴望挑战的你们参与这场竞赛,一同释放更多数据和大模型潜力!了解详细赛事信息,请前往赛事官网(点击「阅读原文」可直达):



1B赛道:https://tianchi.aliyun.com/competition/entrance/532157


7B赛道:https://tianchi.aliyun.com/competition/entrance/532158





👇点击关注ModelScope公众号获取
更多技术信息~


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型免费大模型实战课|首周聚焦百度智能云千帆大模型平台使用,《大模型应用实践》实训营11月16日开讲!大模型爆发,AI 应用开发的无限可能在哪里?| 极客时间大厂公敌“李跳跳”无限期停止更新;国产集成开发环境工具 CEC-IDE 引关注;华为辟谣网传3.2万名科学家正式移籍 | Q资讯第17届DEMO CHINA即将亮相首钢一高炉,10.25-26共同揭晓2023创新科技公司“奥斯卡”大奖!【美食探店】韩国店Juju海鲜锅和辣鸡爪强烈推荐一下CF Richmond Center大变天!不是演习,新一波单位来了!“牛剑教父”+剑桥前招生官,携数十位大咖,解锁“多国联申”的无限可能龙行龘(dá)龘(dá)!这些三叠字怎么念?Apache IoTDB:更适合工业物联网场景的新型数据库,存、查、用不再是难题【日程2.0】第14届细胞与基因治疗研讨会,9月22日上海召开!邀您探索CGT的无限可能!我们的一年(6)外星世界外星人《编织梦幻的人·恩斯特篇之二》农民要失业了!美研究人员开始探索“无种植食品”。用AI评估AI,上交大新款大模型部分任务超越GPT-4,模型数据都开源小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大风雨之夜矩阵模拟!Transformer大模型3D可视化,GPT-3、Nano-GPT每一层清晰可见龙行龘(dá)龘(dá)!2024央视春晚宣布→CF Richmond Center大变样!不是演习,新一波单位来了!兔展智能:以视觉为核心大模型“兔灵”首次揭开面纱,聚焦内容生产精准可控王继光教授:畅谈“数字平台”和“数字疗法”,助力高血压管理从短片看见的无限可能丨青年创意短片交流展红色日记 10.21-31龙行龘(dá)龘(dá)!DAY1回顾:从短片看见的无限可能丨青年创意短片交流展OpenAI首届开发者大会内容曝光;马斯克xAI大模型进展公布;中国第二批大模型备案获批丨AIGC大事日报男女平等---还要等多久?在大模型数量全国领先的北京,昇腾AI“点燃”首个普惠算力底座北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型来了!【9月11日】2024届DSE报名开启!考试费用调整,附内地自修生报名资格【日程首发】3大会场,8大论坛,近60位大咖齐聚!第14届细胞与基因治疗研讨会,邀您探索CGT的无限可能!80+早期科技企业北京石景山摆擂,第17届DEMO CHINA首钢一高炉收官“请不要进入房屋内部!”多伦多惊现挂牌价$1的独立屋!虽然破旧不堪,但可能引发抢offer大战...2024届DSE考试保姆级【报名流程】来啦!有这些考区可选 ...
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。