探索“数据菜谱”无限可能:首届Data-Juicer大模型数据竞赛
数据是LLaMA、Alpaca等大语言模型(LLM) 的“食物” ,你心中的大模型米其林菜单会是什么样呢?
尊敬的数智大厨们,进军LLM厨房的时刻到了!为了给LLM准备更高质量、更丰富和更易消化的“美味佳肴”,阿里云、魔搭(ModelScope)社区及天池平台推出了首届Data-Juicer大模型数据竞赛。我们希望以data-centric的比赛形式,推动社区对大模型数据质量的理解和优化,进一步改进大模型能力。
本次竞赛,FT-Data Ranker(1B赛道、7B赛道),是一次全新的“料理”展,您会在其中大展技艳,研发独家秘方,制作食物来改进大语言模型。您将使用主办方限定的原材料(候选数据集),直接对其进行清洗、过滤和增强处理。然后,使用经您精心加工的料理(新数据集),间接投喂给限定的基础模型(进行微调优化),最终在限定测试集上进行评测打分和排序。
本次比赛中,我们强调构建“数据菜谱”(Data Recipe),并使用一站式的数据处理工具Data-Juicer。Data-Juicer为参赛者提供了系统化、开箱即用、可复用的大量算子、工具和示例菜谱。参赛者可以利用其内置能力、或是自由研发新的算子工具,进行数据分析和加工处理。
此次比赛将在公平的环境下,让参赛者全情投入数据处理的研究,只有数据处理方式不同,其它因素如基础模型、测试集、训练数据量、训练脚本、模型架构等都将在各选手之间保持一致。
为了参赛者能更灵活地参赛,本次比赛按照模型大小及参与训练数据集的大小分为了1B/7B两个赛道。不仅如此,参赛者将有机会赢取高达五万元人民币的现金奖励,并获取精美的阿里云、魔搭社区周边奖品。
作为前瞻,此次比赛只是Data-Juicer LLM系列赛的第一场,后续拟举办更多诸如“Better Mixture"和"CC Miner"等数据比赛,大模型爱好者们将有机会挑战探索数据源的最优混合比例,以及如何从海量Web类数据(如CommonCrawl)中挖掘更多价值。
快拿起你的“烹饪”工具,一起研发新的LLM数据菜谱吧!我们诚挚地邀请所有的大模型爱好者、渴望挑战的你们参与这场竞赛,一同释放更多数据和大模型潜力!了解详细赛事信息,请前往赛事官网(点击「阅读原文」可直达):
微信扫码关注该文公众号作者