对话林咏华:刚在“AI春晚”上开源了3.4T数据集的智源,是如何死磕大模型数据难题的
邮箱|[email protected]
本周五,一年一度的AI春晚“北京智源大会”正式开幕。本次大会AI明星浓度,放在全球范围内可能也是独一份:OpenAI Sora负责人Aditya Ramesh作为神秘嘉宾进行了分享,并接受了DiT作者谢赛宁的“拷问”、李开复与张亚勤炉边对话AGI、还集齐了国内大模型“四小龙”,百川智能CEO王小川、智谱AI CEO张鹏、月之暗面CEO杨植麟、面壁智能CEO李大海…… 这还只是第一天上午的开幕式。
为期两天的大会汇聚了图灵奖得主姚期智,以及来自OpenAI、Meta、DeepMind、斯坦福、UC Berkeley等的200余位人工智能顶尖学者和产业专家,涵盖了超过20个不同主题的论坛。这背后的“凝聚力”,离不开智源研究院长期以来对全球大模型开源生态的贡献。
开源数据是其中一个重要的方面,OpenAI在2020年提出了大模型的Scaling Law,揭示了模型规模、训练数据和对应模型效果的关系,通过投入大量的计算资源和数据来训练模型,验证了大力的确可以出奇迹。
自此之后,几乎所有大模型的公司,都在沿着Scaling Law的路线演进,Scaling Law仍然有效也是本次大会嘉宾的一个共识。
智源研究院院长王仲远认为,按照大模型这一发展速度,未来其参数可能会赶上或超过人类大脑参数。随着模型不断迭代升级,对数据量的需求也水涨船高,“数据荒”可能成为制约大模型进一步突破的瓶颈。
根据非营利研究机构Epoch研究所的分析,到2026年,大模型可能会耗尽互联网上的所有高质量文本数据。Meta生成式AI副总裁Ahmad Al-Dahle也曾表示,为了开发出一个模型,他的团队几乎利用了网络上所有可找到的英文书籍、论文、诗歌和新闻文章。
作为一家聚焦AI前沿研究非营利研究机构,在本届大会上,智源除了公布了“大模型全家桶”、技术基座FlagOpen 2.0的相关进展,在数据方面,智源联合京能数产发布了“北京人工智能数据运营平台”,启动千万级指令微调数据集开源项目InfinityInstruct ,开源全球最大的多行业中英双语数据集IndustryCorpus 1.0,覆盖了18类行业的预训练数据集。
高质量的指令数据是大模型性能的“养料”,InfinityInstruct基于现有开源数据集进行了精确的领域分析和高质量筛选,还采用了数据合成方法来构造缺乏的领域和任务数据,提升了大模型的指令执行能力,使得用户能够基于这一数据集和自己的应用数据,对基础模型进行微调,快速获得专业的高质量中英双语对话模型。
而大模型在行业应用中的最大挑战之一是缺乏海量、高质量的行业特定数据集,IndustryCorpus 1.0则是目前全球最大的多行业中英双语数据集,数据集包含3.4TB的开源行业预训练数据,其中中文数据1TB,英文数据2.4TB,以及0.9TB的非开源定向申请数据。覆盖了18个行业类别,包括科技、法律、医学、金融、新闻等,未来计划扩展至30个行业。通过使用医疗行业数据集进行示范模型训练,智源展示了该数据集在提升模型行业能力方面的有效性,其中医疗模型的总体医疗能力提升了20.1%,主观评测的胜率达到了82.2%。
事实上,推动数据资源的开源开放一直是智源坚持的方向,早在2021年,智源就推出了全球最大语料库WuDaoCorpora,开放200GB高质量低风险中文语料,支撑全球大模型相关研究。此后陆续开源了可商用的指令数据集COIG、中英文文本对语义向量模型训练数据集MTP,以及高质量中文互联网语料库CCI 1.0等多个项目。
通过不断扩大和优化高质量的开源数据集,智源推动了人工智能技术的创新和发展,从这次大会围绕开源数据众多动作来看,智源是铁了心要把开源数据这件事“死磕”到底。
针对大模型研究及商业应用所面临的相关数据挑战:数据荒是否真实存在?中文数据面临哪些挑战?优质的数据在哪里?数据是否真的能交易流通?开源是不是解决的方法?如何处理数据的版权等问题?合成数据具备哪些潜力?硅星人也与智源研究院副院长兼总工程师林咏华进行了一次访谈,以下为对话实录,在不改变原意的前提下有所调整:
硅星人:智源在人工领域开源了许多研究成果,数据方面此前也发布了中文互联网语料库CCI 2,开源对大模型数据生态有多重要?
林咏华:Llama 2用了两万亿的tokens,Llama 3已经是15万亿。这么大的数据量,不可能单一企业通过自身的力量去爬取或收集所有的数据,所以开源数据集相当重要。
如果我们设想没有Common Crawl,可能整个大模型的发展都会延后。国内外的大模型,无一例外都会利用Common Crawl以及Common Crawl的变种,Common Crawl的出现使得我们有机会去训练大语言模型。
文图模型也是一样。如果没有跨模态文图开源数据集LAION-5B,把几十亿个图文对的数据进行开源出来。OpenCLIP、以及后来的多模态模型的发展都会延后很多。
更早可以回想如果没有李飞飞的ImageNet,也就没有计算机视觉2013、2014年那一波的发展高峰了,因为大家没有海量的数据去做验证。
硅星人:ImageNet背后是大量手工标注,做开源数据集是不是一件非常依靠人力的事情?
林咏华:历史长河上有一个不断的发展,ImageNet的确全靠人工,但计算机视觉过去十年的发展,实际上进入到了半自动标注的方式,可以训练一些特定的AI模型去辅助自动化标注。
有监督学习的数据集要开源,需要保证标注的准确性。通过AI加入的半自动标注,会逐步的使人的比例降低,但完全没有人是挺难的。
到大模型时代,尤其是预训练数据,因为是无监督学习,所以理论上不需要人工标注。为什么数据集还是离不开人的工作呢?因为我们需要对数据的质量进行把关。我们会训练一些质量分类模型,但还是需要通过人的抽检来保证质量。
硅星人:如何看待目前欠缺系统化、优质的中文语料的问题?这意味着什么?如何解决?
林咏华:首先我们要承认这是个客观现实,Common Crawl中文数据占比只有4.8%,它爬取的是全球互联网,所以这意味着全球用中文产出的互联网语料大概就这么多。LAION-5B里图文对的文字描述,中文大概是在4%到5%左右,也符合这个比例。除了互联网数据,文献、出版物、书籍等等高质量的数据,英文都具有天然优势,例如绝大部分的SCI期刊都是用英文发表的。
第二,中文数据最大的问题是数据孤岛。国外数据集,例如BookCorpus(由书籍内容组成的大型文本数据)、古腾堡工程(志愿者参与,致力于文本著作的电子化、归档以及发布),都积累了很多年,他们不是为大模型和积累的,国内很少有人做类似的事情。面对数据孤岛的情况,需要有一些方法让数据流动。
我们需要做的是尽可能把中文数据汇聚起来。除了互联网,书籍文献,还有很多行业的垂类的数据也存在这个问题。智源从2020年就开始启动中文数据的收集工作,但毕竟还是有限。
另外大模型其实是很“聪明”的,比如,当一个模型有70%的英文数据,30%中文数据,一起训练的时候,模型会形成跨语言的能力。这也就是为什么ChatGPT能够用中文很好的回答你的提问。
硅星人:所以语料是中文还是英文,对于提升模型能力并不是一个决定性的因素?
林咏华:尤其逻辑能力。但与传统文化、历史认知等是需要本土语言的,有一些知识只有在中文语境下才是正确的。这也是为什么此前有些文生图大模型不能精准画出麻婆豆腐,原因在于当时的中文语料图文对太少了,所以模型形成了英文思维,这也是非英语国家都需要面对的问题。
硅星人:如何看待爬取数据涉及的的版权等问题?
林咏华:根源在于AI企业的发展需要获取大量数据。过去这些年的版权立法,实际上并没有预估今天会让机器去学习这样一种新的方式。不是把这一本书二次传播,而是让神经网络去学一遍。
为了推动本国的人工智能的发展,日本出台了新的条例,放松了对数据版权限对制。但对于该如何定义使用权或版权,在全球几乎都是空白。企业又等不了,所以就会出现灰色地带,甚至是用钱去买数据,去爬取数据,里面有太多不同的因素和角度。
从我们的角度来看,的确需要尽快解决大模型时代出现的新型数据使用的方式的问题。智源也一直在跟不同的机构、部门去探讨,政府部门对此也相当的关注。
硅星人:相较于数据清洗、标注等环节,获取更多的数据是不是更重要的?
林咏华:从最终模型的训练来说,两者是同等重要,既要有量也要有质量。为什么听到很多声音说我们需要更多的数据,因为获取数据太难了,很难靠单一的公司通过完全合理合法的方式去解决,所以大家都在呼吁。只要获取到了数据,无论是更多的人去标注,去清洗,或者堆更多的算力,都是可以解决的。
硅星人:智源在数据领域的主要目标和思路是什么?
林咏华:智源的数据工作有两个重要的目标。第一是支撑智源引领大模型创新所需要的数据。第二是我们作为大模型领域一个重要的机构,需要打造好技术基座,来支撑产业的发展。
我们实际上推行的是“一个平台”,“三种使用方式”。“一个平台”是指需要有一个平台来汇聚数据。三种使用方式包括、开源数据、共建共享数据以及高价值但不出域的数据。
第一,开源数据集。通常我们会开源没有版权争议或版权诉求的高质量的数据。如果没有开源数据集,大量的高校科研机构都没无从下手,这是一个社会责任。我们也很高兴目前有数十个厂商愿意一起来建设开源数据集。目前已经开源了四十多个高质量数据集,大概是有2.4T,开源我们会持续做下去。
第二,共享数据。我们的工作组里有三四十个单位和机构,可以认为是一种联盟性质,遵循贡献、共享的原则,目的是寻求互助互补。我们打造了一个积分体系,例如一个企业贡献了100G的数据。我们会对数据进行质量评定,这个数据的质量系数乘以数据量,可以换算为积分了。企业使用积分可以换取数据。
第三是对版权的要求很严格的数据。我们构建了“数算一体”的使用方式。数据的存储、计算加工以及模型的训练都在一个安全域内。模型企业可以在域内使用数据进行二次的加工,以及模型的训练,但最后带走的只是模型数据。这是在国家现行司法体系下,减少数据提供方对数据安全顾虑的一种方式。
硅星人:对智源来说,如何解决“量”和“质”问题?
林咏华:“量”的问题其实今天大家没有很好的方法解决。因为司法体系等客观环境对谁都是公平的,我们也会面临同样的挑战。对智源来说,既要解决自己使用数据的问题,也要帮助产业里的大模型企业,解决能不能用好数据的问题。有些问题我们现在从法律角度还没能够解决,那我们先用技术手段。
拥有高质量版权数据的企业愿意给智源用,但也担心数据泄露,所以我们做了九鼎智算平台,通过数算一体,实现数据使用的不出域。一些大模型企业已经开始在这样的机制下使用相关数据。
“质”的问题,从网上爬取、收集的数据更像是原材料。需要从原材料里打捞出真正高价值的部分,传统是需要很多人工,包括质量的过滤和安全的过滤,尤其是中文语料,需要保障没有伦理、道德等问题。与此同时,我们实际上是需要通过人工智能的方法,来打造不同数据处理阶段所需要的模型,并且不断的迭代,尽可能提高效率,也尽量减少所需要的人力。
硅星人:关于数据交易的问题,现在国家也在上各种数据交易所,但目前交易的语料数据还是较少,怎么看待数据的交易问题?
林咏华:智源也一直跟交易所探讨各种可行性。从数据价值的角度来看,一种是交易使用权,比如刚才说的数算一体,一次训练的使用权是可以被定价的。但要做到数算一体,需要有平台的支撑,要有配套模型训练所需要的环境。另一种是数据交易所上的挂牌交易,卖License,可以带走数据。随着大模型的蓬勃的兴起,已经有交易所开始上大模型训练所需要的数据,尤其是行业数据,但这毕竟还是一个新事物,大家都在探索。
这里还有一个挑战,传统交易所上的结构化数据,是能够很清晰的知道数据质量的。但是大模型的预训练数据,采购方很难去过滤每一条数据的质量,顶多就抽检。我们的确也看到一些数据的质量参差不齐,所以这也是大家都在观望的一个原因。
硅星人:如何看待到2026年高质量训练数据将耗尽的观点?合成数据是不是未来高质量数据的一个重要来源?
林咏华:这种观点说的其实是互联网数据。模型的参数越大,需要的数据就越多,未来十万亿参数模型,可能需要十倍于今天的数据,有可能出现这个问题。
但模型的参数量提升十倍,是不是必然需要十倍或更多的训练数据?今天我们训练一个千亿参数模型,可能需要数千亿到数万亿token的数据。但这个数据量已经很大了,很多公司并没有把数据的质量精细化。当我们能够把数据质量精细化的时候,是否可以减少对数据量的依赖,而模型能够学到同样的能力?这其实是一个很重要的话题。
合成数据是一个重要的方向,许多大模型企业都会使用合成数据或增广数据。增广数据是基于人类的现有数据,用技术自动产生不同变种的数据。尤其是在指令微调阶段,因为需要有很多特殊格式、特殊任务,很难靠人工大批量产生。
我们确实需要很多合成数据,在自动驾驶这样的场景已经大量使用仿真合成数据。不过知识性的数据是一个新的话题。去年牛津、剑桥大学等机构的研究发表论文称,AI用AI生成的数据进行训练,会导致模型存在不可逆转的缺陷,最终走向模型崩溃。
硅星人:把数据质量精细化类似小参数模型做数据精选这样的思路?
林咏华:小模型为了达到跟大模型可对标,通常会加大数据量。scaling law意味着当模型参数更小的时候,你可以用更多的数据,到达同样的loss。这是小参数模型通常会做的一件事情。但模型的参数量小,能够学习到的逻辑能力其实是有限的,小模型应该有小模型的用法,试图要小模型跟大模型去PK一些复杂逻辑,没有必要。
硅星人:智源近期在数据领域的规划是怎样的?
林咏华:去年我们开源了大量文本类的数据,现在多模态和文生视频是一个很重要的趋势,我们也能够预见多模态会走入3D的时代,所以我们也会开始新的布局。
另外很重要的是垂类数据。国内有能力不断迭代通用基座大模型的企业还是少数,更大量的需求是怎么把大模型落地到行业。把通用大模型落地到行业进行持续微调训练,需要有行业的垂类数据,现在是比较缺乏的。智源希望能够比较快的时间让大家有重要的垂类的数据可以用,帮助大模型走进千行百业。
一方面我们会加大跟企业的合作,另一方面我们也在海量的通用数据里挖掘垂类的数据。希望能够和行业一起来构建新的业态,让数据流动起来,以一个合理的方式供给到国内大模型的研发和创新。
微信扫码关注该文公众号作者