Redian新闻
>
【提示】中国大模型语料数据联盟开源发布高质量多模态语料“书生·万卷”

【提示】中国大模型语料数据联盟开源发布高质量多模态语料“书生·万卷”

公众号新闻


市经信委介绍,继今年7月在2023世界人工智能大会发起成立“中国大模型语料数据联盟”(以下简称“语料数据联盟”)之后,8月14日,上海人工智能实验室(上海AI实验室)宣布,联合语料数据联盟成员单位共同开源发布“书生·万卷” 1.0多模态预训练语料。详见↓








“书生·万卷” 1.0目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过2TB。该语料数据包含超过5亿个文本,2200万个图文交错文档,1000个节目影像视频,具备多元融合、精细处理、价值对齐、易用高效等四大特征。


集合语料数据联盟成员丰富的内容积累与上海AI实验室领先的数据处理能力等优势,“书生·万卷”将为学术界及产业界提供更符合主流中文价值对齐的高质量大模型多模态预训练语料。


“书生·万卷”链接:
https://opendatalab.org.cn/WanJuan1.0




跨界联合,共建宽领域语料库


本次开源的“书生·万卷”1.0包含文本、图文、视频三部分数据集。其中文本数据为来自网页、百科、书籍、专利、教材、考题等不同来源的清洗后预训练语料,数据总量超过5亿个文档,数据大小超过1TB,覆盖科技、文学、媒体、教育、法律等多个领域。图文数据主要来自公开网页,经处理后形成图文交错文档。文档总量超过2200万个,数据大小超过140GB(不含图片),覆盖新闻事件、人物、自然景观、社会生活等多个领域。视频数据主要来自中央广播电视总台和上海文广集团,包含新闻、影视等多种类型的节目影像,总计视频文件数超过1000个,数据大小超过900GB,内容覆盖军事、文艺、体育、自然、真实世界、知识、影像艺术、媒体、美食、历史、科教等方面。


精细处理,构建高质量预训练语料


高质量、大规模、安全可信的语料数据对于大语言模型的训练和性能提升至关重要。基于语料数据联盟构建的语料库,上海AI实验室对其中部分数据进行细粒度清洗、去重以及价值对齐,形成了高质量多模态预训练语料“书生·万卷”1.0,具备多元融合、精细处理、价值对齐、易用高效等四大特征。


在多元融合方面,“书生·万卷”1.0包含文本、图文、视频等多模态数据,范围覆盖科技、文学、媒体、教育、法律等多个领域,在训练提升模型知识含量、逻辑推理和泛化能力方面具有显著效果。


在精细处理方面,“书生·万卷”1.0经历了语言甄别、正文抽取、格式标准化、基于规则及模型的数据过滤与清洗、多尺度去重、数据质量评估等精细化数据处理环节,因而能更好地适配后续的模型预训练需求。


在价值对齐方面,研究人员在“书生·万卷”1.0的构建过程中,着眼于内容与中文主流价值观的对齐,通过算法与人工评估结合的方式,提升了语料的纯净度。


在易用高效方面,研究人员在“书生·万卷”1.0采用统一格式,并提供详细的字段说明和工具指导,使其兼顾了易用性和效率,可快速应用于语言、多模态等大模型预训练。


高质量、多模态、宽领域的数据支持已成为当前人工智能大模型发展的重要基石,中国大模型语料数据联盟将持续通过开源开放,共建包容、开放、有序、共享的人工智能大生态。


上海人工智能实验室是我国人工智能领域的新型科研机构,开展战略性、原创性、前瞻性的科学研究与技术攻关,突破人工智能的重要基础理论和关键核心技术,打造“突破型、引领型、平台型”一体化的大型综合性研究基地,支撑我国人工智能产业实现跨越式发展,目标建成国际一流的人工智能实验室,成为享誉全球的人工智能原创理论和技术的策源地。


中国大模型语料数据联盟是由上海人工智能实验室联合中央广播电视总台、人民网、国家气象中心、中国科学技术信息研究所、上海报业集团、上海文广集团、上海数据集团、上海市数商协会、金杜律师事务所等单位联合发起成立的开放组织。联盟于2023年7月6日世界人工智能大会开幕式上宣布成立,旨在通过链接模型训练、数据供给、学术研究、第三方服务等多方面机构,联合打造多知识、多模态、标准化的高质量语料数据,探索形成基于贡献、可持续运行的激励机制,打造国际化、开放型的大模型语料数据生态圈。



资料:市经信委

编辑:陈婷

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超 2 万亿 tokens曝OpenAI大模型新进展!将推出多模态大模型,新项目Gobi筹备中破解一切模态,无限接近AGI!新加坡华人团队开源全能「大一统」多模态大模型正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」【提示】中秋、国庆假期出境游,这份小贴士请收好→【提示】中福会少年宫中秋“光影奇妙夜”,面向亲子家庭开放预约字节 | 大模型BuboGPT:引入视觉定位,实现细粒度多模态,已开源【提示】有政策、有平台、有项目,大虹桥建设进展如何?来看这本“书”→持续数据开源,智源发布超3亿对面向中英文语义向量模型训练数据集挑战GPT-4V,浙大校友推出开源版多模态大模型,获GitHub 6k+星标德国三分之一人口担任志愿者阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报国产语音对话大模型来了:李开复零一万物参与,中英双语多模态,开源可商用能「说」会「画」, VisCPM:SOTA 开源中文多模态大模型传OpenAI秘密训练GPT-5;腾讯混元大模型或本周亮相;首个中英语音多模态LLM开源土耳其报到(下)开源多模态大模型哪家强?TOP12榜单来了,GitHub揽获2.2k+星大型语言模型专场上线!四位AI新青年直播讲解MiniGPT-4、LLaVA、Gorilla以及大型语言模型Token危机【提示】中秋、国庆增开列车2.0来啦!六十四 励志重磅课程再次升级,一次性搞定大模型多模态AIGC与强化学习 --《2023秋季AIGC大模型与强化学习前沿技术实战》 招生简章【提示】自主创新、成果转化、前沿产业、高端人才、产城融合,5大方面20项重点任务推动“大零号湾”高质量创新发展智源Emu开源!超越DeepMind,刷新8项SOTA,首个「多模态-to-多模态」全能高手从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统DreamLLM:多功能多模态大型语言模型,你的DreamLLM~【提示】2023上海书展闭幕:350余家出版社参展,850场高质量阅读活动,主会场入场近30万人次清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳《黄永玉去世,失了一趣》还剩下几句。上海内推 | 小红书多模态算法组招聘多模态CV/NLP算法实习生实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了腾讯AI Lab发布多模态指令调优语言模型,支持图像、视频等四种不同模态六十三 下乡多模态大语言模型综述来啦!一文带你理清多模态关键技术中文版开源Llama 2同时有了语言、多模态大模型,完全可商用
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。