Redian新闻
>
LLaMA都在用的开源数据集惨遭下架:包含近20万本书,对标OpenAI数据集

LLaMA都在用的开源数据集惨遭下架:包含近20万本书,对标OpenAI数据集

公众号新闻
明敏 发自 凹非寺
量子位 | 公众号 QbitAI

开源数据集因侵权问题,惨遭下架。

如LLaMA、GPT-J等,都用它训练过。

如今,托管了它3年的网站,一夜之间删除了所有相关内容。

这就是Books3,一个由将近20万本图书组成的数据集,大小将近37GB。

丹麦一家反盗版组织表示,在该数据集中发现了150本其成员的书籍,构成侵权,所以要求平台下架。

现在该平台上的Books3网页链接已经“404”。

数据集的最初开发者无奈表示,Books3的下架是开源圈的一场悲剧。

Books3是什么?

Books3在2020年发布,由AI开发者Shawn Presser上传,被收录在Eleuther AI的开源数据集Pile中。

它总计包含197000本书,包含来自盗版网站Bibliotik的所有书籍,意在对标OpenAI的数据集,但主打开源

这也是Books3名字的来源之处——

GPT-3发布后,官方披露其训练数据集中15%的内容来自两个名为“Books1”、“Books2”的电子图书语料库,不过具体内容一直没有被透露。

开源的Books3则给更多项目提供了一个和OpenAI竞争的机会。

比如今年爆火的LLaMA、以及Eleuther AI的GPT-J等,都用上了Books3.

要知道,图书数据一直是大模型预训练中核心的语料素材,它能为模型输出高质量长文本提供参考。

很多AI巨头使用的图书数据集都是不开源,甚至是非常神秘的。比如Books1/2,关于其来源、规模的了解,更多都是各界猜测。

由此,开源数据集对于AI圈内相当重要。

为了更方便获取,Books3被放到了The Eye上托管。这是一个可以存档信息、提取公开数据的平台。

而这一次惨遭下架,说的也是这一平台。

丹麦反盗版组织权利联盟向The Eye提出了下架请求,并且通过了。

不过好消息是,Books3并没有完全消失,还是有其他办法获取的。

Wayback Machine上还有备份,或者可以从Torrent客户端下载。

作者老哥在推特上给出了多个方法。

“没有Books3就没法做自己的ChatGPT”

实际上,对于这次下架风波,数据集作者老哥有很多话想说。

他谈到,想要做出像ChatGPT一样的模型,唯一的方法就是创建像Books3这样的数据集。

每一个盈利性质的公司都在秘密做数据集,如果没有Books3,就意味着只有OpenAI等科技巨头才能访问这些图书数据,由此你将无法做出自己的ChatGPT。

在作者看来,ChatGPT就像是90年代的个人网站一样,任何人都能做是很关键的。

不过由于Books3很大一部分数据来自于盗版网站,所以作者也表示,希望之后能有人做出来比Books3更好的数据集,不仅提升数据质量,而且尊重书籍版权。

这种类似的情况在OpenAI也有发生。

一个多月以前,两位全职作者以未经允许擅自将作品用来训练ChatGPT,起诉了OpenAI。

而之所以会发生这种情况,很有可能是OpenAI的数据集Books2从影子图书馆(盗版网站)中获取了大量数据。

所以也有声音调侃说,AI不仅带来了新的技术突破,也给反盗版组织带来了新任务。

参考链接:
[1]
https://www.theatlantic.com/technology/archive/2023/08/books3-ai-meta-llama-pirated-books/675063/
[2]https://gizmodo.com/anti-piracy-group-takes-ai-training-dataset-books3-off-1850743763
[3]https://interestingengineering.com/innovation/anti-piracy-group-shuts-down-books3-a-popular-dataset-for-ai-models
[4]https://torrentfreak.com/anti-piracy-group-takes-prominent-ai-training-dataset-books3-offline-230816/

「中国仿生机器人产业全景报告 · 量子位智库」下载

AGI 的火热发展为仿生机器人的实现补全了最后一块拼图,仿⽣机器⼈将在技术创新和商业模式上迎来新周期。量子位智库发布《中国仿生机器人产业全景报告》,扫描下方二维码即可查看并下载完整报告。

9月6日,我们将在北京举办仿生机器人行业沙龙,欢迎感兴趣的企业联系活动负责人王琳玉,联系方式见下方。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
11个LLM一起上,性能爆炸提升!AI2联合USC开源LLM-Blender集成学习框架:先排序再融合|ACL 2023还在用大模型抖机灵?赶紧建设我们自己的开源生态才是正事|对话实录历史名城佛罗伦萨16亿人在用的TikTok,为什么超越不了10亿人用的抖音?Erklärung zur Zusammenarbeit17 万本盗版书,是「ChatGPT 们」变聪明的秘密阿里开源大模型治理数据集;华为推出AI存储新品;OpenAI被美国FTC调查丨AIGC大事日报微软MIT出品,AI自动朗读古腾堡6万本电子书,还能用自己声音定制化一文读懂领先的餐饮连锁企业都在用什么软件|36氪企服点评在用趋势开源打败闭源?Meta 即将推出开源代码生成平台 Code Llama,剑指 OpenAI Codex一加Ace 2 Pro原神派蒙主题礼盒官宣:包含多重联动定制周边目标OpenAI!前谷歌CEO发起AI+Science登月计划人生如“茶”700万本钱大赚1500万!证监会:罚大模型「上车」关键一步:全球首个语言+自动驾驶全栈开源数据集来了北美百万学生都在用的“自鸡神器”,对标MAP测试,覆盖3大核心科目Hélène Binet:光的哲学家开源数据 | X-RiSAWOZ: 高质量端到端多语言任务型对话数据集零售行业都在用哪些软件|36氪企服点评在用趋势大数据帮你智能刷题!学霸都在用的语数双科补习神器Exact Path火爆开团大数据高效刷题!学霸都在用的补习神器Exact Path火爆开团重磅 |《开源数据库生态发展研究报告》发布 GreatSQL为MySQL5.7最佳替代方案!去敦煌要看这本书,不去敦煌也要看这本书华为Mate60"不许涨价",苹果出货量预期惨遭下调对标Llama 2,OpenAI开源模型G3PO已在路上夜魅 (一)此情可待成追忆微信“已读”登上热搜,腾讯紧急回应;小鹏高管质疑理想周销量榜单数据;马斯克正式成立xAI,对标OpenAI丨邦早报闲话人生(238)父亲节,怀念我的父亲四超大青梅开源打败闭源?Meta即将推出开源代码生成平台Code Llama,剑指OpenAI Codex克宫证实:包含军事协作999元“酱香大床房”下架:茅台要求整改;理想汽车CEO李想:“蔚小理”融资从不造假;特斯拉全球产量突破500万辆丨邦早报ChatGPT 和 OpenAI 都在用的 Redis,是如何从传统数据库升级为向量数据库的?北美百万学生都在用的“自鸡神器”,对标MAP测试,覆盖3大核心科目,今天截团!婴儿坐游船需买票?景区回应:包含责任险!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。