FineWeb技术报告出炉!揭秘HuggingFace规模最大、质量最高预训练数据集
新智元报道
新智元报道
【新智元导读】从大规模网络爬取、精细过滤到去重技术,通过FineWeb的技术报告探索如何打造高质量数据集,为大型语言模型(LLM)预训练提供更优质的性能。
创建数据集的准备工作
数据集是怎么去重和过滤的
数据去重
数据过滤
移除以标点符号结尾的行的比例≤0.12的文档(移除了10.14%的token) 移除在重复行中字符的比例≥0.1的文档(移除了12.47%的token) 移除短于30个字符的行的比例≥0.67的文档(移除了3.73%的token)
FineWeb数据集的表现
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章