国际科技财经博客移民网络热点娱乐民生时事公众号

>

大模型在无损压缩方面超越PNG和FLAC

大模型在无损压缩方面超越PNG和FLAC

公众号新闻

2023-10-07 11:10

出品 | OSC开源社区（ID：oschina2013)

Google DeepMind 和 Meta 的研究人员发表论文《Language Modeling Is Compression》，他们发现 DeepMind 的大语言模型 Chinchilla 70B 在图像和音频的无损压缩上超过了 PNG 和 FLAC。

论文提到，Chinchilla 70B 能将 ImageNet 图像数据库中的图像无损压缩到原始大小 43.4%，超过了 PNG 算法的 58.5%。

Chinchilla 能将 LibriSpeech 音频数据集中的样本无损压缩到原始大小 16.4%，超过 FLAC 算法的 30.3%。

据介绍，Chinchilla 70B 主要是训练用于处理文本，但它在压缩其它类型的数据集上的效果也表现优异，甚至优于专门的算法。

下面的例子比较了 gzip 和 Chinchilla 在示例文本上的压缩效果。可以看到，gzip 的输出没有可读性。

论文地址：https://arxiv.org/abs/2309.10668

往期推荐

越来越多开源项目停更，Java 生态受影响最大

“根本不需要 TypeScript，JS+JSDoc 够了”，大佬说我想多了

新平台、新芯片组、性能更强！Raspberry Pi 5 终于要发布了

这里有最新开源资讯、软件更新、技术干货等内容

点这里 ↓↓↓ 记得关注✔ 标星⭐ 哦

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

2023第二营 - 夜宿Radium Redstreak 8张3090，1天压缩万亿参数大模型！3.2TB骤降至160GB，压缩率高达20倍 Python Web框架的三强之争：Flask、Django和FastAPI 无题全面超越AutoGPT，面壁智能联合清华NLP实验室开源大模型「超级英雄」XAgent 免费大模型实战课｜首周聚焦百度智能云千帆大模型平台使用，《大模型应用实践》实训营11月16日开讲！李开复发布零一万物首款340亿参数大模型Yi；摩尔线程设立AISG和MCSG战略部门丨AIGC日报癸卯立秋临孙过庭《书谱》巅峰对话：大模型在金融行业的落地｜FCon 日程确定 AI大模型在2030年会是什么样子？「Datablau」完成B1轮融资，探索AI大模型在数据治理核心业务场景应用｜早起看早期在新加坡，大模型在 GAIR 2023 上迎来高光时刻小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大 Erklärung zur Zusammenarbeit golang string和[]byte的对比首批AI大模型获批上线，BATH在列；华为Mate 60开售即火，接入盘古大模型；AI操控无人机能力超越人类冠军丨AI周报平安人寿科技总监魏政刚确认出席 FCon ，分享 AIGC 及大模型在保险销售领域的应用苹果创新大模型压缩技术，大模型有机会塞进手机里了无题他说：“中国已在很多方面超越美国”北京理工大学发布双语轻量级语言模型，明德大模型—MindLLM，看小模型如何比肩大模型 NUS、NTU团队发布医疗大模型综述，全面介绍大模型在医疗领域的最新研究进展性能全面超越LLaMA2，0门槛商用，这个国产大模型要改变开源竞争格局了稀疏量化表示（SpQR）：3到4比特近乎无损压缩大规模语言模型 AVS感知无损压缩标准概述——视觉无损质量等级视频浅压缩飞到世界各地去看野生动物开源大模型FLM-101B：训练成本最低的超100B参数大模型李开复零一万物发布首款大模型；马斯克xAI发布首个大模型；360、美团、昆仑万维等最新消息；vivo发布蓝心AI大模型 Llama2开源后，国产大模型在卷什么？优衣库加快摆脱中国影响日本服饰巨头国际业务实现全面超越 PNAS | 癌细胞的压缩或是一把双刃剑既能帮助也能阻碍癌症的进展全面超越 AutoGPT，面壁智能联合清华 NLP 实验室打造大模型“超级英雄”—— XAgent 全面超越LLaMA2，月下载量超三百万，国产开源大模型如何成为新晋顶流？中国旅游强劲复苏箱包巨头新秀丽核心数据全面超越疫情前传字节成立AI应用新部门Flow；淘天集团筹建大模型团队；浪潮信息开源千亿级大模型丨AIGC大事日报

热点事件追踪