Redian新闻
>
亚马逊将自有服务数据的压缩从 Gzip 切换为 Zstd

亚马逊将自有服务数据的压缩从 Gzip 切换为 Zstd

公众号新闻

作者 | Renato Losio
译者 | 平川
策划 | 丁晓昀

最近,亚马逊前副总裁 Adrian Cockcroft 在推文中特别指出了从 gzip 切换到 Zstandard 压缩所带来的好处,这在社区中引发了关于压缩算法的讨论。其他大公司,包括 Twitter 和 Honeycomb,也分享了使用 zstd 获得的收益。

最近,Dan Luu 分析了推特存储节省的情况,并在推特上发起了一场对话:

我想知道 Yann Collect 创建 zstd 到底消除了多少浪费。我估算了下 Twitter 的数值(与大型科技公司相比微不足道),从 HDFS 切换到 zstd 每年节省的数量大约为 8 位数的中值。在世界范围内(非年化),这个数值应该不低于 9 位数?

Cockcroft 回复说:

亚马逊从 gzip 切换到 zstd,压缩 S3 存储量减少了大约 30%,达艾字节的规模。

Zstandard(其 C 语言实现 zstd 更为知名)是由 Facebook 公司的 Yann Collet 开发的无损数据压缩算法,在多种数据集上提供了很高的压缩比和非常好的性能。该参考实现库是一个遵循 BSD 许可的开源软件,它提供了一个速度极快的解码器,允许我们在速度和压缩比之间做大范围权衡。

起初,Cockcroft 的表述在社区中引发了质疑,一些开发人员询问亚马逊如何在 S3 上压缩客户数据。亚马逊一名内部员工澄清道:

Adrian 说错了,或许是所有人都误解了他的意思。他的意思并不是说 S3 改变了存储压缩客户数据的方式。他的意思是亚马逊改变了在 S3 中存储自有服务数据(主要是日志)的方式——从 gzip 日志切换到 ztsd 日志,我们(作为 S3 的一个客户)能够将 S3 存储成本降低 30%。

Honeycomb 首席开发者大使 Liz Fong-Jones 赞同切换到 zstd:

我们不把它用于列文件,因为那太慢了,但我们把它用于 Kafka(…),在生产环境中从 snappy 切换到 zstd 后,Honeycomb 节省了 25% 的带宽。(…)不仅仅是存储和计算,对我们来说,是网络。亚马逊跨 AZ 的数据传输非常昂贵。

在 Reddit 一个热门的帖子中,noirknight 是众多提供正反馈的用户之一:

我的公司几年前也做过类似的事情,也看到了类似的好处。只要可能,我们都使用 zstandard,不仅仅是存储,还有其他东西,比如内部 HTTP 通信。

以下是用户 treffer 在 Hacker News 上的评论:

速度特别快的压缩算法(zstd、lz4、snappy、lzo……)是值得我们付出 CPU 成本的,而且几乎没有什么缺点。问题在于找到最佳契合点,在不产生 CPU 瓶颈的情况下减少当前的瓶颈,不过在这方面,zstd 也提供了最大的灵活性。

亚马逊在一些托管服务的 API 中公开了 Zstandard 和对其他压缩算法的支持。例如,在 Amazon Redshift 中引入 Zstandard 支持后,这家云提供商针对云数据仓库开发了自己的算法 AZ64。按照他们的说法,其专有压缩算法比 zstd 编码节省 5-10% 的存储空间,并且速度快 70%。

亚马逊官方没有就其内部数据使用的压缩技术或相关的 S3 存储节省发表任何评论。

原文链接:

https://www.infoq.com/news/2022/09/amazon-gzip-zstd/

相关阅读:

Node.js|使用 zlib 内置模块进行 gzip 压缩

https://xie.infoq.cn/article/2cb0b93d79027ed4c7e1a45a1

一种优于 gzip 的压缩方式 Brotl

https://xie.infoq.cn/article/e6bbebbb383267917bc405b51i

声明:本文为InfoQ翻译,未经许可禁止转载。

点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!

今日好文推荐

社区分裂、应用争议,5年都没火起来的WebAssembly “炒错”方向了?

DevOps 已死,平台工程才是未来

“吞并”红帽存储产品线,IBM 承诺 Ceph 依然 100% 开源

微软开始启用 Edge 内置的 VPN 服务;马斯克买推特变来变去:改口按最初条款收购;闲鱼要求部分卖家支持 7 天无理由退货|Q 资讯

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
通过深度学习将 L1000 图谱转换为类似 RNA 的图谱How Hangzhou Freed West Lake and Upended Chinese Tourism​亚马逊将投资10亿欧元在欧洲建电动车队2000亿“券茅”也扛不住!三季度业绩下滑14%,公司称没有提前泄露财务数据可能将你的 Python 脚本转换为命令行程序 | Linux 中国重磅!12月5日起,电子版APS审核证书(DigZert)来了!趣图:这才是 AWS 传送数据的实际工具百万数据的导入导出解决方案放开,不是由困难模式切换到岁月静好,而是切换到另一种困难模式!精选Data岗位 | Expedia Group、EA、Zscaler等公司发布海量岗位!津梁生活将关闭所有门店;黄光裕被曝言语侮辱讨薪员工;亚马逊将裁员2万人;韩束母公司要上市了;山姆发力百货品类|联商头条8/26 波士顿新闻汇总|波士顿警察在Roxbury遇袭 亚马逊将关闭麻州的5个配送仓库 Omicron加强剂可能在下个月准备好Zhengzhou Becomes First Big City to Scrap ‘Hukou’ Restrictions《时代里的“主角儿”》:那些“追”数据的人这个女人不简单Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法翻译--小恩小惠母亲逃亡上海的血泪之路(三)总疑邻盗斧, 痴呆症的信号亚马逊将在假期雇用 150,000 名工人亚马逊将无差别裁员2万人;马斯克钦点特斯拉中国区负责人朱晓彤赴美工厂抓产能;荣耀回应借壳上市传闻:消息不实 | AI一周资讯传说中的字节跳动财务数据,到底说了些啥?Spring Boot + Filter 实现 Gzip 压缩超大 json 对象,传输耗时大大减少面试官:百万数据的导入导出解决方案,怎么设计?观夏合作First青年导演柴小雨;亚马逊将于11.24开启黑五;茅台冰淇淋方便食品商标被驳回... | 刀法品牌热讯中国民企专利授权量华为第一;亚马逊将无差别裁员2万人;奈雪成乐乐茶第一大股东;三星集团任命首位女总裁...【直播预告】大数据的误读与数字化转型盲点CHAP:用于处理和分析瞳孔测量数据的开源软件城市中的诗意栖居〡龙湖建工·九里熙宸:HZS汇张思打造京西专属人文生态街区新作速览|西安秦始皇帝陵铜车马博物馆 / 中森设计ZSA最小可行架构注意事项:必须考虑分布式处理和数据的位置精选SDE岗位 | Zscaler、Autodesk、Alteryx等公司发布海量岗位!险些半身不遂阿里减持商汤8000万股/ 亚马逊将裁员10000人/ 电击大脑能减肥…今日更多新鲜事在此有服装纺织厂今年准备提前放假?企业接单意愿不强但还在努力挺过去
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。