Redian新闻
>
Ceph 中的写入放大

Ceph 中的写入放大

科技


新钛云服已累计为您分享769篇技术干货


介绍


Ceph 是一个开源的分布式存储系统,设计初衷是提供较好的性能、可靠性和可扩展性。 Ceph 独一无二地在一个统一的系统中同时提供了对象、块、和文件存储功能。 Ceph 消除了对系统单一中心节点的依赖,实现了无中心结构的设计思想。
我们知道Ceph为了保障数据的可靠性,存放数据通常是三副本策略(另有EC策略)。那么无论是data,metadata,journal都是三份。因此在应用端写入一个IO,在ceph内部实际上会额外产生许多内部IO,不同的存储后端差异很大。 Ceph提供了FileStore、KStore和BlueStore三种存储后端以供选择,那么以FileStore为例,来看看13X的写放大的来由。FileStore中ceph的数据被存放在XFS或者ZFS等本地文件系统中。这些文件系统本身又会记录日志(FS journal),以及还有它自己的元数据(FS metadata)。
在设计存储基础结构时,为了防止故障,保证一定的冗余度是非常有必要的。但是,冗余伴随着存储效率的降低,这也会增加您的成本。对于大型基础设施,每 TB 成本的差异可能会导致总存储成本显著提高。因此,Ceph 中的纠删码非常有吸引力。 纠删码类似于基于奇偶校验的 RAID 阵列。为每个对象创建许多数据块 (K) 和奇偶校验块 (M)。另一方面,副本只是创建给定对象的其他副本,类似于镜像 RAID 阵列。这通常意味着纠删码比副本具有更高的存储效率,计算公式为 k/(k+m)。 例如,以 6+2 为例,您将获得 75% 的存储效率——在记录的总 8 个区块中,有 6 个数据块。与三个副本相比,您将有 33% 的效率,总共 3 个记录的块中有 1 个数据块。



写入放大


正常来说,Ceph 都没啥问题,除了一个经常被忽视的问题:写入放大。 数据存储中的最小分配大小本质上是一段数据可以写入的最小单位。在 Pacific Ceph 之前,此值默认为 64kb。此最小分配单元会给某些工作负载带来问题,尤其是那些对小文件进行操作的工作负载。



案例


4% 存储效率示例如下图:

为了更直观一点,让我们考虑一个传入写入为 16kb 的 4+2 纠删码池。 在上面的示例中,单个 16K 写入最终会放大 24 倍的大小,因为每个块至少需要以 64K 的速度写入磁盘。这导致此特定对象的总存储效率为 ~4%。如果您的工作负载主要由 16K 对象组成,那么这可能会很快抵消您的 EC 配置文件提供的任何优势。下面是使用相同文件大小的 3 副本示例。

如上图所示,在此特定工作负载中,3 Replica 实际上比 4+2 纠删码池的存储效率更高。这表明规则总是有例外。从理论上讲,当存储效率是最高优先级时,应使用纠删码,但根据您的数据集,这可能会发生巨大变化。




写入放大重要的用例


当然,即使按照小文件工作负载标准,16K 文件也很小,单单一篇文章的大小就 100K 左右。另外,一些可能存在写入放大问题的场景是:
  • AI training 人工智能训练
  • audio editing 音频编辑
  • log storing/aggregation 日志存储/聚合
  • scientific computing 科学计算



结论


了解数据和工作负载是确定 Ceph 集群构建的关键部分。了解整个数据的平均文件大小将使您能够避免这种极高的写入放大。 当然,这并不总是这样的。通常,在单个集群中往往会存在各种大小的文件。在这种情况下,只需确定数据的位置即可。例如,如果单个目录树拥有大部分小文件,则可以将副本池固定到该特定树,而具有较大文件大小的其余数据仍保留在纠删码上。 如前所述,当您的最小分配大小太大时,写入放大会更加普遍,这就是为什么较新版本的 Ceph(如 Pacific 和 Quincy)默认为 4K 而不是 64K 的原因。在较新的集群或最小分配大小修改的 Octopus 集群中,写入放大的问题要小得多,因此,我们在后续的集群部署前,需要认真考虑一下。



    推荐阅读   




    推荐视频    


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
【惠宜教育2023美高招生讲座】圣斯蒂芬教会学校 St. Stephen's Episcopal School TX约恩·福瑟诺奖演讲:好的写作与所有说教相对立美国金姓大兵惨遭驱逐!核武正式写入朝鲜宪法Agency Demands Photographer Pay — For Using Own Photos2024美国大学申请文书的写作分析及技巧联手 OpenAI 最强竞对展开生成式 AI 反击战:亚马逊云科技将 S3 写入速度提升 10 倍、推出全新三层技术栈红色日记 10.1-20核酸大王进军预制菜?预制菜首次写入官方文件,大家真正怕的是什么?腾讯大模型的绝活,居然是发布会上没吹的写代码?日本日记9: 富士宫市邂逅富士山知名特级教师再出作文秘籍!解锁36个实用有趣的写作技法!3块多一节的写字课,娃学两个月惊艳了语文老师!Cell Reports | 免疫细胞中的microRNAs或能保护肥胖个体机体抵御代谢异常德博拉·利维:21世纪女性的写作和生活四次写入国家发展规划,这个艺术专业有多“红”?限时特惠|Ceph企业级存储实战进阶朝鲜将核武力政策写入宪法应该说face to face还是face-to-face?DeepMind曝新一代AlphaFold,预测准确率暴涨近10%!DNA和RNA的AlphaFold时刻来了谷歌DeepMind全新AI天气预报神器GraphCast登上Science!1分钟预测10天全球天气,碾压行业SOTA!孩子背过的古诗词,如何转化成自己的写作能力?吹尽黄沙不见金(七十七):嫉妒影像文字的写作要领是什么?朝将核武力政策写入宪法时光里一叶小舟预定诺奖?DeepMind创始人斩获「诺奖风向标」拉斯克奖,AlphaFold成「AI for Science」标杆最头疼的写作文,原来可以这样铺垫从中考作文回头看,小学阶段的写作应该怎么学怎么练?NLP论文的写作技巧 - 来自国外年轻老师的总结分布式存储:GPFS对话Ceph(收藏)5h赶出来的论文拿Distinction!我发现了超级好用的写作神器推荐一本优秀的写作词典我更希望我们能把健康投入放到平时去,而不是生命的最后那几个月小说:兰欣与乌茶中小券商分化加剧!分仓佣金收入放榜,前五名位次不变,财通国海民生成黑马
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。