Redian新闻
>
Apache IoTDB:更适合工业物联网场景的新型数据库,存、查、用不再是难题

Apache IoTDB:更适合工业物联网场景的新型数据库,存、查、用不再是难题

公众号新闻

机器之心专栏

机器之心编辑部


随着步入工业 4.0 时代,数字化和自动化的引入,生产环境变得更加高效。同时智能设备带来的海量数据的潜在价值被人们关注,可如何高效地存储智能设备产生的数据,如何更好地对海量数据进行分析成为了难题。传统的数据库模型和存储方式俨然已经无法适应这样的需求。于是有了时序数据库,旨在实现高效地存储、查询数据,帮助更好地发掘数据潜在的价值。


面对这样的状况,清华大学于 2015 年启动了 IoTDB 的研制。2020 年 9 月 23 日 Apache IoTDB 毕业成为 Apache 顶级项目 (Top-Level Project),是目前唯一由我国高校发起的 Apache 基金会顶级项目,也是 Apache 基金会旗下唯一物联网数据管理领域开源项目。2021 年 10 月,Apache IoTDB 核心团队创立了天谋科技,继续运营 IoTDB,帮助工业用户解决数据 “存、查、用” 难题。


对于 Apache IoTDB 研发的核心技术,几位参与者联合发表了一篇综述论文,对于 IoTDB 的设计进行了详细而完整的阐述。文章以一个需要管理上万台挖掘机的工业公司入手,描述了需求 “数据首先被打包到设备中,然后通过 5G 移动网络发送到服务器。在服务器中,数据被写入时间序列数据库,用于 OLTP 查询。最后,数据科学家可以将数据从数据库加载到大数据平台,用于复杂的分析和预测,即 OLAP 任务。”



  • 论文地址:https://dl.acm.org/doi/abs/10.1145/3589775

  • 项目地址:https://github.com/apache/iotdb


论文重点讲述了如下几个部分:


1. 数据模型的设计:时间序列在逻辑层次上的组织方式和在物理模式中的存储;

2. TsFile 文件格式:自研的列式存储文件格式,同时满足写入、查询等的高效性;

3. IoTDB 引擎:主要包括存储引擎、查询引擎等;

4. 分布式解决方案。


接下来,对这几个重点部分做出更加详细的解读。


详细解读


1. 数据模型设计


(1)如下图,采用树的结构,满足极高强度的写入操作,并能够有效处理物联网场景中常见的延迟数据到达问题。


在树中,每一个叶子节点对应一个传感器,每个传感器都有其对应的归属设备,正如图中最下面两层所示,向上同理。



(2)前文阐述了逻辑结构,现在我们来看物理结构的实现,主要为时间序列 ( Time series )和序列簇( Series family )两部分组成。下图展现了每个时间序列是由时间和值两个属性组成,时间序列通过根节点到叶子节点的完整路径来定位。上图中则展示了序列簇的概念,一个序列簇中可能包含多个设备,它们的数据将一起存储在 TsFile(一种文件结构,在后文中会讲解)中。



2. TsFile 文件格式的设计


TsFile 是 Apache IoTDB 自研列式存储文件格式。结构如下图:



TsFile 在设计过程中,研究团队主要解决的问题:


  • 节省空间,尽可能压缩数据

  • 减少文件数量

  • 会一起查询的时间序列在物理位置上的接近

  • 减少磁盘碎片

  • 高效访问


主要给出的解决方案:


  • 列式存储:消除了空值,节省了磁盘占用;数据访问局部性

  • 时间序列编码:利用物联网场景时间序列的独特特征

  • 频域编码:信号处理中广泛进行时间序列的频域分析

  • 具体的结构解析:页面( Page )是基本存储单位,Chunk 中包含多个 Page,一个 chunk 中的 page 属于同一个时间序列,大小可变;Chunk Group 包含多个 Chunk,一个组中的多个 chunk 属于同一段时间内写入的一个或多个系列的设备,将他们放在连续的磁盘空间,是因为他们经常会被一起查询;Block 是在内存中的,写入的块组先在内存中进行缓冲,当内存达到阈值时,将所有块组刷新到 TsFile 中;索引(FileIndex)于文件末尾记录信息,用于数据访问。


3.IoTDB 引擎


在这部分,研究者们主要考虑了物联网场景下的延迟到达、高效查询处理、类 SQL 查询的设计。IoTDB 引擎结构如下图:



图中我们可以看到主要是用于处理 TsFile 的写入、读取、和管理的存储引擎部分,在这部分中运用了自动延迟分离技术(如下图):



对于大多数都在正常的 TsFile 中,没有时间范围重叠时,推荐使用延迟数据分离;对于大多数数据是无序的情况,延迟数据分离则不被推荐使用。


另一重要组成是查询引擎,这部分负责将 SQL 查询转换为可在数据库中执行的操作符。同时,为了适应工业物联网场景,Apache IoTDB 设计了对时间序列数据的丰富查询。


4. 分布式的解决方案


TsFile 可以分布在 HDFS 中,并由 Spark 操作。此外还提供了更好的数据分布和查询处理的原生解决方案,主要为分区复制、NB-Raft 复制和 DYNAMIC 读一致性。


对比结果


论文中提供了 TsFile 与 IoTDB 分别与工业中广泛使用的最先进的文件格式和时序数据库的比较结果,展现了 Apache IoTDB 在多个方面的优势,如下图:




以上两张图,展现了 TsFile 在写吞吐量、读取时间成本、同步的性能上,均优于目前广泛使用的方案。这主要是由于 TsFile 的物联网感知结构设计,避免了存储 deviceId 等冗余信息。而磁盘占用之所以没有明显优势,则是因为构建了更加精细的索引,导致占用了更多空间,但是这样的牺牲可以在查询时间上带来非凡的改善,我们可以看到读取时间成本的明显优势。



上图中可以看到 IoTDB 在几乎所有测试中都表现出更好的性能,更高的写吞吐量和更低的写延迟。


在上图的实验中,我们可以看到,当查询数据规模较大时,IoTDB 具有更好的性能,IoTDB 的优势在大规模数据聚合中尤为显著。


总结


该论文介绍了一款新的时序数据管理系统 Apache IoTDB ,其开放式架构专门设计用于支持物联网应用的实时查询和大数据分析。该系统包括一个新的时序文件格式,TsFile ,采用列存储的方式存储时间和值,以避免空值并实现有效的压缩。在 TsFile 的基础上,IoTDB 引擎采用类似 LSM 树的策略来处理极高强度的写入,并处理在物联网场景中非常普遍的延迟数据到达。丰富的可扩展查询,以及在 TsFile 中预计算的统计信息,使 IoTDB 能够在 OLTP 和 OLAP 任务中实现高效处理。


基于上述的这些技术,IoTDB 已经成为能够更好面对工业物联网场景的新型数据库。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
大开眼!以后寿司就吃这些?网友:更适合中国宝宝体质!ChatGPT 和 OpenAI 都在用的 Redis,是如何从传统数据库升级为向量数据库的?并非所有向量数据库都生来平等 - 找到属于你的向量数据库消失一段日子的她。。。被污染的美国自由女神直播回放丨医师节特别节目&蔡建强教授从医40年访谈:让肝癌治疗不再是难题直播预告丨蔡建强教授从医40年访谈:让肝癌治疗不再是难题单一数据库拆分成几十个数据库的意义西方“最强”物联网模组商出售车联网业务、高通投资模组创业企业,海外蜂窝物联网模组市场又有新的变动【广发策略戴康团队】全市场最全策略数据库:八位一体数据库华为发布二十个高价值工业场景,打造工业智能体,满足工业数字化需求突破物联网卡转售的困境,丰富物联网托管服务的主体推进新型工业化厅局专稿 | 北京:以新型工业化推动首都经济高质量发展ChatGPT 都推荐的向量数据库,不仅仅是向量索引新型工业化调研行:合肥新型工业化“光”景独好科学家建立中国体量最大的无机材料数据库,用高通量计算和数据加速新材料发现Web3+AIoT=DePIN,DePIN不太适合从0到1构建市场,更适合帮助成型的AIoT市场进行加速天涯不再是天涯,互联网也不再是互联网分布式PostgreSQL基准测试:Azure Cosmos DB、CockroachDB和YugabyteDB国产时序数据库 Apache IoTDB 在海外排行榜位列第一,各性能领先 1- 97 倍!美国政府推出物联网安全标签计划,中国物联网产业如何应对?分居了, 冷眼看婚姻新型工业化领域学术期刊《新型工业化理论与实践》正式获批,启动征稿第四章 三民主义救中国 (2)智融万物 创见未来|中国移动物联网开发者大会暨物联网产业论坛圆满举行习近平就推进新型工业化作出重要指示强调 把高质量发展的要求贯穿新型工业化全过程 为中国式现代化构筑强大物质技术基础有了 Serverless 数据库,用户就不需要 DBA 了吗?罕见重罚!罚没近5000万,证监会通报涉我乐家居"违规减持案"!后续将加大打击力度,发现一起、查处一起IIoT最新信号:买现成的!工业物联网已经“跨越鸿沟”,试点炼狱一去不复返联想发布两款最新边缘服务器;亚信科技AntDB数据库与多家企业兼容互认 | 绿研院日报工业互联网让工业老城焕发新活力——访济南市工业和信息化局党组成员、副局长文海生盘点留学成本最低的15所美国大学,更适合工薪家庭...《蝴蝶与少年》&《鱼尾纹》开拓创新、担当作为,汇聚起推进新型工业化的强大力量——习近平总书记的重要指示为推进新型工业化指明方向、鼓舞干劲AutoGPT 宣布不再使用向量数据库!向量数据库是小题大作的方案?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。