Redian新闻
>
分析型数据库如何创新?

分析型数据库如何创新?

公众号新闻
出品 | OSC开源社区(ID:oschina2013)
在群雄逐鹿的 OLAP 数据库市场,开源引擎 ClickHouse 凭借其出色的性能成为公认的黑马。官方称其性能超过了市场上同类的列式数据库,每台服务器每秒可处理数亿到超过十亿行、体积达数十 GB 的数据,运行速度比传统数据库快 100-1000 倍。
高效运行速度的另一面,还隐含着成本、性能、容量等诸多问题,比如不支持事务,不能够保证数据的一致性和完整性,不存在隔离级别,不支持高并发等等。这导致 2016 年开源的 ClickHouse 难以应对当下更加复杂,数据规模更加巨大的场景需求。
比如在字节内部,从 2018 年引入 ClickHouse,因为业务的发展,要服务于大量的用户,数据规模变得越来越巨大。由于 ClickHouse 是 Shared-Nothing 的架构,每个节点是独立的,不会共享存储资源等,因而计算资源和存储资源是紧耦合的。这导致扩缩容成本变高,且会涉及到数据迁移,不能实时按需的扩缩容,从而导致资源的浪费。此外,ClickHouse 的紧耦合的架构会导致多租户在共享集群相互影响,另外由于读写在一个节点完成,导致读写受到影响,最后 ClickHouse 在复杂查询上例如多表 join 等的性能支持并不是很好。
字节 ClickHouse 使用情况
为了解决这些痛点,字节在 ClickHouse 架构基础上进行了升级,于 2020 年在内部启动了 ByConity 项目,并于 2023 年 1 月发布 Beta 版本,将于 5 月底正式对外开源。
ByConity 是一个开源的云原生数据仓库,采用存储 - 计算分离的架构。它支持多个关键功能特性,如存储计算分离、弹性扩缩容、租户资源隔离和数据读写的强一致性等。通过利用主流的 OLAP 引擎优化,如列存储、向量化执行、MPP 执行、查询优化等,ByConity 可以提供优异的读写性能。
ByConity 的架构分为三层,如下图所示,服务接入层包含负责客户端数据和服务的接入,也就是 ByConity Server;计算组为 ByConity 的计算资源层,每个 Virtual Warehouse 是一个计算组;数据存储层由分布式文件系统,如 HDFS、S3 等构成。
ByConity 三层技术架构图
除了兼备 ClickHouse 的一些优点外,ByConity 还实现了了诸多新的功能。
ByConity 的一个重要优势是 存储 - 计算分离的架构,它实现了读写分离和弹性扩缩容。它的优势是高弹性和高扩展性。这种架构确保读操作和写操作不会相互影响,使得计算资源和存储资源解耦,两者可以按需的且独立的扩缩容,确保资源高效利用。此外,ByConity 支持多租户资源隔离功能,保证不同租户之间不会互相影响,使 ByConity 适用于多租户环境,如图 2。
ByConity 存储 - 计算分离,实现多租户隔离
ByConity 支持 弹性的扩缩容,能够实时、按需的对计算资源进行扩缩容,保证资源的高效利用。并且它能对不同的租户进行 资源的隔离,租户之间不会受到相互影响。其另一个重要功能是 数据读写的强一致性 确保数据始终是最新的,读写之间没有不一致。此外,ByConity 采用了主流的 OLAP 引擎优化,例如列存、向量化执行、MPP 执行、查询优化等,来保证提供了 优异的读写性能
之所以采用开源的模式,ByConity 项目组是希望能够把项目回馈给社区,同时也希望通过社区的力量加强和完善 ByConity。接下来,ByConity 在 2023 开源社区发展规划中,希望增强 ByConity 的功能、性能和易用性,重点关注开发新的存储引擎、支持更多的数据类型和与其他数据管理工具的集成领域。
5 月 28 日,字节跳动分析型数据库负责人陈星将出席 GOTC 2023 “数据与数据库技术” 分论坛,并担任讲师,带来《ByConity: 分析型数据库技术创新与开放之路》主题演讲,详解 ByConity 中的关键技术选择,分享 ByConity 开源与开放背后的故事。
敬请期待!
全球开源技术峰会(Global Open-source Technology Conference),简称 GOTC,是由开放原子开源基金会、上海浦东软件园、Linux 基金会亚太区和开源中国联合发起的,面向全球开发者的一场盛大开源技术盛宴。5 月 27 日至 28 日,GOTC 2023 将于上海举办为期 2 天的开源行业盛会。大会将以行业展览、主题发言、专题论坛、开源市集的形式展现,与会者将一起探讨元宇宙、3D 与游戏、eBPF、Web3.0、区块链等热门技术主题,以及开源社区、AIGC、汽车软件、AI 编程、开源教育培训、云原生等热门话题,探讨开源未来,助力开源发展。
GOTC 2023 报名通道现已开启,诚邀全球各技术领域开源爱好者共襄盛举!
参会报名,请访问:https://www.bagevent.com/event/8387611

进入官网了解更多信息,请访问:https://gotc.oschina.net/


立即报名大会

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
数据库er的夏日盛宴 | 2023 可信数据库发展大会演讲议题征集限时开启!黄东旭:我对数据库如何Serverless 化的一些思考高质量发展背景下,经济学范式如何创新?Altman的灵魂拷问:谁来投资长周期、激进型的实体创新?智源连甩多个开源王炸!悟道3.0大模型数弹齐发,大模型评测体系上线【TF线下活动】如何创新技术架构,助力企业降本增效?5月14日TF103,互联网大厂专家现场解答!一句话搞定数据分析,浙大全新大模型数据助手,连搜集都省了五十五 参加新旅我是如何“白嫖”公共数据,用GEO数据库发表自己的第一篇SCI,速看!俄乌战争,美国也是输家将入学考试题搬进中文大模型数据集,20477道题目,还带4个候选答案LinkedIn图数据库LIquid:为9.3亿会员提供实时数据访问五十六 洪泽湖除妖知青昏因You Belong With Me“白嫖”公共数据,居然用GEO数据库完成自己的第一篇SCI90%的创新实验室都会失败,如何进行下一个创新?数据分析和你数据分析专业能力并无半毛钱关系零门槛复现ChatGPT:预训练模型数据集直接用,包含完整RLHF流程,在线可体验数据分析师 - 美国新移民的职业重生,掌握数据库的利器Zilliz星爵:向量数据库,开创AI原生数据基础软件时代 | GGV OMEGA访谈录每分钟可处理8.14亿笔交易、腾讯云数据库TDSQL刷新TPC-C纪录对国产数据库行业意味着什么?ChatGPT iOS官方应用上线;谷歌最新AI大模型数据量扩充5倍|AIGC周观察第二期最全的生物样本数据库(Biobank)收集;及部分公开数据库的大数据分享无论是自动化运维、数据库运维,大数据运维或云计算运维等,几乎都离不开 LinuxTCGA数据库挖掘,差异分析GSEA富集分析SCI全文复现在ChatGPT上能不能搞模式创新?科技特训营给你三个要点!|王煜全【直播预告】如何系统化创新?对话BCG亨德森智库主席计算架构迈入“智能进化”时代,解密地平线BPU纳什如何实现颠覆式创新?你敢信“白嫖”公共数据,用GEO数据库发表自己的第一篇SCI !迎向浪潮之巅,GOTC 2023 数据与数据库技术专题论坛即将召开消费品渠道营销如何创新?就看CCFA这场峰会!傅蔚冈:比大模型数量更重要的是AI原生应用“白嫖”公共数据,用GEO数据库发表自己的第一篇SCI摩尔定律放缓,Multi-die如何引领芯片创新?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。