Redian新闻
>
为什么列存储能够大幅度提高数据的查询性能

为什么列存储能够大幅度提高数据的查询性能

公众号新闻

传统的存储数据的方式是逐行存储(Row Store),每一个Page存储多行数据,而列存储(Column Store)把数据表中的每一列单独存储在Page集合中,这意味着,Page集合中存储的是某一列的数据,而不是一行的所有列的数据。

列存储索引适合于数据仓库中,主要执行大容量数据加载和只读查询,与传统面向行的存储方式相比,使用列存储索引存储可最多提高 10 倍查询性能 ,与使用非压缩数据大小相比,可提供多达 7 倍数据压缩率 。列存储索引使用用“批处理执行模式”的模式,这与行存储使用的逐行数据读取模式对比,性能大幅提升。

列存储索引主要在下面三个特性上提升查询的性能:

  • 行存储使用逐行处理模式,每次只处理一行数据;而列存储索引使用批处理模式,每次处理一批数据行。
  • 行存储是逐行存储(Row Store),每一个Page存储多行数据,而列存储(Column Store)把数据表中的每一列单独存储在Page集合中,这意味着,Page集合中存储的是某一列的数据,而不是一行中所有列的数据。在读取数据时,行存储把一行的所有列都加载到内存,即使有些列根本不会用到;而列存储只把需要的列加载到内存中,不需要的列不会被加载到内存中。
  • 列存储索引自动对数据进行压缩处理,由于同一行的数据具有很高的相似性,压缩率很高,数据读取更快速。

一般情况下,数据仓库的查询语句只会查询少数几个列的数据,其他列的数据不需要加载到内存中,这就使得列存储特别适合用于数据仓库中。

01、列存储的特点

为什么列存储能够大幅度提高数据的查询性能呢?要回答这个问题,首先必须明白SQL Server引擎是怎样读取数据的。在读取数据时,SQL Server每次都把所需数据所在的整个Page读取到内存中,Page是数据读取的最小单位。如果采用行存储,每一个Page都存储所有列的数据,每行的Size决定了单个Page能够存储的数据行数量。

我们可以粗略计算一下,如果一个数据行有10列,每列的平均Size是10B,一行的Size是100B,那么单个Page最多存储80行(8060B/100B);如果采用列存储模式,那么单个Page可以存储806行(8060B/10B)。就单个Page存储的数据行数量而言,列存储是行存储的10倍,SQL Server引擎把一个Page读取到内存中,能够获取的数据行数量成10倍增加。

因此,采用列存储模式时,每一个Page能够存储更多的数据行。在加载列存储数据时,SQL Server只需要消耗少量的IO,就能把某一列的全部数据加载到缓存中。当从列很多的大表中读取几个列时,相比传统的行存储(Row Store)模式,列存储(Column Store)能够成千上万倍地提高数据的读取速度和查询性能。

02、列存储的物理实现

数据表(堆,B-Tree)以行存储模式存储数据,而列存储索引以列存储模式存储数据,行存储和列存储的示例图:

1,列存储的优点

对于列存储,列C1…C6 存储在不同的Page组中,列存储的优点是:

  • 列存储是把每一列都单独存储在Pages集合中,对于行存储,哪怕只从数据表中选择(select)一列,SQL Server引擎都把整个数据行所在的Page读取到内存中,而使用列存储索引,仅仅需要把select子句指定的列读取到内存,不需要的列不会被读取;因此,如果一个查询请求只需要从少量的几个列中获得数据,列存储能够大幅度提高查询性能;
  • 由于单个数据列的数据冗余度更高,因此同一列的数据更容易被压缩存储,单个Page存储更多的数据;
  • 缓存命中率提高,这是因为同一列的数据被高度压缩,常用的Page被频繁访问而变得异常活跃,Buffer Manager把活跃的数据页缓存到内存中,不常用的Page被换出(Page Out)。
  • 更高级的查询执行技术,列存储模式读取数据使用的是批处理模式(Batch Processing Mode),相对于传统的行处理技术,查询性能更高。

2,列存储模式的物理实现

SQL Server引擎分三步实现列存储:

  • step1,列存储索引先把数据表的所有数据行分组,每个分组也称作行组(Row Groups)。
  • step2,在每个行组中,每列的所有数据行构成一个列段(Column Segment),简称段。
  • step3,对每个段进行压缩处理和编码,每个段都单独存储在列存储索引中。

3,编码和压缩

列存储使用两种编码类型:基于字典(dictionary based)和基于值(value based),使用Vertipaq压缩数据。

字典编码是把唯一值编入字典,每一个唯一值都匹配一个序号,而序号用于索引字典,通过存储序号来压缩数据。如果数据表中存在大量的重复值,那么使用字典编码压缩率高。

值编码用于整数类型,或小数类型,编码的原理是把Value的范围按照比例缩小或增大,并使用一个指数(exponent)来表示比例。如果整数(integer) 或小数(decimal)的值分布集中,那么使用基于值(value-based)编码方法进行压缩非常高效。

列存储索引的物理存储如下图所示:

03、列存储索引

SQL Server 2012开始引入列存储模式,用户通过创建列存储索引(Column Store Index)来体验列存储模式带来的性能提升。而列存储模式非常适用于星型连接(Star- Join)类型的聚合查询,所谓星型连接(Star-Join)的聚合查询是指对一个大表(Large Table)和多个小表(Little Table)进行连接,并对Large Table 进行聚合查询。在数据库仓库中,是指事实表和维度表的连接。

在大表上创建列存储索引,SQL Server 引擎将充分使用批处理模式(Batch processing mode)来执行星型查询,获取更高的查询性能。

典型的Star- Join的聚合查询类似于下面的示例脚本:

select lt.Grouping_Columns,        AggregationFunction(bt.Columns)from dbo.LittleTable lt with(nolock)inner join dbo.BitTable bt with(nolock)    on lt.Int_Col1=bt.Int_col1where ....group by lt.Grouping_Columns

在SQL Server 2012中,只能创建非聚集的列存储索引,由于列存储索引的每一列都有独立的存储空间(Page Set),因此,列存储索引会包含数据表的所有列,这样,每一个数据列都会被索引到。但是,并不是每一列都能获得相同的性能提升,这是因为,列存储使用的压缩算法对于具有大量重复值的字符或数值的数据,压缩效率更高。对于列存储索引而言,查询性能的提升很大程度上依赖列数据的高度压缩,这会大幅减少存储该列数据所占用的数据页(Data Page),进而大幅减少把数据加载到内存所耗费的内存和时间。

CREATE [ NONCLUSTERED ] COLUMNSTORE INDEX index_name ON schema_name . table_name ( column  [ ,...n ] )[ WITH ( DROP_EXISTING = { ON | OFF } | MAXDOP = max_degree_of_parallelism ) ][ ON  partition_scheme_name ( column_name )  | filegroup_name ]

一旦表上创建了非聚集的列存储索引,基础表就变成只读的(read-only),不能对基础表做任何更新(insert,update,delete 或merge)操作,如果需要修改数据,那么,首先要禁用列存储索引,然后更新数据,最后重建列存储索引:

ALTER INDEX mycolumnstoreindex ON mytable DISABLE;-- update mytable --ALTER INDEX mycolumnstoreindex on mytable REBUILD

由于创建或重建列存储索引是IO密集型资源,十分耗费内存资源,因此必须在系统空闲的情况下,更新数据。

04、列存储索引的空间使用

列存储索引首先把数据分组,然后每个行组中的每个列构成一个段(Segment),每段都是单独存储的,列存储索引占用的存储空间的大小是由所有段占用的硬盘空间的加和。

系统视图:sys.column_store_segments 提供每个段的数据信息,每个段都是每个行组中的一列的数据的集合,例如,如果一个列存储索引分为10个行组,每个行组有15个数据列,那么,该视图将返回150个段。

select i.object_id    ,object_name(i.object_id) as object_name    ,i.name as index_name    ,i.type_desc as index_type    ,col_name(i.object_id,ic.column_id) as index_column_name    ,sum(s.row_count) as row_count    ,sum(s.on_disk_size)/1024/1024 as on_disk_size_mbfrom sys.column_store_segments sinner join sys.partitions p     on s.partition_id=p.partition_idinner join sys.indexes i     on p.object_id=i.object_id        and p.index_id=i.index_idinner join sys.index_columns ic     on i.object_id=ic.object_id        and i.index_id=ic.index_id        and s.column_id=ic.index_column_idgroup by i.object_id    ,i.index_id    ,i.name    ,i.type_desc    ,ic.column_idorder by i.object_id    ,i.name    ,index_column_name

可以看出,列存储索引中每个段占用的硬盘空间是很少的,加载到内存所需要耗费的时间,IO次数和内存资源也是很少的,再配上性能更高的批处理模式,所以,列存储能够大幅度提高数据的查询性能,特别是对星型聚合的查询。

链接:https://www.cnblogs.com/ljhdo/archive/2017/12/14/5508274.html

(版权归原作者所有,侵删)


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
未来储能研究:储热热泵及在建筑中的应用 | 热能存储技术国际线上研讨会报名中!紧急!美领馆公开面签预约排期大幅度推迟,留学生赴美难度再升级!暑假如何帮娃提高数学能力?2款培养逻辑推理的桌游该收了(幼儿园小学都能玩)暑假帮娃提高数学能力,全球宝藏数学桌游,你还差哪一款?动物的灵魂为什么列存储能够大幅度提高数据的查询性能?可耻!座位上呕吐物还不让人说?某航机长:要么自己下飞机,要么列入禁飞名单!​ICCV 2023 | APE:对CLIP进行特征提纯能够提升Few-shot性能山东大学就人体标本外流至垃圾堆道歉【转贴】电动车价格战加剧 福特宣布这款车型大幅度降价7月移民排期更新:这一类别大幅度前进Neuron丨宾大找到让能够“调整注意力,专注于实现目标”的神经元;试了下,竟然大幅提高了工作效率!今日神图 | 吃泡面还能提高数学成绩?!未来储能研究:基于相变储热材料的热管理技术 | 热能存储技术国际线上研讨会报名中!日增320TB数据,从ClickHouse迁移至ByConity后,查询性能十分稳定!全球半导体投资骤减,近十年最大幅度市场监管总局:加强互联网广告监管,加大对违法广告代言人的查处力度在北京追讨退休养老的钱最新美国移民排期出炉:这类移民排期大幅度前进!冷锋过境!全澳将面临大幅度降温,本周这些地区迎来降雪!iPhone专家透露了两个简单的设置调整,可以让你的手机充电速度提高四倍VLOOKUP靠边站,这才是Excel中最牛的查找方法?(建议收藏)中国男篮知耻后勇首尝胜绩,今后仍需大幅度改革戴森胆子也是真够大,王牌吸力居然在洗地功能上被舍弃了?费城日本花园,春意盎然2022年业绩持续增长,国产存储器“小巨人”佰维存储蓄势待发引力传媒2023年上半年净利润取得较大幅度增长;雀巢和联合利华等全球知名的广告主入局AI广告(广告狂人日报)IEEE行业快报 | 新型存储技术-铁电存储纽约电费暴涨,大幅度提升9%,天然气提升8.5%!姜跃生:如何看待和应对印度发起的查税问题期末成绩出来后,暑假计划的查漏补缺,直接升级成女娲补天!突发!美联航突然撤回多个中美航班,航班数量大幅度锐减,全面复航无望!迟到的月光CIE高数被吐槽题量大,爱德思让提前30分钟进考场 | 2023大考追踪英国8月下雨冷哭:保持20°C以下,夏天明年见!英国房价14年内最大幅度下滑!加薪6.5%:教师罢工结束!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。