Redian新闻
>
一文让你对mysql索引底层实现明明白白

一文让你对mysql索引底层实现明明白白

公众号新闻


作者:京东云开发者-京东零售 韩航云

链接:https://my.oschina.net/u/4090830/blog/10139889

一、索引到底是什么

. 索引是帮助 mysql 高效获取数据的排好序的数据结构
. 索引是存储在文件里的
. 数据结构: 二叉树 HASH BTREE
如果没有索引的话,循环一条一条的找,找一次就是一次 IO,这样速度就会很慢
我们知道数据库数据都是存在磁盘上的,当我们查找数据时,就会从磁盘上取数据,每取一次就是一次 IO,IO 是非常耗时的,为了速度快会把数据放到缓存里,然后在缓存里进行操作

二、磁盘存取原理

当查找数据的时候,就是磁头循环找此道,就会一直循环查找,一次查找就是一次 IO,IO 是很耗时的

三、Mysql 数据结构详解

就拿上面的 7 条数据来说,如果没有索引,当我们查找第 7 条数据时,就会循环 7 次,如果有百万级别的数据,那么就会查找百万次,显然这样是不行的,就需要数据结构算法来优化,那我们就从二叉树 ----HASH---BTREE 来一一说起
二叉树:
二叉树节点保存的都是单个索引,高度会随着数据增大而增高,但是比一条一条的循环会快
不用二叉树是因为的极端情况下会出现单边增长,这样在数量大的情况下,和一条一条查找没有区别。
红黑树:
红黑树有自平衡性质,不会出现单边增长,它会动态自旋转,在性能上比二叉树又高一点,但是 mysql 也没有用这种数据结构,因为数据量超大的情况下,数据高度也会一直增大,在最终这个树高度也非常大,解决不了根本问题
HASH:
hash 算法一次就会定位到文件指针,速度快,但是还是没有用,如果范围查找的话就没有办法了,如果只是内存中的话,他的时间复杂度是 O (1), 速度会会很快,但是索引文件也是保存在磁盘上,而且 hash 是不连续的放在磁盘上的,这样查询起来也很慢,这才是不用 hash 的最根本原因
B-TREE:
相比上面的数据结构,b-tree 增加了横向大小(度 Degree),那么在高度上就减小了,查找次数就少了
15,56,77.。。。。是索引,data 就是对应的一行数据
那么在横向的度上最大多少合适呢??总不能横向上一直扩展下呀,磁盘一次 IO,就是取一个横向的节点(度),把一个节点的数据放在缓存中,那么一次 IO 也不能把所用的数据全取出来,所以最好是一次 io,就把这个节点全取处理,电脑操作系统从磁盘一次取数据到内存中一般是 4K,而 mysql 取一次数据一般是 16K,所以横向节点一般设置为 **16K。** 因为一个节点设置成 16K 的话,这个节点保存了索引和索引对应行的数据,那么这个节点横向保存不了太多的数据,所以,这种数据结构也不合适,引入新的数据结构
B+Tree
查找一次数据就是和磁盘一次 IO,一次 IO 会把这个数据相邻的数据一下全部查处理,这样速度会更快,这样的一页就是咱们说的一个节点(4K),分配空间的时候也是一页一页分配的,这样会更快,一页就是一个节点
mysql 常用的引擎有 MyISAM 和 InNoDb, 两种引擎得索引结构是不一样的
MyISAM 的数据结构:
.frm 表结构文件 .myd 表数据文件 .myi 表索引文件
myisam 引擎的主键索引数据结构是左上图,普通索引是右上图,叶子节点存的不是数据本身,是数据文件指针,和 b_tree 数据不一样,注意:每类的索引,都是各自的树,不是混合在一起的
.frm 表结构文件 .ibd 表数据和索引文件
主键索引是聚集索引,因为叶子节点是所有的数据,就是一行数据,非主键索引叶子节点只包括索引和主键,再用主键找对应数据
非主键索引叶子节点只包括索引和主键,再用主键找对应数据,这样是为了节省空间和数据一致性
联合索引:
要满足最左原则
联合索引 (col1, col2, col3) 也是一棵 B + 树,其非叶子节点存储的是第一个关键字的索引,而叶子节点存储的则是三个关键字 col1、col2、col3 三个关键字的数据,且按照 col1-col2-col3 的顺序进行排序。
例如:
如果执行的是,SELECT * FROM T WHERE B=‘Tom’ AND C=4567;
那么无法使用索引,因为索引是用 A 字段先排序的,如果没有先确定 A,直接查找 B 和 C,那么将会是全表查询。
如果执行的是,SELECT * FROM T WHERE A=‘30’ ;
那么,会先找到 A 字段,再在 A 等于 30 的数据中(比如有很多条),找 B 等于 Demi 的数据。这样是可以用到索引的。
如果执行的是,SELECT * FROM T WHERE A=‘18’ AND C=1234;
那么,A 字段可以索引,而 C 不能索引。所以可以部分索引,也比全表查询快。
如果执行 SELECT * FROM T WHERE B=Demi AND C=1234 and A=‘18’
是用到索引的,在 and 的情况下如果把第一个放到最后位置也是能用到索引的
现在我想大家应该了解了什么为什么是最左原则。因为,B + 树是按照最左边的字段以此构建的。

END



周鸿祎回应坚定支持华为



这里有最新开源资讯、软件更新、技术干货等内容

点这里 ↓↓↓ 记得 关注✔ 标星⭐ 哦~

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
美国博士小哥打败女友的AI男友!7页论文让LLM降智,训出「负分男友」成功挽回【买房】翻新Somerville绿线Magoun Square公寓 近93 | 3b1b 1,354sqft $67.5W新冠病毒不断变异,疫苗接种还有效吗?一项针对mRNA疫苗预防青少年和儿童新冠的真实世界研究有了这 4 款脚本工具, 再也不怕写烂 SQL了!!!Redis缓存与Mysql如何保证双写一致免费试听|爬虫模型项目实战+SQL面试真题解析三周掌握,华丽变身数据大神!浅谈SQL优化小技巧保安杀了外卖员,底层人何苦为难底层人还再用 Navicat?试试这款正版 MySQL 客户端,真香!10 个完美替代 Navicat 的 MySQL 图形工具奥斯丁芯片代工老厂(2)-辛勤的南郭先生和骗子客户的故事尕妹子与嘎小子GitHub多项服务故障,与升级MySQL有关?187cmYSL贵公子一夜爆火!网友:老公太多,都不知道先爱哪个百年无痕 1.14写着简单和跑得快是一回事,SQL 为什么不可能跑得快?Timescale 推出无服务器数据库的替代方案,Dynamic PostgreSQL这些年背过的面试题——MySQL篇MySQL 支持 JavaScript,目前处于预览阶段mysql8.0流程控制一文拿捏聊聊优化慢SQL那些事PostgreSQL数据脱敏方式盘点PostgreSQL夺冠ES+Redis+MySQL,这个高可用架构设计太顶了GPT 自动生成SQL语句mysql8.0存储过程一文解析 ODPS SQL 任务优化方法原理MySQL主从同步延迟原因与解决方案“向量数据库”还是“向量搜索插件 + SQL 数据库”?PingCAP 黄东旭:我对 2024 年数据库发展趋势的思考华府消息|特朗普认知能力出现明显下滑长篇小说《谷雨立夏间》36 天下乌鸦金主一怒为红颜,要对MIT校长和所有教员做“抄袭核查”;Nature:有必要修改“抄袭”的定义了[视听] 什么叫英国声?聊聊新年刚入手的英国欧尼士Mystic便携解码耳放图记:好友宅邸的感恩节盛宴MySQL 分库分表实践
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。