5、Mysql索引优化实战(一)
# 测试脚本
CREATE TABLE `employees` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`name` varchar(24) NOT NULL DEFAULT '' COMMENT '姓名',
`age` int(11) NOT NULL DEFAULT '0' COMMENT '年龄',
`position` varchar(20) NOT NULL DEFAULT '' COMMENT '职位',
`hire_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '入职时间',
PRIMARY KEY (`id`),
KEY `idx_name_age_position` (`name`,`age`,`position`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COMMENT='员工记录表';
INSERT INTO employees(name,age,position,hire_time) VALUES('LiLei',22,'manager',NOW());
INSERT INTO employees(name,age,position,hire_time) VALUES('HanMeimei', 23,'dev',NOW());
INSERT INTO employees(name,age,position,hire_time) VALUES('Lucy',23,'dev',NOW());
-- 插入一些示例数据
drop procedure if exists insert_emp;
delimiter $$
create procedure insert_emp()
begin
declare i int;
set i=1;
while(i<=100000)do
insert into employees(name,age,position) values(CONCAT('zhuge',i),i,'dev');
set i=i+1;
end while;
end;;
delimiter ;
call insert_emp();
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
# 1、联合索引第一个字段用范围不会走索引
EXPLAIN SELECT * FROM employees WHERE name > 'LiLei' AND age = 22 AND position ='manager';
结论:联合索引第一个字段就用范围查找不会走索引,mysql内部可能觉得第一个字段就用范围,结果集应该很大,回表效率不高,还不如就全表扫描。
回表,顾名思义就是回到表中,也就是先通过普通索引(我们自己建的索引不管是单列索引还是联合索引,都称为普通索引)扫描出数据所在的行,再通过行主键ID 取出索引中未包含的数据。所以回表的产生也是需要一定条件的,如果一次索引查询就能获得所有的select 记录就不需要回表,如果select 所需获得列中有其他的非索引列,就会发生回表动作。即基于非主键索引的查询需要多扫描一棵索引树。
Mysql回表指的是在InnoDB存储引擎下,二级索引查询到的索引列,如果需要查找所有列的数据,则需要到主键索引里面去取出数据。这个过程就称为回表。因为行的数据都是存在主键B+tree的叶子节点里面,二级索引的B+树叶子节点都是存放的(索引列,主键)。
简单来说,回表就是 MySQL 要先查询到主键索引,然后再用主键索引定位到数据
# 2、强制走索引
EXPLAIN SELECT * FROM employees force index(idx_name_age_position) WHERE name > 'LiLei' AND age = 22 AND position ='manager';
结论:虽然使用了强制走索引让联合索引第一个字段范围查找也走索引,扫描的行rows看上去也少了点,但是最终查找效率不一定比全表 扫描高,因为回表效率不高。
# 3、覆盖索引优化
EXPLAIN SELECT name,age,position FROM employees WHERE name > 'LiLei' AND age = 22 AND position ='manager';
# 4、in和or在表数据量比较大的情况会走索引,在表记录不多的情况下会选择全表扫描
EXPLAIN SELECT * FROM employees WHERE name in ('LiLei','HanMeimei','Lucy') AND age = 22 AND position ='manager';
EXPLAIN SELECT * FROM employees WHERE (name = 'LiLei' or name = 'HanMeimei') AND age = 22 AND position ='manager';
# 5、like KK% 一般情况都会走索引
EXPLAIN SELECT * FROM employees WHERE name like 'LiLei%' AND age = 22 AND position ='manager';
# 索引下推(Index Condition Pushdown,ICP)
不符合索引最左前缀原则,却还能利用复合索引的其他字段,减少回表次数。
对于辅助的联合索引(name,age,position),正常情况按照最左前缀原则,SELECT * FROM employees WHERE name like 'LiLei%' AND age = 22 AND position ='manager'
这种情况只会走name字段索引,因为根据name字段过滤完,得到的索引行里的age
和position
是无序的,无法很好的利用索引。
在MySQL5.6之前的版本,这个查询只能在联合索引里匹配到名字是 'LiLei' 开头的索引,然后拿这些索引对应的主键逐个回表,到主键索 引上找出相应的记录,再比对age
和position
这两个字段的值是否符合。
MySQL 5.6引入了索引下推优化,可以在索引遍历过程中,对索引中包含的所有字段先做判断,过滤掉不符合条件的记录之后再回表,可 以有效的减少回表次数。使用了索引下推优化后,上面那个查询在联合索引里匹配到名字是 'LiLei' 开头的索引之后,同时还会在索引里过 滤age
和position
这两个字段,拿着过滤完剩下的索引对应的主键id
再回表查整行数据。
索引下推会减少回表次数,对于innodb引擎的表索引下推只能用于二级索引,innodb的主键索引(聚簇索引)树叶子节点上保存的是全 行数据,所以这个时候索引下推并不会起到减少查询全行数据的效果。
# 为什么范围查找Mysql没有用索引下推优化?
估计应该是Mysql认为范围查找过滤的结果集过大,like KK% 在绝大多数情况来看,过滤后的结果集比较小,所以这里Mysql选择给 like KK% 用了索引下推优化,当然这也不是绝对的,有时like KK% 也不一定就会走索引下推。
# Mysql如何选择合适的索引
EXPLAIN select * from employees where name > 'a';
如果用name索引需要遍历name字段联合索引树,然后还需要根据遍历出来的主键值去主键索引树里再去查出最终数据,成本比全表扫描 还高,可以用覆盖索引优化,这样只需要遍历name字段的联合索引树就能拿到所有结果,如下:
EXPLAIN select name,age,position from employees where name > 'a' ;
EXPLAIN select * from employees where name > 'zzz' ;
对于上面这两种 name>'a'
和 name>'zzz'
的执行结果,mysql最终是否选择走索引或者一张表涉及多个索引,mysql最 终如何选择索引,我们可以用trace工具来一查究竟,开启trace工具会影响mysql性能,所以只能临时分析sql使用,用完之后立即关闭
# trace工具用法
set session optimizer_trace="enabled=on",end_markers_in_json=on; -- 开启trace
select * from employees where name > 'a' order by position;
SELECT * FROM information_schema.OPTIMIZER_TRACE;
2
3
{
"steps": [
{
"join_preparation": { -- 第一阶段:SQL准备阶段,格式化SQL
"select#": 1,
"steps": [
{
"expanded_query": "/* select#1 */ select database() AS `DATABASE()`"
}
] /* steps */
} /* join_preparation */
},
{
"join_optimization": { -- 第二阶段:SQL优化阶段
"select#": 1,
"steps": [
] /* steps */
} /* join_optimization */
},
{
"join_execution": { -- 第三阶段:SQL执行阶段
"select#": 1,
"steps": [
] /* steps */
} /* join_execution */
}
] /* steps */
}
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
结论:全表扫描的成本低于索引扫描,所以mysql最终选择全表扫描
select * from employees where name > 'zzz' order by position;
SELECT * FROM information_schema.OPTIMIZER_TRACE;
2
查看trace字段可知索引扫描的成本低于全表扫描,所以mysql最终选择索引扫描
set session optimizer_trace="enabled=off"; ‐‐关闭trace
# 常见sql深入优化
# Order by与Group by优化
explain select * from employees e2 where name ='LiLei' and `position` ='dev' order by age ;
分析:
利用最左前缀法则:中间字段不能断,因此查询用到了name
索引,从key_len=74
也能看出,age
索引列用在排序过程中,因为Extra
字段里没有using filesort
。
explain select * from employees e2 where name ='LiLei' order by `position` ;
分析:
从explain的执行结果来看:key_len=74
,查询使用了name
索引,由于用了position
进行排序,跳过了 age
,出现了Using filesort
。
Using filesort表示在索引之外,需要额外进行外部的排序动作。导致该问题的原因一般和order by有者直接关系,一般可以通过合适的索引来减少或者避免。
explain select * from employees e2 where name ='LiLei' order by `position`,age ;
分析:
索引的创建顺序为name,age,position
,但排序的时候age
和position
颠倒位置了
explain select * from employees e2 where name ='LiLei' and age = 18 order by `position`,age ;
分析:
Extra
中并未出现Using filesort
,因为age
为常量,在排序中被优化,所以索引未颠倒,不会穿线Using filesort
。
explain select * from employees e2 where name ='LiLei' order by age asc ,`position` desc ;
虽然排序的字段列与索引顺序一样,且Order By 默认为升序,这哦的postition desc
变为了降序,导致与索引的排序方式不同,从而产生 Use filesort
。
explain select * from employees e2 where name in ('LiLei','zhu') order by age, `position`;
where
条件中有in
时,由于in
中的内容很可能是无须的,甚至是重复的,因此where
中有in
作为条件的话,查出的数据可能是无序的,还是会出现Use filesort
。
explain select * from employees e where name >'a' order by name ;
可以使用覆盖索引优化。
explain select name,age,`position` from employees e where name >'a' order by name ;
# 优化总结
- mysql支持两种方式的排序
filesort
和index
,Using index
是指MySQL扫描索引本身完成排序。index
效率高,filesort
效率低。 order by
玛索两种情况可以使用Use index
。- oder by 语句使用索引最左前列。
- 使用
where
子句与order by 子句 条件列组合满足索引最左前列。
- 尽量最索引列上完成排序,遵循索引建立(索引创建的顺序)时的最左前缀法则。
- 如果
order by
的条件不再索引列上,就会引起Using filesort
- 能用覆盖索引尽量用覆盖索引
group by
与order by
很类似,其实质是先排序后分组,遵照索引创建顺序的最左前缀法则。对group by
的优化如果不需要排序的可以加上order by null
禁止排序。注意,where
高于having
,能写在where
中的限定条件就不要去having
限定了。
# Using filesort文件排序原理详解
filesort文件排序方式
- 单路排序:是一次性取出满足条件行的所有字段,然后在sort buffer中进行排序;用trace工具可 以看到sort_mode信息里显示<sort_key, additional_fields>或者<sort_key, packed_additional_fields>。
- 双路排序(又叫回表排序模式):是首先根据相应的条件取出相应的排序字段和可以直接定位行 数据的行 ID,然后在 sort buffer 中进行排序,排序完后需要再次取回其它需要的字段;用trace工具 可以看到sort_mode信息里显示<sort_key, rowid>。
MySQL 通过比较系统变量max_length_for_sort_data
(默认1024字节) 的大小和需要查询的字段总大小来 判断使用哪种排序模式。 - 如果字段的总长度小于
max_length_for_sort_data
,那么使用 单路排序模式; - 如果字段的总长度大于
max_length_for_sort_data
,那么使用 双路排序模∙式。
示例:
select * from employees where name = 'zhuge' order by position;
# 单路排序过程
- 1、从索引name找到第一个满足name = 'zhuge' 条件的主键id
- 2、根基主键id去除郑航,去除所有字段的值,存入sort_buffer中
- 3、从索引name找到下一个name = 'zhuge' 条件的主键id
- 4、重复2、3知道不满足name = 'zhuge'
- 5、对sort_buffer中的数据按照字段position进行排序
- 6、返回结果给客户端
# 双路排序过程
- 1、从索引name找到第一个满足name = 'zhuge'的主键id
- 2、根据主键 id 取出整行,把排序字段 position 和主键 id 这两个字段放到 sort buffer 中
- 3、从索引 name 取下一个满足 name = 'zhuge' 记录的主键 id
- 4、 重复 3、4 直到不满足 name = 'zhuge'
- 5、 对 sort_buffer 中的字段 position 和主键 id 按照字段 position 进行排序
- 6、 遍历排序好的 id 和字段 position,按照 id 的值回到原表中取出所有字段的值返回给客户端
其实对比两个排序模式,单路排序会把所有需要查询的字段都放到 sort_buffer
中,而双路排序只会把主键 和需要排序的字段放到 sort_buffer
中进行排序,然后再通过主键回到原表查询需要的字段。
如果 MySQL 排序内存 sort_buffer
配置的比较小并且没有条件继续增加了,可以适当把 max_length_for_sort_data
配置小点,让优化器选择使用双路排序算法,可以在sort_buffer
中一次排序更 多的行,只是需要再根据主键回到原表取数据。
如果 MySQL 排序内存有条件可以配置比较大,可以适当增大 max_length_for_sort_data
的值,让优化器 优先选择全字段排序(单路排序),把需要的字段放到 sort_buffer
中,这样排序后就会直接从内存里返回查询结果了。
所以,MySQL通过 max_length_for_sort_data
这个参数来控制排序,在不同场景使用不同的排序模式, 从而提升排序效率。
# 索引设计原则
# 1、代码先行,索引后上
不知大家一般是怎么给数据表建立索引的,是建完表马上就建立索引吗? 这其实是不对的,一般应该等到主体业务功能开发完毕,把涉及到该表相关sql都要拿出来分析之后再建立 索引。
# 2、联合索引尽量覆盖条件
比如可以设计一个或者两三个联合索引(尽量少建单值索引),让每一个联合索引都尽量去包含sql语句里的 where
、order by
、group by
的字段,还要确保这些联合索引的字段顺序尽量满足sql查询的最左前缀原则。
# 3、不要在小基数字段上建立索引
索引基数是指这个字段在表里总共有多少个不同的值,比如一张表总共100万行记录,其中有个性别字段,其值不是男就是女,那么该字段的基数就是2。
如果对这种小基数字段建立索引的话,还不如全表扫描了,因为你的索引树里就包含男和女两种值,根本没法进行快速的二分查找,那用索引就没有太大的意义了。
一般建立索引,尽量使用那些基数比较大的字段,就是值比较多的字段,那么才能发挥出B+树快速二分查找的优势来。
# 4、长字符串我们可以采用前缀索引
尽量对字段类型较小的列设计索引,比如说什么tinyint之类的,因为字段类型较小的话,占用磁盘空间也会 比较小,此时你在搜索的时候性能也会比较好一点。
当然,这个所谓的字段类型小一点的列,也不是绝对的,很多时候你就是要针对varchar(255)
这种字段建立 索引,哪怕多占用一些磁盘空间也是有必要的。
对于这种varchar(255)
的大字段可能会比较占用磁盘空间,可以稍微优化下,比如针对这个字段的前20个 字符建立索引,就是说,对这个字段里的每个值的前20个字符放在索引树里,类似于 KEY index(name(20),age,position)
。
此时你在where条件里搜索的时候,如果是根据name
字段来搜索,那么此时就会先到索引树里根据name
字段的前20个字符去搜索,定位到之后前20个字符的前缀匹配的部分数据之后,再回到聚簇索引提取出来 完整的name
字段值进行比对。
但是假如你要是order by name,那么此时你的name因为在索引树里仅仅包含了前20个字符,所以这个排 序是没法用上索引的, group by也是同理。所以这里大家要对前缀索引有一个了解。
# 5、where与order by冲突时优先where
在where
和order by
出现索引设计冲突时,到底是针对where去设计索引,还是针对order by
设计索引?到 底是让where
去用上索引,还是让order by
用上索引?
一般这种时候往往都是让where
条件去使用索引来快速筛选出来一部分指定的数据,接着再进行排序。 因为大多数情况基于索引进行where
筛选往往可以最快速度筛选出你要的少部分数据,然后做排序的成本可能会小很多。