数据库

December 4, 2024

MySQL 学习笔记进阶篇

数据库进阶学习

一、存储引擎

1. MySQL 体系结构

连接层
服务层
引擎层
存储层

2. 存储引擎

存储数据、建立索引、更新/查询数据

是基于表的，不是基于库的

也称为表类型

默认存储引擎：

查询当前数据库支持的存储引擎：SHOW ENGINES;

在创建表时，制定存储引擎：CREATE TABLE 表名(……) ENGINE = 存储引擎名 [COMMENT 表注释];

3. InnoDB

高可靠性高性能

特点：

DML操作遵循ACID模型，支持事务
行级锁，提高并发访问性能
支持外键 FORRIGN KEY 约束，保证数据的完整性和正确性

文件：xxx.idb 称为表空间文件，存储表结构信息、数据和索引，二进制文件，cmd中使用 idb2sdi 命令查看

参数 innodb_file_per_table 表示每张表对应一个表空间文件

逻辑存储结构：

表空间：TableSpace
段：Segment
区：Extent（1M）
页：Page（16K）
行：Row

4. MyISAM

早期默认存储引擎

特点：

不支持事务，不支持外键
支持表锁，不支持行锁
访问速度快

文件：

xxx.sdi 存储表结构信息
xxx.MYD 存储数据
xxx.MYI 存储索引

5. Memory

存储在内存中的，受到硬件问题，或断电问题影响，只能将这些表作为临时表或缓存使用

特点：

内存存放
hash索引（默认）

文件：xxx.sdi 存储表结构信息

6. 存储引擎选择

InnoDB：对事务的完整性有比较高的要求，在并发条件下要求数据的一致性。数据操作有插入查询还有更新删除

MyISAM：数据操作主要是插入查询，很少更新删除，对事务完整性、并发性要求不高

Memory：访问速度快，用于临时表及缓存

二、索引

帮助高效获取数据的数据结构（有序）

优点：提高数据检索的效率，降低数据库的IO成本；通过索引列对数据进行排序，降低数据排序的成本，降低CPU的消耗

缺点：索引列也要占用空间；降低更新表的速度

1. 索引结构

一般是B+树索引

B-Tree

多路平衡查找树

若最大度数为，每个节点最多存个，个指针

B+Tree

对比

所有数据出现在叶子结点

叶子结点形成一个单向链表

优势：相对于二叉树，层级更少，搜索效率高；对于，叶子结点和非叶子结点都会保存数据，导致一页中存储的键值减少，指针跟着减少，要同样保存大量数据，只能增加树的高度，导致性能降低；对于索引，支持范围匹配和排序

hash

求函数值，按值插入槽位

不支持范围查询

2. 索引分类

在 InnoDB 中，根据索引的存储形式，又分为以下两种：

聚集索引(Clustered Index)：将数据存储与索引放到了一块，索引结构的叶子结点保存了行数据，必须有而且只能有一个
二级索引(Secondary Index)：将数据与索引分开存储，索引结构的叶子结点关联的是对应的主键，可以有多个

聚集索引选取规则：

如果存在主键，主键索引就是聚集索引
如果不存在主键，将使用第一个唯一索引作为聚集索引
如果表没有主键，或没有合适的唯一索引，则 InnoDB 会自动生成一个 rowid 作为隐藏的聚集索引

3. 索引语法

创建索引：CREATE [UNIQUE|FULLTEXT] INDEX index_name ON table_name (index_col_name,...);
查看索引：SHOW INDEX FROM table_name;
删除索引：DROP INDEX index_name ON table_name;

4. SQL性能分析

SQL执行频率

客户端连接成功后，通过 SHOW [SESSION|GLOBAL] STATUS 命令可以提供服务器状态信息。

查看当前数据库的 INSERT、UPDATE、DELETE、SELECT 的访问频次：SHOW GLOBAL STATUS LIKE 'Com_______'

慢查询日志

慢查询日志记录了所有执行时间超过指定参数（，单位：秒，默认秒）的所有SQL语句的日志。

查看慢查询日志是否开启：SHOW VARIABLES LIKE 'slow_query_log';

MySQL的慢查询日志默认没有开启，需要在MySQL的配置文件（/etc/my.cnf）中配置如下信息：

# 开启MySQL慢查询日志开关
slow_query_log=1
# 设置慢日志的时间为2秒，SQL语句执行时间超过2秒，就会视为慢查询，记录慢查询日志
long_query_time=2

profile详情

profile能够在做SQL优化时帮助我们了解时间都耗费到哪里去了。通过 have_profiling 参数，能够看到当前MySQL是否支持profile操作：SELECT @@have_profiling;

默认profiling是关闭的，可以通过set语句在session/global级别开启profiling：SET profiling = 1;

执行一系列的业务SQL的操作，然后通过如下指令查看指令的执行耗时：

# 查看每一条SQL的耗时基本情况
show profiles;

# 查看指定query_id的SQL语句各个阶段的耗时情况
show profile for query query_id;

# 查看指定query_id的SQL语句CPU的使用情况
show profile cpu for query query_id;

#### explain执行计划

explain或desc命令获取MySQL如何执行SELECT语句的信息，包括在SELECT语句执行过程中表如何连接盒连接的顺序。

1 2	# 直接在SELECT语句之前加上关键字EXPLAIN/DESC EXPLAIN SELECT 字段列表 FROM 表名 WHERE 条件;

字段含义：

id：select查询的序列号，表示查询中执行select字句或者是操作表的顺序（id相同，执行顺序从上到下；id不同，值越大，越先执行）。
select_type：表示select的类型，常见的取值有SIMPLE（简单表，即不使用表连接或子查询）、PRIMARY（主查询，即外层的查询）、UNION（UNION中的第二个或者后面的查询语句）、SUBQUERY（SELECT/WHERE之后包含了子查询）等。
type：表示链接类型，性能由好到差的连接类型为NULL、system、const、eq_ref、ref、range、index、all。
possible_key：显示可能应用在这张表上的索引，一个或多个。
key：实际使用的索引，如果为NULL，则没有使用索引。
key_len：表示索引中使用的字节数，该值为索引字段最大可能长度，并非实际使用长度，在不损失精确性的前提下，长度越短越好。
rows：MySQL认为必须要执行查询的行数，在innodb引擎的表中，是一个估计值，可能并不总是准确的。
filtered：表示返回结果的行数占所需读取行数的百分比，filtered的值越大越好。

5. 索引使用规则

最左前缀法则

如果索引了多列（联合索引），要遵守最左前缀法则。最左前缀法则指的是查询从索引的最左列开始，并且不跳过索引中的列，如果跳跃某一列，索引将部分失效（后面的字段索引失效）。

范围查询

联合索引中，出现范围查询（<、>），范围查询右侧的列索引失效。

索引列运算

在索引列上进行运算操作，索引将失效。

字符串不加引号

字符串类型字段使用时，不加引号，索引会失效。

模糊查询

如果仅仅是尾部模糊匹配，索引不会失效，如果是头部模糊匹配，索引失效。

or连接条件

用or分隔开的条件，如果or前的条件中的列有索引，而后面的列中没有索引，那么涉及的索引后不会被用到。

数据分布影响

如果 MySQL 评估使用索引比全表扫描更慢，则不使用索引。

SQL提示

在 SQL 语句中加入一些人为的提示来达到优化操作的目的。

use index:

1	select * from tb_user use index(idx_user_pro) where ...

ignore index:

1	select * from tb_user ignore index(idx_user_pro) where ...

force index:

1	select * from tb_user force index(idx_user_pro) where ...

覆盖索引

使用 select * 非常容易出现回表查询，避免

前缀索引

当字段类型为字符串（varchar，text 等）时，有时候需要索引很长的字符串，这会让索引变得很大，查询时，浪费大量的磁盘 IO，影响查询效率，此时可以只将字符串的一部分前缀，建立索引，这样可以大大节约索引空间，从而提高索引效率。

语法：

1	create index idx_xxxx on table_name(column(n));

前缀长度可以根据字段的选择性来决定：

1	select count(distinct substring(email,1,n))/count(*) from tb_user

单列索引与联合索引

在业务场景中，如果存在多个查询条件，考虑针对查询字段建立索引时，建议建立联合索引，而非单列索引。

6. 索引设计原则

针对数据量大，且查询频繁的表建立索引。
针对常作为查询条件（where）、排序（order by）、分组（group by）操作的字段建立索引。
尽量选择区分度高的列作为索引，尽量建立唯一索引，区分度越高，使用索引的效率越高。
如果是字符串类型的字段，字段的长度较长，可以针对字段的特点，建立前缀索引。
尽量使用联合索引，减少单列索引，查询时，联合索引很多时候可以覆盖索引，节省存储空间，避免回表，提高查询效率。
要控制索引的数量，索引并不是多多益善，索引越多，维护索引结构的代价也就越大，会影响增删改的效率。
如果索引列不能存储 NULL 值，请在创建表时使用 NOT NULL 约束它。当优化器知道每列是否包含 NULL 值时，它可以更好地确定哪个索引最有效地用于查询。

三、SQL 优化

1. 插入数据

insert 优化

批量插入

1	insert into tb_test values(1,'Tom'),(2,'Cat'),(3,'Jerry');手动提交事务

手动提交事务

start transaction;
insert into tb_test values(1,'Tom'),(2,'Cat'),(3,'Jerry');
insert into tb_test values(4,'Tom'),(5,'Cat'),(6,'Jerry');
insert into tb_test values(7,'Tom'),(8,'Cat'),(9,'Jerry');
commit;

主键顺序插入

大批量插入数据

# 客户端链接服务端时，加上参数 --local-infile
mysql --local-infile -u root -p
# 设置全局参数 local_infile 为 1，开启从本地加载文件导入数据的开关
set global local_infile=1;
# 执行 load 指令将准备好的数据，加载到表结构中
load data local infile '/root/sql1.log' into table 'tb_user' fields terminated by ',' lines terminated by '\n';

2. 主键优化

数据组织方式：在 InnoDB 存储引擎中，表数据都是根据主键顺序组织存放的，这种存储方式的表称为索引组织表（index organized table），即 IOT。

页可以为空，也可以填充一般，也可以填充 100%。每个页包含了 2~N 行数据（如果一行数据比较大，会行溢出），根据主键排列。

页分裂、页合并

主键设计原则：

尽量降低主键长度
插入数据时，尽量选择顺序插入，选择使用 AUTO_INCREMENT 自增主键
尽量不要使用 uuid 做主键或者其他自然主键
避免对主键的修改