聚簇索引和非聚簇索引有什么区别？

lightbulb

题型摘要

聚簇索引和非聚簇索引是数据库中两种主要的索引类型。聚簇索引决定了数据在物理磁盘上的存储顺序，索引叶子节点直接包含数据行，一个表只能有一个聚簇索引，适合范围查询和排序操作。非聚簇索引独立于数据物理存储顺序，索引叶子节点包含指向数据行的指针，一个表可以有多个非聚簇索引，适合快速查找特定值。选择合适的索引类型对数据库性能至关重要，需要根据查询模式、数据特性和业务需求进行综合考虑。

聚簇索引和非聚簇索引的区别

基本定义

聚簇索引（Clustered Index）：

聚簇索引是一种索引结构，它决定了数据在物理磁盘上的存储顺序。
在聚簇索引中，索引的叶子节点直接包含实际的数据行。
一个表只能有一个聚簇索引，因为数据只能按照一种物理顺序存储。

非聚簇索引（Non-clustered Index）：

非聚簇索引是一种独立于数据物理存储顺序的索引结构。
在非聚簇索引中，索引的叶子节点包含指向实际数据行的指针（或聚簇索引键）。
一个表可以有多个非聚簇索引。

主要区别

特性	聚簇索引	非聚簇索引
数据存储	索引叶子节点直接存储数据行	索引叶子节点存储指向数据行的指针
数量限制	每个表只能有一个	每个表可以有多个
物理顺序	决定数据的物理存储顺序	不影响数据的物理存储顺序
查询速度	对于范围查询和排序查询更快	对于直接查找特定值更快
维护成本	较高（数据移动时需更新索引）	较低（数据移动时只需更新指针）
额外存储	不需要额外存储空间	需要额外的存储空间存储索引

优缺点分析

聚簇索引：

优点：

对于范围查询和排序查询性能更好，因为相关数据在物理上相邻
减少I/O操作，因为数据本身就在索引中
适合经常需要按范围查询的列

缺点：

插入速度较慢，因为需要保持数据的物理顺序
更新成本高，特别是当更新导致数据位置变化时
一个表只能有一个聚簇索引

非聚簇索引：

优点：

查询特定值的速度快
可以创建多个非聚簇索引，满足不同查询需求
插入、更新操作相对较快，因为不影响数据物理顺序

缺点：

需要额外的存储空间
对于范围查询可能需要更多的I/O操作
查询时可能需要两次查找：先查索引，再查数据

适用场景

聚簇索引适用于：

主键列（通常数据库默认为主键创建聚簇索引）
经常用于范围查询的列
经常需要排序的列
不经常更新的列

非聚簇索引适用于：

外键列
经常用于WHERE子句中的列
经常用于JOIN操作的列
需要快速查找但不适合作为聚簇索引的列

实际示例

假设有一个用户表users：

CREATE TABLE users (
    id INT PRIMARY KEY,
    name VARCHAR(100),
    email VARCHAR(100),
    age INT,
    registration_date DATE
);

在MySQL中，默认会为id列创建聚簇索引。如果我们经常需要按email查找用户，我们可以创建一个非聚簇索引：

CREATE INDEX idx_email ON users(email);

这样，当我们执行以下查询时：

SELECT * FROM users WHERE email = 'example@example.com';

数据库会使用非聚簇索引idx_email快速找到对应的id，然后通过聚簇索引找到完整的数据行。

数据库实现差异

不同的数据库系统对聚簇索引和非聚簇索引的实现有所不同：

MySQL (InnoDB)：

默认为主键创建聚簇索引
如果没有定义主键，会选择一个唯一的非空索引作为聚簇索引
如果没有合适的唯一非空索引，InnoDB会生成一个隐藏的聚簇索引

PostgreSQL：

所有索引都是非聚簇索引
没有传统意义上的聚簇索引概念，但可以通过CLUSTER命令根据索引物理排序表数据

SQL Server：

默认为主键创建聚簇索引
可以显式指定创建聚簇索引或非聚簇索引

Oracle：

索引组织表(IOT)类似于聚簇索引
普通表上的索引都是非聚簇索引

--- title: 聚簇索引与非聚簇索引结构对比 --- graph TD A[索引类型对比] --> B[聚簇索引] A --> C[非聚簇索引] B --> B1[索引结构] B1 --> B11["根节点 (存储索引键和指针)"] B1 --> B12["中间节点 (存储索引键和指针)"] B1 --> B13["叶子节点 (直接存储数据行)"] C --> C1[索引结构] C1 --> C11["根节点 (存储索引键和指针)"] C1 --> C12["中间节点 (存储索引键和指针)"] C1 --> C13["叶子节点 (存储索引键和数据行指针)"] B13 --> B14[数据行] C13 --> C14[指针] C14 --> C15[数据行]

--- title: 聚簇索引与非聚簇索引查询过程 --- sequenceDiagram participant Query as 查询请求 participant DB as 数据库系统 participant CI as 聚簇索引 participant NCI as 非聚簇索引 participant Data as 数据存储 Note over Query, Data: 聚簇索引查询过程 Query->>DB: SELECT * FROM table WHERE id = 100 DB->>CI: 查找id=100 CI->>CI: 遍历B+树 CI-->>DB: 返回数据行 DB-->>Query: 返回查询结果 Note over Query, Data: 非聚簇索引查询过程 Query->>DB: SELECT * FROM table WHERE email = 'test@example.com' DB->>NCI: 查找email='test@example.com' NCI->>NCI: 遍历B+树 NCI-->>DB: 返回id值 DB->>CI: 使用id查找数据行 CI->>CI: 遍历B+树 CI-->>DB: 返回数据行 DB-->>Query: 返回查询结果

--- title: 索引维护状态变化 --- stateDiagram-v2 [*] --> 索引创建索引创建 --> 正常使用: 创建成功索引创建 --> 创建失败: 出错正常使用 --> 数据插入: 新数据正常使用 --> 数据更新: 修改数据正常使用 --> 数据删除: 删除数据数据插入 --> 正常使用: 更新索引完成数据更新 --> 正常使用: 更新索引完成数据删除 --> 正常使用: 更新索引完成正常使用 --> 索引重建: 碎片过多索引重建 --> 正常使用: 重建完成正常使用 --> 索引删除: 删除索引索引删除 --> [*]