MVCC（多版本并发控制）详解

定义与基本概念

MVCC（Multi-Version Concurrency Control，多版本并发控制）是一种并发控制的方法，用于在数据库系统中处理并发事务。它的核心思想是通过维护数据的多个版本，使得读操作和写操作可以同时进行而不互相阻塞，从而提高系统的并发性能。

在MVCC中，当数据被修改时，数据库不会直接覆盖原有数据，而是创建一个新的版本。每个事务可以看到一个一致的数据快照，这个快照包含了事务开始时已经提交的所有数据版本。这样，读操作不会被写操作阻塞，写操作也不会被读操作阻塞，实现了非阻塞的读操作。

目的与优势

MVCC的主要目的是解决数据库并发访问中的冲突问题，提高系统的并发性能。其主要优势包括：

提高并发性能：读写操作不互相阻塞，可以同时进行。
实现非阻塞读：读操作不需要加锁，不会被写操作阻塞。
减少死锁：由于读操作不需要加锁，减少了死锁的可能性。
实现一致性读：每个事务可以看到一个一致的数据快照。
提高系统吞吐量：多个事务可以同时执行，提高了系统的整体吞吐量。

实现原理

MVCC的实现原理主要包括以下几个方面：

版本链

在MVCC中，每一行数据可能有多个版本，这些版本形成一个版本链。当一行数据被修改时，数据库会创建一个新版本，并将旧版本保留在版本链中。每个版本通常包含以下信息：

数据值
创建该版本的事务ID（创建事务ID）
删除该版本的事务ID（删除事务ID，如果尚未删除则为空或特殊值）

事务ID

在MVCC中，每个事务被分配一个唯一的事务ID（通常是一个递增的数字）。事务ID用于确定哪些版本对当前事务是可见的。

可见性判断

MVCC通过以下规则确定一个数据版本对当前事务是否可见：

如果版本的创建事务ID小于或等于当前事务ID，并且该事务已提交，则该版本是可见的。
如果版本的删除事务ID为空或大于当前事务ID，或者删除事务对应的事务未提交，则该版本是可见的。
否则，该版本对当前事务是不可见的。

快照读

在MVCC中，读操作通常是基于快照的。当一个事务开始时，数据库会为该事务创建一个快照，该快照包含了事务开始时已经提交的所有数据版本。事务在执行过程中看到的是这个快照，而不是数据的最新状态。

写操作的处理

当一个事务需要修改数据时，它会创建一个新的数据版本，并将旧版本保留在版本链中。新版本的创建事务ID设置为当前事务ID，删除事务ID设置为空。如果该事务后续提交，则这些修改对其他事务可见；如果回滚，则这些修改将被丢弃。

--- title: MVCC工作原理 --- graph TD A[事务开始] --> B[创建Read View] B --> C{读操作} B --> D{写操作} C --> E[根据Read View查找可见版本] E --> F[返回数据] D --> G[创建新版本] G --> H[设置创建事务ID] H --> I[将旧版本加入版本链] I --> J[事务提交或回滚] J --> K{提交} K -->|是| L[新版本对其他事务可见] K -->|否| M[丢弃新版本]

数据库中的具体实现

不同的数据库系统对MVCC的实现方式有所不同，下面介绍几种常见数据库中的MVCC实现：

MySQL InnoDB

InnoDB存储引擎使用MVCC来实现其事务处理，主要特点包括：

系统版本号：InnoDB为每个系统维护一个递增的版本号。
行版本：每行数据包含两个隐藏列：创建版本号和删除版本号。
Read View：InnoDB使用Read View来实现一致性读，Read View包含了事务开始时活跃的事务ID列表。
Undo日志：InnoDB使用Undo日志来存储旧版本的数据，用于构建一致性读和事务回滚。

InnoDB的MVCC实现与事务隔离级别密切相关：

READ UNCOMMITTED：不使用MVCC，直接读取最新版本。
READ COMMITTED：每次SELECT都会创建一个新的Read View，只能看到已提交的数据。
REPEATABLE READ：只在事务开始时创建一个Read View，整个事务期间使用同一个Read View。
SERIALIZABLE：对SELECT操作加锁，不使用MVCC。

PostgreSQL

PostgreSQL的MVCC实现方式与InnoDB有所不同：

事务ID（XID）：每个事务被分配一个唯一的事务ID。
行版本信息：每行数据包含两个系统字段：xmin（创建该行的事务ID）和xmax（删除该行的事务ID，如果未删除则为0）。
事务状态快照：PostgreSQL在事务开始时创建一个事务状态快照，包含了当时所有活动事务的状态。
可见性判断：通过比较行版本的xmin和xmax与事务状态快照，确定行版本是否可见。

PostgreSQL的MVCC实现有一个显著的特点：它不会物理删除旧版本的数据，而是通过VACUUM进程定期清理不再需要的旧版本。

Oracle

Oracle的MVCC实现方式如下：

SCN（System Change Number）：Oracle使用SCN来标记数据库中的每个变化，SCN是一个递增的数字。
Undo段：Oracle使用Undo段来存储旧版本的数据，而不是在数据块中存储多个版本。
一致性读：当读取数据时，Oracle会根据事务的SCN和Undo段中的信息，构建一个一致的数据视图。
写一致性：当更新数据时，Oracle会先在Undo段中保存旧版本，然后再更新数据块。

MVCC的优缺点

优点

高并发性：读写操作不互相阻塞，可以同时进行，提高了系统的并发性能。
非阻塞读：读操作不需要加锁，不会被写操作阻塞，提高了读操作的响应速度。
一致性读：每个事务可以看到一个一致的数据快照，避免了脏读、不可重复读等问题（取决于隔离级别）。
减少死锁：由于读操作不需要加锁，减少了死锁的可能性。
提高系统吞吐量：多个事务可以同时执行，提高了系统的整体吞吐量。

缺点

存储开销：需要维护多个版本的数据，增加了存储开销。
版本管理开销：需要额外的机制来管理数据版本，增加了系统的复杂性。
垃圾回收：需要定期清理不再需要的旧版本，增加了系统的维护成本。
写操作开销：写操作需要创建新版本，可能比直接覆盖旧版本更耗时。
长事务问题：如果有长时间运行的事务，可能会导致大量旧版本无法被清理，占用存储空间。

MVCC与其他并发控制机制的对比

与锁机制的对比

特性	MVCC	锁机制
读写冲突	读写不互相阻塞	读写可能互相阻塞
死锁	减少死锁可能性	可能发生死锁
并发性能	高	低
实现复杂度	高	低
存储开销	大	小
适用场景	读多写少	写多读少

与时间戳排序的对比

特性	MVCC	时间戳排序
数据版本	维护多个版本	通常只维护一个版本
冲突处理	通过版本链解决	通过回滚事务解决
并发性能	高	中等
存储开销	大	小
实现复杂度	高	中等

MVCC的应用场景

MVCC适用于以下场景：

读多写少的应用：如报表系统、数据分析系统等，这些应用中读操作远多于写操作。
需要高并发性的应用：如Web应用、移动应用后端等，这些应用需要同时处理大量用户的请求。
需要一致性读的应用：如金融系统、订单系统等，这些应用需要确保数据的一致性。
需要减少锁竞争的应用：如高并发的交易系统、社交网络等，这些应用中锁竞争可能成为性能瓶颈。

MVCC的挑战和解决方案

存储空间管理

挑战：MVCC需要维护多个版本的数据，可能导致存储空间快速增长。

解决方案：

定期清理不再需要的旧版本（如PostgreSQL的VACUUM进程）。
设置版本保留策略，根据业务需求保留适当数量的版本。
使用压缩技术减少存储空间占用。

长事务问题

挑战：长时间运行的事务可能导致大量旧版本无法被清理，占用存储空间。

解决方案：

限制事务的最大运行时间。
优化长事务，将其拆分为多个小事务。
监控系统中的长事务，及时处理异常情况。

版本链过长

挑战：频繁更新的数据可能导致版本链过长，影响查询性能。

解决方案：

定期合并版本链，减少链的长度。
使用索引优化版本链的访问。
对频繁更新的表进行特殊处理，如分区等。

--- title: MVCC可见性判断流程 --- flowchart TD A[开始] --> B[获取数据版本] B --> C{创建事务ID <= 当前事务ID?} C -->|是| D{创建事务已提交?} C -->|否| E[版本不可见] D -->|是| F{删除事务ID为空或 > 当前事务ID?} D -->|否| E F -->|是| G[版本可见] F -->|否| H{删除事务未提交?} H -->|是| G H -->|否| E G --> I[返回数据] E --> J[查找下一个版本] J --> B

MVCC的最佳实践

选择合适的事务隔离级别：根据业务需求选择合适的事务隔离级别，平衡一致性和性能。
避免长事务：尽量减少事务的运行时间，避免长事务导致的存储空间问题。
定期维护：定期执行清理操作，清理不再需要的旧版本。
监控和调优：监控系统的MVCC相关指标，如版本数量、清理效率等，及时进行调优。
合理设计数据库模式：合理设计数据库模式，减少不必要的数据更新，降低MVCC的开销。

account_tree

思维导图

Interview AiBoxInterview AiBox — 面试搭档

不只是准备，更是实时陪练

Interview AiBox 在面试过程中提供实时屏幕提示、AI 模拟面试和智能复盘，让你每一次回答都更有信心。

免费下载 Interview AiBoxdownload 查看价格方案sell

AI 助读

一键发送到常用 AI

MVCC（多版本并发控制）是一种数据库并发控制机制，通过维护数据的多个版本，使读写操作可以同时进行而不互相阻塞。其核心原理是为每个事务创建数据快照，通过事务ID和版本链判断数据可见性。不同数据库如MySQL InnoDB、PostgreSQL和Oracle有各自的MVCC实现方式。MVCC提高了系统并发性能，实现了非阻塞读和一致性读，但也增加了存储开销和系统复杂性。适用于读多写少、高并发性需求的场景，需要合理管理存储空间和避免长事务问题。

智能总结

深度解读

考点定位

思路启发