《大规模分布式存储系统:原理解析与架构实战》读书笔记

《大规模分布式存储系统:原理解析与架构实战》是一本深入介绍分布式存储技术的专业著作,系统阐述了分布式存储系统的核心原理、关键技术和实践经验。书中涵盖了分布式存储的理论基础、一致性模型、数据分片、副本管理、故障处理等核心概念,并结合真实的工业级案例分析了 Google、Amazon、Facebook 等公司的存储系统架构。本书不仅有助于深入理解分布式存储的本质和设计思想,还为构建高可用、高性能的大规模存储系统提供了实用的架构指导和最佳实践。

第一篇 基础篇

第 2 章 单机存储系统

2.1 硬件基础

NUMA 架构优化

"NUMA 节点可以直接快速访问本地内存,也可以通过 NUMA 互联互通模块访问其他 NUMA 节点的内存,访问本地内存的速度远远高于远程访问的速度。"

具体性能参数
操作类型延迟
访问 L1 Cache0.5 ns
访问 L2 Cache7 ns
内存访问100 ns
千兆网络发送 1MB 数据10 ms
SATA 磁盘寻道10 ms
SSD 访问延迟0.1~0.2 ms
存储层次架构
层级DRAMDiskSSD
单机层24GB, 100ns, 20GB/s4TB, 10ms, 300MB/s1TB, 0.1ms, 300MB/s
机架层1TB, 300µs, 100MB/s160TB, 11ms, 100MB/s40TB, 2ms, 100MB/s
集群层30TB, 500µs, 10MB/s4.8PB, 12ms, 10MB/s1.2PB, 3ms, 10MB/s

2.2 单机存储引擎

2.2.1 哈希存储引擎(Bitcask)

数据结构设计:

"Bitcask 数据文件中的数据是一条一条的写入操作,每一条记录的数据项分别为主键 (key)、value 内容 (value)、主键长度 (key_sz)、value 长度 (value_sz)、时间戳 (timestamp) 以及 crc 校验值。"

内存索引结构:

  • 哈希表存储:文件编号 (file_id)、value 位置 (value_pos)、value 长度 (value_sz)
  • 磁盘内存比:32:1(假设 value 平均 1KB,索引 32 字节)

定期合并机制:

"合并操作即将所有老数据文件中的数据扫描一遍并生成新的数据文件,这里的合并其实就是对同一个 key 的多个操作以只保留最新一个的原则进行删除"

快速恢复技术:

"索引文件就是将内存中的哈希索引表转储到磁盘生成的结果文件。索引文件并不存储具体的 value 值,只存储 value 的位置"

2.2.2 B 树存储引擎(MySQL InnoDB)

页面组织结构:

"MySQL InnoDB 按照页面 (Page) 来组织数据,每个页面对应 B+树的一个节点。叶子节点保存每行的完整数据,非叶子节点保存索引信息"

缓冲区管理算法:

  • LRU 算法:按页面最后访问时间组成链表,淘汰链表尾部页面
  • LIRS 算法:将缓冲池分为两级,数据先进入第一级,访问两次以上成为热点数据进入第二级

"InnoDB 内部的 LRU 链表分为两部分:新子链表 (new sublist) 和老子链表 (old sublist),默认情况下,前者占 5/8,后者占 3/8"

2.2.3 LSM 树存储引擎(LevelDB)

存储结构层次:

  • 内存层:MemTable 和不可变 MemTable
  • 磁盘层:当前文件、清单文件、操作日志文件、SSTable 文件

写入流程:

  1. 写入操作日志文件
  2. 应用到 MemTable
  3. MemTable 达到上限后冻结为不可变 MemTable
  4. 后台线程将不可变 MemTable 转储为 SSTable

读取优化:

"LevelDB 每次查询都需要从老到新读取每个层级的 SSTable 文件以及内存中的 MemTable。LevelDB 做了一个优化,由于 LevelDB 对外只支持随机读取单条记录,查询时 LevelDB 首先会去查看内存中的 MemTable"

合并策略:

  • Minor compaction:内存数据转储到 SSTable
  • Major compaction:多路归并,删除无效记录

2.3 数据模型

2.3.1 文件模型

POSIX 标准接口:

Open/close: 打开/关闭文件,获取文件描述符
Read/write: 读取/写入文件数据
Opendir/closedir: 打开/关闭目录
Readdir: 遍历目录

NFS 并发问题:

"NFS 客户端 A 和 B 需要同时修改 NFS 服务器的某个文件,每个客户端都在本地缓存了文件的副本,A 修改后先提交,B 后提交,那么即使 A 和 B 修改的是文件的不同位置,也会出现 B 的修改覆盖 A 的情况"

2.3.2 关系模型

SQL 查询执行过程:

  1. 取 FROM 子句中各关系的元组所有可能组合
  2. 去掉不符合 WHERE 条件的元组
  3. 按 GROUP BY 属性分组
  4. 按 HAVING 条件检查每个组
  5. 按 SELECT 说明计算结果元组
  6. 按 ORDER BY 属性排序
2.3.3 键值模型

基本操作:

  • Put: 保存 Key-Value 对
  • Get: 读取 Key-Value 对
  • Delete: 删除 Key-Value 对

表格模型扩展操作:

  • Insert: 插入一行数据
  • Delete: 删除一行数据
  • Update: 更新整行或部分列
  • Get: 读取整行或部分列
  • Scan: 扫描范围数据

2.4 事务与并发控制

2.4.1 事务 ACID 实现

原子性实现:

"事务的原子性首先体现在事务对数据的修改,即要么全都执行,要么全都不执行"

隔离级别实现:

隔离级别说明
Read Uncommitted (RU)读取未提交数据
Read Committed (RC)读取已提交数据,同一事务中前后两次读取可能不同
Repeatable Read (RR)可重复读取,同一事务中前后两次读取结果相同
Serializable (S)可序列化,最高隔离级别

异常类型分析:

异常类型说明
Lost Update (LU)第一类丢失更新
Dirty Reads (DR)读取未提交数据
Non-Repeatable Reads (NRR)不可重复读
Second Lost Updates (SLU)第二类丢失更新
Phantom Reads (PR)幻读
2.4.2 并发控制实现

数据库锁机制:

"锁也分为两种类型:读锁以及写锁,允许对同一个元素加多个读锁,但只允许加一个写锁,且写事务将阻塞读事务"

死锁处理策略:

  1. 超时回滚:为每个事务设置超时时间,超时后自动回滚
  2. 死锁检测:检测循环依赖,回滚某些事务消除循环

写时复制(COW)实现:

  1. 拷贝:从叶子到根节点路径上的所有节点拷贝出来
  2. 修改:对拷贝的节点执行修改
  3. 提交:原子地切换根节点指针

多版本并发控制(MVCC)实现:

"InnoDB 对每一行维护了两个隐含的列,其中一列存储行被修改的'时间',另外一列存储行被删除的'时间',注意,InnoDB 存储的并不是绝对时间,而是与时间对应的数据库系统的版本号"

版本检查规则:

操作类型检查规则
SELECT行的修改版本号≤事务号 AND (删除版本号未定义 OR 删除版本号>事务号)
INSERT行的修改版本号=事务号
DELETE行的删除版本号=事务号
UPDATE复制原行,新行修改版本号=事务号

2.5 故障恢复

2.5.1 操作日志

日志类型对比:

日志类型示例Description
UNDO 日志<T, X, 5>记录事务修改前的状态
REDO 日志<T, X, 15>记录事务修改后的状态
UNDO/REDO 日志<T, X, 5, 15>同时记录修改前后状态
2.5.2 重做日志

写操作流程:

  1. 将 REDO 日志以追加写方式写入磁盘日志文件
  2. 将 REDO 日志修改操作应用到内存中
  3. 返回操作成功或失败

约束规则:

"在修改内存中的元素 X 之前,要确保与这一修改相关的操作日志必须先刷入到磁盘中"

2.5.3 优化手段

成组提交技术:

"REDO 日志首先写入到存储系统的日志缓冲区中,当满足以下条件之一时,将日志缓冲区中的多个事务操作一次性刷入磁盘:

  • 日志缓冲区中的数据量超过一定大小,比如 512KB
  • 距离上次刷入磁盘超过一定时间,比如 10ms"

检查点实现:

  1. 日志文件中记录"START CKPT"
  2. 将内存数据转储到磁盘形成 checkpoint 文件
  3. 日志文件中记录"END CKPT"

故障恢复流程:

  1. 将 checkpoint 文件加载到内存中
  2. 读取 checkpoint 文件中记录的"START CKPT"日志回放点
  3. 回放之后的 REDO 日志

2.6 数据压缩

2.6.1 压缩算法

Huffman 编码实现:

"前缀编码要求一个字符的编码不能是另一个字符的前缀。如果使用前缀编码将 A、B、C 编码为:A: 0 B: 10 C: 110,这样,01010 就只能被翻译成 ABB"

LZ 系列算法实现:

"LZ77 是第一个 LZ 系列的算法,比如字符串 ABCABCDABC 中 ABC 重复出现了三次,压缩信息中只需要保存第一个 ABC,后面两个 ABC 只需要把第一个出现 ABC 的位置和长度存储下来就可以了"

Google Zippy 算法优化:

  1. 字典优化:只保存长度为 4 的子串,重复匹配长度≥4 才输出匹配信息
  2. 数据块划分:内部将数据划分为 32KB 数据块,每个数据块分别压缩
  3. 变长编码:匹配长度<12 字节且位置<2048 时使用 2 字节,否则使用更多字节

BMDiff 算法实现:

"BMDiff 算法将待压缩数据拆分为长度为 b(默认 b=32) 的小段,BMDiff 的字典中保存了每个小段的哈希值,因此长度为 N 的字符串需要的哈希表大小为 N/b"

2.6.2 列式存储

存储结构对比:

  • 行式存储:完整数据行存储在数据页中,适合 OLTP
  • 列式存储:同一列的各值存放在一起,适合 OLAP

位图索引实现:

"性别列只有两个值,'男'和'女',可以对这一列建立位图索引:'男'对应的位图为 100101,表示第 1、4、6 行值为'男';'女'对应的位图为 011010,表示第 2、3、5 行值为'女'"


第 3 章 分布式系统

3.1 基本概念

3.1.1 异常处理

异常类型详细分析:

  1. 服务器宕机:内存错误、停电等,节点无法正常工作
  2. 网络异常:消息丢失、乱序、数据错误、网络分区
  3. 磁盘故障:磁盘损坏、数据错误

三态概念实现:

"在分布式系统中,如果某个节点向另外一个节点发起 RPC 调用,这个 RPC 执行的结果有三种状态:'成功'、'失败'、'超时'(未知状态)"

3.1.2 一致性

强一致性实现:

"假如 A 先写入了一个值到存储系统,存储系统保证后续 A,B,C 的读取操作都将返回最新值"

最终一致性实现:

"假如 A 首先写入一个值到存储系统,存储系统保证如果后续没有写操作更新同样的值,A,B,C 的读取操作'最终'都会读取到 A 写入的最新值"

一致性变体:

一致性类型说明
读写一致性客户端 A 写入后,A 的后续操作都能读取到最新值
会话一致性整个会话期间保证读写一致性
单调读一致性客户端 A 已读取某值,后续不会读取到更早的值
单调写一致性客户端 A 的写操作按顺序完成

3.3 数据分布

3.3.1 哈希分布

传统哈希分布问题:

"当服务器上线或者下线时,N 值发生变化,数据映射完全被打乱,几乎所有的数据都需要重新分布"

一致性哈希算法实现:

  1. 求出每个服务器的 hash 值,配置到 0~2^n 的圆环区间
  2. 求出待存储对象主键的哈希值,也配置到圆环上
  3. 从数据映射位置开始顺时针查找,将数据分布到找到的第一个服务器节点

位置信息维护策略:

策略类型位置信息查找复杂度
O(1) 位置信息记录前后节点位置O(N)
O(logN) 位置信息维护大小为 n 的路由表O(logN)
O(M) 位置信息维护所有服务器位置O(1)

虚拟节点概念:

"Dynamo 中引入虚拟节点的概念,将需要迁移的数据分散到整个集群,每台服务器只需要迁移 1/N 的数据量"

3.3.2 顺序分布

子表划分策略:

"Bigtable 将一张大表根据主键切分为有序的范围,每个有序范围是一个子表"

两级索引结构:

  • Root 表:维护 Meta 表位置信息
  • Meta 表:维护 User 表位置信息
  • User 表:实际数据表

子表分裂与合并:

"子表分裂指当一个子表太大超过一定阀值时需要分裂为两个子表,从而有机会通过系统的负载均衡机制分散到多个存储节点"

3.3.3 负载均衡

心跳机制:

"工作节点通过心跳包 (Heartbeat,定时发送)将节点负载相关的信息,如 CPU、内存、磁盘、网络等资源使用率,读写次数及读写数据量等发送给主控节点"

迁移策略:

  1. 将数据分片读写服务切换到其他节点
  2. 选择节点增加副本,从原节点获取副本数据并保持同步
  3. 删除原节点上的副本

3.4 复制

3.4.1 复制协议

强同步复制流程:

  1. 客户端将写请求发送给主副本
  2. 主副本将操作日志同步到备副本
  3. 备副本回放操作日志,完成后通知主副本
  4. 主副本修改本机,所有操作完成后通知客户端写成功

异步复制流程:

  1. 主副本不需要等待备副本回应
  2. 本地修改成功就告知客户端写操作成功
  3. 通过异步机制将修改操作推送到其他副本

NWR 协议实现:

"NWR 协议中多个副本不再区分主和备,客户端根据一定的策略往其中的 W 个副本写入数据,读取其中的 R 个副本。只要 W+R>N,可以保证读到的副本中至少有一个包含了最新的更新"

3.4.2 一致性与可用性权衡

Oracle DataGuard 三种模式:

模式特点
最大保护模式强同步复制,写操作要求主库先将操作日志同步到至少一个备库
最大性能模式异步复制,写操作只需要在主库上执行成功
最大可用性模式正常情况下相当于最大保护模式,网络故障时切换为最大性能模式

3.5 容错

3.5.1 常见故障统计
故障类型频率影响范围
配电装置故障0.5 次/年5 分钟内大部分机器断电
数据中心过热1 次/年500-1000 台机器瞬间下线
机架故障5 次/年40-80 台机器瞬间下线
单机故障1000 次/年机器无法提供服务
硬盘故障几千次/年硬盘数据丢失
3.5.2 故障检测

租约机制实现:

"机器 A 可以给机器 B 发放租约,机器 B 持有的租约在有效期内才允许提供服务,否则主动停止服务。机器 B 的租约快要到期的时候向机器 A 重新申请租约"

提前量设计:

"假设机器 B 的租约有效期为 10 秒,那么机器 A 需要加上一个提前量,比如 11 秒时,才可以认为机器 B 的租约过期"

3.5.3 故障恢复

单层结构故障恢复:

  1. 总控节点检测到节点故障
  2. 选择最新副本替换为主副本
  3. 等待一段时间判断临时故障还是永久故障
  4. 永久故障时执行增加副本操作

双层结构故障恢复:

  1. 总控节点选择工作节点加载故障节点的服务
  2. 从底层分布式文件系统读取数据
  3. 加载到内存中提供服务

故障恢复时间分析:

  • 故障检测时间:几秒到十几秒,与集群规模相关
  • 故障恢复时间:单层结构切换时间很短,双层结构只需加载索引数据

3.7 分布式协议

3.7.1 两阶段提交协议

阶段 1:请求阶段(Prepare Phase)

  1. 协调者通知事务参与者准备提交或取消事务
  2. 参与者告知协调者决策:同意或取消

阶段 2:提交阶段(Commit Phase)

  1. 协调者基于投票结果决策:提交或取消
  2. 当且仅当所有参与者同意时才提交事务

故障处理策略:

  • 参与者故障:设置超时时间,超时后整个事务失败
  • 协调者故障:将事务信息记录到操作日志并同步到备用协调者
3.7.2 Paxos 协议

正常情况执行步骤:

  1. 批准(accept):Proposer 发送 accept 消息要求所有 acceptor 接受提议值
  2. 确认(acknowledge):超过一半 acceptor 接受后,proposer 发送 acknowledge 消息通知所有 acceptor 提议生效

异常情况完整协议:

  1. 准备(prepare):Proposer 选择提议序号 n 发送 prepare 消息
  2. 批准(accept):Proposer 发送 accept 消息
  3. 确认(acknowledge):多数派接受后发送确认消息

协议保证:

"Paxos 协议保证,即使同时存在多个 proposer,也能够保证所有节点最终达成一致,即选举出唯一的主节点"


第二篇 范型篇

第 4 章 分布式文件系统

4.1 Google 文件系统(GFS)

系统架构设计:

  • Master 节点:维护所有元数据,包括文件命名空间、访问控制信息、文件到 chunk 的映射、chunk 位置信息
  • ChunkServer 节点:存储实际数据,每个 chunk 默认 64MB,有 3 个副本

关键设计决策:

"GFS 采用追加写而非随机写,适合大数据分析场景"

租约机制实现:

"Master 通过租约机制保证数据一致性,Master 给某个 ChunkServer 发放租约,该 ChunkServer 在租约有效期内负责该 chunk 的所有写操作"

4.2 Taobao File System(TFS)

小文件优化策略:

"TFS 专门针对小文件优化,采用两级命名空间:大文件和小文件"

存储结构:

  • 大文件:逻辑概念,包含多个小文件
  • 小文件:实际存储的文件,大小固定

4.3 Facebook Haystack

扁平化存储结构:

"Haystack 采用扁平化存储结构,通过 Needle 抽象存储对象"

Needle 结构:

  • 包含用户上传的照片数据
  • 支持在线扩容和数据复制

第 5 章 分布式键值系统

5.1 Amazon Dynamo

一致性哈希实现:

"Dynamo 使用一致性哈希将数据分布到环上,每个数据项有多个副本,分布在环的不同位置"

向量时钟实现:

"向量时钟用于检测并发更新冲突,每个节点维护一个向量时钟,记录每个节点的版本号"

Gossip 协议实现:

"Dynamo 使用 Gossip 协议进行节点间通信和故障检测,节点定期向其他节点传播自己的状态信息"

Quorum 机制实现:

"Dynamo 采用 (N,R,W) 模型:N 个副本,R 个读,W 个写,满足 R+W>N 时保证强一致性"

5.2 淘宝 Tair

中心化架构:

  • ConfigServer:管理集群配置和元数据
  • DataServer:存储实际数据,支持多种存储引擎

存储引擎对比:

引擎类型特点
MDB内存存储引擎,高性能
RDB关系数据库引擎,支持事务
LDBLevelDB 引擎,支持持久化

第 6 章 分布式表格系统

6.1 Google Bigtable

三维数据模型:

"Bigtable 采用三维数据模型:(row, column, timestamp),支持稀疏表格,每行可以有不同列"

SSTable 实现:

"SSTable 是不可变的排序字符串表,数据按行键排序存储"

MemTable 实现:

"MemTable 是内存中的排序数据结构,写入操作首先写入 MemTable"

Compaction 实现:

"Compaction 操作将多个 SSTable 文件合并,删除过期和无效数据,优化存储空间和读取性能"

6.2 Google Megastore

实体组概念:

"实体组是逻辑上相关的数据集合,Megastore 支持实体组内的事务"

协调者实现:

"协调者负责实体组内的事务协调,使用两阶段提交保证一致性"

跨数据中心复制:

"Megastore 支持跨数据中心的同步复制,通过 Paxos 协议保证一致性"

6.3 Windows Azure Storage

三层架构设计:

  • 文件流层:处理文件读写请求
  • 分区层:管理数据分区和负载均衡
  • 分布式文件系统层:底层存储系统

分区机制:

"Azure Storage 采用分区机制实现水平扩展,每个分区可以独立扩展"

第 7 章 分布式数据库

7.1 数据库中间层

分片策略:

"分片是将数据按某种规则分布到多个数据库,常见的分片策略包括哈希分片和范围分片"

读写分离实现:

"读写分离将读操作和写操作分离到不同数据库,提高系统性能"

连接池管理:

"连接池管理数据库连接,减少连接建立和销毁的开销"

7.2 Microsoft SQL Azure

多租户架构:

"SQL Azure 支持多租户架构,不同租户的数据隔离存储"

自动备份机制:

"SQL Azure 提供自动备份和恢复功能,保证数据可靠性"

7.3 Google Spanner

TrueTime API 实现:

"TrueTime API 提供全球时间同步,支持跨数据中心的强一致性"

两阶段提交优化:

"Spanner 优化了两阶段提交协议,减少分布式事务的开销"

Paxos 协议应用:

"Spanner 使用 Paxos 协议进行数据复制和故障恢复"


第三篇 实践篇

第 8 章 OceanBase 架构

8.1 设计思路

读写分离架构:

"OceanBase 采用读写分离的架构,将更新操作集中处理,查询操作分布式处理"

核心组件设计:

组件功能
UpdateServer集中处理所有更新操作,保证强一致性
ChunkServer分布式存储数据块,支持水平扩展
MergeServer处理查询请求,支持并行查询
RootServer管理元数据和集群状态

8.2 系统架构

分层架构设计:

  1. 客户端层:提供 SQL 接口,兼容 MySQL 协议
  2. MergeServer 层:解析 SQL,生成执行计划,并行处理查询
  3. UpdateServer 层:处理更新请求,保证事务一致性
  4. ChunkServer 层:存储数据块,支持数据压缩和索引
  5. RootServer 层:管理元数据,执行负载均衡和故障恢复

第 9 章 分布式存储引擎

9.1 公共模块

内存管理优化:

"OceanBase 采用高效的内存分配和回收机制,减少内存碎片"

基础数据结构:

数据结构用途
哈希表用于快速查找
B 树用于范围查询
跳表用于有序数据存储

锁机制实现:

"OceanBase 实现了细粒度锁机制,提高并发性能"

9.2 RootServer 实现

子表管理:

"RootServer 管理数据分片信息,支持动态分裂和合并"

负载均衡算法:

  1. 收集各节点负载信息
  2. 计算负载分布
  3. 生成迁移任务
  4. 执行数据迁移

故障恢复机制:

"RootServer 检测节点故障,自动选择健康节点恢复服务"

9.3 UpdateServer 实现

存储引擎设计:

"UpdateServer 基于内存的存储引擎,支持事务和多版本并发控制"

任务模型实现:

  • 异步任务处理:提高系统吞吐量
  • 批量操作:减少网络开销
  • 主备同步:保证高可用性

9.4 ChunkServer 实现

SSTable 实现:

"ChunkServer 使用 SSTable 存储数据,支持数据压缩和索引"

缓存机制:

缓存类型说明
多级缓存L1 缓存、L2 缓存、磁盘缓存
LRU 淘汰最近最少使用算法
预读机制提前加载可能访问的数据

IO 优化:

"ChunkServer 采用批量 IO 操作,减少磁盘访问次数"

定期合并实现:

  1. 扫描多个小文件
  2. 合并相同 key 的数据
  3. 删除过期数据
  4. 生成新的 SSTable 文件

第 10 章 数据库功能

10.1 整体结构

SQL 解析器实现:

"OceanBase 实现了完整的 SQL 解析器,支持标准 SQL 语法"

查询优化器设计:

优化类型说明
规则优化基于规则的查询重写
代价优化基于代价的执行计划选择
并行优化支持并行查询执行

10.2 只读事务

执行流程:

  1. SQL 解析:解析 SQL 语句生成语法树
  2. 查询优化:生成最优执行计划
  3. 数据定位:根据查询条件定位数据位置
  4. 并行执行:多个 ChunkServer 并行处理
  5. 结果合并:合并多个节点的查询结果

并行查询优化:

"OceanBase 支持并行查询,多个节点同时处理查询请求,提高查询性能"

10.3 写事务

事务执行流程:

  1. 事务开始:分配事务 ID 和时间戳
  2. 写操作:将更新操作写入 UpdateServer
  3. 提交:通过两阶段提交保证一致性
  4. 同步:将更新同步到 ChunkServer

两阶段提交实现:

"OceanBase 使用两阶段提交协议保证分布式事务的一致性"

10.4 OLAP 业务支持

列式存储实现:

"OceanBase 支持列式存储,按列存储数据,提高分析查询性能"

并行查询机制:

  • 数据分片:将数据分布到多个节点
  • 并行处理:多个节点同时处理查询
  • 结果聚合:合并各节点的查询结果

压缩技术应用:

"OceanBase 使用多种压缩算法,减少存储空间和 IO 开销"

第 11 章 质量保证、运维及实践

11.1 质量保证

开发流程:

  • RD 开发:功能开发和单元测试
  • QA 测试:集成测试和性能测试
  • 试运行:小规模生产环境验证

测试策略:

"OceanBase 采用多层次测试策略,包括单元测试、集成测试、性能测试、压力测试"

11.2 使用与运维

监控系统:

"OceanBase 实现了完善的监控系统,实时监控系统状态和性能指标"

备份策略:

备份类型说明
全量备份定期备份完整数据
增量备份备份变更数据
日志备份备份操作日志

扩容方案:

"OceanBase 支持在线扩容,无需停机即可增加存储节点"

11.3 应用案例

收藏夹应用:

"收藏夹存储用户收藏的商品信息,支持快速查询和更新"

天猫评价系统:

"评价系统存储商品评价和评分,支持复杂的统计分析"

直通车报表:

"报表系统处理广告投放数据,支持实时查询和分析"

11.4 最佳实践

系统发展路径:

"简单就是美。系统开发过程中,如果某个方案很复杂,一般是实践者没有想清楚"

经验法则:

  1. 从简单开始:先实现核心功能,再逐步完善
  2. 性能优先:设计时考虑性能瓶颈
  3. 容错设计:假设任何组件都可能故障
  4. 监控完善:建立完善的监控体系
  5. 自动化运维:减少人工干预

第四篇 专题篇

第 12 章 云存储

12.1 云存储概念

弹性扩展机制:

"云存储根据需求动态调整存储容量,支持按需扩容"

按需付费模型:

"云存储按实际使用量计费,避免资源浪费"

12.2 云存储产品形态

对象存储实现:

"对象存储支持大规模非结构化数据存储,提供 RESTful API"

块存储实现:

"块存储提供块设备接口,支持数据库等应用"

文件存储实现:

"文件存储提供 POSIX 接口,支持传统文件系统应用"

12.3 云存储技术

数据分布算法:

  • 一致性哈希:支持动态扩容
  • 虚拟节点:提高负载均衡效果

数据复制机制:

  • 多副本复制:保证数据可靠性
  • 纠删码:减少存储开销

数据压缩技术:

"云存储使用多种压缩算法,平衡压缩比和性能"

数据加密实现:

"云存储支持传输加密和存储加密,保证数据安全"

第 13 章 大数据

13.1 大数据概念

4V 特征处理:

特征英文处理方式
大量Volume分布式存储处理 PB 级数据
高速Velocity流式计算处理实时数据
多样Variety支持结构化、半结构化、非结构化数据
价值Value通过分析挖掘数据价值

13.2 MapReduce

Map 阶段实现:

"Map 阶段将输入数据分解为键值对,支持并行处理"

Reduce 阶段实现:

"Reduce 阶段将相同键的值聚合处理,生成最终结果"

Shuffle 阶段实现:

"Shuffle 阶段将 Map 输出传输到 Reduce,是性能瓶颈所在"

13.3 MapReduce 扩展

Google Tenzing 实现:

"Tenzing 在 MapReduce 基础上支持 SQL 查询,提高易用性"

Microsoft Dryad 实现:

"Dryad 支持图计算,处理复杂的图数据结构"

Google Pregel 实现:

"Pregel 专门用于图数据处理,支持迭代计算"

13.4 流式计算

Yahoo S4 实现:

"S4 是分布式流式计算平台,支持实时数据处理"

Twitter Storm 实现:

"Storm 提供实时数据处理能力,支持复杂的流式计算"

13.5 实时分析

MPP 架构实现:

"MPP 架构支持大规模并行处理,提高查询性能"

EMC Greenplum 实现:

"Greenplum 是开源 MPP 数据库,支持复杂分析查询"

HP Vertica 实现:

"Vertica 采用列式存储,适合分析查询"

Google Dremel 实现:

"Dremel 支持交互式查询,提供亚秒级响应时间"


总结

核心技术要点

  1. 理论基础:理解分布式系统的基本概念和原理,包括一致性、可用性、分区容忍性
  2. 实践经验:学习各大互联网公司的系统设计,掌握实际工程经验
  3. 技术演进:从简单到复杂,逐步掌握核心技术
  4. 应用实践:在实际项目中应用所学知识

技术趋势

  • 云原生架构成为主流
  • 大数据和 AI 驱动存储技术发展
  • 边缘计算带来新的存储需求
  • 安全性和隐私保护日益重要

作者简介

杨传辉,阿里巴巴研究员,OceanBase 分布式数据库核心开发者和架构师。清华大学计算机科学与技术专业博士,在分布式系统、存储引擎和数据库内核等领域有深厚的理论基础和丰富的工程实践经验。主导了 OceanBase 数据库的整体架构设计与核心模块实现,推动其从内部系统发展为支撑阿里巴巴集团核心业务的商业化产品。在大规模分布式存储系统的设计、实现和优化方面具有丰富经验,致力于将前沿的分布式技术与实际工程需求相结合。

评论

后继续评论需要管理员审核后可见

暂无评论,来发表第一条评论吧