从一致性 hash 到 ceph crush

2019-12-16 10:51:04

1. 背景

面对海量数据的时候，单个节点存放不下，自然需要将数据切成分片 Partations ，存放到多个节点上（这里的 Partation 在 MongoDB 中被称为分片(shard), 在 HBase 中称之为区域(Region)，Bigtable中则是表块（tablet），Cassandra 中是虚节点（vnode) [1]，Ceph 中则是 Pg）。那么需要面对两个问题：

首先如何切分（Partationing）？通常数据的都可以抽象成 key-value 的模型，那么是 hash 分片，还是按 range 来
然后再如何放置（Placement）？如何将这些 Partations 选择合适的节点存放

这两个问题并不是孤立的，而是相辅相成，终构成系统的数据分布，从设计的角度的上需要考虑很多因素：

负载均衡：节点磁盘容量，数据访问（read/write）负载等均匀分布
可扩展性：能否友好的应对增/删节点，以及日益增长的规模
可靠性：数据分片需要多个副本
可用性：副本放置需要考虑故障域隔离，保证更好的可用性

这个话题太大，限于水平，今天挑了冰山一角来讨论分析。本文主要描述基于 hash 分片的方式，记录下自己对一致性 hash 和 ceph crush 学习的思考，行文介绍将按照 hash -> 一致性 hash -> ceph crush 的发展脉络来梳理，希望能加深大家对 hash 分片这种数据分布的理解。

2. 一致性 hash

（在接下来的表述中都将以 key-object （key为标识这个object的objId）为模型，并且假定每个objId标识一个 object，每个object都大小相同）

2.1. 简单 hash

在介绍一致性 hash 之前，首先来看看简单 hash 分片，这里以简单的取模（%）为例子：假设 N 个节点，则 location = hash(objId) % N，这种方式非常简单。优点很明显：

非常简单，容易理解
通过 random hash，可以将数据均匀的分布在 n 个节点上，有利于消除热点，实现负载均衡

缺点也很明显：

扩展性差：一旦增加或者减少节点，之前的数据分布几乎全部需要重新调整，这将造成大量

（1）计算（2）数据迁移

这里以增加一个节点为例， N 变成了 N+1，所以每一个 key 都位置都需要重新计算一遍 new location = hash(objId)%(N+1)，然后伴随的是海量的 object 位置将发生变化而产生的数据迁移，显然这是不可接受的，因为对于大规模的分布式存储系统来说，宕机和坏盘都是一种常态。

（细心的读者可能发现，挂了节点，数据从哪里恢复，这里可以暂时忽略这个问题，因为数据一般都有多个副本，这是这里为了描述的方便，现在可以假定其能从副本恢复即可，后面会在详细描述）

2.2 一致性 hash

简单 hash 取模，是将数据分布在一条直线上，而一致性 hash 思路很精妙，将 hash 取模的那条直线首尾相连，这样就变成了一个圆，一下子让原本没有关系的首和尾关联起来了。一致性哈希将整个哈希值空间组织成一个虚拟的圆环，如假设某哈希函数的值空间为 0-2^32-1，整个空间按顺时针方向组织，0和 2^32-1 在零点中方向重合，如下图所示：

上图有4个节点，A、B、C、D根据，4个节点的id值，做hash(id)，然后映射到环上的位置如图，然后，将object的objId都计算一遍hash映射到环上面，每个object会被放置在其hahs(objId)顺时针遇到的节点上，上图中的objId1就会被放置在节点B上面。objId2和objId3会被放置在节点C上面。

然后来看看其如何应对增加节点和减少节点：

增加节点

如上图，增加了节点E，那么C上的数据需要重新的计算一遍，其中objId2会迁移到E上，objId3仍然放在C上面，但是A、B、C、D之间的数据并不需要迁移

减少节点

如上图，假设节点C down了，那么之前，C上面的数据将全部迁移到D上面，objId2和objId3都需要迁移到D上，但是A和B上面的数并不会产生任何迁移。

优点：

可扩展性更好，增/删节点的时候，只会影响自己负责的那部分数据，不会导致整个集群的数据重新分布

缺点：

负载均衡很差，（1）数据分布难以均衡：每个节点计算一个hash值，很难保证这些hash均匀的散落在整个hash环上，以一个极端的例子，A，B两个阶段，A的hash值是1，B的hash值是100，那么几乎所有的负载都会落在A；（2）数据迁移难以均衡，以机器减少为例子，节点C因为故障退出集群，那么之前C负责的ojbId2和objId3将都转向给节点D负责，这样会出现节点D负责大量的obj，导致大量的数据迁往D节点，后仍然导致数据分布的不均衡，相当于原先C和D的负载都落在了D上面
还是存在一些计算，例如上面增加节点E的情况，C上面的所有object都需要重新确定一遍位置

2.3. 虚拟节点

通过上面的分析会发现，基本的一致性hash，负载不均衡的问题非常严重，那如何解决这个问题呢？计算机的任何问题都可以通过增加一个虚拟层来解决问题[2]，例如操作系统可以看做是硬件的虚拟层，Java虚拟机可以看做是操作系统的虚拟层等等。为了解决负载不均衡的问题，可以将物理节点虚拟为一组虚拟节点，例如一个真实节点对应100百个虚拟节点散落在hash环上，每个object会被放置在其hash(objId)顺时针遇到的虚拟节点对应的物理节点，这样一下子可以让负载均衡起来：

每个物理节点对应100个虚拟节点，这些虚拟节点的hash由于数量比较多，根据hash的原理，其更能均衡的散落在hash环上，从而让每个物理节点上的数据分布也就更加均衡了
数据的迁移也会更加的均衡，因为一个物理节点对应100个虚拟节点，那么其每个虚拟节点相邻的物理机节点的虚拟节点也将变多，以减少一个物理节点为例，这样这个节点的数据就可能迁移到多个物理机节点上面了。

通过增加虚拟节点，不仅保留了可扩展性，也就是增/删节点的时候，只会影响自己负责的那部分数据，不会导致整个集群的数据重新分布；而且使得数据分布和迁移都更加均衡。但是其仍然存在一定的计算：新增节点，新的虚拟节点插入hash环中，那么受影响的虚拟节点上的数据需要全部遍历一遍，重新的计算hash值，然后决定是否需要迁移。

2.4. 固化虚拟节点

固化虚拟节点[3]，就是虚节点个数在集群的整个生命周期中是不会变化的。也就是系统虚拟节点数是不会变的，每个object和虚拟节点的映射关系不会发生变化，无论是增加，还是减少物理节点，只需要改变虚拟节点和物理节点之间的映射关系就可以了。当物理节点和虚拟节点的映射关系改变之后，只需要迁移虚拟节点即可，相比成万亿级的obj来说，虚拟节点的数目相对少很多，从此不会因为数据迁移而产生大量的计算。

需要注意的是需要预设合理的虚拟节点数，类似于ceph中PG的规模。需要根据集群的规模来预先设定合理的Pg数量，也就是虚拟节点的数量。因为一方面，每个物理节点对应的虚拟节点如果越少，那么均衡性就越难保证，例如集群刚开始每个物理节点100个虚拟节点，随着集群规模变大，每个物理节点只有10个虚拟节点了，那么均衡性自然难以保证。实际上，在生产环境中，扩容都是以pool为单位扩容，而不会无限制的在原pool扩容，所以这个问题一般都不会有。

但仍有一个问题：物理节点和虚拟节点如何映射的问题，拍下脑袋：假定100个物理节点，10000个虚拟节点，那么刚开始，随机给每个物理节点分配100个虚拟节点就好了；那么如何处理宕机和扩容呢？

减少节点

容易处理，相应的物理节点的虚拟节点，迁移到其相邻的虚拟节点的物理节点上

增加节点

？？？2.3. 小节中增加物理节点也会增加相应的虚拟节点，但是现在虚拟节点是固定的，不能增加虚拟节点。如何才能继续做到迁移数据小化呢？（也就是仅仅会有数据迁往新增节点，而原先节点之间不会产生数据相互迁移）

3. Crush

ceph是一个基于分布式对象存储的分布式存储系统，其object数据放置使用的是crush算法，crush在一致性hash算法的基础上，充分考虑了多副本，故障域隔离等约束（类似的解决方案还可以参考[3]）；其中crush的pg，就是一致性hash算法中的虚拟节点，且采用的是固化虚拟节点的方法，所以一个object数据的位置确认就可以分两步来完成：

（1）确认object所在的pg（虚拟节点）

pg id = hash(objId) % PG总数

（2）pg（虚拟节点）和物理节点的映射

这就是crush解决的问题，crush(pg id) = (osd1,osd2,osd3)，由于每个pg会有三个副本，所以crush(pg id)的输出是pg三个副本的位置，分别对应的三个osd，每个osd对应一块磁盘。

这里并不打算详细的介绍crush的算法细节，仅仅介绍crush是如何2.4.小节遗留的问题：如何实现物理节点和虚拟节点映射，才能保证数据迁移的小化？（关于crush副本放置，故障域隔离等，详细的内容可以参考[3]）

为了便于介绍，首先将问题简化一下：

N个OSD，每个OSD有一个weight，wi表示，osdi的weight值，PG如何选择一个OSD放置？

其处理过程如下：

每个osd，带入osd id和pg id crush_hash(osd id, pg id) 计算得到一个随机值r，ri 表示osdi计算得到的随机值r
用公式ri * wi 计算出osdi的straw值，strawi表示osdi的straw值
然后取straw值大的osd放置pg

如何保证pg分布均衡？

因为随机值ri可以通过一定算法生成保证其随机，那么随着样本数的增多，strawi大的比例也将是wi/sum(wi)，终将保证所有PG分布在OSD上面数量也是按照wi的比例来的。

增加节点？

考虑如下情况：

OSD1  OSD2   OSD3
 w1    w2     w3

那么上面的PG数量的比例成：w1:w2:w3，如果增加一个osd，假设是OSD4，weight为w4，这个时候，OSD1，OSD2，OSD3之间的关系没有变，所有他们之间没有数据迁移，因为任何一个PG从新计算之后，其strawi值都和以前是一样的，假设之前某个PG计算出来straw值分别为：straw1，straw2，straw3，那么增加osd4之后计算，仍然是straw1，straw2，straw3，因此这个计算值只跟osd id，pg id和weight值有关，而这几个值是不变的，一种情况就是straw4 > max(straw1, straw2, straw3)，这种情况需要将pg数据迁移到osd4上。但由于上面的均衡性分析可知，终osd上面的pg数量会成如下比例：

w1:w2:w3:w4

那么会有w4/(w1+w2+w3+w4)的PG移动到osd4上面。

减少节点？

OSD1  OSD2   OSD3
 w1    w2     w3

osd3下线了，那么osd1和osd2的计算出来的straw1和straw2的大小关系并不会变，所以，osd1和osd2之间的数据不会发生迁移，而仅仅只有之前osd3的straw3大的pg，会从straw1和straw2较大的进行选择，从而保证了仅有下线osd3的pg迁移到osd1和osd2。

4. 总结

本文介绍了基于 hash 分片的方式下，数据分布放置一些方法，从一致性 hash 到 ceph crush，限于篇幅，仅仅分析了它们如何解决负载均衡和可扩展性的问题。但此类方法并不完美，其中一个致命的缺陷就是它们赖以生存的前设：hash算法的随机性，以ceph为例，pg按照hash算法的随机性，终osd上的pg数量应该按照osd的weight值比例分布才对，但是现实确比较残酷，pg的分布似乎并不均匀。

Notes

限于作者水平，难免在理解和描述上有疏漏或者错误的地方，欢迎共同交流；部分参考已经在正文和参考文献列表中注明，但仍有可能有疏漏的地方，有任何侵权或者不明确的地方，欢迎指出，必定及时更正或者删除；文章供于学习交流，转载注明出处

参考文献
[1]. Kleppmann M. Designing Data-Intensive Applications[J]. 2014.
[2]. 李智慧. 大型网站技术架构: 核心原理与案例分析[M]. 电子工业出版社, 2013.
[3]. 深入云存储系统Swift核心组件：Ring实现原理剖析. https://www.cnblogs.com/yuxc/archive/2012/06/22/2558312.html
[4]. Weil S A, Brandt S A, Miller E L, et al. Ceph: A scalable, high-performance distributed file system[C]//Proceedings of the 7th symposium on Operating systems design and implementation. USENIX Association, 2006: 307-320.