我刚开始读Kafka文档时,发现它有一个做法非常奇怪,就是leader必须让所有的数据都在replica里确认,leader才确认这个数据,然后给客户端committed response。
对比Raft的操作,它是等到大多数member replica的回应,就确认committed这个数据。
数学像我这样烂的人都知道,从[Latency]角度,Kafka这样做不对呀?
比如:同是一个五集群的Kafka,和同是一个五集群的Raft,进行对比,那么:
Kafka committed latency = max(r1, r2, r3, r4, r5)
Raft committed latency = max(the fastest three in r1, r2, r3, r4, r5)
后来我才发现Kafka的精妙之处。
## Kafka的艺术
### 集群有效性小的保证
如果我们希望整个集群,支持多两个节点的故障,集群仍得以正常运行,请问:Kafka和Raft,组成集群,少需要几台机器?
对于Kafka,答案是三。
对于Raft,答案是五。
### 网络和磁盘的小消耗
而且,我在之前一篇文章[分布式下一致性Consistency的代价cost]写到过,这些数据,终还是需要在所有的replica里都要过一遍。
因此,假设我们客户端向集群写入1G数据,那么Kafka和Raft消耗在网络和磁盘上的小数据有多少?
对于Kafka,是3G for network, 3G for disk
对于Raft,是5G for network, 5G for disk
### Latency的艺术
假设我们Kafka和Raft都是五节点集群。
我们知道,正常情况下,每个节点的网络通信都差不多,对于Round Trip而言,大概是200us这个级别。
那么 max(r1, r2, r3, r4, r5) = max(the fastest three in r1, r2, r3, r4, r5)
当发生网络异常时,怎么办?
Kafka做法很简单,开除慢的节点,不要一个老鼠屎,坏了一锅汤。
当开除节点,将产生整个集群membership的变化。这时,就能看出Kafka的妙趣。
membership产生变化,有两种可能:
#### 一、如果member不是leader
Kafka只要leader到Zookeeper那里登记一下,然后就不用理会这件事。后,即使只剩下leader一台机器,整个集群也运行如故。
Raft,必须保证整个集群的数目维持在quorum,即五台机器,多只能开除两台。
试想,你是一个team leader,你是愿意去一个团队,可以任意开除下面的员工,但整个team完成KPI任务不受任何影响,还是愿意去一个team,你必须看几个关键员工的脸色,生怕开错了人导致整个team crash(leader当然也会被揪责或因此被开除)?
#### 二、如果member是leader
如果影响的member是leader,差别更大。
对于Raft,必须发起一个选举,选举的过程相当复杂,但它是一个民主选举,即人人参与,而且要找到合适的皇帝leader,万一两个都合适的候选人争皇帝(类似雍正王朝的四王爷和八王爷),还需要有一个冲突机制解决(通过随机休眠来解决,就好比雍正王朝里的争就是不争,不争就是争)
对于Kafka,则是完全粗暴的独裁方式。在整个队伍中,还有一个慈禧太后(controller),如果皇帝死了,她立即指定下一任接班人(比如:让宣统溥仪接替光绪)。
你会问,如果慈禧不在呢?很简单,再换一个慈禧(由其他非leader node到Zookeeper抢先注册,先到先得)。
你会再问,如果存在两个慈禧(controller),甚至两个皇帝(leader),怎么办?
不会发生,因为Kafka还依赖Zookeeper,这个慈禧和皇帝,必须由Zookeeper确定,而在那里,是的。即Zookeeper有点像后面的贵族集团(八旗制度),必须得到贵族集团的认可。即系统下面还是有底线的民主存在。
但是:
Kafka不用像Raft那样,选举时,搞人人投票,搞冲突机制,它只是用独裁的手段(独裁带来效率的提升),同时简单地一个登记确认即可(法律和民主的底层终保障)。
## 总结
1. 正常网络情况下,Kafka的All Latency和Raft的Majority Latency是相当的
2. 不正常网络情况下,Kafka开除慢的node,仍然保证足够的(和正常一样的)速度
3. 保证一定集群有效数目,Kafka用的node数目只是Raft的近一半,因此带来网络和磁盘消耗也降低近一半
4. Kafka用controller独裁代替Raft的民主选举,使改朝换代的阵痛(cost)小
5. controller只所以敢任意指定继承者,是因为集群里All Committed (no data loss)
6. 但Trade Off是,Kafka还必须依赖第三方强一致系统(Zookeeper,或近准备替换的Raft),来实现上面这些特性
即佛教里的禅语:少就是多,多就是少
这也是[BunnyRedis]采用Kafka模式的一个很重要的因素。
## 补:一个小的修正
下面评论区 @布达佩斯小作坊 有一个讨论:
正常网络情况下,Kafka的All Latency和Raft的Majority Latency是相当的
这个结论在生产过程中其实是不对的, 举个例子: 3副本在上海 1 副本在深圳 1 副本在日本
我同意他/她的观点并谢谢他/她的建议。即如果集群几个节点分布很远,之间的通信差别很大,那么确实不能说
正常网络情况下,Kafka的All Latency和Raft的Majority Latency是相当的
我的文章立论基础是基于正常情况下差不多的网路通信时延Latency,比如一个DataCenter下,即正常情况下,node之间的通信应该差不多。
同时注意:如果集群的node通信差别很大(比如:异地),那么部署集群要小心,因为你设置失效的时间应该很大。比如,常规下,同DataCenter的正常通信在不到1ms(如果是LAN,我们认为在100-200us这个量级),我们需要设置HeartBeat失效是秒级(即网络不正常的timeout)。如果是异地网络,那么通信一般正常成本是不到1秒(几十或几百个ms),那么这个timeout会是一个很恐怖的数字。