绑定完请刷新页面
取消
刷新

分享好友

×
取消 复制
分布式思考:少就是多,多就是少
2022-04-15 20:09:35

## Kafka开始带给我的疑惑

我刚开始读Kafka文档时,发现它有一个做法非常奇怪,就是leader必须让所有的数据都在replica里确认,leader才确认这个数据,然后给客户端committed response。

对比Raft的操作,它是等到大多数member replica的回应,就确认committed这个数据。

数学像我这样烂的人都知道,从[Latency]角度,Kafka这样做不对呀?

比如:同是一个五集群的Kafka,和同是一个五集群的Raft,进行对比,那么:

Kafka committed latency = max(r1, r2, r3, r4, r5)

Raft committed latency = max(the fastest three in r1, r2, r3, r4, r5)

后来我才发现Kafka的精妙之处。

## Kafka的艺术

### 集群有效性小的保证

如果我们希望整个集群,支持多两个节点的故障,集群仍得以正常运行,请问:Kafka和Raft,组成集群,少需要几台机器?

对于Kafka,答案是三。

对于Raft,答案是五。

### 网络和磁盘的小消耗

而且,我在之前一篇文章[分布式下一致性Consistency的代价cost]写到过,这些数据,终还是需要在所有的replica里都要过一遍。

因此,假设我们客户端向集群写入1G数据,那么Kafka和Raft消耗在网络和磁盘上的小数据有多少?

对于Kafka,是3G for network, 3G for disk

对于Raft,是5G for network, 5G for disk

### Latency的艺术

假设我们Kafka和Raft都是五节点集群。

我们知道,正常情况下,每个节点的网络通信都差不多,对于Round Trip而言,大概是200us这个级别。

那么 max(r1, r2, r3, r4, r5) = max(the fastest three in r1, r2, r3, r4, r5)

当发生网络异常时,怎么办?

Kafka做法很简单,开除慢的节点,不要一个老鼠屎,坏了一锅汤。

当开除节点,将产生整个集群membership的变化。这时,就能看出Kafka的妙趣。

membership产生变化,有两种可能:

#### 一、如果member不是leader

Kafka只要leader到Zookeeper那里登记一下,然后就不用理会这件事。后,即使只剩下leader一台机器,整个集群也运行如故。

Raft,必须保证整个集群的数目维持在quorum,即五台机器,多只能开除两台。

试想,你是一个team leader,你是愿意去一个团队,可以任意开除下面的员工,但整个team完成KPI任务不受任何影响,还是愿意去一个team,你必须看几个关键员工的脸色,生怕开错了人导致整个team crash(leader当然也会被揪责或因此被开除)?

#### 二、如果member是leader

如果影响的member是leader,差别更大。

对于Raft,必须发起一个选举,选举的过程相当复杂,但它是一个民主选举,即人人参与,而且要找到合适的皇帝leader,万一两个都合适的候选人争皇帝(类似雍正王朝的四王爷和八王爷),还需要有一个冲突机制解决(通过随机休眠来解决,就好比雍正王朝里的争就是不争,不争就是争

对于Kafka,则是完全粗暴的独裁方式。在整个队伍中,还有一个慈禧太后(controller),如果皇帝死了,她立即指定下一任接班人(比如:让宣统溥仪接替光绪)。

你会问,如果慈禧不在呢?很简单,再换一个慈禧(由其他非leader node到Zookeeper抢先注册,先到先得)。

你会再问,如果存在两个慈禧(controller),甚至两个皇帝(leader),怎么办?

不会发生,因为Kafka还依赖Zookeeper,这个慈禧和皇帝,必须由Zookeeper确定,而在那里,是的。即Zookeeper有点像后面的贵族集团(八旗制度),必须得到贵族集团的认可。即系统下面还是有底线的民主存在。

但是:

Kafka不用像Raft那样,选举时,搞人人投票,搞冲突机制,它只是用独裁的手段(独裁带来效率的提升),同时简单地一个登记确认即可(法律和民主的底层终保障)。

## 总结

1. 正常网络情况下,Kafka的All Latency和Raft的Majority Latency是相当的

2. 不正常网络情况下,Kafka开除慢的node,仍然保证足够的(和正常一样的)速度

3. 保证一定集群有效数目,Kafka用的node数目只是Raft的近一半,因此带来网络和磁盘消耗也降低近一半

4. Kafka用controller独裁代替Raft的民主选举,使改朝换代的阵痛(cost)小

5. controller只所以敢任意指定继承者,是因为集群里All Committed (no data loss)

6. 但Trade Off是,Kafka还必须依赖第三方强一致系统(Zookeeper,或近准备替换的Raft),来实现上面这些特性

即佛教里的禅语:少就是多,多就是少

这也是[BunnyRedis]采用Kafka模式的一个很重要的因素。

## 补:一个小的修正

下面评论区 @布达佩斯小作坊 有一个讨论:

正常网络情况下,KafkaAll LatencyRaftMajority Latency是相当的
这个结论在生产过程中其实是不对的, 举个例子: 3副本在上海 1 副本在深圳 1 副本在日本

我同意他/她的观点并谢谢他/她的建议。即如果集群几个节点分布很远,之间的通信差别很大,那么确实不能说

正常网络情况下,KafkaAll LatencyRaftMajority Latency是相当的

我的文章立论基础是基于正常情况下差不多的网路通信时延Latency,比如一个DataCenter下,即正常情况下,node之间的通信应该差不多。

同时注意:如果集群的node通信差别很大(比如:异地),那么部署集群要小心,因为你设置失效的时间应该很大。比如,常规下,同DataCenter的正常通信在不到1ms(如果是LAN,我们认为在100-200us这个量级),我们需要设置HeartBeat失效是秒级(即网络不正常的timeout)。如果是异地网络,那么通信一般正常成本是不到1秒(几十或几百个ms),那么这个timeout会是一个很恐怖的数字。


分享好友

分享这个小栈给你的朋友们,一起进步吧。

分布式思考和实践
创建时间:2022-04-14 14:15:30
关于分布式在数据库领域的应用的一些思考以及一些程序应用的开发
展开
订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅:虚拟交易,一经交易不退款;若特殊情况,可3日内客服咨询

• 专区发布评论属默认订阅所评论专区(除付费小栈外)

栈主、嘉宾

查看更多
  • szstonelee
    栈主

小栈成员

查看更多
  • miemieMIA
  • LCR_
  • jinchuan
  • MrSun
戳我,来吐槽~