advanced-java/docs/distributed-system/dubbo-load-balancing.md

115 lines
6.2 KiB
Markdown
Raw Normal View History

## 面试题
2020-09-17 09:36:14 +08:00
dubbo 负载均衡策略和集群容错策略都有哪些?动态代理策略呢?
## 面试官心理分析
2020-05-06 20:23:11 +08:00
继续深问吧,这些都是用 dubbo 必须知道的一些东西,你得知道基本原理,知道序列化是什么协议,还得知道具体用 dubbo 的时候,如何负载均衡,如何高可用,如何动态代理。
说白了,就是看你对 dubbo 熟悉不熟悉:
2020-05-06 20:23:11 +08:00
2020-09-17 09:36:14 +08:00
- dubbo 工作原理:服务注册、注册中心、消费者、代理通信、负载均衡;
- 网络通信、序列化dubbo 协议、长连接、NIO、hessian 序列化协议;
- 负载均衡策略、集群容错策略、动态代理策略dubbo 跑起来的时候一些功能是如何运转的?怎么做负载均衡?怎么做集群容错?怎么生成动态代理?
- dubbo SPI 机制:你了解不了解 dubbo 的 SPI 机制?如何基于 SPI 机制对 dubbo 进行扩展?
## 面试题剖析
2020-05-06 20:23:11 +08:00
### dubbo 负载均衡策略
2020-05-06 20:23:11 +08:00
#### RandomLoadBalance
2020-05-06 20:23:11 +08:00
默认情况下dubbo 是 RandomLoadBalance ,即**随机**调用实现负载均衡,可以对 provider 不同实例**设置不同的权重**,会按照权重来负载均衡,权重越大分配流量越高,一般就用这个默认的就可以了。
2020-09-17 09:36:14 +08:00
算法思想很简单。假设有一组服务器 servers = `[A, B, C]`,他们对应的权重为 weights = `[5, 3, 2]`,权重总和为 10。现在把这些权重值平铺在一维坐标值上`[0, 5)` 区间属于服务器 A`[5, 8)` 区间属于服务器 B`[8, 10)` 区间属于服务器 C。接下来通过随机数生成器生成一个范围在 `[0, 10)` 之间的随机数,然后计算这个随机数会落到哪个区间上。比如数字 3 会落到服务器 A 对应的区间上,此时返回服务器 A 即可。权重越大的机器,在坐标轴上对应的区间范围就越大,因此随机数生成器生成的数字就会有更大的概率落到此区间内。只要随机数生成器产生的随机数分布性很好,在经过多次选择后,每个服务器被选中的次数比例接近其权重比例。比如,经过一万次选择后,服务器 A 被选中的次数大约为 5000 次,服务器 B 被选中的次数约为 3000 次,服务器 C 被选中的次数约为 2000 次。
#### RoundRobinLoadBalance
2020-05-06 20:23:11 +08:00
这个的话默认就是均匀地将流量打到各个机器上去,但是如果各个机器的性能不一样,容易导致性能差的机器负载过高。所以此时需要调整权重,让性能差的机器承载权重小一些,流量少一些。
举个栗子。
2019-04-10 23:27:44 +08:00
跟运维同学申请机器有的时候我们运气好正好公司资源比较充足刚刚有一批热气腾腾、刚刚做好的虚拟机新鲜出炉配置都比较高8 核 + 16G 机器,申请到 2 台。过了一段时间,我们感觉 2 台机器有点不太够,我就去找运维同学说,“哥儿们,你能不能再给我一台机器”,但是这时只剩下一台 4 核 + 8G 的机器。我要还是得要。
2019-03-28 23:03:20 +08:00
这个时候,可以给两台 8 核 16G 的机器设置权重 4给剩余 1 台 4 核 8G 的机器设置权重 2。
#### LeastActiveLoadBalance
2020-05-06 20:23:11 +08:00
官网对 `LeastActiveLoadBalance` 的解释是“**最小活跃数负载均衡**”,活跃调用数越小,表明该服务提供者效率越高,单位时间内可处理更多的请求,那么此时请求会优先分配给该服务提供者。
最小活跃数负载均衡算法的基本思想是这样的:
每个服务提供者会对应着一个活跃数 `active`。初始情况下,所有服务提供者的 `active` 均为 0。每当收到一个请求对应的服务提供者的 `active` 会加 1处理完请求后`active` 会减 1。所以如果服务提供者性能较好处理请求的效率就越高那么 `active` 也会下降的越快。因此可以给这样的服务提供者优先分配请求。
当然,除了最小活跃数,`LeastActiveLoadBalance` 在实现上还引入了权重值。所以准确的来说,`LeastActiveLoadBalance` 是基于加权最小活跃数算法实现的。
#### ConsistentHashLoadBalance
2020-05-06 20:23:11 +08:00
一致性 Hash 算法,相同参数的请求一定分发到一个 provider 上去provider 挂掉的时候,会基于虚拟节点均匀分配剩余的流量,抖动不会太大。**如果你需要的不是随机负载均衡**,是要一类请求都到一个节点,那就走这个一致性 Hash 策略。
> 关于 dubbo 负载均衡策略更加详细的描述,可以查看官网 http://dubbo.apache.org/zh-cn/docs/source_code_guide/loadbalance.html 。
### dubbo 集群容错策略
2020-05-06 20:23:11 +08:00
#### Failover Cluster 模式
失败自动切换,自动重试其他机器,**默认**就是这个,常见于读操作。(失败重试其它机器)
可以通过以下几种方式配置重试次数:
2020-09-17 09:36:14 +08:00
```xml
<dubbo:service retries="2" />
```
或者
2020-09-17 09:36:14 +08:00
```xml
<dubbo:reference retries="2" />
```
或者
2020-09-17 09:36:14 +08:00
```xml
<dubbo:reference>
<dubbo:method name="findFoo" retries="2" />
</dubbo:reference>
```
#### Failfast Cluster 模式
2020-05-06 20:23:11 +08:00
一次调用失败就立即失败,常见于非幂等性的写操作,比如新增一条记录(调用失败就立即失败)
#### Failsafe Cluster 模式
2020-05-06 20:23:11 +08:00
出现异常时忽略掉,常用于不重要的接口调用,比如记录日志。
配置示例如下:
2020-09-17 09:36:14 +08:00
```xml
<dubbo:service cluster="failsafe" />
```
或者
2020-09-17 09:36:14 +08:00
```xml
<dubbo:reference cluster="failsafe" />
```
#### Failback Cluster 模式
2020-05-06 20:23:11 +08:00
失败了后台自动记录请求,然后定时重发,比较适合于写消息队列这种。
#### Forking Cluster 模式
2020-05-06 20:23:11 +08:00
**并行调用**多个 provider只要一个成功就立即返回。常用于实时性要求比较高的读操作但是会浪费更多的服务资源可通过 `forks="2"` 来设置最大并行数。
#### Broadcast Cluster 模式
2020-05-06 20:23:11 +08:00
逐个调用所有的 provider。任何一个 provider 出错则报错(从 `2.1.0` 版本开始支持)。通常用于通知所有提供者更新缓存或日志等本地资源信息。
> 关于 dubbo 集群容错策略更加详细的描述,可以查看官网 http://dubbo.apache.org/zh-cn/docs/source_code_guide/cluster.html 。
### dubbo 动态代理策略
2020-05-06 20:23:11 +08:00
默认使用 javassist 动态字节码生成,创建代理类。但是可以通过 spi 扩展机制配置自己的动态代理策略。