这些 Nginx 负载均衡配置误区，运维请注意~

2021-07-12 14:19:58

来自公众号：运维研习社

之前有很多朋友问关于Nginx的upstream模块中max_fails及fail_timeout，这两个指令，分别是配置关于负载均衡过程中，对于上游(后端)服务器的失败尝试次数和不可用时间，很多人不是很理解这两个参数到底怎么用，以及具体的含义

先看官网文档中的描述

官网文档中解释max_fails是指在fail_timeout配置的时间内，服务器通信失败的次数，默认为1，即在fail_timeout时间内，1次请求失败即不再尝试，将请求根据hash规则，转发到下一个上游服务

fail_timeout有两种含义：

当已经确认上游服务不可用时，是指与上游服务器通信失败次数的时间
服务器不可用的时间段

默认是10s

文字不是很好理解，搭建个实验环境，环境如下：

Nginx
PHP-FPM(x2)

nginx通过fast-cgi将php请求转发到PHP-FPM，这里PHP-FPM服务即上游服务，设置upstream，负载PHP-FPM

upstream按照默认配置，即max_fails=1，fail_timeout=10

现在通过tailf分别监听两个PHP-FPM日志

请求4次，因为是默认轮询的，所以可以看时间，轮询将请求分发到两个PHP-FPM上游

可以从上面的日志中看到，按照轮询规则，下次请求应该落到PHP-FPM2上面，接着，关掉PHP-FPM1，继续请求

可以看到，PHP-FPM1肯定是不响应了，PHP-FPM2正常响应，接着看下Nginx日志

可以看到，关掉PHP-FPM1后，发起的请求，本来第二次请求(17:49:58)应该分发到PHP-FPM1的，然后从Nginx错误日志可以看到，连接PHP-FPM1失败，这里只做了一次失败尝试，然后Nginx将请求转发到PHP-FPM2处理了

接着将max_fails设置为2，继续上面的请求

开启PHP-FPM1，继续请求，两个负载轮询转发请求

接着继续关掉PHP-FPM1，连续发起多次请求，查看日志

所有请求都在PHP-FPM2上，看Nginx错误日志

两次轮询到PHP-FPM1的时候，失败，之后不会再将请求分发到PHP-FPM1上游服务

接着，不开启PHP-FPM1，继续发起多次请求，由于默认的fail_timeout=10，所以在上面的失败检测10s之后再次发起请求，查看日志

继续分发到PHP-FPM2，接着看Nginx错误日志

可以看到，过了fail_timeout的时间后，Ngxin会再次将请求发往FPM-PHP1进行尝试，尝试2次失败后，在fail_timeout时间内，不会再将请求分发，

这里有几个误区：

Nginx记录了连接上游失败，这个请求就返回错误请求，或这个请求丢失没处理

这个理解是错误的，Nginx只是记录了失败的请求到日志，并将这个请求又转发到了可用的其他上游服务，知道所有上游都不可用时，才会返回错误状态

max_fails是指连续请求失败的次数

max_fails是在fail_timeout指定的时间内的失败次数，请求还是按照配置的负载均衡算法来走，并不是次请求失败之后，继续将这个请求在尝试一次，达到失败次数之后，标记为不可用

fail_timeout越短越好

当访问量大的时候，fail_timeout设置太短，会导致不断的尝试与不可用上游的连接，耗费大量的tcp资源进行连接

fail_timeout越长越好

当访问量大的时候，fail_timeout设置太长，会导致负载不均衡，有可能会击穿某个上游后端，达不到负载的效果

--- EOF ---

分享好友

分享这个小栈给你的朋友们，一起进步吧。

运维闲白儿

创建时间：2020-02-08 12:09:48

聊聊运维的那些事儿

展开

订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅：虚拟交易，一经交易不退款；若特殊情况，可3日内客服咨询

• 专区发布评论属默认订阅所评论专区（除付费小栈外）

栈主、嘉宾

查看更多

it_instructor
栈主

小栈成员

查看更多

栈栈
我没
andrewoylk
TESTLEADER