生产和测试环境维护了两套 Harbor 仓库,准备做镜像同步,要实现这样的功能,首先得是两边环境网络是通的,通过临时的网络策略放开了,然后就是至少两边互相 docker login 对方的 registry 应该也需要成功,但是有个奇怪的问题出现了。
生产环境 docker login 测试环境的 registry OK,但是反过来却不行,意味着无法做镜像同步。
一开始怀疑是有些特殊端口没通(只开放了80端口),联系运维的同学,把 ip 对 ip 的所有端口都开放了,还是失败了,抓包发现生产环境会主动断开连接,然后就返回503了。
然后查看日志,先查看测试环境登录生产环境成功的时候,日志是怎么报告的。
Nov 17 17:54:27 172.18.0.x proxy[22141]: 生产环境ip - "GET /v2/ HTTP/1.1" 401 76 "-" "docker/19.03.11 go/go1.13.10 git-commit/42e35e61f3 kernel/5.4.107-1.el7.elrepo.x86_64 os/linux arch/amd64 UpstreamClient(Docker-Client/19.03.11 \x5C(linux\x5C))" 0.003 0.003 .
Nov 17 17:54:27 172.18.0.x proxy[22141]: 生产环境ip - "GET /service/token?account=admin&client_id=docker&offline_token=true&service=harbor-registry HTTP/1.1" 200 890 "-" "docker/19.03.11 go/go1.13.10 git-commit/42e35e61f3 kernel/5.4.107-1.el7.elrepo.x86_64 os/linux arch/amd64 UpstreamClient(Docker-Client/19.03.11 \x5C(linux\x5C))" 0.028 0.028 .
Nov 17 17:54:27 172.18.0.x proxy[22141]: 生产环境ip - "GET /v2/ HTTP/1.1" 200 2 "-" "docker/19.03.11 go/go1.13.10 git-commit/42e35e61f3 kernel/5.4.107-1.el7.elrepo.x86_64 os/linux arch/amd64 UpstreamClient(Docker-Client/19.03.11 \x5C(linux\x5C))" 0.008 0.008 .
从状态码看,会先有一个 401 然后再去拿 token,拿到 docker 之后再去 login,成功返回200,这才是正常的流程,也符合我们对 docker client 登录 registry 的印象,可以看看官方的图片。
然后再看登录失败的日志,也就是从生产环境去登录测试环境,日志如下。
Nov 17 17:56:30 172.18.0.x proxy[26421]: 测试环境ip - "GET /v2/ HTTP/1.1" 401 76 "-" "docker/19.03.11 go/go1.13.10 git-commit/42e35e61f3 kernel/5.4.107-1.el7.elrepo.x86_64 os/linux arch/amd64 UpstreamClient(Docker-Client/19.03.11 \x5C(linux\x5C))" 0.003 0.002 .
惊讶的发现,一次登录的过程中,只记录到一条日志,也就是 401 状态码的那一条。那么从官方图中,大概可以判断,应该是3和4的链路有问题。
这里的意思是,正式环境的 dockerd 会去 auth service 去拿 token,此时再看看 dockerd 的日志。
Nov 18 00:27:08 szglbd dockerd[22141]: time="2021-11-18T00:27:08.146062335+08:00" level=error msg="Handler for POST /v1.40/auth returned error: Get http://正式环境ip/v2/: received unexpected HTTP status: 503 Service Unavailable"
Nov 18 00:27:15 szglbd dockerd[22141]: time="2021-11-18T00:27:15.894732084+08:00" level=info msg="Error logging in to v2 endpoint, trying next endpoint: Get https://harbor.com/v2/: dial tcp 测试环境ip:443: connect: connection refused"
这里很明显,就是正式环境的 dockerd 去访问 auth service 503 了。于是查看 docker info 查看代理信息,果然加了代理!导致请求被 HTTP_PROXY
转发了,所以本地的 dockerd 无法正常请求到 token,于是校验失败了,503则是代理服务器返回的状态码,后去掉代理,整个流程就正常了。
简单验证一下请求被代理转发了,通过抓包就可以发现,请求 token 的请求被转发了。
本文使用 文章同步助手 同步