数据库之监控系统建设，看看运维团队是如何实现的

2021-06-07 14:27:31

1. 背景

数据库监控作为数据库配套建设不可或缺的一环，可以及时发现机器和数据库性能问题，并帮助止损。伴鱼早期借助开源prometheus系统对数据库和机器进行监控，来满足我们日常的监控告警需求，但在这过程中，我们还是发现一些使用不太方便的地方，主要体现在以下几个方面：

数据库以集群为单位，集群成员的变动需要修改prometheus对应的监控配置文件，无法自动修改
机器指标和数据库指标采集分属不同的exporter，难以集群或机器维度同时展示两类指标
集群和机器告警配置差异化以及告警时间段抑制，配置不太灵活
日常巡检和监控大盘难以定制

基于以上监控告警需求，并结合在对prometheus、阿里云数据库监控等一些的监控系统架构调研的基础上，设计了伴鱼数据库监控系统。相比其它监控系统，新系统包含以下核心功能：

基于集群维度的机器和数据库指标采集，集群成员变动，无需修改配置
支持集群和机器维度的机器指标和数据库性能指标数据的同时展示
通过报警模版，支持报警的差异化配置
支持报警时间段抑制和灵活的报警策略
灵活定制监控大盘，方便巡检需求

下面从数据库监控整体架构详细介绍下监控各组件设计以及背后设计的一些想法。

2. 监控整体架构

伴鱼数据库监控整体架构，如下图所示。

各组件的功能，说明如下：

agent模块，功能类似prometheus exporter组件，暴露metric接口，接收请求采集数据
schedule模块，获取监控任务，并根据集群名从db config service服务获取具体的集群信息，然后按照监控任务配置的采集时间间隔，定时到对应的agent拉取metrics
monitor模块，负责监控数据存储/查询、数据分析和规则报警
alarm模块，公司内部报警服务，支持钉钉和电话报警
http server模块，负责监控任务、报警模版和报警规则的配置以及监控数据的查询展示

2.1 数据采集

伴鱼的数据库监控，目前主要分数据库服务监控和主机监控两类，对应着数据采集分主机指标采集和数据库性能指标采集两种。监控具体采集哪些指标，我们参照了业界一些开源监控系统，比如阿里云数据库服务监控，来采集我们的监控指标数据。

主机指标，包含CPU利用率、磁盘IO使用率、磁盘空间使用率、磁盘空间使用量、机器负载和内存使用率
Mongodb服务指标，包含连接数、读写队列长度、服务进出流量、游标数量和请求量等
Redis服务指标，包含内存使用率、请求数、服务进出流量、每秒失效key个数和key查找命中率等
TiDB服务指标，通过读取tidb自带的prometheus获取数据，获取的指标包含raft-store cpu、comprocessor cpu和durition等

针对具体的指标数据采集，我们设计了四种agent。其中node agent负责采集机器指标数据，因为机器某些指标采集需要在本机执行系统命令，所以node agent在机器初始化时部署。数据库服务agent部署在公司内部的k8s容器内，多副本方式，支持采集指标动态添加。比如TiDB指标的采集，如下图所示，如果想增加某个指标采集，只需动态添加对应的指标项和查询语句即可。