性能监控
1. Dashbord
在 MongoDB 列表页的「分片集群」标签 页看到分片集群各实例的 Dashbord。点击对应监控项即可进入该监控项对应的监控图表。
平台为分片集群的各 shard 提供了监控视图,一个分片集群的 shard 视图对集群中的其他 shard 是共享的,即分片集群维护一份统一的 shard 监控视图。为各 mongos 提供了一个监控视图,目前 mongos 不支持自定义监控视图。
2. 性能监控
➡ 登录 控制台,定位到目标分片集群实例
➡ 点击实例名称,进入分片集群详情页
➡ 点击「性能监控」标签
该页面展示了当前实例各节点在系统资源、数据库资源、性能、复制和日志层面的五大类多种性能数据,提供三项统计指标(平均值、最大值 最小值)供选择,并基于用户指定的时间范围,提供不同聚合区间。并支持切换 mongos 节点和 shard 节点的监控视图,在「集群信息」中可以进入单独的 mongos 和 shard 节点查看各自的监控视图。
mongos节点监控视图
shard节点监控视图
2.1. 监控项
类型 | 监控项 |
---|---|
系统资源 | CPU 利用率、存储空间使用量、存储空间利用率、内存使用量、内存利用率、硬盘IO 利用率、硬盘读写次数、硬盘读写字节数、硬盘读写延迟、网络传输速率 |
数据库资源 | 连接数(用户连接数相关监控,包括用户当前使用的连接数和用户可用的连接数) 待处理请求队列(当前因为锁产生的操作队列长度,具体监控项包括等待读锁的操作数和等待写锁的操作数) Journal组提交包含操作记录 Journal组提交设计数据量 存储引擎并发请求数(读请求、写请求、最大读请求、最大写请求,单位:个) 游标(服务器端游标相关监控,包括当前打开游标个数和超时游标个数) 文档个数(除 local 库外当前数据库所有表共有多少条记录) 文档数据量(除 local 库外当前数据库所有数据的总大小) 文档存储空间大小(除 local 库外当前数据库所有数据占的磁盘总大小) 索引个数(除 local 库外索引数总和) 索引大小(除 local 库外索引总大小) Page Fault(次/秒) 存储引擎缓存(wiredTiger 存储引擎缓存相关监控项,主要包括缓存大小、缓存中实际数据量和缓存中脏数据量) |
性能 | CRUD(次/秒)、活跃客户端(个) |
复制 | 复制延迟、复制时间、HeadRoom |
日志 | 断言 |
2.2. 时间范围与聚合区间
网易云提供过去 3 小时、24 小时、48 小时和 7 天等时间范围快捷按钮,点击即可查看相应时间范围内的监控数据。同时蜂巢支持自定义时间范围,点击「自定义」,即可设定任意时间范围查看相应时段的监控数据。根据时间范围大小,系统提供不同聚合区间供选择,具体对应如下表:
时间范围 | 可选聚合区间 |
---|---|
时间范围 < 1 天 | 1 分钟、5 分钟、15 分钟、1 小时 |
1 天 ≤ 时间范围 < 2 天 | 15 分钟、1 小时、6 小时 |
2 天 ≤ 时间范围 < 7 天 | 1 小时、6 小时、1 天 |
7 天 ≤ 时间范围 | 6 小时、1 天 |
2.3. 统计指标
系统提供三种性能监控统计指标:最大值、最小值、平均值。点击统计指标选择框可调整监控数据的统计指标。