Prometheus 监控参数解读

本文档介绍了 Prometheus 监控面板中 YMatrix、 MatrixGate、主机节点监控等相关指标及参考报警阈值。

告警级别说明

  • p0:需要立即处理,集群已经不可用。
  • p1:需要尽快处理,短时间内不处理,可能会影响集群使用。
  • p2:需要留意,长时间不处理,可能会影响集群使用。
  • p3:不会影响集群使用,按需配置即可。

注意!
无参考报警阈值的指标,请根据实际情况判断并配置告警条件。

1 YMatrix 监控指标

1.1 Overview

此版块显示了集群的整体运行状态,包括:

指标名 描述 单位 级别 参考报警阈值
集群状态 集群节点状态,包括:
0:正常
1:无 Standby
2:无 Mirror
10:分布不均衡(部分节点宕机恢复后,没有重新平衡主从角色)
11:存在主从不同步节点(部分 Mirror 节点与 Primary 不同步)
12:只有 Master(集群只启动了 Master 节点,通常在诊断时使用)
20:Segment 宕机(存在不可用的 Segment 节点,集群不可用)
short p0 20:Segment 宕机为严重事件,需要报警
运行时间 包括 YMatrix 自启动以来的运行时间和 Master 宿主机操作系统运行时间 seconds(s)
版本 YMatrix 的版本
连接状态 连接状态显示了数据库系统中的连接数统计,包括:连接总数(Total)、连接查询被阻塞数(Blocked)、空闲连接数(Idle)、事务中空闲数(Idle in TXN) short
慢查询数 当前系统中,执行时间超过 1 天的查询数量 short 大于 0 则说明有特别慢的查询,需要报警
事务 事务提交与回滚数量统计 short
Disk Space in Use 磁盘使用量。Master 节点或 Segment 节点实例的磁盘使用量 0-1
节点状态 每个节点的状态,包括:
0:UP(正常)
10:Switched(角色互换,说明出现过主从切换,需要重新平衡)
11:Resync(主从同步中)
20:Down(宕机)
short p2/p1 持续时间超过 5 分钟不为 0 时需要报警 p2
20 值需要增加报警 p1

1.2 Database Performance

此版块展示了数据库性能,包括:

指标名 描述 单位 级别 参考报警阈值
Page Hit Ratio HEAP 表读操作命中块缓存次数与读操作总数的比值。(缓存仅包括 HEAP 表自己维护的缓存,不包括操作系统缓存)
显示的数值为当前值,曲线为历史值
通常要求数值在 90% 以上
0-1
Temp Size 数据库中查询写入临时文件的数据总量。不管创建临时文件的原因和 log_temp_files 设置,所有临时文件都会被统计 bytes
Sessions Per Database 每个数据库的会话数 short
Activities 各个状态会话数 short
Deadlocks 发生死锁数量 short p3 发生死锁时,YMatrix 自动解锁,失败的查询可以重试,可以配置告警
Checksum Failures 数据库数据页校验失败次数,如果没有开启则为 NULL short p3
Rows Read 读取数据行数 short
Checkpoints 检查点统计。橘色为主动请求生成检查点的操作次数,绿色为因为超时而自动生成检查点的操作次数 short
Page Cache Hit blks_hit:读取数据页时命中缓存次数
blks_read:未命中缓存而要读磁盘的次数
Replication Latency write_lag - 本地刷盘最新的 WAL 和接收到 Standby/Mirror 写入 WAL 成功(但尚未刷新或应用它)之间经过的时间。如果配置了 Standby/Mirror,可用于测量当 synchronous_commit 配置为 remote_write 时,提交产生的延迟
flush_lag - 本地刷盘最新的 WAL 和接收到 Standby/Mirror 写入 WAL 并刷盘成功(但尚未应用它)之间经过的时间。如果配置了 Standby/Mirror,可用于测量当 synchronous_commit 配置为 on 时,提交产生的延迟
replay_lag - 本地刷盘最新的 WAL 和接收到 Standby/Mirror 写入 WAL,刷盘并成功应用之间经过的时间。如果配置了 Standby/Mirror,可用于测量当 synchronous_commit 配置为 remote_apply 时,提交产生的延迟
milliseconds(ms) p3 默认情况下,Primary 与 Mirror 间为同步复制,如果大于 1s,会导致事务提交变得很慢。如果为异步复制,则可以适当调大告警阈值
Rows Insert/Update/Delete 数据 INSERT 或 UPDATE 或 DELETE 的数量 short
Checkpoint buffers buffers_checkpoint - 检查点生成时写入的缓存数
buffers_clean - 后台写进程写入的缓存数
buffers_backend - 工作进程直接写入的缓存数
short
Top 10 Replication Lag Size Top 10 复制延迟 WAL 大小 bytes p3 默认情况下,Primary 与 Mirror 间为同步复制,如果大于 1GB,会导致事务提交变得很慢。如果为异步复制,则可以适当调大告警阈值

1.3 Storage

此版块展示了存储相关的统计,包括:

指标名 描述 单位 级别 参考报警阈值
Top 10 Database 数据库大小 Top10 bytes
Top 10 Users 用户数据量大小 Top10 bytes
Top 10 Aging Database 数据库年龄 Top10 short p2 数据库最大使用年龄为 21E,当只剩 1E 时,YMatrix 实例会强制停止,属于 5E 时,日志中会有提示,建议告警配置为 6E 和 2E。
Top 10 Big Tables 表大小 Top10 bytes
Top 10 Big Partitions 分区表大小 Top10 bytes
Top 10 Growth Today 当天数据量增长最快的 10 张表 bytes
Top 10 Growth Last 7 Days 7天内数据量增长最快的 10 张表 bytes

2 MatrixGate 监控指标

2.1 基本信息

指标名 描述 单位 级别 参考报警阈值
版本 mxgate 版本号
运行时间 mxgate 运行时长 seconds(s)
进程号 mxgate 后台进程 PID short p2 无进程号,可能是 mxgate 宕机

2.2 任务信息

指标名 描述 单位 级别 参考报警阈值
目标表 该任务数据插入的目标表
总入库行数 该任务自 mxgate 启动以来,入库成功的数据总数 short
总错误行数 该任务自 mxgate 启动以来,入库失败的数据总数 short p3 可以根据情况设置报警阈值
总入库大小 该任务自 mxgate 启动以来,入库成功的数据量大小 short
并发度 并发总量:值为配置项 stream - prepared + 1,并发的上限配置
工作数量:实际工作的并发量,某些线程会进入休眠状态,所以实际工作的并发度可能小于配置
short
事务时间粒度 数据事务提交的时间跨度 short
目标表阻塞 目标表阻塞数量 short

2.3 负载统计

指标名 描述 单位 级别 参考报警阈值
提交行数 该 job 已提交行数 short
入库行数 该 job 已入库行数 short
阻塞行数 该 job 被阻塞行数 short p3 可以根据情况设置报警阈值
失败行数 该 job 写入失败行数 short p3 可以根据情况设置报警阈值
写入数据量 该 job 写入字节总数 bytes

2.4 延时统计

数据入库经历的各个阶段延时,为一段时间的统计值,包括:

  • max:最大值
  • min:最小值
  • 95%:95% 数据的平均值
指标名 描述 单位 级别 参考报警阈值
总延时统计 该延时为下面几个延时之和 nanoseconds(ns) p3 30s
insertStart 延时统计 从执行 INSERT 到第一条数据发送给 Segment 的延时 nanoseconds(ns)
write 延时统计 mxgate 将该批次数据发送给 Segment 的耗时 nanoseconds(ns)
insertDone 延时统计 最后一条数据发送到 Segment 到 INSERT 语句执行完毕(数据在各个 Segment 之间重分布落盘结束)的延时 nanoseconds(ns)
commit 延时统计 执行 commit 命令的延时 nanoseconds(ns)

2.5 数据库事件

指标名 描述 单位 级别 参考报警阈值
CHECKPOINT 次数 一分钟内 CHECKPOINT 执行的次数 short
CHECKPOINT 写延时 在文件被写入磁盘的检查点处理部分花费的总时间,以毫秒计 milliseconds(ms)
CHECKPOINT 同步延时 在文件被同步到磁盘中的检查点处理部分花费的总时间,以毫秒计 milliseconds(ms)
申请缓存块数 被分配的缓冲区数量 short
写入磁盘缓存块数 分为三类:
1.在检查点期间被写的缓冲区数目
2.被后台写进程写的缓冲区数目
3.被一个后端直接写的缓冲区数量
short
刷脏页达到上限次数 后台写进程由于已经写了太多缓冲区而停止清洁扫描的次数 short
主从延迟日志量 Master 与 Standby 或 Primary 与 Mirror 之间的 WAL 延迟量 bytes
主从延迟时间 Master 与 Standby 或 Primary 与 Mirror 之间的延时时间 milliseconds(ms)
目标表阻塞事件趋势图 分为四类:
1.锁相关
2.复制相关
3.资源组相关
4.资源队列相关
short

3 主机节点监控

3.1 Quick CPU / Mem / Disk

指标名 描述 单位 级别 参考报警阈值
CPU Busy 收集所有 CPU 内核 Busy 状态占比 0-1
Sys Load(5m avg) 5 分钟内 CPU 所有内核的平均负载率 0-1 p3/p2 CPU核数 3 / CPU核数 5
Sys Load(15m avg) 15分钟内 CPU 所有内核的平均负载率 0-1 p3/p2 CPU核数 3 / CPU核数 5
RAM Used 已使用的内存大小(内存总量 - 空闲的内存大小 - Buffer缓存和Cached缓存占的内存大小) 0-1
SWAP Used 已使用的交换内存的大小 0-1 p3 80%
Root FS Used 根文件系统使用率 0-1 p3/p2 60%/80%
CPU Cores 物理 CPU 的核数 short
RootFS Total 根文件系统总空间 bytes p3/p2 60%/80%
Uptime 系统正常运行的时间 seconds(s)
RAM Total 内存大小 bytes
SWAP Total 交换分区的大小 bytes

3.2 Basic CPU / Mem / Disk

指标名 描述 单位 级别 参考报警阈值
CPU Basic CPU 的基本信息 /proc/stat 0-1
Memory Basic 内存基本信息 bytes
Network Traffic Basic 每个接口的基本网络信息 bit p3/p2 网卡最大带宽 60% 80%
Disk Space Used Basic 所有挂载的文件系统的磁盘空间占比 0-1 p3 磁盘使用率 60% 80%

3.3 CPU / Memory / Net / Disk

指标名 描述 单位 级别 参考报警阈值
CPU CPU 在内核模式下执行的进程占比 short
Memory Stack 内存堆栈 /proc/meminfo bytes
Network Traffic 各个网络接口的传输速率 bytes/sec
Disk Space Used 所有挂载的文件系统的磁盘空间大小 bytes
Disk IOps 磁盘读写 I/O ops/sec(iops)
I/O Usage Read / Write 磁盘读写速率 bytes
I/O Utilization I/O 利用率 0-1 p3/p2 60% / 80%
CPU spent seconds in guests(VMs) 运行一个带 nice 值的 guest 花费的时间 milliseconds(ms)

3.4 Memory Meminfo

指标名 描述 单位 级别 参考报警阈值
Memory Active / Inactive 最近使用频繁/较少的内存
Memory Active / Inactive Detail Inactive_file - LRU list 上长时间未被访问过的与文件对应的内存页 /proc/meminfo LRU_INACTIVE_FILE
Inactive_anon - 上长时间未被访问过的匿名页和交换区缓存(包括 tmpfs) /proc/meminfo LRU_INACTIVE_ANON
Active_file - LRU list 最近被访问过的与文件对应的内存页 /proc/meminfo LRU_ACTIVE_FILE
Active_anon - 最近被访问过的匿名页和交换区缓存(包括 tmpfs) /proc/meminfo LRU_ACTIVE_ANON
bytes
Memory Shared an Mapped Mapped - mapped 缓存页占用的内存 /proc/meminfo Mapped
Shmem - 共享内存 /proc/meminfo Shared
bytes
Memory Vmalloc VmallocChunk - vmalloc 可分配的最大的逻辑连续的内存大小 /proc/meminfo VmallocChunk
VmallocTotal - vmalloc 可使用的总内存大小 /proc/meminfo VmallocTotal
VmallocUsed - vmalloc 已用的总内存大小 /proc/meminfo VmallocUsed
bytes
Memory Anonymous Active_anon - pages最近被使用过的匿名虚拟内存页 /proc/vmstat nr_active_anon
Active_file - 最近被使用过的文件虚拟内存页 /proc/vmstat nr_active_file
bytes
Memory HugePages Counter HugePages_Free - 系统当前总共拥有的空闲 HugePages 数目 /proc/meminfo HugePages_Free
HugePages_Rsvd - 系统当前总共保留的HugePages数目,更具体点就是指程序已经向系统申请,但是由于程序还没有实质的HugePages读写操作,因此系统尚未实际分配给程序的HugePages数目 /proc/meminfo HugePages_Rsvd
HugePages_Surp - 指超过系统设定的常驻HugePages数目的数目 /proc/meminfo HugePages_Surp
bytes
Memory DirectMap DirectMap1G - 映射为 1G 的内存页的内存数量
DirectMap2M - 映射为 2M 的内存页的内存数量
DirectMap4K - 映射为 4kB 的内存页的内存数量
bytes
Memory NFS NFS Unstable - 发给 NFS server 但尚未写入硬盘的缓存页 bytes
Memory Commited 当前系统已经分配的内存量,包括已分配但尚未使用的内存大小
当前系统可分配的内存量
bytes p3/p2 60%/80%
Memory Writeback an Dirty Writeback - 正准备主动回写硬盘的缓存页 /proc/meminfo Writeback
WritebackTmp - FUSE用于临时写回缓冲区的内存 /proc/meminfo WritebackTmp
Dirty - 需要写回磁盘的数据大小 /proc/meminfo Dirty
bytes
Memory Slab Reclaimable - 可回收的 slab 虚拟内存页 /proc/vmstat nr_slab_reclaimable
Unreclaimable - 不可回收的 slab 虚拟内存页 /proc/vmstat nr_slab_unreclaimable
bytes
Memory Bounce Bounce - bounce buffers 占用的内存 /proc/meminfo Bounce bytes
Memory Kernel / CPU KernelStack - 内核栈大小(常驻内存,不可回收)
PerCPU - 每个 CPU 加载模块分配的内存大小
bytes
Memory HugePages Size HugePages - 系统当前总共拥有的HugePages数目 /proc/meminfo HugePages
Hugepagesize - 每一页 HugePages 的大小 /proc/meminfo Hugepagesize
bytes
Memory Unevictable MLocked Unevictable - 不可被回收的内存 /proc/meminfo Unevictable
MLocked - 被 mlock() 系统调用锁定的内存大小 /proc/meminfo MLocked
bytes

3.5 Memory Vmstat

指标名 描述 单位 级别 参考报警阈值
Memory Pages In / Out Pagesin - 数据从硬盘读到物理内存的速率(5分钟内) /proc/vmstat pgpgin
Pagesout - 数据从物理内存写到硬盘的速率(5分钟内) /proc/vmstat pgpgout
short
Memory Page Faults Pgfault - 一级页面和二级页面的平均错误数(5分钟内) /proc/vmstat pgfault
Pgmajfault - 一级页面的平均错误数(5分钟内) /proc/vmstat pgmajfault
Pgminfault - 二级页面的平均错误数(5分钟内)
short
Memory Pages Swap In / Out Pswpin - 数据从磁盘交换区装入内存的速率(5分钟内) /proc/vmstat pswpin
Pswpout - 数据从内存转储到磁盘交换区的速率(5分钟内) /proc/vmstat pswpout
short
OOM Killer OOM Killer 调用次数 short p3 有变化就告警

3.6 System Timesync

指标名 描述 单位 级别 参考报警阈值
Time Syncronized Drift 估算误差(秒)
本地系统和参考时钟之间的时间偏移
最大误差(秒)
short
Time Syncronized Status 时钟是否与一个可靠的服务器同步
估算误差(秒)
short
Time PLL Adjust 锁相环时间调整 short
Time Misc 时钟滴答之间的秒数
国际原子时 (TAI) 偏移量
short

3.7 System Processes

指标名 描述 单位 级别 参考报警阈值
Processes Status Processes blocked - 当前被阻塞的任务的数目 /proc/stat procs_blocked
Processes in runnable state - 当前运行队列的任务的数目 /proc/stat procs_running
short p3 blocked:10
Processes Forks Processes forks second - 每秒创建的进程个数 short
PIDS Number and Limit 当前主机运行进程数
主机限制最大进程数
short p3/p2 15000/20000
Processes Memory 进程占用的虚拟内存的大小
进程可用最大虚拟内存大小
bytes
Process schedule stats Running / Waiting 启动一个进程花费的时间
CPU处理等待时间
ms
Threads Number and LImit 当前线程总数
主机最大线程数
short

3.8 System Misc

指标名 描述 单位 级别 参考报警阈值
Vontext Switches / Interrupts Context switches - CPU 的 context switch 平均次数(5分钟内)
Interrupts - 服务的平均中断总数(5分钟内)
short
Interrupts Detail 当前系统的软中断列表和对应的中断号平均中断次数(5分钟内) /proc/interrupts short
Entropy 可用于随机数生成器 short
File Descriptors 最大打开文件描述符数
打开文件描述符数
short
Schedule timeslices executed by each cpu 调度每个 CPU 执行的时间片 short
CPU time spent in user and system contexts 在用户和系统上下文中花费的 CPU 时间 short

3.9 Hardware Misc

指标名 描述 单位 级别 参考报警阈值
Hardware temperature monitor 硬件的温度监控 Celsius(℃)
Power supply 是否供电 short
Throttle colling device 冷却设备状态 short

3.10 Systemd

指标名 描述 单位 级别 参考报警阈值
Systemd Sockets sockets 已接受连接总数 short
Systemd Units State inactive - 不活跃的 Systemd 单元
failed - 失败的 Systemd 单元
deactivating - 停用的 Systemd 单元
active - 忙碌的 Systemd 单元
activating - 激活 Systemd 单元
short

3.11 Storage Disk

指标名 描述 单位 级别 参考报警阈值
Disk IOps Completed Reads completed 每个磁盘分区每秒读完成次数
Writes completed 每个磁盘分区每秒写完成次数
I/O ops/sec(iops)
Disk Average Wait Time Read wait time avg 每个磁盘读平均等待时间
Write wait time avg 每个磁盘平均写等待时间
Milliseconds(ms) p3 1s
Disk R/W Merged Read merged 每个磁盘分区每秒合并读完成次数
Write merged 每个磁盘分区每秒合并写完成次数
I/O ops/sec(iops)
Instantaneous Queue Size 瞬时队列大小, 采样时未处理的请求数。随着请求被提供给适当的结构 request_queue 而递增,随着请求完成而递减 short
Disk R/W Data Read bytes 每个磁盘分区每秒读取的字节数
Written bytes 每个磁盘分区每秒写入的字节数
bytes/sec
Average Queue Size 向设备发出的请求的平均队列长度 short
Time Spent Doing I/Os 向设备发出 I/O 请求的运行时间百分比(设备的带宽利用率)。对于串行提供请求的设备,当该值接近 100% 时,会出现设备饱和。但对于并行提供请求的设备,如 RAID 阵列和现代 SSD,这个数字并不能反映其性能限制 0-1
Disk IOps Discards completed / merged 磁盘 Discards 完成 IOps
磁盘 Discards 合并 IOps
I/O ops/sec(iops)

3.12 Storage Filesystem

指标名 描述 单位 级别 参考报警阈值
Filesystem space available 挂载的文件系统可用空间
挂载的文件系统剩余空间
挂载的文件系统占用空间
bytes p3/p2 60%/80%
File Descriptor Maximum open file descriptors - 最大打开文件描述符数
Open file descriptors - 打开文件描述符的数量
short
Filesystem in ReadOnly / Error ReadOnly 只读模式挂载的文件系统
Device error 设备错误次数
short p3
File Nodes Free Free file nodes:挂载的文件系统的 inode 剩余使用数量 short p3 60%
FIle Nodes Size File nodes total:挂载的文件系统的文件节点大小 short

3.13 NetWork Traffic

指标名 描述 单位 级别 参考报警阈值
Network traffic by Packets Receive 各个接口每秒接收的数据包总数
Transmit 各个接口每秒发送的数据包总数
packets/sec
Network Traffic Drop Receive drop 各个接口每秒接收的丢弃的数据包总数
Transmit drop 各个接口每秒发送的丢弃的数据包总数
packets/sec p3 100
Network Traffic Multicast Receive multicast 各个接口每秒接收的多播包数 packets/sec
Network Traffic Frame Receive frame 各个接口每秒接收的帧数 packets/sec
Network Traffic Colls Transmit colls 各个接口上检测到的冲突数 short
ARP Entries ARP entries 各个接口上 ARP 表中包的统计 short
Speed Speed 网卡最大带宽 bytes
Softnet Packets Processed 每个 CPU 处理的包数
Droped 每个 CPU 丢弃的包数
Network Operational Status Physical link state 每个网卡的物理连接状态 short
Network Traffic Errors Receive errors 监测到各个接口每秒接收的错误数据包总数
Rransmit errors 监测到各个接口每秒发送的错误数据包总数
packets/sec p3 100
Network Traffic Compressed Receive compressed 各个接口每秒接收的压缩数据包总数
Transmit compressed 各个接口每秒发送的压缩数据包总数
packets/sec
Network traffic Fifo Receive fifo 各个接口每秒接收的 fifo 包总数
Transmit fifo 各个接口每秒发送的 fifo 包总数
packets/sec
Network Traffic Carrier Statistic transmit_carrier 由各个接口检测到的载波损耗的数量 short
NF Contrack NF conntrack entries 跟踪连接数
NF conntrack limit
short
MTU 各个接口接收的最大数据包的值 bytes
Queue Length 各个结构传输队列长度 short
Softnet Out of Quota 各个 CPU 积压情况 0-1

3.14 Neteork Sockstat

指标名 描述 单位 级别 参考报警阈值
Sockstat TCP TCP_alloc - 已分配(已建立、已申请到 sk_buff)的 TCP 套接字数量
TCP_inuse - 正在使用(正在侦听)的 TCP 套接字数量
TCP_mem - TCP 套接字缓冲区使用量
TCP_orphan - 无主(不属于任何进程)的 TCP 连接数(无用、待销毁的 TCP socket 数)
TCP_tw - 等待关闭的 TCP 连接数
short
Sockstats FRG / RAW FRAG_inuse - 正在使用的 Frag 套接字数量
FRAG_memory - 使用的 Frag 缓冲区
RAW_inuse - 正在使用的 Raw 套接字数量
short
Sockstat Used Sockets_used - 已使用的所有协议套接字总量 short
Sockstat UDP UDPLITE_inuse - 正在使用的 UDP-Lite 套接字数量 short
Sockstat Memory Size TCP_mem_bytes - TCP 套接字缓冲区比特数
UDP_mem_bytes - UDP 套接字缓冲区比特数
bytes

3.15 Network Netstat

指标名 描述 单位 级别 参考报警阈值
Netstat IP In / Out Octets InOctets - 接收的八位字节数
OutOctets - 发送的八位字节数
short
ICPM In / Out InMsgs - 收到的消息,此计数器包括 icmpInErrors 计数的所有计数器
OutMsgs - 试图发送的消息,此计数器包括 icmpOutErrors 计数的所有计数器
short
UDP In / Out InDatagrams - 平均接收的 UDP 数据包(5分钟内)
OutDatagrams - 平均发送的 UDP 数据包(5分钟内)
short
TCP In / Out InSegs - 收到的分段,包括错误收到的分段。此计数包括在当前建立的连接上接收的分段
OutSegs - 发送的分段,包括当前连接上的分段,但不包括仅包含重新传输的八位字节的分段
short
TCP Connections CurrEstab - 当前状态为 ESTABLISHED 或 CLOSE-WAIT 的 TCP 连接数 short
TCP Direct Transition ActiveOpens - 已从 CLOSED 状态直接转换到 SYN-SENT 状态的 TCP 连接
PassiveOpens - 从 LISTEN 状态直接转换到 SYN-RCVD 状态的 TCP 连接
short
Netstat IP Forwarding Forwarding - IP 转发报文数 short
ICMP Errors InErrors-接收到且确定为具有 ICMP 特定错误的消息(错误的 ICMP 校验和、错误的长度等) short
UDP Errors InCsumErrors - 具有校验和错误的 UDP 数据包的平均数(5分钟内)
InErrors - 本机端口未监听之外的其他原因引起的 UDP 入包无法送达(应用层)的平均数(5分钟内)
RcvbufErrors - 接收缓冲区溢出的 UDP 包的平均数(5分钟内)
SndbufErrors - 发送缓冲区溢出的 UDP 包的平均数(5分钟内)
NoPorts - 未知端口接收 UDP 数据包的平均数(5分钟内)
short p3 100
TCP Errors ListenOverflows - 套接字的侦听队列溢出的次数
ListenDrops - 忽略了到 LISTEN 套接字的SYN
TCPSynRetrans - SYN-SYN/ACK 重传以中断 SYN 中的重传,快速/超时重传
RetransSegs - 重新传输的段数-也就是说,传输的 TCP 段数包含一个或多个先前传输的八位字节
InErrs - 错误接收的段(例如,错误的 TCP 校验和)
OutRsts -使用 RST 标志发送的段
short p3 100
TCP SyncCookie SyncookiesFailed - 接收的无效的 SYN cookies 的数量
SyncookiesRecv - 接收的 SYN cookies 的数量
SyncookiesSent - 发送的 SYN cookies 的数量
short

3.16 Node Exporter

指标名 描述 单位 级别 参考报警阈值
Node Exporter Scrape Time 各个收集器持续时间 seconds
Node Exporter Scrape 各个收集器正常工作数量 short

4 YMatrix Host ext

指标名 描述 单位 级别 参考报警阈值
主机五分钟负载 展示选中所有主机五分钟内负载 short
主机内存百分率 展示选中所有主机内存使用百分率 0-1
CPU 繁忙百分比 展示 CPU 繁忙百分比 0-1
磁盘 I/O 使用率 展示磁盘 I/O 利用率 0-1
剩余空间利用率 展示所选主机剩余空间利用率 0-1
发送网络流量 展示所选主机发送网络流量 bit
接收网络流量 展示所选主机接收网络流量 bit
SWAP 使用量 展示所选主机 SWAP 使用量 0-1

指标名 描述 单位 级别 参考报警阈值
net dev 网络设备状态 short
softnet_stat 展示选中所有主机内存使用百分率 short
hardirq_cpu CPU 硬件中断次数 short
hardirq_cpu_pie CPU 硬件中断次数饼图 short
hardirq_quene 各个设备硬终端次数 short
hardirq_quene_pie 各个设备硬终端次数饼图 short
softirq_rx 数据接收软件中断次数 short
softirq_rx_pie 数据接收软件中断次数饼图 short
softirq_tx 数据传输软件中断次数 short
softirq_tx_pie 数据传输软件中断次数饼图 short
ip IP 网络层协议的收发包的情况 short
udp UDP 网络协议的收发包的情况 short

5 YMatrix Database ext

指标名 描述 单位 级别 参考报警阈值
license 过期时间 LICENSE 过期剩余时间 seconds(s) p3/p2 剩余时间小于 15 天,需要告警 p3
剩余时间小于 7 天,需要告警 p2,需及时联系 YMatrix 更换 LICENSE
缺少分区策略 range 表 Range 分区表缺少配置 APM 分区策略 short p2 需要及时处理,否则数据会写入默认分区,影响性能
Range 分区表创建数 Range 分区表新建分区表延迟数 short p2 需要及时处理,否则数据会写入默认分区,影响性能
mars 表最大 runs MARS2 内部指标 short p3/p2 超过 1500 告警 p3,需要关注是否还在涨
超过 1800 告警 p2
该值达到 2039 后会导致写入缓慢,甚至不可写入
最大 block_items 值 mxgate 写入瞬时批次数 short
YMatrix 总进程数 所选主机对应 postgres 相关进程总数 short p2 防止进程数过多,否则会导致内存不够用,按需配置
重复索引数 重复索引数,不需要的索引可以考虑删除 short p3
matrixgate 连接数 mxgate 进程的连接总数 short
24 小时数据总量变化值 最近 24 小时数据变化总量 bytes
Top10 子分区数 子分区数排名前十的表,按需配置,避免子表数过多,会对查询性能有一定影响,会占用更多内存 bytes
Top10 模式大小 按模式总大小排名 Top 10 bytes
Top10 系统表大小 按系统表总大小排名 Top 10 bytes
Top10 默认分区表大小 按默认分表大小排名 Top 10 bytes p3 默认分区过大,需要告警,正常情况默认分区不应该存在数据

指标名 描述 单位 级别 参考报警阈值
mars2 表最大 runs 详情 MARS2 表 runs 趋势图 short
数据库连接详情 按数据库,客户端地址,application_name 分组 short
24 小时数据库空间变化 各个数据库 24 小时数据库大小变化 short
查询总耗时查询 各个阶段数据库查询总耗时 millsseconds(ms) p3 按需配置,总时间突变较大时需要关注
主机 YMatrix 进程趋势图 各个主机 postgres 进程总数趋势图 short

指标名 描述 单位 级别 参考报警阈值
表膨胀详情 列出 表死亡元组数/存活元组数 > 1.1 的表 short
Top 100 进程 RSS 详情 按 RSS 排序,列出 postgres 进程占用内存 top 100 short
慢查询监控 统计数据库中执行过的慢 SQL none p3
总耗时查询监控 统计 SQL 执行总耗时 millseconds(ms)
耗时统计图(秒) 统计每五分钟内执行 SQL 总耗时 millseconds(ms)
长事物指标 统计 Master/Segment 中长事物详情 none p3
锁等待信息 列出收据信息时刻,数据库锁等待详情 none p3 按需求配置,可以配置锁超过10min以上的可以告警