普罗米修斯(prometheus)

Prometheus(普罗米修斯)监控系统

学习目标

  • 能够安装 Prometheus 服务器
  • 能够通过安装 node_exporter 监控远程 Linux
  • 能够通过安装 mysqld_exporter 监控远程 MySQL 数据库
  • 能够安装 Grafana
  • 能够在 Grafana 添加 Prometheus 数据源
  • 能够在 Grafana 添加监控 CPU 负载的图形
  • 能够在 Grafana 图形显示 MySQL 监控数据
  • 能够通过 Grafana + OneAlert 实现报警

任务背景

某某某公司是一家电商网站,由于业务快速发展,需对现有机器进行业务监控,责成运维部门实施此项目。


任务要求

  1. 部署监控服务器,实现 7x24 实时监控。
  2. 设计监控系统,针对业务及研发部门设计监控项和触发器,提出合理意见。
  3. 问题预警机制,对可能出现的问题及时告警并形成严格处理机制。
  4. 告警分级系统
    • 一级报警:电话通知
    • 二级报警:微信通知
    • 三级报警:邮件通知
  5. 异地集中监控:处理服务器异地监控问题,K8S 内部使用 Prometheus。

任务分析

为什么要监控?
答:实时收集数据,通过报警及时发现问题,及时处理。数据为优化也可以
提供依据。
监控四要素:

​ 监控对象: [主机状态 服务 资源 页面,url]

​ 用什么监控 : [zabbix-server zabbix-agent]=>普罗米修斯监控

​ 什么时间监控 : [7x24 5x8]

​ 报警给谁: [管理员]

项目选型

工具 特点 官网地址
MRTG(Multi Router Traffic Grapher) 通过snmp协议得到设备的流量信息,并以包含PNG格式的图形的HTML文档方式显示给用户。
Cacti(仙人掌) 用php语言实现的一个软件,它的主要功能是用snmp服务获取数据,然后用rrdtool储存和更新数据。 https://www.cacti.net/
ntop :https://www.ntop.org/
Nagios 跨平台、插件多、报警功能强大 https://www.nagios.org/
centreon 底层使用的就是nagios。是一个nagios整合版软件。 https://www.centreon.com/
ganglia 设计用于测量数以千计的节点,资源消耗非常小。 http://ganglia.info/
open-falcon 小米发布的运维监控软件,高效率,高可用。时间较短,用户基数小。 http://open-falcon.org/
Prometheus 基于时间序列的容器监控解决方案,适合 Docker 和 Kubernetes https://prometheus.io/
Zabbix 跨平台、多条件告警、API 接口丰富 https://www.zabbix.com/

综合分析:Prometheus比较适合公司的监控需求


一、Prometheus 概述

Prometheus(由go语言(golang)开发)是一套开源的监控&报警&时间序列数据库的组合。适合监控docker容器。因为kubernetes(俗称k8s)的流行带动了prometheus的发展。
https://prometheus.io/docs/introduction/overview/

二、时间序列数据

1、什么是序列数据

时间序列数据(TimeSeries Data) :按照时间顺序记录系统、设备状态变化
的数据被称为时序数据。
应用的场景很多,如:

  • 无人驾驶车辆运行中要记录的经度,纬度,速度,方向,旁边物体的距离等等。每时每刻都要将数据记录下来做分析。
  • 某一个地区的各车辆的行驶轨迹数据
  • 传统证券行业实时交易数据
  • 实时运维监控数据等

2、时间序列数据特点

  • 性能好
1
2
关系型数据库对于大规模数据的处理性能糟糕。NOSQL可以比较好的处理
大规模数据,让依然比不上时间序列数据库。
  • 存储成本低
1
2
3
高效的压缩算法,节省存储空间,有效降低IO
Prometheus有着非常高效的时间序列数据存储方法,每个采样数据仅仅占用3.5byte左右空间,上百万条时间序列,30秒间隔,保留60天,大概花了
200多G(来自官方数据)

3、Prometheus的主要特征

核心特性

  • 多维度数据模型
  • 灵活的查询语言(PromQL)
  • 不依赖分布式存储,单个服务器节点是自主的
  • 以HTTP方式,通过pull模型拉去时间序列数据
  • Pull 模型采集数据(支持 Push 网关)**[**也可以通过中间网关支持push模型 ]
  • 通过服务发现或者静态配置,来发现目标服务对象
  • 支持多种多样的图表和界面展示

4.架构图

三、实验环境准备

(1)静态ip(要求能上外网)

(2)主机名

1
2
3
4
5
6
7
各自配置好主机名
#hostnamectlset-hostname--staticserver.cluster.com
三台都互相绑定IP与主机名
#vim/etc/hosts
10.1.1.13 server.cluster.com
10.1.1.14 agent1.cluster.com
10.1.1.15 grafana.cluster.com

(3)时间同步(时间同步一定要确认一下)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
#查看当前时区
timedatectl

#时区不一致时,时区改为亚洲上海
timedatectl set-timezone Asia/Shanghai

############# Chrony服务(联网时进行时间校正) ################
# 1.安装
yum intall chrony

# 2.配置修改
vim /etc/chrony.conf

######### 常见配置示例 ##########
# 使用阿里云NTP服务器(国内推荐)
server ntp.aliyun.com iburst
# 使用腾讯云NTP服务器
server ntp.tencent.com iburst
# 使用公共NTP池
pool pool.ntp.org iburst

# 允许其他客户端同步时间(可选)
# allow 192.168.135.0/24

# 启用硬件时间同步
rtcsync

# 记录时间偏差日志
logdir /var/log/chrony

##############################

# 3.设置开机自启
systemctl enable chronyd
# 4.重启服务
systemctl restart chronyd
# 5.查看状态
systemctl status chronyd
# 6.验证同步情况
chronyc sources -v
# 7.查看本机时间
date

# 查看硬件时间
hwclock --show
# 修改硬件时间
hwclock --set --date '20250521 14:38:09'
hwclock -w //将系统时间同步到硬件时间,或者输入 hwclock --systohc
hwclock -s //将硬件时间同步到系统时间

关键参数说明

  • iburst: 加快初始同步速度。
  • rtcsync: 将系统时间同步到硬件时钟(RTC)。
  • allow: 允许指定网络段的客户端同步时间。

(4)关闭防火墙,selinux

1
2
3
# systemctl stop firewalld
# systemctl disable firewalld
# iptables-F

1、安装prometheus(141)

https://prometheus.io/download/下载相应版本,安装到服务器上官网提供的是二进制版,解压就能用,不需要编译

1
2
3
4
5
6
7
8
[root@server~]#tar xf prometheus-2.5.0.linux-amd64.tar.gz -C /usr/local/
[root@server~]#mv /usr/local/prometheus-2.5.0.linux-amd64/ /usr/local/prometheus

直接使用默认配置文件启动
[root@server~]#/usr/local/prometheus/prometheus --config.file="/usr/local/prometheus/prometheus.yml"

确认端口(9090)
[root@server~]#lsof-i:9090

2、prometheus界面

通过浏览器访问 http://服务器IP:9090 就可以访问到prometheus的主界面。

默认只监控了本机一台,点Status –》点Targets –》可以看到只监控了本机。

3

3、主机数据展示

通过http://服务器IP:9090/metrics可以查看到监控的数据

在web主界面可以通过关键字查询监控项

4

4、监控远程Linux主机(142)

①在远程linux主机(被监控端agent1)上安装node_exporter组件下载地址:https://prometheus.io/download/

1
2
3
4
5
6
[root@agent1~]#tar xf node_exporter-0.16.0.linux-amd64.tar.gz -C /usr/local/
[root@agent1~]#mv /usr/local/node_exporter-0.16.0.linux-amd64/ /usr/local/node_exporter
# 里面就一个启动命令node_exporter,可以直接使用此命令启动
[root@agent1~]#ls /usr/local/node_exporter/
LICENSE node_exporter NOTICE
[root@agent1~]#nohup sh /usr/local/node_exporter/node_exporter &

扩展:nohup命令:如果把启动node_exporter的终端给关闭,那么进程也会随之关闭。nohup命令会帮你解决这个问题。
②通过浏览器访问http://被监控端IP:9100/metrics就可以查看到node_exporter在被监控端收集的监控信息

③回到prometheus服务器的配置文件里添加被监控机器的配置段

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
# 在主配置文件最后加上下面三行
[root@server~]#vim/usr/local/prometheus/prometheus.yml
-job_name:'agent1'
表被监控的机器 # 取一个job名称来代表被监控的机器
static_configs:
-targets:['10.1.1.14:9100'] # 这里改成被监控机器
的IP,后面端口接9100

# 改完配置文件后,重启服务
[root@server~]#pkill prometheus
[root@server~]#lsof-i:9090 # 确认端口没有进程占用

[root@server~]#/usr/local/prometheus/prometheus --config.file="/usr/local/prometheus/prometheus.yml"

[root@server~]#lsof-i:9090 # 确认端口被占用,说明重启成功

④回到web管理界面–》点Status –》点Targets –》可以看到多了一台监控目标

练习:加上本机prometheus的监控
答:在本机安装node_exporter,也使用上面的方式监控起来。

5、监控远程MySQL(142)

①在被管理机agent1上安装mysqld_exporter组件

下载地址:https://prometheus.io/download/

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
# 安装mysqld_exporter组件
[root@agent1~]# tar xf mysqld_exporter-0.11.0.linux-amd64.tar.gz -C /usr/local/
[root@agent1~]#mv /usr/local/mysqld_exporter-0.11.0.linux-amd64/ /usr/local/mysqld_exporter
[root@agent1~]#ls /usr/local/mysqld_exporter/
LICENSE mysqld_exporter NOTICE
# 安装mariadb数据库,并授权
[root@agent1~]#yum install mariadb-server mariadb -y
[root@agent1~]#systemctl restart mariadb
[root@agent1~]#systemctl enable mariadb
[root@agent1~]#mysql
# 创建用户,并设置密码
MariaDB[(none)]>CREATE USER 'mysql_monitor'@'localhost' IDENTIFIED BY '123';
# 给用户授权
MariaDB[(none)]>GRANT SELECT, REPLICATION CLIENT, PROCESS ON *.* TO 'mysql_monitor'@'localhost';

(注意:授权ip为localhost,因为不是prometheus服务器来直接找mariadb
获取数据,而是prometheus服务器找mysql_exporter,mysql_exporter
再找mariadb。所以这个localhost是指的mysql_exporter的IP)

# 刷新权限
MariaDB[(none)]>flush privileges;
MariaDB[(none)]>quit

# 创建一个mariadb配置文件,写上连接的用户名与密码(和上面的授权的用户名和密码要对应)
[root@agent1~]#vim /usr/local/mysqld_exporter/.my.cnf
[client]
user=mysql_monitor
password=123

# 启动mysqld_exporter
[root@agent1~]#nohup
/usr/local/mysqld_exporter/mysqld_exporter --config.my-cnf=/usr/local/mysqld_exporter/.my.cnf&
确认端口(9104)
[root@agent1~]#lsof -i :9104

②回到prometheus服务器的配置文件里添加被监控的mariadb的配置段

1
2
3
4
5
6
7
8
9
10
11
12
在主配置文件最后再加上下面三行
[root@server~]#vim /usr/local/prometheus/prometheus.yml

-job_name:'agent1_mariadb' # 取一个job名称来代表被监控的mariadb
static_configs:
-targets:['10.1.1.14:9104'] # 这里改成被监控机器的IP,后面端口接9104

改完配置文件后,重启服务
[root@server~]#pkill prometheus
[root@server~]#lsof -i:9090
[root@server~]#/usr/local/prometheus/prometheus --config.file="/usr/local/prometheus/prometheus.yml"
[root@server~]#lsof -i:9090

③回到web管理界面–》点Status –》点Targets –》可以看到监控
mariadb了

5

6

四、Grafana可视化图形工具(143)

1、什么是Grafana

Grafana是一个开源的度量分析和可视化工具,可以通过将采集的数据分析,查询,然后进行可视化的展示,并能实现报警。

7

网址:https://grafana.com/

2、使用Grafana连接Prometheus

① 在grafana服务器上安装grafana
下载地址:https://grafana.com/grafana/download

1
2
3
4
5
6
7
# 我这里选择的rpm包,下载后直接rpm-ivh安装就OK
[root@grafana~]#rpm -ivh /root/Desktop/grafana-5.3.4-1.x86_64.rpm
# 启动服务
[root@grafana~]#systemctl start grafana-server
[root@grafana~]#systemctl enable grafana-server
# 确认端口(3000)
[root@grafana~]#lsof -i :3000

②通过浏览器访问http:// grafana服务器IP:3000就到了登录界面,使用默认的admin用户,admin密码就可以登陆了

8

③下面我们把prometheus服务器收集的数据做为一个数据源添加到grafana,让grafana可以得到prometheus的数据。

9

10

④然后为添加好的数据源做图形显示

11

12

13

14

⑤保存

15

⑥最后在dashboard可以查看到

16

⑦匹配条件显示

17

3、Grafana图形显示MySQL监控数据

① 在grafana上修改配置文件,并下载安装mysql监控的dashboard(包含
相关json文件,这些json文件可以看作是开发人员开发的一个监控模板)
参考网址:https://github.com/percona/grafana-dashboards

1
2
3
4
5
6
7
8
9
10
11
12
13
# 在grafana配置文件里最后加上以下三行
[root@grafana~]#vim /etc/grafana/grafana.ini

[dashboards.json]
enabled=true
path=/var/lib/grafana/dashboards

[root@grafana~]#cd /var/lib/grafana/
[root@grafanagrafana]#git clone https://github.com/percona/grafana-dashboards.git
[root@grafanagrafana]#cp -r grafana-dashboards/dashboards/ /var/lib/grafana/

# 重启grafana服务
[root@grafanagrafana]#systemctl restart grafana-server

②在grafana图形界面导入相关json文件

18

③点import导入后,报prometheus数据源找不到,因为这些json文件里默认要找的就是叫Prometheus的数据源,但我们前面建立的数据源却是叫
prometheus_data(坑啊)
那么请自行把原来的prometheus_data源改名为Prometheus即可(注意:
第一个字母P是大写)
然后再回去刷新,就有数据了(如下图所示)

19

④过段时间再看,就会有数据了(如下图所示)

20

4、Grafana+onealert报警

prometheus报警需要使用alertmanager这个组件,而且报警规则需要手
动编写(对运维来说不友好)。所以我这里选用grafana+onealert报警。注意:实现报警前把所有机器时间同步再检查一遍。

①先在onealert里添加grafana应用(申请onealert账号在zabbix已经讲过)

21

②配置通知策略

22

③在grafana增加通知通道

23

24

④现在可以去设置一个报警来测试了(这里以我们前面加的cpu负载监控来做测试)

25

26

⑤保存后就可以测试了
如果agent1上的cpu负载还没有到0.5,你可以试试0.1,或者运行一些程序把agent1负载调大。最终能测试报警成功。

27

最终的邮件报警效果:

28

测试mysql链接数报警:

29

30

31

5、总结报警不成功的可能原因

  1. 各服务器之间时间不同步,这样时序数据会出问题,也会造成报警出问题
  2. 必须写通知内容,留空内容是不会发报警的
  3. 修改完报警配置后,记得要点右上角的保存
  4. 保存配置后,需要由OK状态变为alerting状态才会报警(也就是说,你配置保存后,就已经是alerting状态是不会报警的)
  5. grafana与onealert通信有问题

6、课外扩展

prometheus目前还在发展中,很多相应的监控都需要开发。但在官网的
dashboard库中,也有一些官方和社区开发人员开发的dashboard可以直接拿来用。

32

示例:

33

不一定版本兼容,如果不兼容,可多试几个不同版本


普罗米修斯(prometheus)
https://bote798.top/2025/05/16/普罗米修斯-prometheus/
作者
bote798
发布于
2025年5月16日
许可协议