普罗米修斯(prometheus)
Prometheus(普罗米修斯)监控系统
学习目标
- 能够安装 Prometheus 服务器
- 能够通过安装
node_exporter
监控远程 Linux - 能够通过安装
mysqld_exporter
监控远程 MySQL 数据库 - 能够安装 Grafana
- 能够在 Grafana 添加 Prometheus 数据源
- 能够在 Grafana 添加监控 CPU 负载的图形
- 能够在 Grafana 图形显示 MySQL 监控数据
- 能够通过 Grafana + OneAlert 实现报警
任务背景
某某某公司是一家电商网站,由于业务快速发展,需对现有机器进行业务监控,责成运维部门实施此项目。
任务要求
- 部署监控服务器,实现 7x24 实时监控。
- 设计监控系统,针对业务及研发部门设计监控项和触发器,提出合理意见。
- 问题预警机制,对可能出现的问题及时告警并形成严格处理机制。
- 告警分级系统:
- 一级报警:电话通知
- 二级报警:微信通知
- 三级报警:邮件通知
- 异地集中监控:处理服务器异地监控问题,K8S 内部使用 Prometheus。
任务分析
为什么要监控?
答:实时收集数据,通过报警及时发现问题,及时处理。数据为优化也可以
提供依据。
监控四要素:
监控对象: [主机状态 服务 资源 页面,url]
用什么监控 : [zabbix-server zabbix-agent]=>普罗米修斯监控
什么时间监控 : [7x24 5x8]
报警给谁: [管理员]
项目选型
工具 | 特点 | 官网地址 |
---|---|---|
MRTG(Multi Router Traffic Grapher) | 通过snmp协议得到设备的流量信息,并以包含PNG格式的图形的HTML文档方式显示给用户。 | |
Cacti(仙人掌) | 用php语言实现的一个软件,它的主要功能是用snmp服务获取数据,然后用rrdtool储存和更新数据。 | https://www.cacti.net/ |
ntop | :https://www.ntop.org/ | |
Nagios | 跨平台、插件多、报警功能强大 | https://www.nagios.org/ |
centreon | 底层使用的就是nagios。是一个nagios整合版软件。 | https://www.centreon.com/ |
ganglia | 设计用于测量数以千计的节点,资源消耗非常小。 | http://ganglia.info/ |
open-falcon | 小米发布的运维监控软件,高效率,高可用。时间较短,用户基数小。 | http://open-falcon.org/ |
Prometheus | 基于时间序列的容器监控解决方案,适合 Docker 和 Kubernetes | https://prometheus.io/ |
Zabbix | 跨平台、多条件告警、API 接口丰富 | https://www.zabbix.com/ |
综合分析:Prometheus比较适合公司的监控需求
一、Prometheus 概述
Prometheus(由go语言(golang)开发)是一套开源的监控&报警&时间序列数据库的组合。适合监控docker容器。因为kubernetes(俗称k8s)的流行带动了prometheus的发展。
https://prometheus.io/docs/introduction/overview/
二、时间序列数据
1、什么是序列数据
时间序列数据(TimeSeries Data) :按照时间顺序记录系统、设备状态变化
的数据被称为时序数据。
应用的场景很多,如:
- 无人驾驶车辆运行中要记录的经度,纬度,速度,方向,旁边物体的距离等等。每时每刻都要将数据记录下来做分析。
- 某一个地区的各车辆的行驶轨迹数据
- 传统证券行业实时交易数据
- 实时运维监控数据等
2、时间序列数据特点
- 性能好
1 |
|
- 存储成本低
1 |
|
3、Prometheus的主要特征
核心特性
- 多维度数据模型
- 灵活的查询语言(PromQL)
- 不依赖分布式存储,单个服务器节点是自主的
- 以HTTP方式,通过pull模型拉去时间序列数据
- Pull 模型采集数据(支持 Push 网关)**[**也可以通过中间网关支持push模型 ]
- 通过服务发现或者静态配置,来发现目标服务对象
- 支持多种多样的图表和界面展示
4.架构图
三、实验环境准备
(1)静态ip(要求能上外网)
(2)主机名
1 |
|
(3)时间同步(时间同步一定要确认一下)
1 |
|
关键参数说明
iburst
: 加快初始同步速度。rtcsync
: 将系统时间同步到硬件时钟(RTC)。allow
: 允许指定网络段的客户端同步时间。
(4)关闭防火墙,selinux
1 |
|
1、安装prometheus(141)
从https://prometheus.io/download/下载相应版本,安装到服务器上官网提供的是二进制版,解压就能用,不需要编译
1 |
|
2、prometheus界面
通过浏览器访问 http://服务器IP:9090 就可以访问到prometheus的主界面。
默认只监控了本机一台,点Status –》点Targets –》可以看到只监控了本机。
3、主机数据展示
通过http://服务器IP:9090/metrics可以查看到监控的数据
在web主界面可以通过关键字查询监控项
4、监控远程Linux主机(142)
①在远程linux主机(被监控端agent1)上安装node_exporter组件下载地址:https://prometheus.io/download/
1 |
|
扩展:nohup命令:如果把启动node_exporter的终端给关闭,那么进程也会随之关闭。nohup命令会帮你解决这个问题。
②通过浏览器访问http://被监控端IP:9100/metrics就可以查看到node_exporter在被监控端收集的监控信息
③回到prometheus服务器的配置文件里添加被监控机器的配置段
1 |
|
④回到web管理界面–》点Status –》点Targets –》可以看到多了一台监控目标
练习:加上本机prometheus的监控
答:在本机安装node_exporter,也使用上面的方式监控起来。
5、监控远程MySQL(142)
①在被管理机agent1上安装mysqld_exporter组件
下载地址:https://prometheus.io/download/
1 |
|
②回到prometheus服务器的配置文件里添加被监控的mariadb的配置段
1 |
|
③回到web管理界面–》点Status –》点Targets –》可以看到监控
mariadb了
四、Grafana可视化图形工具(143)
1、什么是Grafana
Grafana是一个开源的度量分析和可视化工具,可以通过将采集的数据分析,查询,然后进行可视化的展示,并能实现报警。
2、使用Grafana连接Prometheus
① 在grafana服务器上安装grafana
下载地址:https://grafana.com/grafana/download
1 |
|
②通过浏览器访问http:// grafana服务器IP:3000就到了登录界面,使用默认的admin用户,admin密码就可以登陆了
③下面我们把prometheus服务器收集的数据做为一个数据源添加到grafana,让grafana可以得到prometheus的数据。
④然后为添加好的数据源做图形显示
⑤保存
⑥最后在dashboard可以查看到
⑦匹配条件显示
3、Grafana图形显示MySQL监控数据
① 在grafana上修改配置文件,并下载安装mysql监控的dashboard(包含
相关json文件,这些json文件可以看作是开发人员开发的一个监控模板)
参考网址:https://github.com/percona/grafana-dashboards
1 |
|
②在grafana图形界面导入相关json文件
③点import导入后,报prometheus数据源找不到,因为这些json文件里默认要找的就是叫Prometheus的数据源,但我们前面建立的数据源却是叫
prometheus_data(坑啊)
那么请自行把原来的prometheus_data源改名为Prometheus即可(注意:
第一个字母P是大写)
然后再回去刷新,就有数据了(如下图所示)
④过段时间再看,就会有数据了(如下图所示)
4、Grafana+onealert报警
prometheus报警需要使用alertmanager这个组件,而且报警规则需要手
动编写(对运维来说不友好)。所以我这里选用grafana+onealert报警。注意:实现报警前把所有机器时间同步再检查一遍。
①先在onealert里添加grafana应用(申请onealert账号在zabbix已经讲过)
②配置通知策略
③在grafana增加通知通道
④现在可以去设置一个报警来测试了(这里以我们前面加的cpu负载监控来做测试)
⑤保存后就可以测试了
如果agent1上的cpu负载还没有到0.5,你可以试试0.1,或者运行一些程序把agent1负载调大。最终能测试报警成功。
最终的邮件报警效果:
测试mysql链接数报警:
5、总结报警不成功的可能原因
- 各服务器之间时间不同步,这样时序数据会出问题,也会造成报警出问题
- 必须写通知内容,留空内容是不会发报警的
- 修改完报警配置后,记得要点右上角的保存
- 保存配置后,需要由OK状态变为alerting状态才会报警(也就是说,你配置保存后,就已经是alerting状态是不会报警的)
- grafana与onealert通信有问题
6、课外扩展
prometheus目前还在发展中,很多相应的监控都需要开发。但在官网的
dashboard库中,也有一些官方和社区开发人员开发的dashboard可以直接拿来用。
示例:
不一定版本兼容,如果不兼容,可多试几个不同版本