prometheus 实现告警邮件

2023-11-23 05:43:57

prometheus +Alertmanager实现告警邮件

首先需要安装prometheus ，如果未安装请查看 prometheus 安装

Alertmanager与Prometheus是相互分离的两个部分。Prometheus服务器根据报警规则将警报发送给Alertmanager，然后Alertmanager将silencing、inhibition、aggregation等消息通过电子邮件、PaperDuty和HipChat发送通知。

1.安装alertmanager组件

下载alertmanager组件

wget https://github.com/prometheus/alertmanager/releases/download/v0.24.0/alertmanager-0.24.0.linux-amd64.tar.gz

解压并移到指定目录

tar -zxvf alertmanager-0.24.0.linux-amd64.tar.gz

mv alertmanager-0.24.0.linux-amd64/*     /usr/local/prometheus/alert

2. 配置alertmanager.yml文件

配置alertmanager的配置文件alertmanager.yml 设置发送邮件的用户和验证码，及接收人

global:resolve_timeout: 3msmtp_smarthost: 'smtp.exmail.qq.com:465'  # 企业微信服务器地址smtp_from: 'xxx@keyou-info.com'         # 邮箱名称smtp_auth_username: 'xxx@keyou-info.com'  #邮箱账号smtp_auth_password: 'xxxxx'        #此处为验证码 不是密码smtp_hello: 'keyou-info.com'smtp_require_tls: false                      #一定为false 否则会发送失败templates:- '/usr/local/prometheus/alert/templates/*'        #邮件警告模板route:                                                              #主路由 所有警报由此进入group_by: ['env','instance','type','group','job','alertname']     #将传入警报分组的标签。默认以告警名进行分组,就是rule文件的alert值进行分组group_wait: 15s                                                   #当传入的警报创建了一组新的警报时，请至少等待多少秒发送初始通知group_interval: 5s                                                #发送第一个通知时，等待多少分钟发送一批已开始为该组触发的新警报repeat_interval: 5m                                               #如果警报已成功发送，请等待多长时间重新发送警报receiver: defaultroutes:   #子路由根据严重程度对 对邮件进行分发  该段为 严重等级为Error的警告发送给receivers中 name 为email的用户- receiver: emailgroup_wait: 10s                                                 #收到警告多久后match:                                                      severity: Error receivers:                                                          #分发邮件信息
- name: 'default'email_configs:- to: 'yangbo@keyou-info.com'send_resolved: true- name: 'email'email_configs:- to: 'xxxxx@qq.com,yangbo@keyou-info.com'                 #多个接收人 用逗号隔开send_resolved: truehtml: '{{ template "email.to.html" . }}'                 # 设定邮箱的内容模板

3.创建邮件模板

创建邮件模板目录注意与alertmanager配置文件中的路径一致

 vim /usr/local/prometheus/alert/templates/template01

设置邮件模板内容并保存

{{ define "email.to.html" }}
{{ range .Alerts }}
=========start==========<br>
告警程序: prometheus_alert<br>
告警级别: {{ .Labels.serverity }}<br>
告警类型: {{ .Labels.alertname }}<br>
故障主机: {{ .Labels.instance }}<br>
告警主题: {{ .Annotations.summary }}<br>
触发时间: {{ (.StartsAt.Add 28800e9).Format "2006-01-02 15:04:05"}} <br>               
=========end==========<br>
{{ end }}
{{ end }}

注意

触发时间: {{ (.StartsAt.Add 28800e9).Format “2006-01-02 15:04:05”}}

StartsAt.Fromat为UTC时间，比北京时间晚了8个小时需要加 28800e9

2006-01-02 15:04:05 不能改变，此处为go语言出版时间

4.启动alertmanager

检查告警配置文件

./amtool check-config alertmanager.yml

运行 alertmanager

nohup /usr/local/prometheus/alert/alertmanager &

热部署指令

curl -X POST http://localhost:9093/-/reload

alertmanager UI 界面默认端口9093，当前无告警信息
在这里插入图片描述

5.配置Prometheus 告警规则

打开Prometheus的Prometheus.yml文件添加 alertmanager 地址和告警规则

# my global config
global:scrape_interval:     15s evaluation_interval: 15s ###################  alertmanager地址 
alerting:alertmanagers:- static_configs:- targets:- '172.31.172.28:9093' #########################################   告警规则文件
rule_files:- "/usr/local/prometheus/rules.yml"#####################scrape_configs:#prometheus UI界面地址- job_name: 'prometheus'static_configs:- targets: ['localhost:9090']#监控地址- job_name: 'Linux'static_configs:- targets: ['localhost:8002']

7 .创建警告规则文件

创建并编辑告警规则文件

touch /usr/local/prometheus/rules.yml

vim /usr/local/prometheus/rules.yml

向 rules.yml文件添加告警规则，并保存

groups:
- name: 主机监控rules:- alert: TargetDownexpr: up{job="Linux"} == 0for: 15slabels:severity: Errorannotations:summary: "{{ $labels.job }} 主机已经超过 15s 未响应"description: "{{ $labels.instance }} 主机宕机"- alert: NodeFilesystemUsageexpr: 100 - (node_filesystem_free_bytes{fstype=~"ext4|xfs"} / node_filesystem_size_bytes{fstype=~"ext4|xfs"} * 100) > 80for: 1mlabels:severity: Warningannotations:Summary: "Instance {{ $labels.instance }}: {{ $labels.mountpoint }} 分区使用率过高"Description: "{{ $labels.instance }}: {{ $labels.mountpotint }} 分组使用大于 80% (当前值: {{ $value }})"

下面为常用规则，可选择性添加。

# 服务器资源告警策略
groups:
- name: 服务器资源监控rules:- alert: 内存使用率过高expr: (node_memory_Buffers_bytes+node_memory_Cached_bytes+node_memory_MemFree_bytes)/node_memory_MemTotal_bytes*100 > 85for: 5m  # 告警持续时间，超过这个时间才会发送给alertmanagerlabels:severity: Warningannotations:summary: "{{ $labels.instance }} 内存使用率过高，请尽快处理！"description: "{{ $labels.instance }}内存使用率超过85%,当前使用率{{ $value }}%."- alert: 服务器宕机expr: up == 0for: 30slabels:severity: errorannotations:summary: "{{$labels.instance}} 服务器宕机，请尽快处理！"description: "{{$labels.instance}} 服务器延时超过30秒，当前状态{{ $value }}. "- alert: CPU高负荷expr: 100 - (avg by (instance,job)(irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 85for: 5mlabels:severity: Warningannotations:summary: "{{$labels.instance}} CPU使用率过高，请尽快处理！"description: "{{$labels.instance}} CPU使用大于85%，当前使用率{{ $value }}%. "- alert: 磁盘IO性能expr: avg(irate(node_disk_io_time_seconds_total[1m])) by(instance,job)* 100 > 85for: 5mlabels:severity: Warningannotations:summary: "{{$labels.instance}} 流入磁盘IO使用率过高，请尽快处理！"description: "{{$labels.instance}} 流入磁盘IO大于85%,当前使用率{{ $value }}%."- alert: 网络流入expr: ((sum(rate (node_network_receive_bytes_total{device!~'tap.*|veth.*|br.*|docker.*|virbr*|lo*'}[5m])) by (instance,job)) / 100) > 102400for: 5mlabels:severity: Warningannotations:summary: "{{$labels.instance}} 流入网络带宽过高，请尽快处理！"description: "{{$labels.instance}} 流入网络带宽持续5分钟高于100M. RX带宽使用量{{$value}}."- alert: 网络流出expr: ((sum(rate (node_network_transmit_bytes_total{device!~'tap.*|veth.*|br.*|docker.*|virbr*|lo*'}[5m])) by (instance,job)) / 100) > 102400for: 5mlabels:severity: Warningannotations:summary: "{{$labels.instance}} 流出网络带宽过高,请尽快处理！"description: "{{$labels.instance}} 流出网络带宽持续5分钟高于100M. RX带宽使用量{$value}}."- alert: TCP连接数expr: node_netstat_Tcp_CurrEstab > 10000for: 2mlabels:severity: Warningannotations:summary: " TCP_ESTABLISHED过高！"description: "{{$labels.instance}} TCP_ESTABLISHED大于100%,当前使用率{{ $value }}%."- alert: 磁盘容量expr: 100-(node_filesystem_free_bytes{fstype=~"ext4|xfs"}/node_filesystem_size_bytes {fstype=~"ext4|xfs"}*100) > 85for: 1mlabels:severity: Warningannotations:summary: "{{$labels.mountpoint}} 磁盘分区使用率过高，请尽快处理！"description: "{{$labels.instance}} 磁盘分区使用大于85%，当前使用率{{ $value }}%."

8.加载proemthues 配置文件

检查proemthues 配置文件是否正确

/usr/local/prometheus/promtool check config /usr/local/prometheus/prometheus.yml

promethues 热部署加载配置配置文件

 curl -X POST http://localhost:9090/-/reload

9.验证告警邮件

进入prometheus 的9090 端口页面查看配置告警规则已经生效![在这里插入图片描述]模拟错误告警，关闭某节点的 node_exporter 服务

systemctl stop node_exporter.service

进入prometheus 的9090 端口页面查看监控信息

TargetDown 规则被触发，进入等待状态。在这里插入图片描述 30s后进入告警状态

查看邮件

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > ELK之elastalert告警篇
下一篇 > Prometheus 实现邮件告警

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce