prometheus-alertmanager相关内容

普罗米修斯无指标清除警报

我们使用普罗米修斯来观察我们自己的应用程序的指标。我们应用程序的API提供了一个向普罗米修斯提供指标的端点。普罗米修斯每30秒收集一次信息。 基于这些指标,我们定义了一些警报,这些警报触发到AlertManager,然后触发电子邮件警报、松弛消息或显示在Alerta中。 我们的应用程序有时无法交付指标,而普罗米修斯刮板程序在超时运行。每当在这种时刻缺少指标时,相应的警报就会被清除(在电子邮 ..
发布时间:2022-08-09 18:11:04 其他开发

如何使用配置文件使普罗米修斯警报管理器静默?

我使用的是官方stable/prometheus-operator部署普罗米修斯和舵机的图表。 到目前为止,它运行良好,除了令人讨厌的CPUThrottlingHigh警报正在为许多吊舱(包括自己的普罗米修斯config-reloaders containers)发出警报。此警报currently under discussion,我想暂时将其通知静默。 警报管理器有一个silence ..

如何找到Kafka消息的处理时间?

我有一个运行 Kafka 消费者的应用程序,我想监控从该主题消费的每条消息的处理时间.该应用程序是一个 Spring 启动应用程序,并使用微米注册表将 Kafka 消费者指标公开给 Spring Actuator Prometheus 端点.我可以使用 kafka_consumer_commit_latency_avg_seconds 或 kafka_consumer_commit_latency ..

如何找到Kafka消息的处理时间?

我有一个运行 Kafka 消费者的应用程序,我想监控从该主题消费的每条消息的处理时间.该应用程序是一个 Spring 启动应用程序,并使用微米注册表将 Kafka 消费者指标公开给 Spring Actuator Prometheus 端点.我可以使用 kafka_consumer_commit_latency_avg_seconds 或 kafka_consumer_commit_latency ..

普罗米修斯警报名称正则表达式

我想拥有所有磁盘警报 grom prometheux 警报管理器,所以我将此代码放在 config.yml 上, 我的代码是: 路线:接收器:火箭聊天group_wait:30sgroup_interval:5m重复间隔:3hgroup_by: ['alertname']路线:- 比赛:严重性:严重环境:内部警报名称:'*.Disk.*'接收器:火箭聊天继续:真的 我不知道为什么那不起作 ..
发布时间:2021-06-22 19:15:36 其他开发

警报管理器中许多主机的警报缺失指标

我有很多服务器使用 Prometheus 进行监控,每个主机都有相同的指标. 我需要一个警报规则,当特定主机上的特定指标(例如 some_metrics)在 5 米后丢失时发出警报. 我检查了 absent 和 absent_over_time 但这些函数不会返回缺失指标的标签,例如 ip 或 hostname. 另外我应该声明我不想为每个主机创建规则. 我已经搜索过了,但 ..
发布时间:2021-06-22 19:15:21 其他开发

如何创建查询以监控 docker 容器一天运行了多少分钟

我正在尝试监控 docker 容器,但是在进行查询以监控容器一天运行的分钟数时遇到问题 count(rate(container_last_seen{id=~"/docker/.*",instance=~"$node"}[1d])) 这是我的查询,用于显示一天运行多少个容器,但我不知道监控容器一天运行多少分钟 解决方案 如果您知道 container_last_seen 指标的数据点之 ..
发布时间:2021-06-22 19:15:18 其他开发

如何使用 Prometheus 警报规则检测新指标

假设我有一个用户指标 request_failures.对于每个用户,我都会为指标添加一个唯一的标签值.因此,对于用户 u1,当请求失败两次时,我会得到以下指标: request_failures{user_name=“u1"} 2 我还有一个规则,当出现新的故障时会触发.其表达式为: 增加(request_failures[1m]) >0 这适用于已经遇到故障的用户.例如,当 u1 遇 ..
发布时间:2021-06-22 19:15:16 其他开发

Prometheus Docker 无法以`Template: (dynamic): parse: template: :10: undefined variable "$labels"`开头

我正在尝试在 Nomad 上运行 Prometheus.一切看起来都很好,但是当我在 annotations 中添加带有模板的警报规则时,它失败了. 这是一个简单的警报规则: 组:- 名称:alertmanager.rules规则:- 警报:AlertmanagerDownexpr: up{job="alertmanager"} == 0为:1s标签:严重性:严重注释:描述:“{{ $la ..
发布时间:2021-06-22 19:15:10 其他开发

如何在特定时间暂停普罗米修斯警报

我遇到了 Prometheus 内存警报的一些问题.如果我备份 Gitlab,那么内存使用率将高达​​ 95%.我想在特定时间暂停内存警报. 例如如果我在凌晨 2 点进行备份,那么我需要暂停 Prometheus 内存警报.可能吗? 解决方案 正如 Marcelo 所说,没有办法安排静音,但如果定期进行备份(比如每天凌晨 2 点到 3 点),您可以将其包含在警报表达式中. - 警报 ..
发布时间:2021-06-22 19:14:38 其他开发

Prometheus警报管理器不发送警报k8s

我正在使用Prometheus运算符0.3.4和警报管理器0.20,但它不起作用,即我看到警报被触发(在Alert选项卡上的Prometheus UI上),但是我没有收到电子邮件的任何警报.通过查看日志,我看到以下内容,您知道吗?请以粗体显示警告,也许是原因,但不确定如何解决... 这是我使用的普罗米修斯算子的掌舵人: https://github.com/helm/charts/tree/ ..

在Docker容器容器出现错误或CarshLoopBackOff kubernetes时发出警报

我在AWS上安装了kubernetes集群,试图使用cAdvisor + Prometheus + Alert Manager监视多个Pod.如果容器/吊舱掉落或卡在Error或CarshLoopBackOff状态或stcuk除运行之外的任何其他状态下,我要执行的操作将启动电子邮件警报(带有服务/容器名称). 解决方案 Prometheus收集它包含可以在警报中使用的标签: cont ..
发布时间:2020-04-26 13:28:11 其他开发