prometheus-alertmanager相关内容
我们使用普罗米修斯来观察我们自己的应用程序的指标。我们应用程序的API提供了一个向普罗米修斯提供指标的端点。普罗米修斯每30秒收集一次信息。 基于这些指标,我们定义了一些警报,这些警报触发到AlertManager,然后触发电子邮件警报、松弛消息或显示在Alerta中。 我们的应用程序有时无法交付指标,而普罗米修斯刮板程序在超时运行。每当在这种时刻缺少指标时,相应的警报就会被清除(在电子邮
..
我要在普罗米修斯警报管理器中设置必须在给定时间之间触发的警报 例如:在09:15至15:30之间检查情况 推荐答案 普罗米修斯中的警报是定期评估的,您无法真正为其设置计划。 我认为可以通过一些宣传功夫来获得它: scalar(clamp(hour() > 9 and hour() hour() > 9 and
..
我使用的是官方stable/prometheus-operator部署普罗米修斯和舵机的图表。 到目前为止,它运行良好,除了令人讨厌的CPUThrottlingHigh警报正在为许多吊舱(包括自己的普罗米修斯config-reloaders containers)发出警报。此警报currently under discussion,我想暂时将其通知静默。 警报管理器有一个silence
..
我有一个运行 Kafka 消费者的应用程序,我想监控从该主题消费的每条消息的处理时间.该应用程序是一个 Spring 启动应用程序,并使用微米注册表将 Kafka 消费者指标公开给 Spring Actuator Prometheus 端点.我可以使用 kafka_consumer_commit_latency_avg_seconds 或 kafka_consumer_commit_latency
..
我有一个运行 Kafka 消费者的应用程序,我想监控从该主题消费的每条消息的处理时间.该应用程序是一个 Spring 启动应用程序,并使用微米注册表将 Kafka 消费者指标公开给 Spring Actuator Prometheus 端点.我可以使用 kafka_consumer_commit_latency_avg_seconds 或 kafka_consumer_commit_latency
..
我想拥有所有磁盘警报 grom prometheux 警报管理器,所以我将此代码放在 config.yml 上, 我的代码是: 路线:接收器:火箭聊天group_wait:30sgroup_interval:5m重复间隔:3hgroup_by: ['alertname']路线:- 比赛:严重性:严重环境:内部警报名称:'*.Disk.*'接收器:火箭聊天继续:真的 我不知道为什么那不起作
..
我有很多服务器使用 Prometheus 进行监控,每个主机都有相同的指标. 我需要一个警报规则,当特定主机上的特定指标(例如 some_metrics)在 5 米后丢失时发出警报. 我检查了 absent 和 absent_over_time 但这些函数不会返回缺失指标的标签,例如 ip 或 hostname. 另外我应该声明我不想为每个主机创建规则. 我已经搜索过了,但
..
我正在尝试监控 docker 容器,但是在进行查询以监控容器一天运行的分钟数时遇到问题 count(rate(container_last_seen{id=~"/docker/.*",instance=~"$node"}[1d])) 这是我的查询,用于显示一天运行多少个容器,但我不知道监控容器一天运行多少分钟 解决方案 如果您知道 container_last_seen 指标的数据点之
..
假设我有一个用户指标 request_failures.对于每个用户,我都会为指标添加一个唯一的标签值.因此,对于用户 u1,当请求失败两次时,我会得到以下指标: request_failures{user_name=“u1"} 2 我还有一个规则,当出现新的故障时会触发.其表达式为: 增加(request_failures[1m]) >0 这适用于已经遇到故障的用户.例如,当 u1 遇
..
我正在尝试在 Nomad 上运行 Prometheus.一切看起来都很好,但是当我在 annotations 中添加带有模板的警报规则时,它失败了. 这是一个简单的警报规则: 组:- 名称:alertmanager.rules规则:- 警报:AlertmanagerDownexpr: up{job="alertmanager"} == 0为:1s标签:严重性:严重注释:描述:“{{ $la
..
在我的 prometheus.yml 中,规则文件名为 rules.yml,它有这个 ---团体:- 名称:示例规则:- 警报:ServiceDown表达式:向上 == 0为:2m标签:严重性:严重注释:总结:无法连接到 {{ $labels.job }} 当我运行 sudo ./promtool check config rules.yml 我得到错误 检查规则.yml失败:解析 YAML
..
我遇到了 Prometheus 内存警报的一些问题.如果我备份 Gitlab,那么内存使用率将高达 95%.我想在特定时间暂停内存警报. 例如如果我在凌晨 2 点进行备份,那么我需要暂停 Prometheus 内存警报.可能吗? 解决方案 正如 Marcelo 所说,没有办法安排静音,但如果定期进行备份(比如每天凌晨 2 点到 3 点),您可以将其包含在警报表达式中. - 警报
..
我正在使用Prometheus运算符0.3.4和警报管理器0.20,但它不起作用,即我看到警报被触发(在Alert选项卡上的Prometheus UI上),但是我没有收到电子邮件的任何警报.通过查看日志,我看到以下内容,您知道吗?请以粗体显示警告,也许是原因,但不确定如何解决... 这是我使用的普罗米修斯算子的掌舵人: https://github.com/helm/charts/tree/
..
我有一个像这样的普罗米修斯警报: - alert: NginxCrashLoop annotations: description: Nginx at {{ $labels.pod }} is in Crash Loop identifier: '{{ $labels.node }}' runbook_url: https://sites.google.com/a
..
我正在尝试使用以下自定义conf文件向docker加载prometheus: danilo @ machine:/prometheus-data/prometheus.yml : global: scrape_interval: 15s # By default, scrape targets every 15 seconds. # Attach these labels to
..
我已经在Centos上配置了普罗米修斯,版本详细信息如下. prometheus-2.5.0.linux-386 我在prometheus.yml配置文件上添加了两个目标,所有服务器节点导出器都在运行.配置如下, scrape_configs: - job_name: "node" scrape_interval: "15s" target_groups
..
我下载的普罗米修斯版本是2.3.2 wget https://github.com/prometheus/prometheus/releases/download/v2.3.2/prometheus-2.3.2.linux-amd64.tar.gz 未经处理,普罗米修斯已作为服务运行. 我想使用promtool验证我的Prometheus警报管理器规则. 从博客下面创建了一条规则.
..
我对监控世界有点新手.这是我的问题. 我只想根据资产ID对一组资产发出警报. 我的指标如下所示. test_value{asset_id="123"} 0.215 我的警报管理器规则如下所示. name: iot_rules rules: - alert: threshhold_alert expr: test_value >= 4 #for:
..
我在集群中设置了kube-prometheus( https ://github.com/coreos/prometheus-operator/tree/master/contrib/kube-prometheus ).它包含一些默认警报,例如"CoreDNSdown等".如何创建我自己的警报? 任何人都可以向我提供示例示例来创建警报,该警报会将电子邮件发送到我的gmail帐户吗? 我
..
我在AWS上安装了kubernetes集群,试图使用cAdvisor + Prometheus + Alert Manager监视多个Pod.如果容器/吊舱掉落或卡在Error或CarshLoopBackOff状态或stcuk除运行之外的任何其他状态下,我要执行的操作将启动电子邮件警报(带有服务/容器名称). 解决方案 Prometheus收集它包含可以在警报中使用的标签: cont
..