Bonjour. Aujourd'hui, nous aimerions parler de la détection d'anomalies dans un environnement de microservices. Cet article est un bref résumé de notre exposé de 40 minutes que nous avons fait lors de la conférence en ligne DevOps Live 2020 et, afin de ne pas écrire une longue lecture, nous avons décidé de nous concentrer sur un aperçu des outils de détection des anomalies dans la distribution des valeurs métriques pour automatiser la surveillance des microservices, qui peuvent être rapidement utilisés par n'importe quelle équipe. ...
Le sujet de la détection des anomalies est désormais très pertinent, car avec le passage aux microservices pour SRE et DevOps, la priorité des tâches liées à la conversion des alertes en un signal significatif, à la réduction du MTTD et à la simplification de la configuration des alertes dans la surveillance des environnements distribués a considérablement augmenté.
, , , .
"" .
, , .
?
?
, :
- latency ;
- ;
- .
"" , - , .
, :
- ;
- , ;
- «» , .
, , , ?
:
- c ;
- APM ;
- as a Service.
.
Prometheus , time series .
recording rules, , .
, , , ( " ").
, , z- (z-score) — , , .
http_requests_total, :
# - record: job:http_requests:rate5m expr: sum by (app) (rate(http_requests_total[5m]))
:
# average - - record: job:http_requests:rate5m:avg_over_time_1w expr: avg_over_time(job:http_requests:rate5m[1w]) # stddev - - record: job:http_requests:rate5m:stddev_over_time_1w expr: stddev_over_time(job:http_requests:rate5m[1w]) # z- (job:http_requests:rate5m - job:http_requests:rate5m:avg_over_time_1w ) / job:http_requests:rate5m:stddev_over_time_1w
( , latency) — , , .
— .
, .
.
, — z-.
Prometheus — PAD
Prometheus Anomaly Detector (PAD), Red Hat, , .
PAD Prometeheus , PAD recording rules, , , Prophet, .
PAD Grafana .
, proof of concept.
APM
(Application Performance Monitoring) AIOps — , , .
, .
New Relic
New Relic baseline ( ) — , EUM, .
— baseline, ( , , ).
, , , , baseline.
, .
2020 — New Relic Applied Intelligence (AI).
New Relic AI KPI .
/ .
AppDynamics
AppDynamics APM baseline KPI- .
baseline , , (, ) , baseline.
, , health rule .
, baseline health rule.
Dynatrace
Dynatrace " " , .
:
- KPI
.
Instana
Instana " " 230 "" , KPI .
latecy, error rate, traffic ( ).
E-Divisive with Medians (EDM).
, , baseline.
"" "" , .
baseline — .
EUM.
as a Service
APM , Prometheus , , SaaS .
Azure Metric Advisor
Microsoft — Azure Metric Advisor .
, , e-commerce.
(SQL Server, ElasticSearch, InfluxDB, MongoDB, MySQL, PostgreSQL ), Prometheus .
Anodot
— Prometheues -.
-, SRE .
e-commerce, gaming .
AnomalyIO
, , , , InfluxDB.
, InfluxDB, , .
- .
- – , .
- Prometheus — .
- APM AIOps, .
.