Identification des anomalies dans l'architecture de microservices - Présentation des outils DevOps et SRE

Bonjour. Aujourd'hui, nous aimerions parler de la détection d'anomalies dans un environnement de microservices. Cet article est un bref résumé de notre exposé de 40 minutes que nous avons fait lors de la conférence en ligne DevOps Live 2020 et, afin de ne pas écrire une longue lecture, nous avons décidé de nous concentrer sur un aperçu des outils de détection des anomalies dans la distribution des valeurs métriques pour automatiser la surveillance des microservices, qui peuvent être rapidement utilisés par n'importe quelle équipe. ...







Le sujet de la détection des anomalies est désormais très pertinent, car avec le passage aux microservices pour SRE et DevOps, la priorité des tâches liées à la conversion des alertes en un signal significatif, à la réduction du MTTD et à la simplification de la configuration des alertes dans la surveillance des environnements distribués a considérablement augmenté.













, , , .

"" .







, , .







?

?







, :







  • latency ;
  • ;
  • .


"" , - , .







, :







  • ;
  • , ;
  • «» , .


, , , ?







:







  • c ;
  • APM ;
  • as a Service.


.









, Python R.







Prometheus , time series .

recording rules, , .







, , , ( " ").







, , z- (z-score) — , , .







http_requests_total, :







#    
- record: job:http_requests:rate5m
  expr: sum by (app) (rate(http_requests_total[5m]))

      
      





:







# average -   
- record: job:http_requests:rate5m:avg_over_time_1w
expr: avg_over_time(job:http_requests:rate5m[1w])

# stddev -  
- record: job:http_requests:rate5m:stddev_over_time_1w
expr: stddev_over_time(job:http_requests:rate5m[1w])

# z-
(job:http_requests:rate5m - job:http_requests:rate5m:avg_over_time_1w
) /  job:http_requests:rate5m:stddev_over_time_1w
      
      





Anomalie simple







( , latency) — , , .







— .







, .







.







, — z-.







Prédiction saisonnière







recording rules Prometheus .







Prometheus — PAD



Prometheus Anomaly Detector (PAD), Red Hat, , .







PAD Prometeheus , PAD recording rules, , , Prophet, .







Architecture PAD







PAD Grafana .







Architecture PAD







, proof of concept.







APM



(Application Performance Monitoring) AIOps — , , .







, .







New Relic



New Relic baseline ( ) — , EUM, .







— baseline, ( , , ).

, , , , baseline.







, .







Nouvelle relique - définition de la stratégie d'alerte en cas d'écart par rapport à la ligne de base







2020 — New Relic Applied Intelligence (AI).







New Relic AI KPI .







/ .







New Relic Applied Intelligence - Détection des anomalies dans les métriques sur plusieurs applications







AppDynamics



AppDynamics APM baseline KPI- .







baseline , , (, ) , baseline.







AppDynamics - paramètre de base







, , health rule .







, baseline health rule.







AppDynamics - définition d'une stratégie d'alerte en cas d'écart par rapport à la ligne de base







Dynatrace



Dynatrace " " , .







Dynatrace - signal de diminution du trafic







:







  • KPI


.







Dynatrace - Configuration







Dynatrace - Configuration







Instana



Instana " " 230 "" , KPI .







latecy, error rate, traffic ( ).







Instana - une liste de règles qui utilisent l'algorithme EDM pour détecter les anomalies







E-Divisive with Medians (EDM).







Instana - la règle a détecté une anomalie dans la métrique







, , baseline.

"" "" , .







baseline — .







EUM.







Instana - Constructeur de politique d'alerte basé sur des métriques de base EUM







as a Service



APM , Prometheus , , SaaS .







Azure Metric Advisor



Microsoft — Azure Metric Advisor .







, , e-commerce.

(SQL Server, ElasticSearch, InfluxDB, MongoDB, MySQL, PostgreSQL ), Prometheus .







Interface Azure Metric Advisor







Anodot



— Prometheues -.







-, SRE .







e-commerce, gaming .







Anodot







AnomalyIO



, , , , InfluxDB.







, InfluxDB, , .







Anodot









  • .
  • – , .
  • Prometheus — .
  • APM AIOps, .


.








All Articles