Contexte
Depuis quelques années, le marché des systèmes de surveillance est agité par l'acronyme AIOps. Tous les fournisseurs ont commencé à poursuivre l'utilisation de l'intelligence artificielle dans leurs systèmes complexes et coûteux. Les termes «analyse des causes profondes», «corrélation», «outils ML», «détection d'anomalies», «prédiction d'incidents», «réduction du bruit» sont complètement et probablement à jamais installés sur les supports marketing et les sites Web de divers systèmes de surveillance.
Comme nous le savons, les brochures publicitaires sont une chose, mais l'ingénierie de la vie quotidienne en est une autre. Probablement, beaucoup sont confrontés à une situation où les promesses des vendeurs de certaines innovations technologiques se heurtent, comme le Titanic à un iceberg, avec la pratique de la mise en œuvre, en particulier dans l'environnement informatique complexe des grandes entreprises. Par conséquent, j'ai d'abord regardé avec un grand scepticisme et je n'ai pas partagé l'enthousiasme autour de ce sujet. De plus, lorsqu'il existe des solutions en béton armé telles que Zabbix, Prometheus et Elastic. Mais le battage médiatique, le scepticisme, le scepticisme, et nous sommes toujours des ingénieurs et devrions tout vérifier et tout étudier dans la pratique, et ne pas nous demander si nous croyons ou non au «bouton magique» d'éminents fournisseurs et de startups prometteuses. Et ainsi, après une autre présentation de l'intégrateur et des promesses pour beaucoup d'argent "le paradis sur notre terre pécheresse d'ingénieurs d'exploitation" nous avons réuni un petit groupe d'initiative,qui a décidé de «ressentir» ce qu'est cette magie de l'intelligence artificielle et de l'apprentissage automatique dans notre pratique. Ainsi, des matériaux et même un petit projet animalier sont nés, que j'aimerais partager avec vous.
— , . . - . : -. — “ ”, .. , “ ”, . — “ ”.
ML- . , . - , .
. HTTP- . “”, . , downdetector , , , ;)
2020-10-14 14:00 +03:00 38 ( ), .. [2020-10-12 23:00:00 +03:00 – 2020-10-14 14:00 +03:00]. : 3612.
(threshold), , 0, 1, 179 . (. . 1: . UTC. ,
).
. 1. . UTC. , — .
, 3- , 44 (. . 2). 4 . “0110010011101010…”, , , % ( 1 ), - .
. 2. 3- . , — .
“” : - , . - , . , AI/ML.
ML?
, , Data Scientist . , , -, , 3- :
- . — , .
- , , , .
- , , "" . .. " " , , .
DetectIidSpike ML.NET. : . , . "" , . .
DetectIidSpike :
- confidence — [0, 100]. , , , , ;
- pvalueHistoryLength — p-value. - " ", .
, . HTTP- , .. . . - . , .. 5 : . , , .. . (, ), "", .
“”. , , , (), «» ( ). 5 . , websockets , . , ( kubernetes ).
(confidence: 95, pvalueHistoryLength: 5), 36 . , , .. . , 24 . (, ).
. 3. (confidence: 95, pvalueHistoryLength: 5) , —
(. 3), , . , , ( ).
. 4 pvalueHistoryLength=12 confidence: 98. : 14 .
. 4. (confidence: 98, pvalueHistoryLength: 12)
, DetectIidSpike (24 44) 3 , 7,5 (24 179) . , , . , ML . , :)
P.S.: ML, -, . .
PPS: Ci-dessous, je donnerai quelques captures d'écran supplémentaires de notre projet animalier avec les données réelles des contrôles effectués et les anomalies générées. Vous pouvez voir l'efficacité ou l'inefficacité (pour qui comment) l'algorithme fonctionne (cercle jaune - anomalies à l'intervalle sélectionné).