Parlons de la journalisation centralisée

Cet article est une continuation du texte sur la surveillance . Ici, je propose de vous parler du rôle des logs dans l'évaluation de l'état du site observé, de voir ce qu'ils peuvent nous apporter, et aussi de poser la question - "est-il possible de séparer les logs des métriques?"





En cours de route, je reviendrai sur certaines des thèses exprimées dans la publication précédente, je vous recommande donc de vous familiariser d'abord avec celle-ci.





Parlons donc de la journalisation.





Au fait, qu'est-ce qui sera correct: la journalisation ou la journalisation? Personnellement, je penche vers la deuxième option, tout simplement parce que j'apprécie, mais je remarque que la plupart des gens préfèrent la première. Et toi?






Compte rendu

Avant de commencer un nouvel article, je veux revenir brièvement au précédent. Plusieurs sujets ont été soulevés dans les commentaires, qui, à mon avis, méritent quelques suggestions.





Tout collecter ou juste le montant minimum?

Ici, ma position est que vous devez collecter toutes les métriques que l'objet est capable de donner. Comme l'a noté @BugM, ils sont dans la base de données, ils ne demandent pas de nourriture, ils ne dérangent personne. Mais si vous ne les avez pas, mais que vous en avez soudainement eu besoin, surtout pour, disons, le mois dernier, alors rien ne peut être fait.





: « – , , , ».





ML, . , , () . , , ( ML), .





, , ?

. , , :





… ,





, , . , . , .





@sizziff .





«» , 150%, , , :





Ingénieur inondé d'alertes
,

@Dr_Wut :





— , — spf. , , . — .





, , - , – , .





- -

.





- – «» , (, …). – .





- - – , - . , – BI-.





.





.






, , , , , , , .





, , . :





– ; , :





2019-04-23 00:39:10,092  INFO  DatabaseConnector – Connection estabilished
      
      



. – . /, , , .





– ; , . API. , , Nginx:





66.249.65.62 - - [06/Nov/2014:19:12:14 +0600] "GET /?q=%E0%A6%A6%E0%A7%8B%E0%A7%9F%E0%A6%BE HTTP/1.1" 200 4356 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
      
      



. , .





– , .





: , , , , – , , , , . , , , , , .





, « ?».





– , , .





– , database_error_count. , , - , , ( ) . :





2019-04-27 00:39:10,092  ERROR  DatabaseConnector – Error connecting to database MSSQLDB – connection refused on port 1433
      
      



– .





, . , , «» , , , , , , .





, . -, , , , … !





– HTTP- , , , , , , :





, , , . Observability – .





? ? ? ? , .





:





  • (99% - API - - , - )





  • (- API)





  • ( )





. .





, HTTP – .





. :





  1. DMZ (trace ID) ; !





  2. , , -, , -,





, trace ID , – .





, :





– , :









  • ;









, – Pull Push.





Pull – ( , , ), , //- . – ; – , .





Push – / / . , , .





, , ( , ), .





– plain text, jsonl, logsft, . – , .





– , .





:





@timestamp<time>:      
application<string>:  ,    ;      
host<string>:         ,    
log_type<string>:     ; application|access|.... (     application )
trace_id<string>:      ( )
      
      



.





, :





message<string>:           
generic_message<string>:    
level<string>:              
level_value<int>:           
logger_name<string>:      ,   ( )
thread_name<string>:      ,   ( )
stack_trace<string>:      ;     -      ( )
      
      



:





status_code<int>:              
elapsed_time<int>:          ,      
requested_resource<string>:  
method<string>:              
      
      



.





, .





:





  • – NoSQL , , . , , –





  • – , - , . , ,





, , «EMERGENCY», , , , , . , «FATAL» - .





, «generic_message». .





– ( , ).





– , . :





:





Error on AMQP connection <0.12956.79> (127.0.0.1:52879 -> 127.0.0.1:5672, state: starting):
      
      



, :





Error on AMQP connection <{connection_id}> ({remote_host} -> {destination_host}, state: {connection_state}):
      
      



.





? :





  • ; , , . ,





  • ; «session_id»





  • , ( , ), ( )





. .





, . Elasticsearch, , , Loki . , - https://habr.com/ru/company/badoo/blog/507718/.





, , .





:

























, ( , ).





:





  1. - , ERROR





  2. – , ( , )





  3. , – , , ,





:





L'utilisateur surveillant se déplace de haut en bas, analysant l'incident
,

, :





  • ;





  • , ; , ,





, ?





, – , , . .





, , , – .





Peut-être que plus tard, un autre article apparaîtra, avec déjà des exemples d'utilisation de technologies et de pratiques spécifiques, dans lequel nous essaierons de mettre en œuvre ce qui a été décrit précédemment et de voir comment cela fonctionne.








All Articles