"Le but de SRE est un système fiable." Vue d'ensemble des métriques SRE de base

L'ingénierie de fiabilité de site (SRE) est une forme de mise en œuvre DevOps. L'approche SRE est née chez Google et est devenue populaire parmi les entreprises informatiques d'épicerie après la publication du livre du même nom en 2016.



Dans cet article, nous décrirons comment l'approche SRE est liée au DevOps, quelles tâches un ingénieur SRE résout et quelles métriques il prend en charge.





De DevOps à SRE



Dans de nombreuses sociétés informatiques, différentes équipes sont impliquées dans le développement et les opérations avec des objectifs différents. L'objectif de l'équipe de développement est de déployer de nouvelles fonctionnalités. L'objectif de l'équipe des opérations est de maintenir les fonctionnalités anciennes et nouvelles en production. Les développeurs s'efforcent de fournir autant de code que possible, les administrateurs système s'efforcent de maintenir le système fiable.



Les objectifs des équipes se contredisent. Pour résoudre ces contradictions, la méthodologie DevOps a été créée. Il s'agit de réduire les silos, d'accepter les erreurs, de s'appuyer sur l'automatisation et d'autres principes.



, , DevOps . « DevOps?». , , .



2016 , Google «Site Reliability Engineering». DevOps. SRE-, IT-.



DevOps — . SRE — . DevOps — , SRE — , DevOps.



SRE-



SRE , DevOps .



, , SRE . , - . , SRE .



SRE — . , , — .



, SRE , , . - : « — ». , . SRE . , , . , .



. , , . , .



SRE . , SRE : «OK, , , ». , , , .



  • — , .
  • — , . , .


SRE , -, . SRE ( , ).



SRE , - .



, SRE . , -. — .



: SLA, SLI, SLO



. — , .



SRE , . , (, . .) , .



- — Service-Level Objective (SLO). , .



SRE , . « , . , , SLO», Google. — , , .



, — Service Level Indicator (SLI). , , , — .



SLO SLI — , . Service Level Agreement (SLA). .



SLA: 99,95% ; 99 ; 85% 1,5 .



100%



SRE , . , .



, «»:



  • — 99%,
  • — 99,9%,
  • — 99,99%,
  • — 99,999%.


— 5 , — 3,5 .





, 100%, . - ROI — .



, . ! 47 . . .



. 99,99% 99,999%, 99%. , 10 8 . , .



— MTBF MTTR



, SRE : MTBF MTTR.



MTBF (Mean Time Between Failures) — .



MTBF . SRE «!». , SRE - , , .



MTTR (Mean Time To Recovery)— ( ).



MTTR SLO. SRE . , SLO 99,99% , , 13 3 . 13 , «» , SLO .



13 — , . 7-8 , — . MTTR , .



SRE , MTTR, SLO , , .



, . , , :



, SRE. , SRE , , , , . , , .





, 100% , , , — , - «» .



SLO. SLO (Error budget).





SRE.



43 , 40 , : SLO, . , -.



, . SRE Error budget :



  • , ,
  • ,
  • ,
  • .


, Error budget . .





«» : SRE, . , , . SRE .



— SRE . Netflix Chaos Engineering.



Netflix Chaos Engineering: Chaos Monkey CI/CD ; Chaos Gorilla AWS. , SRE , — , . , .



Chaos Engineering :



  1. , , ( ).
  2. , . — : , .
  3. , , , CI/CD- .


Post mortem



SRE blameless postmortem, , .



, 13 , 15. ? SRE, ; -, ; , , SLA . , , - . .





, , SLO. SRE — . , , .



:



  • — (« !»);
  • — (« - , , »);
  • — , («, , , »).


SRE , , , , . .



(Observability). , , , .



: , , . : , - Kubernetes, , .



Observability MTTR. Observability , , , MTTR.



SRE



SRE , , , . SRE , . , . , .



SRE , , . . — (, ). , , , .



SRE : SLO, SLI, SLA . , SLA SLO. . , , .



, , — , . Error budget, , .





SRE. , .



SRE Google:

Site Reliability Engineering

The Site Reliability Workbook

Building Secure & Reliable Systems



:

SRE

SLA, SLI, SLO

Chaos Engineering Chaos Community Netflix

200 SRE



SRE ():

Keys to SRE

SRE

SRE

SRE





, — . , - SRE . 11–13 2020.



SLO, SLI, SLA, , , .



SLO: , , , DoS-. , Error budget, , .






All Articles