L'ingénierie de fiabilité de site (SRE) est une forme de mise en œuvre DevOps. L'approche SRE est née chez Google et est devenue populaire parmi les entreprises informatiques d'épicerie après la publication du livre du même nom en 2016.
Dans cet article, nous décrirons comment l'approche SRE est liée au DevOps, quelles tâches un ingénieur SRE résout et quelles métriques il prend en charge.
De DevOps à SRE
Dans de nombreuses sociétés informatiques, différentes équipes sont impliquées dans le développement et les opérations avec des objectifs différents. L'objectif de l'équipe de développement est de déployer de nouvelles fonctionnalités. L'objectif de l'équipe des opérations est de maintenir les fonctionnalités anciennes et nouvelles en production. Les développeurs s'efforcent de fournir autant de code que possible, les administrateurs système s'efforcent de maintenir le système fiable.
Les objectifs des équipes se contredisent. Pour résoudre ces contradictions, la méthodologie DevOps a été créée. Il s'agit de réduire les silos, d'accepter les erreurs, de s'appuyer sur l'automatisation et d'autres principes.
, , DevOps . « DevOps?». , , .
2016 , Google «Site Reliability Engineering». DevOps. SRE-, IT-.
DevOps — . SRE — . DevOps — , SRE — , DevOps.
SRE-
SRE , DevOps .
, , SRE . , - . , SRE .
SRE — . , , — .
, SRE , , . - : « — ». , . SRE . , , . , .
. , , . , .
SRE . , SRE : «OK, , , ». , , , .
- — , .
- — , . , .
SRE , -, . SRE ( , ).
SRE , - .
, SRE . , -. — .
: SLA, SLI, SLO
. — , .
SRE , . , (, . .) , .
- — Service-Level Objective (SLO). , .
SRE , . « , . , , SLO», Google. — , , .
, — Service Level Indicator (SLI). , , , — .
SLO SLI — , . Service Level Agreement (SLA). .
SLA: 99,95% ; 99 ; 85% 1,5 .
100%
SRE , . , .
, «»:
- — 99%,
- — 99,9%,
- — 99,99%,
- — 99,999%.
— 5 , — 3,5 .
, 100%, . - ROI — .
, . ! 47 . . .
. 99,99% 99,999%, 99%. , 10 8 . , .
— MTBF MTTR
, SRE : MTBF MTTR.
MTBF (Mean Time Between Failures) — .
MTBF . SRE «!». , SRE - , , .
MTTR (Mean Time To Recovery)— ( ).
MTTR SLO. SRE . , SLO 99,99% , , 13 3 . 13 , «» , SLO .
13 — , . 7-8 , — . MTTR , .
SRE , MTTR, SLO , , .
, . , , :
, SRE. , SRE , , , , . , , .
, 100% , , , — , - «» .
SLO. SLO (Error budget).
SRE.
43 , 40 , : SLO, . , -.
, . SRE Error budget :
- , ,
- ,
- ,
- .
, Error budget . .
«» : SRE, . , , . SRE .
— SRE . Netflix Chaos Engineering.
Netflix Chaos Engineering: Chaos Monkey CI/CD ; Chaos Gorilla AWS. , SRE , — , . , .
Chaos Engineering :
- , , ( ).
- , . — : , .
- , , , CI/CD- .
Post mortem
SRE blameless postmortem, , .
, 13 , 15. ? SRE, ; -, ; , , SLA . , , - . .
, , SLO. SRE — . , , .
:
- — (« !»);
- — (« - , , »);
- — , («, , , »).
SRE , , , , . .
(Observability). , , , .
: , , . : , - Kubernetes, , .
Observability MTTR. Observability , , , MTTR.
SRE
SRE , , , . SRE , . , . , .
SRE , , . . — (, ). , , , .
SRE : SLO, SLI, SLA . , SLA SLO. . , , .
, , — , . Error budget, , .
SRE. , .
SRE Google:
Site Reliability Engineering
The Site Reliability Workbook
Building Secure & Reliable Systems
:
SRE
SLA, SLI, SLO
Chaos Engineering Chaos Community Netflix
200 SRE
SRE ():
Keys to SRE
SRE
SRE
SRE
, — . , - SRE . 11–13 2020.
SLO, SLI, SLA, , , .
SLO: , , , DoS-. , Error budget, , .