
Les centres de données deviennent des objets de plus en plus importants, car le cours normal du travail de nombreuses grandes et petites entreprises et la sécurité des données des utilisateurs ordinaires dépendent de leur fonctionnement normal. Une minute d'indisponibilité d'un grand centre de données peut entraîner des millions de pertes pour les clients de l'opérateur du centre de données. Eh bien, de nombreuses heures, voire plus, de nombreux jours d'indisponibilité entraînent des pertes parfois impossibles à estimer. Sous la coupe - les accidents les plus célèbres de ces derniers temps avec une description des raisons de leur apparition.
Incendie dans le data center d'OVH

En mars 2021, l'un des datacenters d'OVH a presque entièrement brûlé. C'est le plus gros accident de ces dernières années, car OVH est l'un des plus grands hébergeurs en Europe. L'incendie était si grave qu'il a pratiquement détruit le centre de données SBG2. Le principal suspect est l'un des systèmes d'alimentation sans interruption, avec le numéro de série interne UPS7. A la veille de l'incendie, ce système faisait l'objet d'une maintenance au cours de laquelle un grand nombre de composants y ont été changés. À la fin de la procédure, UPS7 a été redémarré et il a semblé fonctionner normalement. Mais bientôt il y a eu un incendie.
Soit dit en passant, les incendies dans les centres de données, en particulier de cette ampleur, sont extrêmement rares. L'Uptime Institute garde une trace de ces cas - selon ses représentants, en moyenne, les incendies se produisent moins d'une fois par an.... Dans la plupart des cas, les incidents ont été interrompus au tout début du développement, mais dans certains cas, l'incendie est toujours devenu incontrôlable.
Dans le cas d'OVH avec des pannes causées par les effets d'un incendie dans SBG2, face à environ 3,6 millions de sites Web.
Après avoir étudié la situation avec OVH, les experts sont arrivés à la conclusion qu'il pouvait y avoir plusieurs causes au sinistre et qu'il ne s'agissait pas seulement d'une alimentation sans interruption. L'escalade de l'incident a été facilitée par :
- -. (Tower design). , . «», , , , .
- -, , . , , , . .
Cette dernière est d'autant plus étrange qu'il existe aujourd'hui un grand nombre de solutions pour maintenir la sécurité. Disons qu'il existe des capteurs qui surveillent les paramètres environnementaux et sont capables de fonctionner avec un onduleur. Par exemple, le capteur de surveillance environnementale Eaton EMP002 surveille la température, l'humidité et le fonctionnement des appareils couplés tels que les détecteurs de fumée ou les ouvre-portes. De plus, il existe des systèmes de sécurité capables de capturer les changements de température en fractions de degré, de surveiller la concentration de monoxyde de carbone et d'autres substances. Si un problème est détecté, ces appareils informent l'opérateur du service d'assistance technique et activent le signal de danger.
Incendie dans le centre de données WebNX

En avril 2021, un incendie se déclare dans le data center d'Ogden de la société américaine WebNX. Le générateur a pris feu, après quoi le feu s'est propagé aux locaux adjacents. En conséquence, il y a eu une panne de courant complète, l'équipement du serveur a été endommagé. Il est peu probable que certains des serveurs les plus gravement endommagés par le feu soient récupérés.
La situation est devenue incontrôlable après la coupure de l'alimentation électrique de la ville, qui alimentait le centre de données en énergie - plusieurs groupes électrogènes autonomes ont été allumés dans le centre de données, mais l'un d'entre eux est tombé en panne, ce qui a provoqué un incendie .
Les pompiers arrivés ont éteint l'incendie, mais leurs actions ont entraîné des dégâts des eaux aux équipements dans les zones touchées par l'incendie.
Les serveurs de la société Gorilla Servers se trouvaient également dans ce data center. Certes, les équipements de cette organisation n'ont pas été endommagés, mais à la suite de la panne de courant, les services et les sites clients ont cessé de fonctionner. Le centre de données a été mis hors tension pendant plusieurs heures, la restauration du fonctionnement de tous les systèmes a pris environ 20 heures. Les pertes de l'opérateur du centre de données dans ce cas ont dépassé 25 millions de dollars.
Défaillance du centre de données bancaire du TSB
En septembre 2018, la banque britannique TSB a décidé de procéder à une vaste migration des équipements informatiques, sans avoir préalablement testé le nouveau data center. Le plus agaçant pour l'entreprise est que le prestataire informatique Sabis, qui a été embauché pour effectuer la migration, a testé tous les datacenters concernés par la migration, à l'exception d'un. Dans le même temps, le fait que les tests n'aient pas été effectués était caché à la direction.
Le résultat est déplorable : deux millions de clients de la banque ont perdu l'accès à leurs comptes d'un seul coup. La banque a dû dépenser environ 480 millions de dollars pour éliminer les conséquences d'une interruption du centre de données, y compris des frais d'enquête sur les incidents d'environ 35 millions de dollars.
Incendie dans le centre de données Telstra de Londres
En août 2020, le centre de données de Telstra, la plus grande entreprise de télécommunications d'Australie, a été endommagé. Comme chez OVH, le problème était causé par un onduleur défaillant. Malgré le fait que l'incendie ait été contenu, contrairement à OVH, l'incident a touché la majeure partie de la zone du datacenter, qui fait 11 000 mètres carrés. À l'intérieur des locaux où l'incendie s'est produit, il y avait environ 1 800 racks de serveurs.
Quatre camions de pompiers et 25 membres d'équipage ont été envoyés sur le site à la fois. L'équipe semble avoir très bien travaillé, car l'incendie n'a pu endommager sérieusement qu'une petite partie de l'entrepôt. Aucun membre du personnel n'a été blessé.
Néanmoins, plusieurs dizaines de serveurs se sont retrouvés hors ligne, leur travail n'a été restauré qu'au bout de quelques heures. En conséquence, les services et les sites des clients de Telstra ne fonctionnaient pas. Les pertes totales de l'entreprise ont dépassé les 10 millions de dollars, sans parler des pertes de réputation.
Panne de l'onduleur dans le centre de données Equinix LD8
En août 2020, il y avait également un problème avec le réseau électrique du centre de données Equinix LD8 : Là, après une panne de courant du réseau, l'onduleur y est tombé en panne. Il n'y a pas eu d'incendie, mais le problème électrique n'a pu être résolu avant plusieurs heures, donc de nombreux clients ont été touchés.
L'accident s'est produit dans un centre de données des Docklands de Londres, et le personnel d'assistance a pu comprendre la cause du problème presque immédiatement après son apparition. Il s'est avéré que l'arrêt de l'onduleur a mis hors tension le cluster principal de routeurs Juniper MX et Cisco LNS. C'est ce cluster qui a assuré le fonctionnement de la plupart des équipements du centre de données.
Après la désactivation du cluster, les services des plus grandes entreprises - les clients d'Equinix ont été coupés. Il s'agit notamment des sociétés de télécommunications internationales Epsilon, SiPalto, EX Networks, Fast2Host, ICUK.net et Evoke Telecom. L'accident a également affecté le fonctionnement d'autres centres de données.
En conclusion, je dirai que ce sont loin de tous les accidents qui se sont produits au cours des dernières années. Mais ces incidents sont probablement les plus révélateurs car ils auraient pu être évités. Le personnel non professionnel, les problèmes d'UPS, les pannes de courant sont des problèmes courants. À quels incidents de centre de données avez-vous été confrontés ? Si vous avez une histoire à raconter, discutons-en dans les commentaires.
Bonus : panne de courant pour maintenance
Il y a aussi des situations assez difficiles (bien que possibles) à prévoir. Par exemple, The Register a raconté une fois une histoire envoyée à la rédaction par l'un de ses lecteurs. Il était une fois une ferme de serveurs avec trois onduleurs de 220 kVA, qui ont fonctionné assez normalement pendant assez longtemps. Au fil du temps, le besoin d'un des onduleurs a disparu et il a été décidé de le déplacer vers le nouveau centre de données nouvellement ouvert. La direction avait prévu d'économiser de l'argent sur l'achat d'un nouvel onduleur - mais cela s'est avéré différent.
Il est à noter que le centre de données en question est assez grand, sa superficie était d'environ 2500 mètres carrés. Il y avait beaucoup d'équipement, plusieurs centaines de serveurs, donc c'était comme la mort d'admettre des problèmes.
Des électriciens professionnels ont été invités au centre de données, qui se sont vu confier la responsabilité de déconnecter l'un des onduleurs du réseau et de le transporter avec une connexion supplémentaire dans le nouveau centre de données. En conséquence, les professionnels ont fait quelque chose de mal et le centre de données a été complètement hors tension.
« J'étais assis à mon bureau lorsque les électriciens ont commencé à débrancher l'onduleur du secteur. Ils ont mis le système en bypass sans aucun problème. Ensuite, ils ont coupé le disjoncteur de sortie et quelques fils supplémentaires pour accélérer le démontage. Et puis le centre de données d'une superficie de 2500 mètres carrés est soudainement devenu silencieux. J'ai couru vers la salle des turbines, m'attendant à trouver les électriciens qui ont été électrocutés. Mais ils ont juste calmement déconnecté les fils. J'ai crié que le centre de données était hors ligne, ce à quoi les électriciens ont répondu que l'équipement est alimenté en mode bypass. Je répète. Ils se sont arrêtés, ont réfléchi pendant dix secondes, puis leurs yeux se sont vraiment grands ouverts », a déclaré un témoin oculaire.
Il a fallu 36 heures pour restaurer le centre de données, bien qu'initialement les électriciens aient annoncé un temps d'arrêt horaire.