🛀🏾 👨🏼‍🎓 🧑🏿‍🤝‍🧑🏻 Comment Uma.Tech a développé l'infrastructure 📋 🚣🏻 🎽

Nous avons lancé de nouveaux services, le trafic a augmenté, remplacé les serveurs, connecté de nouveaux sites et repensé les centres de données - et maintenant nous allons raconter cette histoire, dont nous vous avons présenté le début il y a cinq ans .

Cinq ans est un moment caractéristique pour résumer les résultats intermédiaires. Par conséquent, nous avons décidé de parler du développement de notre infrastructure, qui a connu un chemin de développement incroyablement intéressant au cours des cinq années, dont nous sommes fiers. Les changements quantitatifs que nous avons mis en œuvre se sont transformés en changements qualitatifs; maintenant, l'infrastructure peut fonctionner selon des modes qui semblaient fantastiques au milieu de la dernière décennie.

Nous fournissons le travail des projets les plus complexes avec les exigences les plus strictes en matière de fiabilité et de charges, y compris PREMIER et Match TV. Sur les émissions sportives et lors de la première de séries télévisées populaires, il est nécessaire de renvoyer le trafic en térabit / s, nous l'implémentons facilement, et si souvent que travailler à de telles vitesses est depuis longtemps devenu monnaie courante pour nous. Et il y a cinq ans, le projet le plus difficile à travailler sur nos systèmes était Rutube, qui se développe depuis, en augmentant les volumes et le trafic, ce qui devait être pris en compte lors de la planification des charges.

Nous avons parlé de la façon dont nous avons développé le matériel de notre infrastructure ( «Rutube 2009-2015: l'histoire de notre matériel» ) et développé un système responsable du téléchargement vidéo ( «De zéro à 700 gigabits par seconde - comment l'un des plus grands sites d'hébergement vidéo de Russie télécharge des vidéos "), mais beaucoup de temps s'est écoulé depuis la rédaction de ces textes, de nombreuses autres solutions ont été créées et implémentées, dont les résultats nous permettent de répondre aux exigences modernes et d'être suffisamment flexibles pour reconstruire pour de nouvelles tâches.

Nous développons constamment le cœur du réseau . Nous sommes passés aux équipements Cisco en 2015, comme mentionné dans le dernier article. Ensuite, c'était le même 10 / 40G, mais pour des raisons évidentes, après quelques années, ils ont modernisé le châssis existant, et maintenant nous utilisons également activement le 25 / 100G.

Les liaisons 100G n'ont depuis longtemps été ni un luxe (c'est plutôt une exigence urgente de l'époque dans notre segment), ni une rareté (de plus en plus d'opérateurs proposent des connexions à de telles vitesses). Cependant, 10 / 40G reste pertinent: à travers ces liaisons, nous continuons à connecter des opérateurs avec un faible volume de trafic, à travers lequel il est actuellement impossible d'utiliser un port plus grand.

Le cœur de réseau que nous avons créé mérite un examen séparé et fera l'objet d'un article distinct un peu plus tard. Nous y approfondirons les détails techniques et considérerons la logique de nos actions lors de sa création. Mais maintenant, nous allons continuer à dessiner l'infrastructure de manière plus schématique, car votre attention, chers lecteurs, n'est pas illimitée.

Serveurs de diffusion vidéoévoluer rapidement, pour lequel nous offrons beaucoup d'efforts. Si auparavant nous utilisions principalement des serveurs 2U avec 4-5 cartes réseau avec deux ports 10G chacun, maintenant la plupart du trafic est envoyé à partir de serveurs 1U, dans lesquels il y a 2-3 cartes avec deux ports 25G chacune. Les cartes avec 10G et 25G ont une valeur presque égale, et des solutions plus rapides vous permettent de donner à la fois 10G et 25G. Le résultat est des économies évidentes: moins de composants de serveur et de câbles à connecter - moins de coûts (et plus de fiabilité), les composants prennent moins d'espace en rack - plus de serveurs peuvent être hébergés par unité d'espace au sol et donc des coûts de location inférieurs.

Mais le plus important est le gain de vitesse! Maintenant, avec 1U, nous pouvons donner plus de 100G! Et ceci dans le contexte d'une situation où certains grands projets russes appellent «réalisation» le retour du 40G avec 2U. Nous aurions leurs problèmes!

A noter que la génération de cartes réseau qui ne peuvent fonctionner que sur 10G, nous l'utilisons toujours. Cet équipement fonctionne de manière stable et nous est parfaitement familier, nous ne l'avons donc pas jeté, mais nous lui avons trouvé une nouvelle application. Nous avons installé ces composants dans des serveurs de stockage vidéo, pour lesquels une ou deux interfaces 1G ne suffisent clairement pas pour un fonctionnement efficace, ici les cartes 10G se sont avérées pertinentes.

Systèmes de stockagegrandir aussi. Au cours des cinq dernières années, ils sont passés de douze disques durs (12x HDD 2U) à trente-six disques (36x HDD 4U). Certaines personnes ont peur d'utiliser des «carcasses» aussi volumineuses, car en cas de panne d'un de ces châssis, il peut y avoir une menace pour les performances - et même pour la capacité de travail! - pour l'ensemble du système. Mais cela n'arrivera pas avec nous: nous avons fourni une sauvegarde au niveau des copies de données géo-distribuées. Nous avons étendu le châssis à différents centres de données - nous en utilisons trois au total - et cela élimine l'apparition de problèmes à la fois en cas de défaillance du châssis et lorsque la plate-forme tombe.

Bien sûr, cette approche a rendu redondant le RAID matériel, ce que nous avons abandonné. En éliminant la redondance, nous avons simultanément augmenté la fiabilité du système, simplifiant la solution et supprimant l'un des points de défaillance potentiels. Rappelons que nos systèmes de stockage sont "self-made". Nous avons opté pour cela complètement délibérément et le résultat a été complètement satisfaisant pour nous. Nous avons changé

de centre de données à plusieurs reprises au cours des cinq dernières années. Depuis la rédaction de l'article précédent, nous n'avons pas changé un seul centre de données - DataLine - le reste a dû être remplacé au fur et à mesure que notre infrastructure se développait. Tous les transferts entre sites étaient planifiés.

Il y a deux ans, nous avons migré à l'intérieur du MMTS-9, déplaçant vers un site avec une réparation de haute qualité, un bon système de refroidissement, une alimentation électrique stable et sans poussière, qui reposait en couches épaisses sur toutes les surfaces, et obstruait également abondamment l'intérieur de nos équipements. Optez pour un service de qualité - et sans poussière! - est devenu la raison de notre déménagement.

Presque toujours, «un mouvement équivaut à deux incendies», mais les problèmes de migration sont à chaque fois différents. Cette fois, la principale difficulté de se déplacer à l'intérieur d'un centre de données était «fournie» par les interconnexions optiques - leur abondance interfloor sans être mélangée en une seule interconnexion par les opérateurs de télécommunications. Le processus de mise à jour et de réacheminement des croisements (avec lequel les ingénieurs MMTS-9 nous ont aidés) a peut-être été l'étape la plus difficile de la migration.

La deuxième migration a eu lieu il y a un an, en 2019, nous sommes passés d'un centre de données pas très bon à O2xygen. Les raisons de cette décision étaient similaires à celles évoquées ci-dessus, mais elles ont été complétées par le problème du manque d'attrait du centre de données d'origine pour les opérateurs de télécommunications - de nombreux fournisseurs ont dû «rattraper» ce point par eux-mêmes.

La migration de 13 racks vers un site de haute qualité en MMTS-9 a permis de développer cet emplacement non seulement en tant qu'opérateur (quelques racks et opérateurs «forwarding»), mais aussi de l'utiliser comme l'un des principaux. Cela a quelque peu simplifié la migration d'un centre de données pas très bon - nous avons déplacé la plupart des équipements de celui-ci vers un autre site, et O2xygen a pris le rôle de développement, en y envoyant également 5 racks d'équipements.

Aujourd'hui, O2xygen est déjà une plate-forme à part entière, où les opérateurs dont nous avons besoin sont «venus» et où de nouveaux continuent à se connecter. Pour les opérateurs, O2xygen était également attractif en termes de développement stratégique.

Nous passons définitivement la phase principale du déménagement pendant la nuit, et lors de la migration à l'intérieur de MMTS-9 et vers O2xygen, nous avons adhéré à cette règle. Nous insistons sur le fait que nous respectons strictement la règle "se déplacer dans une nuit" quel que soit le nombre de racks! Il y avait même un précédent lorsque nous avons déplacé 20 racks et l'avons fait en une nuit également. La migration est un processus assez simple qui nécessite précision et cohérence, mais il y a quelques astuces ici, à la fois dans le processus de préparation, lors du déplacement et lors du déploiement vers un nouvel emplacement. Nous sommes prêts à vous parler de la migration en détail si vous êtes intéressé.

résultatsNous aimons les plans de développement quinquennaux. Nous avons terminé la construction d'une nouvelle infrastructure résiliente dans trois centres de données. Nous avons considérablement augmenté la densité de la livraison du trafic - si nous nous sommes récemment réjouis à 40-80G avec 2U, il est maintenant normal pour nous de donner 100G avec 1U. Maintenant, un térabit de trafic est perçu par nous comme banal. Nous sommes prêts à continuer à développer notre infrastructure, qui s'est avérée flexible et évolutive.

Question:de quoi vous dire dans les textes suivants, chers lecteurs? Pourquoi avons-nous commencé à construire des systèmes de stockage maison? À propos du cœur du réseau et de ses fonctionnalités? À propos des astuces et des subtilités de la migration entre les centres de données? À propos de l'optimisation des solutions d'émission en sélectionnant les composants et en affinant les paramètres? À propos de la création de solutions durables grâce à la redondance multiple et à l'évolutivité horizontale au sein du centre de données, qui sont implémentées dans une structure de trois centres de données?

Auteur: Petr Vinogradov - Directeur technique d'Uma.TechHamsters

Comment Uma.Tech a développé l'infrastructure

More articles: