Network-as-a-Service pour une grande entreprise: un cas non standard



Comment mettre à niveau un équipement réseau dans une grande entreprise sans arrêter la production ? Oleg Fedorov, responsable de la gestion de projet Linxdatacenter, parle d'un projet à grande échelle en mode chirurgie à cœur ouvert



Au cours des dernières années, nous avons constaté une demande accrue de la part des clients pour des services liés à la composante réseau de l'infrastructure informatique. Le besoin de connectivité des systèmes informatiques, des services, des applications, de la surveillance et de la gestion opérationnelle des entreprises dans presque tous les domaines oblige aujourd'hui les entreprises à accorder une attention accrue aux réseaux.  



La gamme des demandes - de la fourniture de la résilience du réseau à la création et à la gestion d'un système autonome client avec l'achat d'un bloc d'adresses IP, à la configuration des protocoles de routage et à la gestion du trafic conformément aux politiques des organisations.



Il existe également une demande croissante de solutions complexes pour la construction et la maintenance de l'infrastructure réseau, principalement de la part de clients dont l'infrastructure réseau est créée à partir de zéro ou est moralement dépassée, nécessitant de sérieuses modifications. 



Cette tendance a coïncidé avec le développement et la complication de la propre infrastructure réseau de Linxdatacenter. Nous avons étendu la géographie de notre présence en Europe en nous connectant à des sites distants, ce qui a nécessité l'amélioration de l'infrastructure réseau. 



La société a lancé un nouveau service pour ses clients, Network-as-a-Service: nous prenons en charge toutes les tâches réseau de nos clients, leur permettant de se concentrer sur leur cœur de métier.



À l'été 2020, le premier grand projet dans ce sens a été achevé, dont je voudrais parler. 



Au début 



Un grand complexe industriel s'est tourné vers nous pour la modernisation de la partie réseau de l'infrastructure de l'une de ses entreprises. Il était nécessaire de remplacer l'ancien équipement par de nouveaux, y compris le cœur du réseau.



La dernière modernisation des équipements de l'entreprise a eu lieu il y a environ 10 ans. La nouvelle direction de l'entreprise a décidé d'améliorer la connectivité, en commençant par des mises à niveau de l'infrastructure au niveau physique le plus élémentaire. 



Le projet était divisé en deux parties: une mise à niveau du parc de serveurs et des équipements réseau. Nous étions responsables de la deuxième partie. 



Les exigences de base pour les travaux comprenaient la minimisation des temps d'arrêt des lignes de production de l'entreprise pendant l'exécution des travaux (et dans certains domaines, l'élimination complète des temps d'arrêt). Tout arrêt - perte financière directe du client, qui n'aurait dû en aucun cas se produire. Dans le cadre du mode de fonctionnement de l'installation 24x7x365, ainsi que de la prise en compte de l'absence totale de périodes d'arrêt planifiées dans la pratique de l'entreprise, nous avons été chargés, en effet, de pratiquer une chirurgie à cœur ouvert. Cela est devenu la principale caractéristique distinctive du projet.



Aller



Les travaux ont été planifiés selon le principe du déplacement des nœuds du réseau éloignés du cœur vers les plus proches, ainsi que de ceux qui affectent le moins le fonctionnement des lignes de production vers ceux qui influencent directement ce travail. 



Par exemple, si vous prenez un nœud de réseau dans un service commercial, une interruption de la communication à la suite d'un travail dans ce service n'affectera en aucune façon la production. Dans le même temps, un tel incident nous aidera, en tant qu'entrepreneur, à vérifier l'exactitude de l'approche choisie pour travailler sur ces nœuds et, après avoir ajusté les actions, à travailler sur les prochaines étapes du projet. 



Il est nécessaire non seulement de remplacer les nœuds et les fils du réseau, mais également de configurer correctement tous les composants pour le bon fonctionnement de la solution dans son ensemble. Ce sont les configurations qui ont été vérifiées de cette manière: en commençant le travail à distance du noyau, on s'est en quelque sorte donné le «droit de se tromper», sans mettre en péril des zones critiques pour le fonctionnement de l'entreprise. 



Nous avons identifié les zones qui n'affectent pas le processus de production, ainsi que les zones critiques - ateliers, bloc de chargement et de déchargement, entrepôts, etc. Dans les zones clés, le client a convenu du temps d'arrêt autorisé pour chaque nœud du réseau séparément: de 1 à 15 minutes ... Il était impossible d'éviter complètement la déconnexion des nœuds de réseau individuels, car le câble doit être physiquement commuté de l'ancien équipement au nouveau, et lors du processus de commutation, il est également nécessaire de démêler la «barbe» des fils, qui s'est formée pendant plusieurs années de fonctionnement sans soins appropriés (l'une des conséquences de l'externalisation des travaux sur l'installation des câbles).



Le travail a été divisé en plusieurs étapes.



Étape 1- Audit. Préparation et approbation de la démarche de planification des travaux et évaluation de l'état de préparation des équipes: le client, l'entrepreneur réalisant l'installation et notre équipe.



Étape 2 - Développement d'un format pour la réalisation des travaux, avec une analyse et une planification détaillées approfondies. Nous avons choisi un format de liste de contrôle avec une indication exacte de l'ordre et de la séquence des actions, jusqu'à la séquence de commutation des cordons de brassage par ports.



Étape 3 - Réaliser des travaux dans des armoires qui n'affectent pas la production. Estimation et ajustement des temps d'arrêt pour les étapes ultérieures des travaux.



Étape 4 - Réaliser des travaux dans des armoires qui affectent directement la production. Estimation et ajustement des temps d'arrêt pour la dernière étape des travaux.



Étape 5- Réalisation de travaux dans la salle des serveurs pour changer le matériel restant. Exécution sur le routage sur un nouveau noyau.



Étape 6 - Commutation séquentielle du cœur du système des anciennes configurations réseau aux nouvelles pour une transition en douceur de l'ensemble du complexe système (VLAN, routage, etc.). À ce stade, nous avons connecté tous les utilisateurs et transféré tous les services vers de nouveaux équipements, vérifié l'exactitude de la connexion, nous nous sommes assurés qu'aucun des services de l'entreprise ne s'arrêtait, garanti qu'en cas de problème, ils seraient directement connectés au noyau, ce qui a rendu plus facile l'élimination possible dépannage et réglage final. 



Coiffure barbe



Le projet était également difficile en raison des conditions initiales difficiles. 



Premièrement, il s'agit d'un grand nombre de nœuds et de sections du réseau, avec une topologie complexe et une classification des fils en fonction de leur objectif. Ces «barbes» devaient être sorties des placards et minutieusement «peignées», pour déterminer quel fil mène d'où et où. 



Cela ressemblait à quelque chose comme ceci:





Alors:





ou comme ça: 





Deuxièmement, pour chacune de ces tâches, il était nécessaire de préparer un dossier décrivant le processus. "Nous prenons le fil X du port 1 de l'ancien équipement, nous le branchons au port 18 du nouvel équipement." Cela semble simple, mais lorsque vous avez 48 ports complètement obstrués dans vos données initiales et qu'il n'y a pas d'option inactive (nous nous souvenons de 24x7x365), le seul moyen de sortir est de travailler par blocs. Plus vous pouvez retirer de fils d'anciens équipements à la fois, plus vite vous pouvez les peigner et les insérer dans un nouveau matériel réseau, évitant ainsi les interruptions et les temps d'arrêt du réseau. 



Par conséquent, au stade préparatoire, nous avons divisé le réseau en blocs - chacun d'entre eux appartenant à un VLAN spécifique. Chaque port (ou un sous-ensemble d'entre eux) sur l'ancien équipement est l'un des VLAN dans la nouvelle topologie de réseau. Nous les avons regroupés comme suit: les premiers ports du commutateur sont situés dans les réseaux d'utilisateurs, dans les réseaux de production intermédiaire, et dans les derniers - points d'accès et liaisons montantes. 



Cette approche a permis de retirer et de peigner l'ancien équipement non pas 1 fil, mais 10 à 15 fils à la fois. Cela a accéléré le flux de travail à plusieurs reprises.  



Au fait, voici à quoi ressemblent les fils dans les placards après le peignage: 





ou, par exemple, comme ceci: 





Après l'achèvement de la 2ème étape, nous avons fait une pause pour analyser les erreurs et la dynamique du projet. Par exemple, des défauts mineurs sont immédiatement apparus en raison d'inexactitudes dans les schémas de réseau qui nous ont été fournis (un connecteur incorrect sur le schéma est un cordon de raccordement acheté incorrect et la nécessité de le remplacer). 



La pause était nécessaire, car même un petit échec dans le processus était inacceptable lorsque vous travaillez à partir du serveur droit. Si l'objectif était de garantir que le temps d'arrêt sur la section réseau ne dépasse pas 5 minutes, il ne pourrait pas être dépassé. Tout écart éventuel par rapport à l'horaire devait être convenu avec le client. 



Cependant, la planification préliminaire et la division du projet en blocs ont permis de respecter les temps d'arrêt prévus dans tous les domaines, et dans la plupart des cas de s'en passer complètement. 



Time challenge - projet sous COVID 



Cependant, il y avait quelques complications supplémentaires. Bien sûr, le coronavirus était l'un des obstacles. 



Le travail a été compliqué par le début d'une pandémie, et il était impossible pour tous les spécialistes impliqués dans le processus d'être présents lors des travaux sur le site du client. Seul le personnel d'installation a été admis sur le site et le contrôle a été effectué dans la salle de Zoom - il y avait un ingénieur réseau de Linxdatacenter, moi, en tant que chef de projet, un ingénieur réseau du côté client responsable de la production des travaux et l'équipe effectuant les travaux d'installation.



Pendant les travaux, des problèmes non comptabilisés sont survenus et il a fallu faire des ajustements à la volée. Il a donc été possible de prévenir rapidement l'influence du facteur humain (erreurs de schéma, erreurs de détermination du statut de l'activité d'interface, etc.).



Bien que le format de travail à distance paraissait inhabituel au début du projet, nous nous sommes rapidement adaptés aux nouvelles conditions et sommes entrés dans la phase finale des travaux. 



Nous avons exécuté une configuration de configuration réseau temporaire pour exécuter deux cœurs de réseau en parallèle, l'ancien et le nouveau, afin d'assurer une transition en douceur. Cependant, il s'est avéré qu'une ligne supplémentaire n'a pas été supprimée du fichier de configuration du nouveau noyau et que la transition n'a pas eu lieu. Cela nous a fait passer du temps à chercher le problème. 



Il s'est avéré que le trafic principal était correctement transmis et que le trafic de contrôle n'atteignait pas le nœud via le nouveau noyau. Grâce à la division claire du projet en étapes, il a été possible d'identifier rapidement la section du réseau où la difficulté est survenue, d'identifier le problème et de le résoudre. 



Par conséquent



Résultats techniques du projet 



Tout d'abord, un nouveau noyau du nouveau réseau d'entreprise a été créé, pour lequel nous avons construit des anneaux physiques / logiques. Ceci est fait de telle manière que chaque commutateur dans le réseau a une "seconde épaule". Dans l'ancien réseau, de nombreux commutateurs étaient connectés au cœur via une route, une épaule (liaison montante). S'il était déchiré, l'interrupteur devenait complètement inaccessible. Et si plusieurs commutateurs étaient connectés via une liaison montante, l'accident mettait alors hors service un département entier ou une ligne de production de l'entreprise. 



Dans un nouveau réseau, même un incident réseau assez grave, sous aucun scénario, ne pourra "tuer" tout le réseau ou sa section significative. 



90% de tous les équipements de réseau ont été mis à jour, les convertisseurs de média (convertisseurs de média de propagation du signal) ont été mis hors service et le besoin de lignes électriques dédiées pour alimenter l'équipement a été éliminé en se connectant à des commutateurs PoE, où l'alimentation est fournie via des câbles Ethernet. 



De plus, toutes les connexions optiques dans la salle des serveurs et dans les armoires sur le terrain sont marquées - dans tous les principaux centres de communication. Cela a permis de préparer un schéma topologique des équipements et des connexions du réseau, reflétant son état actuel aujourd'hui. 



Diagramme de réseau



Résultat le plus important d'un point de vue technique: des travaux d'infrastructure d'assez grande envergure ont été réalisés rapidement, sans créer aucune interférence dans le fonctionnement de l'entreprise et presque invisibles pour son personnel. 



Résultats commerciaux du projet



À mon avis, ce projet est intéressant principalement non pas du point de vue technique, mais du point de vue organisationnel. La difficulté résidait principalement dans la planification et la réflexion sur les étapes de mise en œuvre des tâches du projet. 



Le succès du projet nous permet de dire que notre initiative de développer la direction du réseau au sein du portefeuille de services Linxdatacenter est le bon choix du vecteur de développement de l'entreprise. Une approche responsable de la gestion de projet, une stratégie compétente, une planification claire nous ont permis d'effectuer le travail au bon niveau. 



Confirmation de la qualité du travail - une demande du client de poursuivre la fourniture de services de modernisation de réseau sur ses autres sites en Russie



All Articles