Huawei CloudFabric 2.0: à quoi devraient ressembler les solutions de mise en réseau des centres de données dans les services bancaires numériques intelligents

Lors de la Huawei FSI Week 2020 qui s'est tenue en ligne, le directeur technique de la gamme de produits de données Huawei, Daniel Tang, a parlé dans un langage accessible des dernières réalisations de la société en matière de solutions réseau pour les centres de données permettant la transformation d'un centre de données de "juste un cloud" à vraiment intelligent. Et en même temps, il a fait une courte excursion dans le contexte de cette transformation.







Ce qui a changé dans la banque à la consommation



En Chine, il y a environ cinq ans, obtenir un prêt n'était pas une affaire rapide - pour un simple mortel, bien sûr. Il a fallu remplir beaucoup de papiers, les envoyer ou les apporter à une succursale bancaire, peut-être même faire la queue, et revenir à la maison pour attendre une décision. Combien attendre? Et comment ça se passe, d'une semaine à plusieurs mois.



D'ici 2020, cette procédure a été considérablement simplifiée. J'ai récemment mené une petite expérience - j'ai essayé d'obtenir un prêt en utilisant l'application mobile de ma banque. Plusieurs tapotements sur l'écran du smartphone - et le système promet de me répondre dans un quart d'heure au plus tard. Mais en moins de cinq minutes, je reçois une notification push indiquant le montant du prêt sur lequel je peux compter. D'accord, un progrès impressionnant par rapport à la situation d'il y a cinq ans. Curieusement, cela a pris des jours et des semaines entiers dans un passé récent.







Donc, avant, la plupart du temps était consacré à la vérification des données et à la notation manuelle. Toutes les informations des questionnaires et autres documents devaient être saisies dans le système informatique de la banque. Mais ce n'était que le début de l'épreuve: les employés de la banque ont personnellement vérifié vos antécédents de crédit, après quoi ils ont pris la décision finale. Ils quittaient le bureau à 17 h ou 18 h, se reposaient le week-end, et le processus, par conséquent, pouvait s'éterniser.



C'est différent ces jours-ci. Le facteur humain dans de nombreuses tâches de la banque numérique est généralement sorti de crochets. L'évaluation, y compris les contrôles anti-fraude et AML, est effectuée automatiquement à l'aide d'algorithmes intelligents. Les voitures n'ont pas besoin de repos, elles fonctionnent donc sept jours sur sept et 24 heures sur 24. En outre, une bonne quantité d'informations nécessaires à la prise de décision est déjà stockée dans les bases de données bancaires. Cela signifie que le verdict est rendu dans une période beaucoup plus courte que dans «l'antiquité italienne».



En général, auparavant, le centre de données bancaires était plutôt utilisé pour résoudre des problèmes de type «enregistrement». Pendant longtemps, il ne resta qu'un centre comptable et ne produisit rien par lui-même. Aujourd'hui, il existe de plus en plus de centres de données «intelligents» où un produit est créé... Ils sont utilisés pour des calculs complexes et permettent de tirer des renseignements à partir d'ensembles de données brutes - en fait, des connaissances à forte valeur ajoutée. De plus, l'exploration continue des données - si elle est bien sûr préparée correctement - augmente finalement encore l'efficacité des processus.







Ces transformations ont lieu non seulement dans la finance, mais dans pratiquement tous les secteurs d'activité. Pour les entreprises aux profils très variés (et pour nous, en tant que fabricant de solutions), les centres de données sont désormais le principal pilier du monde, où la concurrence entre les développements intelligents est plus intense que jamais. Il y a encore cinq ans, il était courant d'argumenter en accord avec le fait que le centre de données est inscrit dans le monde des technologies cloud, ce qui impliquait la capacité de faire évoluer de manière flexible le pool total de ressources distribuées pour le calcul et le stockage de données. Mais c'est l'ère des solutions intelligentes, et dans le centre de données, nous pouvons effectuer une exploration de données en continu, convertissant les résultats obtenus en gains de performances extraordinaires. Dans le secteur financier, ces changements conduisent - parmi de nombreux autres résultats - au fait queque l'évaluation des demandes de prêts s'accélère radicalement. Ou, par exemple, ils permettent de recommander instantanément les produits financiers les plus adaptés à un client bancaire particulier.



Dans le secteur public, dans les télécoms, dans l'industrie de l'énergie, le travail intelligent avec les données contribue aujourd'hui à la transformation numérique avec une augmentation spectaculaire de la productivité de l'organisation. Naturellement, de nouvelles circonstances formeront une nouvelle demande, non seulement en ce qui concerne les ressources informatiques et les systèmes de stockage de données, mais également en ce qui concerne les solutions réseau pour les centres de données.



Qu'est-ce qu'un "centre de données intelligent"









Chez Huawei, nous avons identifié trois défis majeurs des centres de données à l'ère des centres de données intelligents.



Premièrement, une bande passante extraordinaire est nécessaire pour gérer les flux interminables de nouvelles données.... Selon nos observations, au cours des cinq dernières années, le volume de données stockées dans les centres de données a décuplé. Mais ce qui est encore plus impressionnant, c'est le trafic généré lors de l'accès à ces données. Dans les centres de données de «type d'enregistrement», toutes ces informations étaient utilisées pour résoudre des problèmes de comptabilité et constituaient souvent un poids mort, et dans les centres de données d'un nouveau type, cela «fonctionne» - nous devons fournir une exploration constante des données. En conséquence, 10 à 1000 fois plus d'itérations sont effectuées lors de l'accès à une unité de données stockées qu'auparavant. Par exemple, lors de la formation de modèles d'IA, les tâches de calcul sont effectuées presque sans interruption en arrière-plan avec un fonctionnement constant des algorithmes de réseau neuronal afin d'augmenter «l'intelligence» du système. Ainsi, non seulement les volumes de données stockées augmentent, mais également le trafic généré lors de leur accès.Ce n'est donc pas du tout au gré des fournisseurs de télécommunications qu'il y a de plus en plus de cent deux cents ports Gigabit sur les nouveaux modèles de serveurs de banque de données.



Deuxièmement, aucune perte de paquets de donnéesen 2020, le must absolu. En tout cas, de notre point de vue. Auparavant, de telles pertes n'étaient pas un casse-tête pour les ingénieurs des centres de données bancaires. Les goulots d'étranglement étaient la puissance de traitement et l'efficacité du stockage. Mais les valeurs moyennes des deux indicateurs dans l'industrie ont considérablement augmenté au cours des cinq dernières années à l'échelle mondiale. Naturellement, l'efficacité de l'infrastructure réseau s'est avérée être le goulot d'étranglement dans le travail des centres de données. En travaillant avec l'un de nos principaux clients, nous avons constaté que chaque pourcentage ajouté au taux de perte de paquets menaçait de réduire de moitié l'efficacité de la formation des modèles d'IA. D'où l'énorme impact sur la productivité et l'efficacité de l'utilisation des ressources informatiques et des systèmes de stockage de données. C'est ce qui doit être surmontépour accompagner la transformation d'un simple centre de données en un centre de données pour l'ère intelligente.



Troisièmement, il est important de fournir le service de manière transparente et transparente . La banque numérique moderne a enseigné et a enseigné à juste titre aux gens que les services des institutions financières peuvent, ou plutôt doivent même être disponibles 24 heures sur 24, 7 jours sur 7. Une situation courante: un entrepreneur épuisé avec une routine quotidienne désordonnée, qui a cruellement besoin de fonds supplémentaires, se réveille vers minuit et veut savoir sur quelle ligne de crédit il peut compter. Les chemins de retour sont coupés: la banque n'a plus la possibilité de suspendre le travail du DC pour réparer ou améliorer quelque chose.



Notre solution CloudFabric 2.0 est précisément conçue pour faire face à ces défis. Il prend en charge le débit le plus élevé, la gestion intelligente du réseau des centres de données et le fonctionnement sans faille des réseaux de conduite autonomes (ADN).



Contenu de CloudFabric 2.0 pour les centres de données intelligents









En ce qui concerne le haut débit, nous comptons non seulement sur l'évolutivité de nos solutions réseau, mais aussi sur la flexibilité de travailler avec elles. Par exemple, les commutateurs de centre de données Huawei de la gamme CloudEngine sont devenus les premiers appareils de cette classe dans l'industrie avec un processeur intégré pour l'informatique en réseau neuronal en temps réel, aidant à résoudre les problèmes au sein de l'infrastructure réseau et à éviter la perte de paquets de données (ceci est réalisé à l'aide de l'algorithme iLossless, en y compris pour le scénario iNOF RoCE). Mais, bien sûr, la bande passante réelle compte également. Il est important d'inclure la prise en charge des interfaces 400 Gb / s, ainsi que la rétrocompatibilité avec les connexions de dix, quarante et cent gigabits actuellement répandues.



Les nœuds de support de l'infrastructure devraient également pouvoir fonctionner avec une densité de connexions élevée (les scénarios dits à haute densité), avec la possibilité d'une évolutivité significative de la solution. Notre modèle de centre de données phare CloudEngine 16800 prend en charge jusqu'à 48 ports à 400 Gbit / s par emplacement - trois fois plus que son homologue le plus proche.



En ce qui concerne le système dans son ensemble, les possibilités d'élargissement de l'évolutivité du débit par châssis sont également impressionnantes - 768 ports de 400 Gb / s par châssis , soit six fois plus que ne le permettent les solutions d'autres acteurs du marché. Cela nous donne des raisons d'appeler le CloudEngine 16800 le commutateur de centre de données le plus puissant à l'ère de l'IA gagnante.







La composante intellectuelle de la solution réseau est également mise en avant. En particulier, il est également nécessaire pour assurer un niveau nul de perte de paquets de données. Pour atteindre ce résultat, nous appliquons nos avancées technologiques les plus avancées, y compris un processeur d'IA intégré pour l'informatique en «réseau neuronal», ainsi que l'algorithme iLossless mentionné précédemment. Tout en réalisant des projets pour nos principaux clients, nous étions convaincus que ces solutions peuvent améliorer considérablement les performances du système dans au moins deux scénarios courants.



Le premier est la formation de modèles d'IA. Il nécessite un accès constant aux données et aux calculs sur d'énormes matrices ou des opérations «lourdes» avec TensorFlow. Notre iLossless est capable d'augmenter la productivité des modèles d'IA de formation de 27% - prouvée dans des cas réels et vérifiée par le test de laboratoire Tolly Group. Le deuxième scénario consiste à améliorer l'efficacité des systèmes de stockage. Son, à son tour, l'utilisation de nos développements peut l'augmenter d'environ 30%.



Entre autres, avec nos clients, nous nous efforçons d'essayer de nouvelles opportunités que nos développements ouvrent. Nous sommes convaincus qu'en améliorant la structure de commutation Ethernet pour le centre de données, nous pouvons transformer la structure de centre de données hautes performances avec le réseau de stockage en une infrastructure Ethernet unique et cohérente. Ainsi, non seulement pour augmenter la productivité des processus d'apprentissage pour les modèles d'IA et améliorer l'accès aux magasins de données définis par logiciel, mais également pour optimiser considérablement le coût total de possession d'un centre de données grâce à l'intégration mutuelle et à la fusion de réseaux verticaux indépendants au niveau physique.







Beaucoup de nos clients aiment déployer ces nouvelles fonctionnalités. Et l'un de ces clients est Huawei lui-même. En particulier, un membre de notre groupe de sociétés Huawei Cloud. En étroite collaboration avec nos collègues de cette division, nous nous sommes assurés qu'en leur garantissant aucune perte de paquets de données, nous leur donnions l'impulsion d'améliorer sensiblement leurs processus d'affaires. Enfin, parmi nos réalisations «internes», nous notons le fait que dans Atlas 900, le plus grand cluster d'IA au monde, nous sommes en mesure de fournir une puissance de calcul utilisée pour entraîner l'intelligence artificielle à un niveau supérieur à 1000 pétaflops - le chiffre le plus élevé dans un ordinateur l'industrie aujourd'hui.



Le stockage de données dans le cloud à l'aide de systèmes 100% Flash est un autre scénario très pertinent. Il s'agit d'un service très «tendance» selon les normes de l'industrie. L'augmentation des ressources informatiques et l'expansion des installations de stockage nécessitent naturellement des technologies de pointe issues du domaine des solutions de mise en réseau des centres de données. Nous continuons donc à travailler avec Huawei Cloud et à implémenter de plus en plus de scénarios d'application à l'aide de nos solutions réseau.



Ce que les réseaux ADN peuvent faire aujourd'hui









Tournons-nous vers les réseaux autonomes (ADN). Il ne fait aucun doute que les réseaux définis par logiciel (réseaux définis par logiciel) du point de vue de la technologie - un pas en avant confiant dans la gestion de la composante réseau du centre de données. La mise en œuvre applicative du concept SDN accélère considérablement l'initialisation et la configuration de la couche réseau du centre de données. Mais, bien sûr, les capacités qu'il fournit ne sont pas suffisantes pour automatiser entièrement le fonctionnement et l'entretien du centre de données. Pour aller plus loin, trois défis majeurs doivent être relevés.



Premièrement, dans l'infrastructure réseau des centres de données, il existe de plus en plus d'opportunités liées à la fourniture de services et de paramètres pour leur fonctionnement, dans le secteur financier - en particulier. Il est important de pouvoir traduire automatiquement l'intention de niveau de service vers la couche réseau...



Deuxièmement, il s'agit également de vérifier ces commandes de provisioning incrémentielles. Naturellement, les réseaux de centres de données ont été configurés il y a longtemps, sur la base d'approches bien établies voire dépassées. Comment vous assurez-vous qu'une personnalisation supplémentaire n'interrompt pas vos procédures déboguées? La vérification automatique des nouveaux paramètres supplémentaires est indispensable. Précisément automatique, car l'ensemble des paramètres existants dans le centre de données est généralement trop volumineux. Il est pratiquement impossible d'y faire face manuellement.



Troisièmement, la question se pose de l'élimination rapide et efficace des problèmes dans l'infrastructure du réseau... Lorsque l'automatisation atteint un niveau élevé, les administrateurs et les ingénieurs de service du centre de données ne sont plus en mesure de surveiller en temps réel ce qui se passe sur le réseau. Ils ont besoin d'une boîte à outils capable de rendre transparent pour eux un réseau de milliers de changements par jour, ainsi que de créer des bases de données basées sur des graphiques de connaissances pour traiter rapidement les problèmes.



Les ADN peuvent nous aider à relever ces défis d'évolution vers des centres de données vraiment intelligents. Et l'idéologie des réseaux à contrôle autonome (elle a migré dans le monde des data centers de l'industrie voisine - à la jonction de l'IoT et du V2X notamment) nous permet de revoir les approches de l'automatisation à différents niveaux du réseau du data center.







Pour le moment, dans l'autonomie de gestion des réseaux pour les data centers, nous avons atteintniveau L3 (automatisation conditionnelle). Cela signifie un degré élevé d'automatisation du centre de données, dans lequel une intervention humaine est requise ponctuellement et uniquement sous certaines conditions.



Pendant ce temps, dans un certain nombre de scénarios, une automatisation complète est possible. Nous travaillons déjà avec nos clients dans le cadre d'un programme d'innovation conjoint pour l'automatisation complète des réseaux de centres de données conformément au concept ADN, principalement dans le cadre de la résolution des problèmes de réseau, et en ce qui concerne les plus urgents et les plus chronophages d'entre eux, nous avons réussi: par exemple, avec l'aide de notre les technologies intelligentes parviennent automatiquement à fermer environ 85% des scénarios de panne les plus fréquemment développés dans les réseaux de centres de données .



Cette fonctionnalité est implémentée dans le cadre de notre concept O&M 1-3-5: une minute pour établir le fait qu'une panne s'est produite, ou pour détecter le risque d'une panne, trois minutes pour déterminer sa cause première et cinq minutes pour suggérer comment l'éliminer. Bien sûr, pour le moment, la participation humaine est nécessaire pour prendre les décisions finales - en particulier, choisir l'une des décisions possibles et donner l'ordre de l'exécuter. Quelqu'un doit assumer la responsabilité du choix. Cependant, à partir de la pratique, nous pensons que le système, même dans sa mise en œuvre actuelle, offre des solutions hautement qualifiées et appropriées.



Voici quelques-uns des défis les plus difficiles auxquels sont confrontés les architectes de centres de données intelligents en 2020, et nous les avons effectivement traités. Par exemple, la fonctionnalité de transfert des demandes de la couche de service vers la couche réseau et de vérification automatique des paramètres est déjà incluse dans CloudFabric 2.0.







Nous sommes heureux que nos réalisations aient été reconnues - et cette année, nous avons reçu le prix Gartner Peer Insights Customer Choice Award, ainsi que le prix F&S Global Data Center Switch Technology Leadership Award - pour le commutateur CloudEngine 16800, qui a été reconnu pour son débit exceptionnel. , la densité la plus élevée d'interfaces 400 Gigabit et l'évolutivité globale du système, ainsi que des technologies intelligentes qui permettent notamment de réduire à zéro le niveau de perte de paquets de données.



All Articles