Apprentissage par renforcement et analyse heuristique sur les commutateurs de centre de données: conditions préalables et avantages

Avant la conférence AI Journey, que Huawei soutient en tant que partenaire principal et à laquelle plusieurs de nos intervenants prendront la parole, nous avons décidé de partager des informations préliminaires sur nos développements, et en particulier sur la façon dont nous utilisons l'intelligence artificielle dans les réseaux de centres de données intelligents. Et en même temps, pour expliquer pourquoi les technologies établies ne sont pas suffisantes pour construire des réseaux de centres de données modernes et nous avons besoin d'une «aide amicale» de l'IA.







Que se passe-t-il dans le domaine des réseaux conditionnels sans perte



Au fil des ans, lorsque les supports de transmission de données ont connu un développement rapide, les ingénieurs ont réussi à rencontrer de nombreux phénomènes qui entravent la mise en œuvre réussie des réseaux de stockage et des clusters de calcul haute performance sur Ethernet: pertes, livraison d'informations non garantie, blocages, microrafales et autres choses désagréables.



En conséquence, il a été jugé correct de créer un réseau dédié de référence pour un scénario spécifique:



  • IB pour les grappes de calcul à charge élevée;
  • FC pour réseau de stockage classique;
  • Ethernet pour les tâches de service.


Les tentatives de polyvalence ressemblaient à quelque chose à l'illustration.







Pour certaines tâches, les vecteurs pouvaient coïncider (similaire à celui d'un cygne et d'une écrevisse), et la polyvalence de la situation était obtenue, bien qu'avec une efficacité moindre que lors du choix d'un scénario hautement spécialisé.



Aujourd'hui, Huawei voit l'avenir dans les usines convergées multitâches et propose à ses clients une solution AI Fabric conçue, d'une part, pour des scénarios d'augmentation des performances réseau sans perte (jusqu'à 200 Gbps par port de serveur en 2020), d'autre part, pour augmenter les performances du applications (migration vers RoCEv2).



D'ailleurs, nous avions un séparé détaillé après sur le volet technique de la grippe aviaire en tissu .



Ce qui nécessite une optimisation



Avant de parler d'algorithmes, il est logique de clarifier ce qu'ils sont censés améliorer exactement.



L'ECN statique conduit au fait qu'avec une augmentation du nombre de serveurs d'envoi avec un seul destinataire, un modèle de trafic sous-optimal émerge (pour le moins qu'on puisse dire, nous avons affaire au modèle dit incast plusieurs-à-un).







Dans l' Ethernet traditionnel , nous devons équilibrer manuellement les risques de perte sur le réseau et les mauvaises performances du réseau lui-même.







Nous verrons les mêmes prérequis également lors de l'utilisation du bundle PFC / ECN dans le cas d'une implémentation sans réglage constant (voir la figure ci-dessous).







Pour résoudre les problèmes décrits, nous utilisons l'algorithme AI ECN, dont l'essence est de modifier les seuils ECN en temps opportun. Son apparence est illustrée dans le diagramme ci-dessous.







Auparavant, lorsque nous utilisions le chipset Broadcom + le pack processeur Ascend 310 AI, nous disposions d'un nombre limité d'options pour régler ces paramètres.

On peut appeler conditionnellement une telle variante du logiciel AI ECN, puisque la logique se fait sur une puce séparée et est déjà «renversée» dans un chipset commercial.
Les modèles équipés du chipset Huawei P5 ont des «capacités IA» beaucoup plus larges (en particulier sur la dernière version), du fait qu'il implémente une partie importante des fonctionnalités nécessaires à cela.







Comment nous utilisons les algorithmes



En utilisant l'Ascend 310 (ou le module intégré de la P-card), nous commençons à analyser le trafic et à le comparer à un benchmark d'applications connues.







Dans le cas d'applications connues, les métriques de trafic sont optimisées à la volée; dans le cas d'applications inconnues, l'étape suivante est franchie.







Points clés:



  1. L'apprentissage par renforcement DDQN, l'exploration, l'accumulation de nombreuses configurations de base et l'exploration de la meilleure stratégie de conformité ECN sont effectués.
  2. Le classificateur CNN identifie les scénarios et détermine si le seuil DDQN recommandé est fiable.
  3. Si le seuil DDQN recommandé n'est pas fiable, une méthode heuristique est utilisée pour le corriger afin de garantir que la solution est généralisée.


Cette approche vous permet d'ajuster les mécanismes de travail avec des applications inconnues, et si vous le souhaitez vraiment, vous pouvez définir un modèle pour votre application à l'aide de l'API Northbound sur le système de gestion des commutateurs.







Points clés:



  1. DDQN accumule un grand nombre d'échantillons de mémoire de configuration de base et examine en profondeur l'état du réseau et la logique de réconciliation de la configuration de base pour apprendre les politiques.
  2. Le classificateur de réseau neuronal CNN identifie des scénarios pour éviter les risques qui peuvent survenir lorsque des configurations ECN non fiables sont recommandées dans des scénarios inconnus.


Qu'est ce qu'on obtient



Après un tel cycle d'adaptation et de modification de seuils et de paramètres réseau supplémentaires, il devient possible de se débarrasser de plusieurs types de problèmes à la fois.



  • Problèmes de performances: faible bande passante, longue latence, perte de paquets, gigue.

  • Problèmes PFC: PFC Deadlock, HOL, Storms, etc. La technologie PFC cause de nombreux problèmes au niveau du système.

  • Défis des applications RDMA: IA / calcul haute performance, stockage distribué et combinaisons. Les applications RDMA sont sensibles aux performances du réseau.



Sommaire



En fin de compte, des algorithmes d'apprentissage automatique supplémentaires nous aident à résoudre les problèmes classiques de l'environnement réseau Ethernet "insensible". Ainsi, nous sommes un pas de plus vers un écosystème de services réseau de bout en bout transparents et pratiques - par opposition à un ensemble de technologies et de produits disparates.



***



Les solutions Huawei continuent d'apparaître dans notre bibliothèque en ligne . Y compris sur les sujets abordés dans cet article (par exemple, avant de construire des solutions d'IA pleine grandeur pour divers scénarios de centres de données «intelligents»). Vous pouvez trouver une liste de nos webinaires pour les semaines à venir ici .



All Articles