Une nouvelle approche de l'utilisation des technologies photoniques dans l'apprentissage automatique

Dans leur article "Photonic Processors Enable More Performing Machine Learning" dans Applied Physics Review, les auteurs Mario Miskullo et Volker Sorger du Département de génie électrique et informatique de l'Université George Washington, États-Unis, décrivent une nouvelle approche pour effectuer des calculs de réseau neuronal pour apprentissage automatique utilisant des noyaux de tenseur photonique au lieu d'unités de traitement graphique (GPU).



Miscuglio


Mario Miskullo est professeur adjoint au Département de génie électrique et informatique de l'Université George Washington. Mario est un chef de sous-groupe de l'équipe de calcul neuromorphique OPEN Lab dirigée par le professeur Volcker J. Sorger. Mario a obtenu sa maîtrise en génie électrique et informatique de l'École polytechnique de Turin tout en travaillant comme chercheur à Harvard / MIT. Il a soutenu sa thèse de doctorat en optoélectronique à l'Université de Gênes à l'Institut italien de technologie, tout en travaillant comme assistant de recherche à la Fonderie moléculaire au Laboratoire national. Lawrence à Berkeley. Ses intérêts s'étendent à la science et à l'ingénierie, y compris la nano-optique et les interactions lumière-matière, les métasurfaces, l'optique de Fourier et l'informatique neuromorphique photonique.



Les auteurs suggèrent qu'en raison de cette approche, les performances de traitement des flux de données optiques peuvent être de 2 à 3 ordres de grandeur plus élevées que celles d'un GPU. Les auteurs pensent également que les processeurs photoniques peuvent fonctionner exceptionnellement bien sur les périphériques des réseaux 5G.



recherche-point culminant-volker-sorger-007-2


— , (OPEN) . , .



, , - . — , , PMAC/s . , (PECASE), AFOSR , . - , OSA , OSA , SPIE . - IEEE, OSA SPIE.




Dans l'approche étudiée, le noyau du tenseur de photons effectue des multiplications de matrice en parallèle, améliorant ainsi la vitesse et l'efficacité de l'apprentissage en profondeur. Les réseaux de neurones apprennent à apprendre à exécuter des décisions incontrôlées et à construire une classification des données invisibles. Une fois qu'un réseau neuronal est formé pour travailler avec des données, il peut déduire de reconnaître et de classer des objets, des modèles et de trouver une signature dans les données.



Le processeur photonique TPU stocke et traite les données en parallèle à l'aide d'une connexion électro-optique capable de lire et d'écrire efficacement la mémoire optique, tandis que le TPU photonique interagit avec d'autres architectures.



«Nous avons découvert que les plates-formes photoniques avec mémoire optique intégrée peuvent effectuer les mêmes opérations que les processeurs tenseurs. En même temps, ils consomment moins d'énergie et sont beaucoup plus productifs. Ils peuvent être utilisés pour effectuer des calculs à la vitesse de la lumière », a déclaré Mario Miskullo, l'un des développeurs.



La plupart des réseaux de neurones démêlent plusieurs couches de neurones interconnectés afin d'imiter le fonctionnement du cerveau humain. Une manière efficace de représenter ces réseaux est une fonction composée qui multiplie les matrices et les vecteurs ensemble. Cette vue permet d'effectuer des opérations parallèles à travers des architectures spécialisées dans les opérations vectorisées, comme la multiplication matricielle.



Moteur-de-produit-noyau-et-point-tenseur-photonique


Source: article de Mario Miskullo et Volker Sorger.



(a) Le noyau de tension photonique (PTC) se compose de 16 guides de lumière qui, de par leur nature et indépendamment, effectuent une multiplication ligne par ligne et une accumulation point par point.



(b) . WDM, (, -) . J- . , , (MRR), ( ), , , MAC.



Plus la tâche est difficile et plus les exigences de précision des prévisions sont élevées, plus le réseau devient complexe. Ces réseaux nécessitent de grandes quantités de données à calculer et plus de puissance pour traiter ces données. Les processeurs numériques modernes adaptés à l'apprentissage en profondeur, tels que les unités de traitement graphique (GPU) ou les unités de traitement par tenseur (TPU), sont limités dans l'exécution d'opérations complexes de haute précision en raison de la puissance requise pour ce faire. Et aussi à cause de la lenteur du transfert des données électroniques entre le processeur et la mémoire.



Les développeurs et auteurs de l'article ont montré que les performances d'un TPU peuvent être de 2 à 3 ordres de grandeur supérieures à celles d'un TPU électrique. Les photons sont idéaux pour les réseaux informatiques et les opérations de nœud à nœud qui effectuent des tâches intelligentes de haute capacité à la périphérie de réseaux tels que la 5G. Les signaux de données provenant de caméras de surveillance, de capteurs optiques et d'autres sources peuvent déjà être sous forme de photons.



«Les processeurs photoniques dédiés peuvent économiser d'énormes quantités d'énergie en réduisant les temps de réponse et de traitement», a ajouté Miskullo. Pour l'utilisateur final, cela signifie que les données sont traitées beaucoup plus rapidement dans ce cas, car la plupart d'entre elles sont prétraitées, ce qui signifie que seules certaines des données peuvent être envoyées au cloud ou au centre de données.



Une nouvelle approche pour la transmission de données optiques et électriques



Cet article présente un exemple de choix d'un itinéraire optique pour effectuer des tâches d'apprentissage automatique. Dans la plupart des réseaux de neurones (NN), qui exposent plusieurs couches de neurones / nœuds interconnectés, chaque neurone et couche, ainsi que les connexions du réseau lui-même, sont importants pour la tâche dans laquelle le réseau a été formé. Dans la couche connectée considérée, les réseaux de neurones dépendent fortement des opérations mathématiques d'une matrice vectorielle, dans laquelle de grandes matrices de données d'entrée et de poids sont multipliées conformément au processus d'apprentissage. Les réseaux neuronaux profonds multicouches complexes nécessitent une bande passante importante et une faible latence pour satisfaire les opérations requises pour effectuer une multiplication matricielle importante sans sacrifier l'efficacité et la vitesse.



Comment multipliez-vous efficacement ces matrices? Dans les processeurs à usage général, les opérations matricielles sont effectuées séquentiellement, nécessitant un accès constant à la mémoire cache, ce qui crée un goulot d'étranglement dans l'architecture von Neumann. Des architectures spécialisées telles que les GPU et les TPU aident à atténuer ces goulots d'étranglement en activant certains modèles d'apprentissage automatique puissants.



Les GPU et les TPU sont particulièrement utiles sur les processeurs. Mais lorsqu'ils sont utilisés pour entraîner des réseaux de neurones profonds, effectuant des inférences pour de grands ensembles de données bidimensionnels tels que des images, ils peuvent consommer beaucoup d'énergie et nécessiter un temps de calcul plus long (plus de dizaines de millisecondes). La multiplication de matrices pour les tâches d'inférence moins complexes souffre toujours de problèmes de latence, principalement en raison des restrictions d'accès à diverses hiérarchies de mémoire et de la latence pour chaque instruction du GPU.



Les auteurs de l'article suggèrent que dans ce contexte, il est nécessaire d'étudier et de réinventer les paradigmes opérationnels des plates-formes informatiques logiques modernes dans lesquelles l'algèbre matricielle repose sur un accès à la mémoire persistante. À cet égard, la nature ondulatoire de la lumière et les opérations inhérentes associées telles que l'interférence et la diffraction peuvent jouer un rôle important dans l'augmentation du débit de calcul tout en réduisant la consommation d'énergie des plates-formes neuromorphiques.



Les développeurs prévoient que les technologies futures doivent effectuer des tâches de calcul dans le domaine de leurs entrées variables dans le temps en utilisant leurs propres opérations physiques. De ce point de vue, les photons sont idéaux pour les calculs répartis sur les nœuds des réseaux, effectuant des tâches intelligentes sur le big data en périphérie du réseau (par exemple, 5G), où des signaux de données peuvent déjà exister sous forme de photons (par exemple, une caméra de sécurité, un capteur optique, etc.) .), ce qui permet de pré-filtrer et d'ajuster intelligemment la quantité de trafic de données qui peut être dirigée vers les centres de données et les systèmes cloud.



C'est là qu'ils décomposent une nouvelle approche utilisant un noyau de tension photonique (PTC) capable d'effectuer la multiplication et l'accumulation de matrices 4x4 avec un noyau entraîné en une seule étape (c'est-à-dire non itérativement); autrement dit, après apprentissage, les poids du réseau de neurones sont stockés dans une mémoire photonique multi-niveaux 4 bits, directement implémentée sur la puce, sans avoir besoin de circuits électro-optiques supplémentaires ou de mémoire dynamique à accès aléatoire (DRAM). Les mémoires photoniques ont des circuits nanophotoniques à faible perte et à changement de phase basés sur des conducteurs G2Sb2Se5 déposés sur un guide d'ondes planarisé qui peut être amélioré par commutation électrothermique, donc capable d'être lu entièrement optiquement.La commutation électrothermique est réalisée à l'aide d'électrodes chauffantes en tungstène qui interagissent avec un capteur à mémoire à changement de phase (PCM).



Table. Comparaison des performances des noyaux tensoriels.

image


Source: article de Mario Miskullo et Volker Sorger.



Le Photonic Tensor Core (PTC) alimenté électroniquement (dans la colonne de gauche) fournit une augmentation de 2 à 8 fois du débit par rapport aux T4 et A100 de Nvidia, et pour les données optiques (comme une caméra), le grossissement est d'environ 60x (zone le microcircuit est limité à un cristal (~ 800 mm2).



Des tests ont montré que les performances des puces photoniques sont deux à trois fois supérieures à celles du marché aujourd'hui. La vitesse de traitement des données en eux peut atteindre deux pétaflops par seconde, alors qu'ils consomment environ 80 watts d'énergie, dont 95% seront consacrés à l'entretien de la puce et seulement 5% aux calculs.



Les auteurs de l'article soulignent que ce travail représente la première approche de la mise en œuvre d'un processeur de tenseur de photons qui stocke les données et les traite en parallèle. Un tel processeur peut faire évoluer le nombre d'opérations de multiplication-accumulation (MAC) de plusieurs ordres de grandeur, tout en réduisant considérablement la consommation d'énergie et la latence par rapport aux accélérateurs matériels existants, tout en fournissant des analyses en temps réel.



Contrairement à l'électronique numérique, qui repose sur des portes, en photonique intégrée, la multiplication-accumulation et de nombreuses autres opérations algébriques linéaires peuvent être effectuées de manière non itérative, en tirant parti du parallélisme inhérent fourni par la nature électromagnétique des signaux lumière-matière. À cet égard, la photonique intégrée est une plate-forme idéale pour afficher des opérations complexes spécifiques dans le matériel.



All Articles