La poétique de la mutation: l'intelligence artificielle peut aider à étudier les virus qui échappent

Les



bioinformatistes de source ont utilisé un algorithme conçu pour simuler le langage humain pour prédire comment les virus pourraient évoluer pour se défendre contre le système immunitaire.



La copie est incorrecte



Les virus mènent une existence cyclique plutôt primitive. Ils pénètrent dans la cellule, effectuent une sorte de piratage de ses mécanismes de reproduction, créant une machine à copier pour leur propre espèce. Les répliques de virus se propagent dans tout le corps dans le même but: capturer et maîtriser. Et ainsi de suite à l'infini.



Assez souvent dans la séquence de ce copier-coller, quelque chose ne va pas - les échecs lors de la copie provoquent des mutations. Parfois, une mutation concerne l'absence d'une protéine ou d'un acide aminé important - un virus aussi malchanceux est envoyé à la poubelle de l'histoire de l'évolution. Parfois, une mutation n'affecte rien du tout: lorsque les termes sont réarrangés dans la séquence des protéines, la somme ne change pas.



Mais de temps en temps, la mutation entre les mains du virus. Les changements qui ont eu lieu n'empêchent pas seulement le virus de continuer à capturer les cellules saines, mais l'aident également à le faire avec une plus grande efficacité. Les mutations peuvent rendre le virus méconnaissable pour la défense immunitaire d'une personne. Un tel envahisseur parvient à échapper aux anticorps développés chez les personnes malades ou vaccinées, ou à «s'échapper».



Les scientifiques sont toujours à l'affût des tentatives potentielles de fuite de virus. Ceci est également vrai pour le SRAS-CoV-2: de nouvelles souches apparaissent et les scientifiques étudient à quel point ces changements sont critiques pour le vaccin existant (PS Jusqu'à présent, tout est en ordre). Le plus difficile est pour les chercheurs du virus de la grippe et du VIH, qui le mieux «éludent» les défenses immunitaires de notre corps.



Les virologues tentent de rester en avance sur la courbe, ils créent donc leurs propres mutants en laboratoire et voient s'ils peuvent échapper aux anticorps prélevés sur d'anciens patients et vaccinés. Mais ce travail s'apparente à la recherche d'une aiguille dans une botte de foin: les variations de mutations sont si diverses qu'il n'est pas possible de tout vérifier. De telles études sont menées plutôt pour ne pas perdre un contrôle relatif sur la situation.



Orthographe virale



L 'hiver dernier, Brian Hee, bioinformatiste au MIT et grand fan de la poésie de John Donne , a réfléchi à ce problème et a proposé une analogie intéressante. Et si nous voyons les séquences virales de la même manière que nous voyons le langage écrit? Selon le scientifique, chaque séquence virale a une sorte de grammaire - un ensemble de règles qu'elle doit suivre pour être ce virus particulier.



Si la mutation provoque une "erreur grammaticale", le virus entre dans une impasse évolutive. Tout comme le langage, la séquence virale a une sorte de sémantique que le système immunitaire peut lire ou non. Si elle le lit, le système immunitaire est capable de comprendre le virus et de l'arrêter en utilisant des anticorps ou d'autres moyens de protection. Poursuivant l'analogie, «l'évasion» virale peut être vue comme un changement qui suit les règles de la grammaire, mais change sa sémantique en une sémantique qui n'est pas lue par immunité.



L'analogie était non seulement belle, mais a également donné à Brian Hee l'idée de son application pratique. Au cours des dernières années, l'intelligence artificielle a beaucoup progressé dans le domaine de la linguistique, modélisant correctement les principes de grammaire et de sémantique du langage humain. Les réseaux de neurones sont formés sur des ensembles de données constitués de milliards de mots et classés par phrases et paragraphes, à partir desquels le système déduit des modèles. À la suite de la formation, les algorithmes d'IA «comprennent» comment construire correctement des phrases et où placer des virgules. On peut aussi dire qu'il «comprend» le sens de certaines séquences de mots et de phrases et tient même compte du contexte - tout cela est basé sur des coefficients correctement sélectionnés des couches du réseau neuronal.



L'architecture des motifs pour choisir un mot ou un autre est à grande échelle, et elle est prescrite de plus en plus en détail. Ainsi, les algorithmes de traitement du langage naturel les plus avancés tels que GPT-3 d' OpenAI apprennent à créer des textes grammaticaux idéaux tout en conservant le style.



Tant en littérature qu'en biologie



Le principal avantage des algorithmes d'intelligence artificielle est leur évolutivité à différents domaines de la science. Pour un modèle d'apprentissage automatique, une séquence est une séquence, peu importe où elle se trouve dans les sonnets lyriques ou les acides aminés.



Selon Jeremy Howard, chercheur en intelligence artificielle à l'Université de San Francisco et expert en algorithmes de traitement du langage naturel, l'utilisation d'algorithmes d'IA dans la recherche biologique peut être bénéfique.



Ayant une quantité suffisante de données, par exemple, à partir des séquences génétiques de virus infectieux connus de la science, le modèle peut détecter des modèles et des modèles dans leur structure.



"Ce sera un modèle extrêmement complexe."Dit Jeremy Howard. Brian Hee le savait aussi. Sa conseillère scientifique, mathématicienne et programmeuse Bonnie Berger, a déjà effectué un travail similaire avec des collègues du laboratoire, utilisant l'IA pour prédire les modèles de repliement des protéines.



Modèles de langage pour la grippe, le VIH et le coronavirus



Ce printemps, le laboratoire de Berger a donné vie à l'idée de Brian Hee. Les résultats de la recherche sont publiés dans la revue Science . Au départ, l'équipe s'est intéressée au virus de la grippe et au VIH, qui sont connus pour leur maîtrise magistrale des vaccins. Mais lorsqu'ils ont commencé l'étude en mars 2020, le génome du nouveau coronavirus est devenu disponible, ils ont donc décidé de l'ajouter également à l'étude.



Pour les trois virus, les scientifiques se sont concentrés sur les séquences protéiques qu'ils utilisent pour pénétrer dans les cellules et se répliquer, explique Brian Bryson, bio-ingénieur, professeur au MIT et co-auteur de l'étude. Ces mêmes séquences sont la cible principale d'une réponse immunitaire et la clé pour créer un vaccin efficace. Ici, les anticorps s'accrochent au virus, l'empêchant de pénétrer dans la cellule et le condamnant à la destruction (pour le SRAS-CoV-2, il s'agit de la protéine de pointe S.) Pour chaque virus, l'équipe du MIT a formé un modèle de langage en utilisant des données de séquence génétique au lieu des paragraphes et des phrases habituels.



Après un certain temps, les scientifiques ont vérifié le résultat de l'entraînement du modèle. Selon l'hypothèse des scientifiques, des séquences qui ont une sémantique similaire devraient infecter les mêmes «hôtes». Ainsi, le «langage» génétique de la grippe porcine devrait être sémantiquement similaire à celui d'une autre grippe porcine et différent d'un autre sous-type de grippe, par exemple la grippe aviaire. L'hypothèse des scientifiques a été confirmée. En outre, ils ont constaté que les souches de grippe étalées dans le temps (par exemple, la grippe aviaire de 1918 et 2009) étaient jugées par l'IA comme sémantiquement similaires.



Puis ils se sont tournés vers la grammaire. Quelle est la corrélation entre le score du virus pour la «grammaire» de la séquence et sa viabilité dans la vie réelle? Les scientifiques ont recueilli des données d'études antérieures évaluant l'adaptabilité des virus mutés (dans quelle mesure ils attaquaient les cellules et se répliquaient) pour les trois virus. Ils ont ensuite évalué à quel point ces séquences étaient grammaticalement correctes selon le modèle. Les chercheurs ont supposé qu'un score élevé pour ce paramètre signifiait une grande adaptabilité du virus.



Bryson et Hee voulaient également savoir si l'IA pouvait prédire l'émergence d'un virus «d'échappement». Ensuite, ils ont comparé les prédictions de leur modèle avec les cas connus de «fuite» réelle du virus. Le modèle du virus de la grippe s'est révélé le plus prédictif. Sans surprise, l'ensemble de données qu'ils ont utilisé pour former ce modèle était le plus complet - il comprenait des séquences grippales accumulées sur plusieurs années, y compris des mutations survivantes.



Quant au SARS-CoV-2, les scientifiques ont testé leurs hypothèses sur des mutants élevés artificiellement. Le virus existant a été transmis à plusieurs reprises à travers le sérum avec des anticorps jusqu'à ce que le virus mute à un stade tolérant à eux (nous n'avons vraiment rien à craindre pour le moment). Le taux de réussite était plus faible ici. Le modèle identifiait la plupart des vrais fugitifs, mais se trompait parfois.





Néanmoins, les résultats obtenus sont un bon point de départ pour des recherches plus poussées par les virologues qui veulent comprendre comment fonctionne le mécanisme de la mutation naturelle. «C'est un excellent moyen de restreindre l'univers des virus mutants potentiels », commente Benhour Lee, microbiologiste à l'école de médecine Icahn sur le mont Sinaï.



Le scientifique a ajouté que les prédictions sont aussi bonnes que les données sur lesquelles le modèle est formé. Il convient également de garder à l'esprit que le modèle d'IA manque certaines nuances, car la propriété d'échappement n'est pas toujours une conséquence de la mutation. Le VIH en est la preuve. Parfois, la séquence de ce virus ne change pas, et ses protéines sont même reconnues par des anticorps, mais elles sont bien protégées par un polysaccharide appelé glycane.



Benhour Lee a noté que les prédictions de l'IA aident principalement les chercheurs à confirmer les connaissances existantes. Ainsi, le modèle a correctement identifié deux parties de la protéine de pointe du SRAS-CoV-2, qui, comme il a été découvert précédemment, sont plus sensibles aux mutations, et une région de la séquence virale qui est stable, ce qui signifie que c'est une bonne cible pour les anticorps.



Le temps nous dira à quelles autres découvertes les prévisions du modèle d'IA mèneront. Jusqu'à présent, les scientifiques y ont placé des espoirs particuliers en termes d'identification des mutations dites combinatoires, qui incluent de nombreux changements superposés les uns aux autres.



La prochaine étape, que le personnel de Bryson prendra, sera de créer en laboratoire certains des mutants prédits du SRAS-CoV-2 et de surveiller leur réponse aux anticorps prélevés sur les personnes malades et vaccinées. Ils testeront également plusieurs séquences collectées lors de tentatives de séquençage d'échantillons de virus provenant de patients atteints de Covid-19, qui, selon le modèle, sont plus enclins à s'échapper, a déclaré Bryson.



Les scientifiques veulent également tester si leur analogie s'applique à d'autres situations. Un modèle similaire pourrait-il prédire si le système immunitaire deviendra intolérant à un traitement anticancéreux particulier ou si les cellules cancéreuses pourraient muter et cesser de répondre au traitement? Avec suffisamment de données en main, le laboratoire de Bryson souhaite également tester cela.






All Articles