Ingénierie inverse du code source d'un vaccin contre le coronavirus de BioNTech / Pfizer

Bienvenue. Dans cet article, nous analyserons le code source du vaccin à ARNm BioNTech / Pfizer SARS-CoV-2 caractère par caractère.



Oui, une telle déclaration peut vous surprendre. Un vaccin est un liquide qui est injecté dans la main d'une personne. Qu'est-ce qu'un code source a à voir avec cela?



Bonne question. Nous commencerons par une petite partie du même code source pour le vaccin BioNTech / Pfizer, également connu sous le nom de BNT162b2 , également connu sous le nom de Tozinameran, également connu sous le nom de Comirnaty .





500 premiers caractères de l'ARNm de BNT162b2.



Au cœur du vaccin se trouve ce code numérique. Il comporte 4284 caractères et peut donc tenir dans quelques tweets. Au tout début du processus de production du vaccin, quelqu'un a téléchargé ce code dans une imprimante à ADN (aha), qui, à son tour, a transformé les octets du dispositif de stockage en véritables molécules d'ADN.





Imprimante à ADN Codex DNA BioXp 3200



Une telle machine produit une infime quantité d'ADN qui, après un traitement biologique et chimique à long terme, se transforme en ARN dans un flacon contenant un vaccin. Une dose de 30 μg contient en fait 30 μg d'ARN. Il dispose également d'un système d'emballage lipidique (gras) intelligent qui fournit de l'ARNm à nos cellules.



L'ARN est une version inconstante de l'ADN, pour ainsi dire, stockée dans la «mémoire de travail». L'ADN est comme une clé USB pour la biologie. L'ADN est fiable, robuste et redondant en interne. Mais les ordinateurs n'exécutent pas non plus le code directement à partir du lecteur flash - avant que tout ne démarre, le code est copié dans un système plus rapide et plus flexible, mais aussi plus fragile.



Dans les ordinateurs, c'est la RAM, et en biologie, c'est l'ARN. Les similitudes sont choquantes. Contrairement à la mémoire flash, la RAM se dégrade rapidement si elle n'est pas correctement entretenue. La raison pour laquelle le vaccin à ARN Pfizer / BioNTech doit être conservé à des températures très basses est la même: l'ARN est une fleur délicate.



Chaque symbole d'ARN pèse de l'ordre de 0,53 × 10 -21 grammes, c'est-à-dire qu'une dose de 30 μg de vaccin contient 6 × 10 16 symboles. En octets, ce sera environ 25 PB, bien qu'en fait le vaccin se compose de 2000 milliards de répétitions des mêmes 4284 caractères. Le contenu réel du vaccin dépasse un peu plus d'un kilo-octet. SARS-CoV-2 lui-même a un volume d'environ 7,5 Ko.



Référence rapide



L'ADN est un code numérique. Mais contrairement aux ordinateurs qui utilisent 0 et 1, il utilise les caractères A, C, G et U / T («nucléotides», «nucléosides» ou «bases»).



Dans les ordinateurs, 0 et 1 sont stockés sous forme de présence / absence de charge, ou de courant, ou de jonction magnétique, ou de tension, ou de modulation de signal, ou de changements de réflexivité. Bref, les 0 et les 1 ne sont pas des abstractions, ils vivent sous la forme d'électrons et de nombreuses autres incarnations physiques.



Dans la nature, A, C, G et U / T sont des molécules stockées dans l'ADN (ou ARN) sous forme de chaînes.



Dans les ordinateurs, 8 bits sont regroupés en octets et les données sont généralement traitées octet par octet.



La nature regroupe trois nucléotides en codons, qui sont les unités typiques de traitement de l'information génétique. Le codon contient 6 bits d'information (2 bits par symbole ADN, 3 caractères = 6 bits). Cela signifie que le codon peut prendre 2 6 = 64 valeurs différentes.



Jusqu'à présent, tout est assez numérique. Les sceptiques peuvent consulter le document de l'OMS contenant le code numérique.



Alors, que fait ce code?



L'idée derrière un vaccin est d'apprendre à notre système immunitaire à combattre un agent pathogène sans pour autant tomber malade. Historiquement, pour cela, un virus affaibli ou inactif a été introduit dans le corps, accompagné d'un agent auxiliaire, afin de dynamiser correctement le système immunitaire, le forçant à agir. C'était principalement une technologie analogique qui utilisait des milliards d'œufs (ou d'insectes). Elle a également eu besoin de beaucoup de chance et de temps. Parfois, un virus complètement différent était utilisé pour cela.



L'ARNm permet d'obtenir le même résultat (entraîner le système immunitaire), mais beaucoup plus intelligemment, comme s'il utilisait un viseur laser. Dans tous les sens - un impact étroitement ciblé, mais puissant.



Voici comment ça fonctionne. La préparation contient du matériel génétique instable qui décrit le fameux «pic» protéique SARS-CoV-2. Grâce à des réactions chimiques intelligentes, le vaccin fournit ce matériel génétique à certaines de nos cellules.



Ceux-ci commencent alors docilement à produire des protéines SRAS-CoV-2, dont la quantité est suffisamment importante pour démarrer notre système immunitaire. Face aux protéines de pointe et aux signes caractéristiques de l'infection cellulaire, elle développe une réponse puissante aux différentes propriétés de la protéine de pointe et au processus de sa reproduction.



C'est ainsi que le vaccin fonctionne avec une efficacité de 95%.



La source!



Commençons par le meilleur endroit - depuis le tout début. Le document de l'OMS présente l'image utile suivante:







C'est une sorte de contenu. Commençons par l'élément "casquette", qui est conçu sous la forme d'un chapeau [eng. casquette - casquette, casquette, chapeau].



Tout comme sur un ordinateur, vous ne pouvez pas simplement écrire des opcodes dans un fichier et l'exécuter, un système d'exploitation biologique nécessite des en-têtes, des liens et quelque chose comme des règles de dénomination de variables.



Le code du vaccin commence par les deux nucléotides suivants:



Géorgie




Comparable à tout exécutable DOS et Windows commençant par des caractères "MZ", ou à des scripts UNIX commençant par "#!". Tant dans la vie que dans les systèmes d'exploitation, ces deux personnages ne sont pas exécutés. Mais ils doivent être là, sinon rien ne fonctionnera.



L'en-tête ARNm a plusieurs fonctions. Elle note, par exemple, que le code provient du noyau. Dans notre cas, ce n'est pas le cas - le code provient naturellement du vaccin. Mais la cellule n'a pas besoin de le savoir. Le chapeau donne la crédibilité du code, le protégeant de la destruction.



En outre, les deux nucléotides GA d'origine sont chimiquement légèrement différents du reste de l'ARN. En ce sens, une sorte de signalisation hors bande est intégrée à l'AG.



Région non traduite à cinq barres



Un peu de jargon. Les molécules d'ARN sont lues dans une seule direction. Un peu déroutant est que la lecture commence à partir de la partie appelée 5 ' . Et se termine sur la partie 3 '.



La vie est faite de protéines (et de tout ce qui en est fait). Ces protéines sont décrites dans l'ARN. La transformation de l'ARN en protéine est appelée traduction .



Ensuite, je donnerai une région non traduite (UTR; région non traduite, UTR) 5 '- c'est-à-dire que cette partie ne passe pas dans la protéine:



GAAΨAAACΨAGΨAΨΨCΨΨCΨGGΨCCCCACAGACΨCAGAGAGAACCCGCCACC




Nous voilà pour la première surprise. Les symboles habituels de l'ARN sont A, C, G et U. Dans l'ADN, U est également connu sous le nom de T. Mais alors une sorte de Ψ apparaît - que se passe-t-il?



C'est l'une des propriétés extrêmement délicates du vaccin. Notre corps dispose d'un puissant système antivirus. Grâce à elle, les cellules sont extrêmement sceptiques à l'égard des ARN étrangers et s'efforcent de les détruire avant de faire quelque chose.



C'est un problème pour un vaccin - il doit dépasser notre système immunitaire. Au cours de nombreuses années d'expériences, il a été constaté que si U dans l'ARN est remplacé par une molécule légèrement modifiée, notre système immunitaire y perd tout intérêt. Du tout.



Par conséquent, dans le vaccin BioNTech / Pfizer, chaque U est remplacé par 1-méthyl-3'-pseudouridine, qui est noté Ψ. L'astuce ici est que bien qu'un tel remplacement pacifie notre système immunitaire, les parties nécessaires des cellules le perçoivent comme un U ordinaire.



Cette astuce est également connue en sécurité informatique. Parfois, il est possible de transmettre une version légèrement déformée du message qui confond les pare-feu et les systèmes de sécurité, mais qui est acceptée par les serveurs principaux. Et puis ils peuvent être piratés.



Aujourd'hui, nous récoltons les fruits de la recherche scientifique fondamentale du passé. Les personnes qui ont découvert cette Ψ-technologie ont dû se battre pour trouver des financements et se faire reconnaître. Nous devrions leur en être reconnaissants et je suis sûr que le prix Nobel finira par les trouver .

, Ψ-, ? , . , 1--3'-. , , . , Ψ .


Revenons à notre 5 'NTO. Que font ces 51 symboles? Comme presque tout dans la nature, ils n'ont pas une seule fonction claire.



Lorsque les cellules ont besoin de traduire l'ARN en protéines, une machine appelée ribosome se met en marche. Le ribosome est comme une imprimante 3D pour les protéines. Il absorbe un morceau d'ARN et, sur sa base, libère une chaîne d'acides aminés, qui est ensuite repliée en protéine .







Ce processus est illustré dans la vidéo. La bande sombre ci-dessous est l'ARN. La bande sur le fond vert est la protéine en formation. Les gadgets entrants et sortants sont des acides aminés et des adaptateurs qui leur permettent de s'adapter à l'ARN.



Pour que le ribosome fonctionne, il doit s'asseoir physiquement sur un morceau d'ARN. Après cela, il peut commencer à former des protéines sur la base d'informations provenant d'autres segments d'ARN. Autrement dit, il ne peut pas lire les parties sur lesquelles il doit d'abord atterrir. Le «guidage» est fourni par NTO.



De plus, le NTO contient des métadonnées: quand la diffusion doit-elle avoir lieu? Combien? Pour le vaccin, les scientifiques ont trouvé un NTO, dans lequel la commande de diffusion a été enregistrée le plus tôt possible. Elle vient de gène alpha globine . Ce gène est connu pour la production fiable de grandes quantités de protéines. Dans le passé, les scientifiques ont déjà trouvé une opportunité d'optimiser davantage cet UTR, donc quelque chose de mieux a été utilisé pour le vaccin, pas un UTR d'alpha globine.



Séquence signal de la S-glycoprotéine



Comme indiqué, le but du vaccin est d'amener la cellule à produire la protéine de pointe du SRAS-CoV-2 à l'échelle industrielle. Jusqu'à présent, nous avons principalement traité des métadonnées et des conventions de dénomination dans le code source. Et maintenant, nous entrons dans le territoire des protéines virales.



Cependant, nous devons d'abord passer par une autre couche de métadonnées. Une fois que le ribosome (de la grande animation ci-dessus) a fabriqué une protéine, il doit encore arriver quelque part. Celui-ci est codé dans la séquence signal (peptide) de la S-glycoprotéine (dans la séquence de tête étendue ).



Au début de la protéine se trouve quelque chose comme une étiquette d'adresse, codée sous la même forme que la protéine entière. Dans ce cas, la séquence signal indique que la protéine doit quitter la cellule du réticulum endoplasmique . Même Star Trek n'avait pas un jargon aussi cool!



La séquence signal n'est pas très longue, mais l'exemple de code montre la différence entre l'ARN du virus et le vaccin. Pour faciliter la comparaison, j'ai remplacé Ψ par le U habituel de l'ARN:



           3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
Virus: AUG UUU GUU UUU CUU GUU UUA UUG CCA CUA GUC UCU AGU CAG UGU GUU
Vaccin: AUG UUC GUG UUC CUG GUG CUG CUG CCU CUG GUG UCC AGC CAG UGU GUU
               ! ! ! ! ! ! ! ! ! ! ! ! !            




Je ne regroupe pas accidentellement l'ARN par trois symboles. Ces symboles forment des codons. Et chaque codon code pour un acide aminé spécifique. La séquence signal du vaccin se compose exactement des mêmes acides aminés que le virus lui-même.



Pourquoi l'ARN est-il différent?



Il peut y avoir 4 3 = 64 codons , car l'ARN a 4 symboles, dont trois constituent un codon. Dans ce cas, il n'y a que 20 acides aminés différents, il s'avère que plusieurs codons codent pour le même acide aminé.



Life utilise le tableau suivant, presque universel, pour cartographier les codons d'ARN en acides aminés:







Le tableau montre que les modifications vaccinales (UUU -> UUC) sont synonymes. Le code ARN du vaccin est différent, mais la sortie est les mêmes acides aminés et protéines.



Un examen attentif montre que la plupart des changements sont contenus dans le troisième codon, marqué du numéro 3. En vérifiant la table des codons universels, nous verrons que cette troisième position n'affecte souvent pas quel acide aminé est obtenu à la fin.



Mais si les changements sont également nécessaires, pourquoi sont-ils nécessaires? Si vous regardez de près, tous les changements sauf un augmentent le nombre de C et G.



Pourquoi est-ce nécessaire? Comme nous l'avons déjà noté, notre système immunitaire est très sceptique à propos de l'ARN «externe» - c'est-à-dire du code provenant de l'extérieur de la cellule. Pour éviter la détection, nous avons déjà remplacé U par Ψ.



Il s'avère cependant que l'ARN avec une grande quantité de G et C est plus souvent et plus efficacement converti en protéines. Pour cela, de nombreux symboles du vaccin à ARN ont été remplacés par G et C dans la mesure du possible.



Véritable épine d'écureuil



Les prochains 3777 caractères ARN du vaccin sont également "optimisés pour les codons" dans le but d'ajouter plus de C et G. Je ne donnerai pas le code complet ici, mais nous en étudierons un fragment spécial. C'est grâce à lui que le vaccin fonctionne - c'est cette partie qui nous aide à reprendre une vie normale:



                  * *
          LDKVEAEVQIDRLITG
Virus: CUU GAC AAA GUU GAG GCU GAA GUG CAA AUU GAU AGG UUG AUC ACA GGC
Vaccin: CUG GAC CCU CCU GAG GCC GAG GUG CAG AUC GAC AGA CUG AUC ACA GGC
          LDPPEAEVQIDRLITG
           ! !!! !! ! ! ! ! ! ! !              




Ici encore, les modifications habituelles de l'ARN sont visibles. Par exemple, dans le premier codon, CUU a été remplacé par CUG. Cela ajoute un autre G au vaccin, ce qui aide à stimuler la production de protéines. CUU et CUG codent pour l'acide aminé L, ou leucine, donc rien ne change dans la protéine.



En comparant la protéine de pointe au vaccin, nous pouvons voir que tous les changements sont pareillement synonymes - à l'exception de deux. Les deux sont visibles dans ce fragment.



Les troisième et quatrième codons contiennent de réels changements. Les acides aminés K et V sont remplacés par P, ou proline. Dans le cas de K, il a fallu trois changements («!!!»), et dans le cas de V, deux («!!»). Il s'avère que ces deux changements améliorent incroyablement le vaccin.



Alors qu'est-ce qui se passe ici? Si vous regardez une particule réelle du virus, vous verrez que la protéine de pointe est un tas de pointes: Les







pointes sont attachées au corps du virus ("protéine de nucléocapside"). Mais notre vaccin ne génère ces épines qu'eux-mêmes et nous ne les attachons à aucun corps viral.



Il s'avère que les protéines de pointe existantes séparément s'effondrent dans une structure complètement différente. S'ils avaient été introduits dans le cadre d'un vaccin, nos corps auraient développé une immunité contre eux - mais seulement contre leur type effondré. Le vrai coronavirus affiche des pointes droites. Sous cette forme, le vaccin ne fonctionnerait guère.



Alors que faisons nous? En 2017, il a été décritcomment la double substitution de la proline au bon endroit fait que les protéines du SRAS-CoV-1 et du MERS S prennent leur forme «originale», même sans attachement au virus. Tout cela grâce à la force de la proline. Cet acide aminé fonctionne comme une attelle, stabilisant la protéine dans l'état dans lequel nous devons la présenter au système immunitaire. Les personnes qui ont



découvert cela ont maintenant besoin de se caresser constamment les épaules et de sourire constamment. Et tout cela sera bien mérité. Après la publication de la première ébauche de l'article, j'ai parlé avec des gens du laboratoire de McLeillan, et ils ont dit que jusqu'à présent, les applaudissements avaient été suspendus en raison de la pandémie, mais ils sont fiers de leur contribution au vaccin. Et insister sur l'importance que d'autres groupes et bénévoles y travaillent.







Fin de l'écureuil et prochaines étapes



Si vous faites défiler le code source jusqu'à la fin, nous verrons de petits changements à la fin de la protéine de pointe:



          VLKGVKLHYT s             
Virus: GUG CUC AAA GGA GUC AAA UUA CAU UAC ACA UAA
Vaccin: GUG CUG AAG GGC GUG AAA CUG CAC UAC ACA UGA UGA 
          VLKGVKLHYT ss          
               ! ! ! ! ! ! ! !




A la fin de la protéine, il y a un codon "stop", marqué de la lettre s. C'est une manière polie d'indiquer la fin de la protéine. Le virus lui-même utilise le codon UAA comme arrêt et le vaccin utilise deux codons UGA. Peut-être juste au cas où.



Zone non traduite 3 '



Tout comme à la fin du 5 'nous avons trouvé le 5'-UTR requis pour le guidage du ribosome, à la fin de la protéine, nous trouvons une construction similaire, le 3'-UTR.



Il y a beaucoup de mots à écrire sur elle, mais je préfère citer Wikipédia. «Le 3'-UTR joue un rôle essentiel dans l'expression des gènes, influençant la localisation, la stabilité, l'exportation et l'efficacité de la traduction de l'ARNm. Malgré toutes nos connaissances actuelles sur les 3'-NTO, leur travail est encore largement mystérieux. "



Nous savons, cependant, que certains 3'-UTR réussissent très bien à médier l'expression des protéines. Selon un document de l'OMS, le 3'-UTR contenu dans le vaccin BioNTech / Pfizer est dérivé de «l'amplificateur amino-terminal de l'ARNm clivé (AES) et de l'ARN ribosomal 12S codé mitochondrial pour assurer la stabilité de l'ARN et une expression protéique totale élevée». Que puis-je dire - bravo.







Et la fin de tout, AAAAAAAAAAAAAAAAAAAAAA



La toute fin de l'ARNm est polyadénylée . C'est une façon fleurie de dire que cela se termine par un tas de chaînes AAAAAAAAAAAAAAAAAAA. Apparemment, 2020 a même éliminé l'ARNm.



L'ARNm peut être réutilisé plusieurs fois, mais il perd quelques «A» de sa fin. Dès que le «A» est épuisé, l'ARNm cessera de fonctionner et sera rejeté. En ce sens, la queue poly-A la protège de la dégradation. Des études spéciales ont été menées pour déterminer la quantité optimale de «A» à la fin des vaccins à ARNm. Dans les sources ouvertes, j'ai lu que nous sommes arrivés à leur nombre d'environ 120 pièces.



Le vaccin BNT162b2 prend fin le



                                     ****** ****
UAGCAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAGCAUAU GACUAAAAAA AAAAAAAAAA 
AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAA




30 "A", puis "nucleotide linker-10" (GCAUAUGACU), suivi d'un autre 70 "A".



Je soupçonne que l'optimisation propriétaire est à nouveau utilisée pour améliorer l'expression des protéines.



Résultat



Maintenant, nous savons exactement ce que contient le vaccin BNT162b2, et pour la plupart, nous comprenons pourquoi il fonctionne de cette façon:

  • Le capuchon CAP qui donne à l'ARN un aspect d'ARNm normal.
  • 5'-NTO bien connu, testé et optimisé.
  • Séquence signal avec des codons optimisés qui envoie la protéine de pointe au bon endroit (copiée à partir du virus lui-même).
  • Une variante de la protéine de pointe d'origine avec des codons optimisés, avec deux substitutions de proline pour assurer la forme correcte de la colonne vertébrale.
  • 3'-NTO bien connu, testé et optimisé.
  • Une queue un peu mystérieuse de poly-A avec une sorte de "linker".


L'optimisation des codons ajoute de nombreux G et C à l'ARNm. L'utilisation de Ψ (1-méthyl-3'-pseudouridine) au lieu de U aide à tromper le système immunitaire. Grâce à lui, l'ARNm existe assez longtemps pour avoir le temps de former notre système immunitaire.



All Articles