Comment la bioinformatique diffère de la biologie computationnelle - Une brève introduction



Il y a quelques jours, Alsu Missarova, diplômé de la Faculté de mécanique et de mathématiques de l'Université d'État de Moscou, docteur en biologie des systèmes (génomique fonctionnelle de la levure) à l'Universitat Ponepu Fabra de Barcelone, a pris la parole sur notre YouTube. Maintenant Alsou est post-doctorant au JOhn Marioni Lab (EBI, Cambridge, Royaume-Uni), est engagé dans la séquence ARN monocellulaire et l'intégration avec la transcriptomique spatiale.



Alsou a donné une très brève introduction à ce qu'est la bioinformatique et en quoi elle diffère de la biologie computationnelle. Nous partageons avec vous l'enregistrement et la transcription de l'émission: nous espérons qu'il s'agit d'une introduction à toute une série d'intervenants engagés dans la bioinformatique.






Je m'appelle Alsu Missarova. On m'a demandé de vous parler de la bioinformatique - en particulier, quels problèmes je résous, quel type de données je traite, quels types de problèmes il y a en biologie computationnelle pour les techniciens, pour les personnes ayant un biais en informatique, en analyse de données, etc.



Je ne suis pas moi-même bioinformatiste, je suis biologiste informatique. Ces deux concepts sont fortement corrélés et la frontière entre eux est floue, mais il est important de comprendre la différence. Dans les deux cas, l'objectif est de répondre à certaines questions biologiques ou d'améliorer notre compréhension du fonctionnement des processus biologiques. Leur approche est similaire: traitement et analyse des données d'une grande quantité de données qui ne peuvent être traitées avec les yeux et les mains. La différence est en priorité. Le biologiste informatique aura plutôt une question biologique relativement spécifique et devra comprendre quel type de données collecter. Vous devez avoir accès à ces données, vous devez être en mesure de traiter, analyser, interpréter correctement et, en fait, répondre à la question. Lorsque le but est l'informatique, c'est plutôt la création d'algorithmes, de corps, de méthodes pour travailler avec des données biologiques.La tâche sera probablement placée en tête, et les données seront dans un format plus industriel. Autrement dit, ils auront un certain format de données qu'ils traiteront, qui devront être produits pour un grand nombre d'individus ou d'organismes, et ainsi de suite.



Vous pouvez le prendre comme ceci: un biologiste informatique est plus probablement un biologiste qui peut ouvrir des bibliothèques et utiliser certains outils, et un bioinformatiste est plus probablement un informaticien qui ne se soucie pas de la biologie, qui ne la comprend pas vraiment, et il fonctionne avec des nombres, avec des chaînes, avec des données. En fait, ce n'est pas le cas, bien sûr. Cela est vrai pour n'importe quel champ, mais lorsque vous travaillez avec des données - dans n'importe quel domaine - vous devez absolument comprendre quel type de données vous avez et où vous obtenez le bruit dans les données. Et il y aura beaucoup de bruit dans les données biologiques que vous recevrez. En gros, il peut être décomposé en bruit technique et biologique. Le bruit technique vient du fait que les machines qui créent les données sont imparfaites et défectueuses. Et le bruit biologique se produit parce qu'il y a beaucoup de variations dans n'importe quel système.Même entre deux cellules du même organisme, même s'il s'agit de cellules cutanées adjacentes, il y aura une différence biologique. Il est nécessaire de distinguer le bruit technique du bruit biologique, de supprimer le bruit technique et de laisser biologique, et cela nécessite une compréhension de la biologie.



Passons maintenant au type de données dont nous disposons en biologie. Tout d'abord, lorsque les gens écoutent la bioinformatique, ils pensent au séquençage de l'ADN (ce qui, en principe, est justifié). Je pense que tout le monde sait ce que c'est: c'est, relativement parlant, la capacité de déterminer la séquence d'ADN d'un organisme. Autrement dit, l'ADN est une très longue molécule; pour les humains, c'est environ 3,1 milliards de «lettres». 4 lettres - ACDH - ce sont des nucléotides. En conséquence, les gens ont appris à lire l'ADN d'un être vivant. C'est très cool. Vous pouvez maintenant, par exemple, déterminer les séquences de deux personnes, les comparer et les comparer, quelle est la différence entre ces séquences et quelle est la différence entre ces personnes, et essayer de trouver une relation de cause à effet. C'est ainsi que l'ADN affecte votre phénotype, quelle est la différence entre deux personnes. De même, disons en biologie computationnelle:vous pouvez prendre deux organismes d'espèces voisines, les séquencer de la même manière - déterminer la séquence d'ADN et, en conséquence, essayer de comprendre quelle est la différence entre les deux organismes et quel ADN l'influencent réellement.



Maintenant, vous pouvez aller dans une autre dimension et poser cette question: si vous prenez deux cellules d'un organisme, d'une personne, alors quelle est la différence entre elles? Autrement dit, relativement parlant, les cellules épithéliales de la peau seront différentes des neurones. Ici, l'ADN n'est plus très approprié. Il y a un axiome qui est en grande partie faux: la séquence d'ADN des cellules d'un organisme est toujours la même. C'est erroné car un organisme vivant est une structure dynamique; il grandit, partage, meurt. Dans ce processus, les mutations s'accumulent. Le processus de réplication de l'ADN n'est pas parfait et des pannes se produisent parfois; L'ADN se répète, mais se répète imparfaitement. Les mutations peuvent être neutres, qui ne mènent à rien, ou nocives, qui provoquent un dysfonctionnement cellulaire. Bien sûr, si l'on fait abstraction, la séquence d'ADN est encore plus ou moins identique entre les deux cellules,mais ils fonctionnent différemment. En conséquence, un grand nombre de questions biologiques visent à comprendre quelle est la différence entre les différentes cellules et ce qui l'affecte. La communauté a des demandes pour ce type de données. Vous devez pouvoir mettre en évidence, calculer, lire cette différence.



C'est là que nous arrivons à ce que je fais. Le format de données principal (ou l'un des principaux) que les gens utilisent ici est le séquençage de l'ARN. Je vais maintenant parler brièvement de ce qu'est l'ARN et de l'évolution du séquençage de l'ARN en général.



Il s'agit d'une version très abrégée, en fait, tout est plus compliqué. Les deux piliers qui soutiennent la biosynthèse cellulaire sont la transcription et la traduction. L'ADN est un mot très long qui code certaines informations. Ces informations par la cellule peuvent être traitées, lues, transformées en éléments fonctionnels.



Les protéines en sont un excellent exemple. Ce sont de si petites machines dans une cellule qui remplissent certaines fonctions et fournissent la vie et la fonctionnalité de cette cellule afin qu'elle fonctionne comme il se doit. Les protéines sont codées par des gènes. Un gène est un sous-mot dans une séquence d'ADN. La transcription se produit lorsqu'une grande machine moléculaire repose sur une longue double hélice d'une molécule d'ADN - la polymérase, qui voyage à travers les gènes, crée des copies et les jette dans le cytoplasme de la cellule. Ces copies d'ADN (pas vraiment des copies) sont créées dans une certaine quantité. En conséquence, deux cellules différentes ont des quantités différentes d'ARN provenant de gènes différents. Pour une cellule épithéliale, plus de gène A est nécessaire, pour les neurones - plus de gène B, et un nombre différent d'entre eux est produit. Ensuite, l'ARN est traité, puis, lorsqu'il est dans un format plus fini, une autre machine "s'assoit" sur le fil. Respectivement,Quand les gens parlent de séquençage d'ARN, ils veulent dire, relativement parlant, calculer la quantité d'ARN à partir de quels gènes sont produits dans les cellules. Il s'agit de la composition d'ARN ou du séquençage de l'ARN.



En fait, c'est très cool que les gens aient appris à faire ça. Pendant longtemps, la principale limitation de cette technologie était qu'il fallait beaucoup de cellules pour obtenir du matériel ARN. Autrement dit, il était nécessaire de mettre ensemble des dizaines de milliers de cellules (naturellement, déjà non viables), d'éliminer l'ARN et de les séquencer.



Le problème est que les cellules diffèrent souvent les unes des autres. Il y aura beaucoup de variations biologiques, car pour de nombreux processus - par exemple, le développement, l'immunologie ou l'oncologie - il y aura une grande interaction entre des cellules de fonctionnalités différentes. Et quand, par exemple, une biopsie est effectuée et que beaucoup de cellules sont extraites, un mélange est obtenu. Et si vous ne prenez que l'attente de ces ARN pour toutes les cellules, alors vous perdez la variance. Et vous ne les comprenez pas et ne pouvez pas les étudier.



Et, en conséquence, il y avait une demande de la communauté de faire cela au niveau de la cellule unique. Et ils ont appris à faire cela il y a 10 ans. C'est très cool, pour de nombreux domaines, c'est très important. Vous pouvez regarder très profondément dans le système, voir quels types de cellules sont au niveau microscopique. Mais il y a aussi des limites. L'un d'eux est que vous perdez vos informations spatiales. Relativement parlant, pour faire le séquençage de l'ARN, vous devez prendre un morceau de tissu, le couper en cellules et faire votre ARN-seq monocellulaire.



Mais, à l'amiable, une grande partie de la fonctionnalité réside dans la façon dont les cellules interagissent les unes avec les autres dans l'espace. Et pour cela, ils ont mis au point la technologie spéciale de transcriptomique - la capacité de mesurer l'ARN sans perdre d'informations spatiales.



L'un des principaux trucs pour cela consiste à utiliser un microscope: vous prenez votre tissu, vous le fixez - c'est-à-dire que vous prenez un ensemble de cellules et vous le fixez au microscope. Et puis vous envoyez de petites sondes à ce tissu, qui contiennent deux éléments: l'un d'eux est très spécifique à votre ARN, et il ne se liera qu'aux gènes qui sont importants. Et le second sera une marque fluorescente brillante. Vous pouvez faire briller un microscope à une certaine fréquence de l'onde sur le tissu, et vous pouvez déterminer combien de lucioles dans les cellules s'allumeront. En conséquence, il y aura autant de molécules d'ARN. En fait, les tâches que je fais sont à la jonction de la transcriptomique spéciale et du séquençage d'ARN monocellulaire. Relativement parlant, je fais ici du développement, je regarde des petites souris; J'ai des données sur une seule cellule et des transcriptomiques spéciales,et j'essaie de faire correspondre les cellules que je vois dans le contexte spécial avec celles que je vois dans l'ARN-seq à cellule unique.



Je vais passer aux problèmes qui, en principe, peuvent intéresser les techniciens et les ingénieurs ML. J'ai identifié trois types de tâches qui sont actuellement en demande, et elles sont toutes dans le domaine de la médecine; la médecine reçoit maintenant beaucoup de ressources, beaucoup d'argent, beaucoup de données.



Le premier type de tâche est la découverte de médicaments. Il y a une maladie, il faut la guérir, pour cela il faut trouver un médicament. Comment résumer cette tâche plus en détail; vous devez trouver la composition d'un produit chimique qui peut être placé dans une pilule ou une capsule, envoyée au corps, puis les molécules se lieront spécifiquement à ces protéines, ces cibles qui, si leur état est modifié, changeront l'état de la maladie - relativement parlant, guérir.



Il y a plusieurs étapes ici. L'un d'eux est l'identification / validation de la cible. Il faut en quelque sorte être capable de prédire quelles molécules doivent être liées pour que l'état de la maladie change. Pour cela, un grand nombre de données est collecté: vous prenez des personnes malades, vous prenez des personnes en bonne santé, vous en mesurez beaucoup de paramètres différents. Vous séquencez l'ADN, l'ARN, la transcriptomique, la protéomique - l'état des protéines.



Ensuite, vous essayez de déterminer lesquels des paramètres des cellules des personnes malades se réfèrent spécifiquement aux personnes malades et lesquels aux personnes en bonne santé. Autrement dit, essayer de déterminer quelles molécules sont potentiellement corrélées à la maladie. C'est d'une part. D'un autre côté, vous devez toujours trouver de telles molécules qui seront médicamentables, c'est-à-dire qui ont le potentiel de se lier à des produits chimiques actifs que vous envoyez dans le corps pour guérir. Ici, vous devez mesurer de nombreux paramètres: liaison, repliement des protéines, etc.



Pour cela, le Machine Learning actif est désormais utilisé. Autrement dit, vous regardez différents composés protéiques et essayez de prédire, sur la base de cibles connues, si une cible particulière sera bonne. De plus, il faut également synthétiser le bon médicament. Autrement dit, vous devez trouver une telle composition chimique de la molécule qui peut se lier spécifiquement à la protéine que vous devez contacter et qui peut, en principe, pénétrer dans le corps, se dissoudre dans l'eau, etc. De nombreuses fonctionnalités doivent être optimisées. Le faire avec vos mains est difficile, mais cela peut être prédit en fonction du fait que vous avez déjà des médicaments connus, et vous comparez le nouveau médicament potentiel avec les médicaments connus et prédisez son succès potentiel. Tout cela est au niveau de la prédiction; alors il faudra le valider, vraiment le montrer,que ça marche. Mais les prévisions de drogue sont la clé pour réduire l'argent et le temps consacrés à la recherche. Ceci est très pertinent.



Le deuxième type de problème associé au premier est, relativement parlant, la recherche des biomarqueurs de la maladie. Le cancer est un bon exemple. Une partie de la raison pour laquelle il est si difficile à traiter est qu'il est si différent et qu'il y a tellement de différences entre deux personnes. En général, ce qu'est le cancer, c'est lorsqu'un certain nombre de mutations se sont accumulées, ce qui a conduit à une dégradation cellulaire. Et la cellule, au lieu de remplir sa fonction, commence simplement à se diviser très rapidement et à remplacer les cellules saines. Cela tue progressivement le corps. Mais il existe de nombreux mécanismes à cause desquels la cellule se décompose. Le cancer d'une personne n'est pas le cancer d'une autre personne, et un médicament qui fonctionne pour l'un peut ne pas fonctionner pour un autre. En conséquence, il est très important de pouvoir déterminer rapidement quels gènes et autres paramètres doivent être examinés afin de comprendre qu'une personne est atteinte d'une maladie spécifique. Autrement dit, nous devons trouver des biomarqueurs.Pour cela, des bases de données sont utilisées. Désormais, des données de différents formats sont activement collectées auprès d'un grand nombre de personnes, en bonne santé et malades. Vous devez cristalliser la sortie; une personne peut être guérie ou non, et vous devez comprendre quel genre de personne tombe malade avec quoi. Si vous trouvez rapidement exactement ce qui s'est cassé, vous pouvez le guérir.



Le troisième domaine qui se développe actuellement est amusant, mais c'est le text mining. Il y a maintenant beaucoup de littérature en biologie, un très grand nombre de laboratoires sont engagés dans un grand nombre de choses. En fait, les gens trouvent souvent des choses - disons, une interaction protéine-protéine ou une interaction médicament-protéine. Cela se produit indépendamment, dans différentes parties du monde, et ils ne savent pas comment cela peut interagir. L'exploration de texte examine différents articles publiés et crée une base de données. Autrement dit, si à un endroit il a été déterminé qu'une protéine interagit avec la deuxième protéine, et dans un autre - que la deuxième protéine peut être agie par un certain médicament, il s'avère que ce médicament peut également affecter la protéine d'origine. Un graphique d'interaction est créé et vous pouvez prédire de nouvelles interactions non trouvées auparavant.



Un autre type de problème que je voulais évoquer et qui, à mon avis, est assez intéressant - c'est l'analyse d'image. En général, l'image est un format de données puissant, qui est très souvent utilisé et beaucoup en biologie, car vous pouvez en comprendre beaucoup à partir de l'apparence d'une cellule.



Si un grand nombre d'images microscopiques s'accumulent, vous devez les analyser rapidement et pouvoir faire des prédictions. Un exemple courant est, encore une fois, le cancer; vous faites une biopsie et regardez comment les cellules saines et malades sont connectées. Vous les peignez - le noyau dans une couleur, le cytoplasme dans une autre. Ensuite, vous essayez de prédire: est-ce que ce tissu est avec une tumeur ou non?



Pour une recherche plus fondamentale - le traitement d'une image à partir d'un microscope est déjà plus difficile; les gens veulent regarder certains organites, molécules ou protéines et, par conséquent, retracer comment les cellules interagiront entre elles, comment se développer, etc. Les gens ont appris à colorer divers éléments de la cellule, et cela se fait à l'aide de protéines fluorescentes. Vous prenez ce dont vous avez besoin et vous y attachez cette protéine marquée. Et si vous faites briller une lumière dessus, elle s'allumera, et vous comprendrez que ces organites, ou protéines, ou ARN sont à un certain endroit. Et puis vous suivez comment les cellules interagissent. Cela nécessite également une analyse d'image, car il y a beaucoup d'images et, en règle générale, elles ne sont pas d'une très bonne résolution. Et vous devez obtenir une bonne résolution à partir d'images boueuses. En fait, la communauté ne reste pas immobile;les gens écrivent des réseaux de neurones, modifient différents paramètres, etc. Mais les données évoluent et les méthodes doivent évoluer avec elles. Autrement dit, ces choses doivent aller de pair.



La direction actuelle à laquelle de nombreux laboratoires pensent est «comment conquérir le temps». Autrement dit, très souvent dans le séquençage, et dans l'analyse d'images, etc., il y a un tel problème: il y a un instantané du système, mais il est statique. Vous prenez une mesure à un moment précis. Et vous ne comprenez pas comment les cellules vont se développer davantage. L'imagerie de la vie est l'une des approches pour résoudre ce problème. Lorsque vous ne tuez pas les cellules, mais que vous les placez dans l'environnement dans lequel elles se développent, interagissent, etc., et avec un microscope toutes les 10 secondes, prenez un instantané toutes les minutes, puis vous pouvez restaurer les trajectoires de mouvement, les interactions, etc. Mais il y a une limitation: par exemple, les tampons fluorescents ne sont pas très bons à utiliser pour l'imagerie de la vie, car lorsque vous faites briller votre lumière sur un tampon, il émet un rayonnement, ce qui est toxique pour la cellule. La cellule commence à mourir.Un compromis doit être trouvé: d'une part, vous voulez garder la cage aussi saine que possible, mais d'autre part, vous voulez prendre plus de clichés - mais plus vous les prenez, plus vite elle meurt.



Et ici, il y a une telle approche: les gens essaient maintenant de déterminer le sort de la cellule à l'aide d'un nombre minimum de marques fluorescentes, mais en fait - uniquement à l'aide du microcontour du noyau et de la cellule. C'est comme la reconnaissance faciale: auparavant, vous pouviez le faire avec les yeux, la bouche, le nez et d'autres caractéristiques visibles, mais maintenant vous ne devez le faire qu'avec votre nez, car vous pouvez avoir des lunettes de soleil sur les yeux et un masque sur la bouche. Autrement dit, le problème devient plus compliqué, et ici la même chose. Il est nécessaire de calculer les paramètres biologiques en utilisant une petite quantité d'informations, et il existe un grand nombre de tâches.



Il y a beaucoup de tâches, il y a beaucoup de types de données. Tous les paramètres des cellules, des organismes et d'autres choses sont mesurés. C'est un domaine très intéressant. J'espère que si vous avez pensé à elle avant, je ne vous ai pas mécru.




Qu'est-il arrivé avant



  1. , Senior Software Engineer Facebook — ,
  2. , ML- — , Data Scientist
  3. , EO LastBackend — , 15 .
  4. , Vue.js core team member, GoogleDevExpret — GitLab, Vue Staff-engineer.
  5. , DeviceLock — .
  6. , RUVDS — . 1. 2.
  7. , - . — .
  8. , Senior Digital Analyst McKinsey Digital Labs — Google, .
  9. «» , Duke Nukem 3D, SiN, Blood — , .
  10. , - 12- — ,
  11. , GameAcademy — .
  12. , PHP- Badoo — Highload PHP Badoo.
  13. , CTO Delivery Club — 50 43 ,
  14. , Doom, Quake Wolfenstein 3D — , DOOM
  15. , Flipper Zero —
  16. , - Google — Google-
  17. .
  18. Data Science ? Unity
  19. c Revolut
  20. : ,
  21. — IT-
  22. — «Docker » , Devops,









All Articles