AlphaFold : L’IA au service de la biologie

DeepMind résout un problème de biologie de 50 ans.

La biologie est un domaine vaste et complexe dans lequel plusieurs problèmes sont encore non résolus à ce jour. Une formidable découverte scientifique vient toutefois d’être effectuée grâce à l’entreprise DeepMind spécialisée dans l’intelligence artificielle.

Introduction

Cette année est peut-être l’une des pires de l’histoire de l’humanité, mais elle s’achève  sur une note positive pour les sciences de la vie. Récemment, la filiale DeepMind de  Google a annoncé la mise au point d’un algorithme d’IA qui a officiellement résolu un  problème de longue date en biologie, marquant ainsi une percée majeure dans la  recherche scientifique.  

Le problème en question, appelé le “Repliement des Protéines”, concerne le processus  physique de repliement suivi par les protéines une fois synthétisées, avant d’atteindre  leurs structures tridimensionnelles finales dans lesquelles elles sont fonctionnelles. La  résolution de ce problème est d’une grande importance car une meilleure compréhension  des protéines et de leurs structures aurait des implications majeures dans de nombreuses  disciplines scientifiques telles que la bioinformatique, la biochimie, le génie génétique, la  biologie moléculaire et la médecine, pour n’en citer que quelques-unes.  

“Ces algorithmes deviennent maintenant suffisamment matures et puissants pour être  applicables à des problèmes vraiment difficiles”, a déclaré le fondateur et le PDG de  DeepMind. Cela marque une étape importante dans le domaine de la biologie  computationnelle et devrait accélérer la recherche et les découvertes scientifiques dans  toutes les sciences de la vie.  Quel est donc le problème du repliement des protéines ? Comment DeepMind l’a-t-il  résolu ? Et quelles sont les implications de cette découverte ?

Le problème du repliement des protéines 

Les protéines sont considérées comme l’une des principales classes de macromolécules  biologiques et sont essentiellement constituées d’une séquence de substances chimiques  connues sous le nom d’acides aminés. Ces séquences sont assemblées selon les  instructions génétiques de l’ADN. Les protéines sont présentes dans tous les êtres vivants  où elles jouent un rôle clé dans les tâches et les processus chimiques essentiels au  maintien de la vie et aux fonctions corporelles. Elles régulent par exemple le niveau du  pH, défendent le corps contre les envahisseurs étrangers (anticorps), agissent comme  messagers entre les cellules (protéines hormonales), permettent la contraction et le  mouvement des muscles (protéines contractiles), transforment les aliments en énergie  (enzymes) etc. Compte tenu de leur rôle important, elles sont considérées comme l’unité  de base de la vie, et le développement d’une connaissance plus approfondie de leurs  structures et de leurs fonctions peut aider les chercheurs à mieux comprendre les  organismes vivants et à décoder les mécanismes de la vie. 

Dès qu’elles sont créées, les protéines se replient rapidement et de différentes manières jusqu’à ce qu’elles atteignent une structure tridimensionnelle stable appelée “État Natif”, qui détient la clé des fonctions que la protéine va ensuite remplir. Le nombre de formes possibles est essentiellement infini, mais pour faciliter les choses, on suppose souvent que le processus de repliement obéit au principe thermodynamique, ce qui signifie que l’état natif est caractérisé par un niveau minimum d’énergie libre de Gibbs.

La connaissance de l’état natif est  très importante car les maladies sont liées  au rôle des protéines dans la catalyse desréactions chimiques (enzymes), la lutte contre les maladies (anticorps), etc.
“Même de  minuscules réarrangements de ces molécules vitales peuvent avoir des effets  catastrophiques sur notre santé, c’est pourquoi l’un des moyens les plus efficaces de  comprendre les maladies et de trouver de nouveaux traitements est d’étudier les  protéines impliquées”, a déclaré le Dr John Moult de l’université du Maryland, aux États Unis. 

Le Protein Folding Problem, également connu sous le nom de Protein Structure  Prediction, vise à prédire l’état natif d’une protéine (sa structure 3D finale) en se basant  sur la chaîne d’acides aminés qui composent ladite protéine. La principale hypothèse  sous-jacente ici est que le type et l’ordre des acides aminés dans la chaîne contiennent  toutes les informations nécessaires pour prédire la forme 3D. Ceci résulte de l’observation  que les interactions entre les 20 différents types d’acides aminés sont responsables du  pilotage du processus de repliement, formant ainsi les différents motifs de bas niveau  (boucles, plis…) qui constituent la structure finale de la protéine. Par exemple, des études  plus anciennes sur le problème du repliement des protéines classaient les acides aminés  uniquement en fonction de leur hydrophobicité après avoir constaté que l’attraction de  l’eau constitue l’une des principales forces d’interaction qui influence près de 70% du  comportement de repliement.  

Comprendre comment une protéine se replie est une question fondamentale en biologie.

Conceptuellement, nous pouvons supposer qu’il existe une fonction de correspondance  entre l’espace de toutes les protéines, ou de manière équivalente, l’espace de toutes les séquences possibles d’acides aminés, et l’espace de toutes les structures 3D possibles.  L’objectif du problème du repliement des protéines est de trouver une approximation de  cette fonction inconnue. Étant donné la taille massive de l’espace de recherche, il s’agit  d’un problème d’optimisation difficile qui s’avère être NP-complet. De nombreuses  techniques prometteuses ont été proposées dans la littérature scientifique et la plupart  d’entre elles sont soit basées sur des algorithmes génétiques, soit sur l’apprentissage par  renforcement.  

Aujourd’hui, il existe plus de 200 millions de protéines connues chez l’homme mais aussi  chez d’autres espèces comme les bactéries et les virus, mais les scientifiques n’ont réussi  à découvrir la structure que d’une petite fraction d’entre elles. Traditionnellement, ces  formes 3D sont déterminées à travers un long processus manuel qui nécessite beaucoup  de temps, des équipements de laboratoire coûteux et une expertise humaine rare, ce qui  rend la solution tout simplement impossible à appliquer à l’échelle. C’est la raison  principale pour laquelle la communauté des chercheurs s’est tournée vers les méthodes  informatiques pour avoir une chance de résoudre ce problème de longue date qui a  intrigué les chercheurs pendant un demi-siècle. 

AlphaFold

DeepMind est une entreprise et un laboratoire de recherche interdisciplinaire basé à  Londres et spécialisé dans l’intelligence artificielle. Elle a atteint la célébrité après avoir  développé un réseau de neurones qui a appris à jouer aux jeux vidéo Atari à un niveau  rivalisant avec celui des humains. Plus tard, en 2016, la société a fait la une des journaux  après que son nouveau programme d’IA, AlphaGo, ait remporté une victoire contre le  champion du monde dans le jeu de stratégie populaire appelé Go.  

Atteindre le niveau human dans des jeux vidéo n’a jamais été l’objectif principal de  DeepMind. Du point de vue de la société, les jeux vidéo constituent simplement un  terrain d’entraînement idéal pour que les technologies de l’IA atteignent un certain  

niveau de maturité avant de pouvoir être utilisée efficacement pour résoudre des  problèmes du monde réel.  

En 2018, la société a proposé AlphaFold, sa première tentative pour résoudre le  problème du repliement des protéines, qui a fini par se classer en première place dans la  compétition internationale CASP13. CASP (Critical Assessment of Techniques for Protein  Structure Prediction) est un forum communautaire qui a été créé en 1994 par des  scientifiques intéressés par le problème du repliement des protéines. L’objectif est de  

permettre aux chercheurs de partager leurs idées et leurs avancées sur le sujet. Dans ce  cadre, la communauté organise tous les deux ans un concours auquel les scientifiques et  les groupes de recherche peuvent participer afin de tester la performance de leurs  méthodes dans la résolution du problème par rapport à des données expérimentales  réelles. Plus précisément, les participants reçoivent les séquences d’acides aminés de 100  protéines dont les structures ont été préalablement déterminées sur la base de travaux de  laboratoire, mais qui n’ont pas été annoncées publiquement. Les participants utilisent  donc leurs algorithmes pour prédire les formes de ces protéines, qui sont ensuite  comparées à leurs “vraies” structures afin de calculer un score de performance.  

Cette année, DeepMind a proposé sa deuxième version d’AlphaFold, qui est  sensiblement différente de la première itération en termes d’architecture. Cette fois-ci, les  chercheurs ont tiré parti des nouveaux mécanismes “d’attention” et de “transformers” en  deep learning combinés aux idées réussies de la première version. L’algorithme a été  entrainé sur un jeu de données publique, issu la Protein Data Bank, contenant environ  170 000 séquences de protéines et leurs structures correspondantes (c’est-à-dire les  étiquettes dans le cadre d’un apprentissage supervisé). L’entrainement a été effectuée sur  un matériel informatique comprenant 122 TPUs de 3e génération (puces spéciales  conçues sur mesure pour accélérer l’apprentissage des réseaux de neurones), ce qui  équivaut à 100-200 GPUs modernes et a duré quelques semaines. L’entreprise a refusé  de révéler le coût de l’entrainement, mais à titre de référence, Google facture 32 dollars  de l’heure pour un seul TPU de 3e génération, ce qui donne environ 690 000 dollars pour  une seule semaine. AlphaFold v2 a participé au CASP14 (le concours de cette année), et a  remporté la première place pour la deuxième fois consécutive. La deuxième version du  programme d’IA a obtenu un score médian de 92,5/100, 90 étant l’équivalent des  méthodes expérimentales traditionnelles. En conséquence, les organisateurs du CASP et  les chercheurs de DeepMind ont déclaré que le problème du repliement des protéines a  été résolu.  

Implications

La capacité de comprendre la forme des protéines rapidement et avec précision pourrait  révolutionner les sciences de la vie. Comme la structure 3D d’une protéine détermine son  rôle et ses fonctions, le fait de prédire le résultat du processus de repliement à l’aide d’un  

ordinateur permettrait aux chercheurs de découvrir ce que fait chaque protéine. De ce  fait, les chercheurs peuvent par exemple répondre à des questions sur la manière dont les  anticorps combattent les virus ou dont l’insuline régule le taux de sucre.  

Les structures des protéines jouent également un rôle essentiel dans la conception et la  découverte de médicaments et dans la compréhension de la santé et des mécanismes qui  sont à l’origine de certaines maladies, comme le cancer. Il peut falloir des années de  recherche et des milliards de dollars d’investissements afin de créer un nouveau  médicament, ce qui freine inévitablement les efforts de recherche. Prédire la structure des  protéines liées à une maladie peut accélérer la recherche et réduire considérablement les 

coûts associés. Lorsque le Covid-19 a vu la lumière du jour, nous en savions très peu sur  son sujet. Le SRAS-CoV-2, le virus responsable du Covid-19, est composé de 30 types de  protéines différentes, dont un tiers est mal connu. Dans ce cadre, les chercheurs se sont  intéressés particulièrement à l’étude de l’interaction entre la protéine pointue localisée  sur la surface du virus du SRAS-CoV-2 et les récepteurs dans les cellules humaines. Pour  faire progresser notre compréhension du virus, l’équipe de recherche derrière AlphaFold  a utilisé son programme d’IA pour prédire les structures de quelques protéines sous étudiées associées au virus Corona.  

En outre, la connaissance limitée des structures des protéines et le manque de  financement ont considérablement entravé les progrès dans la compréhension de  certaines maladies tropicales qui ont un impact sur la vie de millions de personnes et  entraînent de nombreux décès chaque année. DeepMind a déclaré avoir commencé à  travailler avec quelques groupes de recherche afin de concentrer leurs efforts sur  certaines de ces maladies.  

La résolution du problème du repliement des protéines devrait également ouvrir la voie à  de nouvelles opportunités telles que la découverte ”d’enzymes vertes” qui décomposent  les déchets plastiques et réduisent ainsi la pollution, le développement de produits  agricoles plus nutritifs pour améliorer la santé humaine ou la capture et stockage efficaces  du carbone de l’atmosphère.  

La prochaine étape ?

AlphaFold v2 est certainement une nouvelle prometteuse pour la communauté  scientifique. Toutefois, comme pour tout autre effort de recherche, des améliorations  peuvent être envisagées. L’équipe de recherche à l’origine de l’algorithme pense qu’il  peut être amélioré davantage pour être encore plus précis. Par ailleurs, le seul point de  référence de performance dont nous disposons jusqu’à présent est le score obtenu sur  l’échantillon de test fourni par la communauté du CASP. Malgré la résonance de cette  réussite, d’autres tests restent nécessaires pour mieux comprendre les limites de ce  modèle prédictif, et évaluer avec précision ses capacités de généralisation à des  protéines différentes.  

Maintenant que le problème est plus ou moins résolu pour les protéines simples, la  prochaine étape logique consiste à développer de nouvelles techniques pour prédire la  forme des complexes protéiques, qui sont des structures composées de deux protéines  ou plus et constituent le fondement de nombreux processus biologiques. Une autre  lacune dans la littérature consiste à comprendre comment les protéines interagissent avec  d’autres macromolécules telles que les lipides, les glucides ou l’ADN.