IHES

Robert Penner explique comment sa curiosité et un peu d’aide de la part de ses amis ont conduit à son initiative sur le COVID

Robert Penner est un mathématicien dont les premiers travaux en topologie et en géométrie ont trouvé des applications dans la physique des hautes énergies et, plus récemment, dans la biologie théorique. Il est titulaire de la chaire René Thom de biologie mathématique à l’IHES depuis 2014, après avoir souvent été professeur invité.

Dans un article intitulé « Backbone Free Energy Estimator Applied to Viral Glycoproteins »[1] récemment publié dans le Journal of Computational Biology, il propose une méthode pour prédire des cibles prometteuses de médicaments ou vaccins antiviraux contre tous les virus. Il existe une suite intitulée « Conserved high free energy sites in human coronavirus spike glycoprotein backbones »[2] dans le même journal, qui applique ces méthodes spécifiquement aux coronavirus humains connus, faisant ainsi progresser les efforts déployés actuellement pour combattre le SRAS CoV-2, le virus à l’origine du COVID-19.

Un résultat aux applications aussi immédiates et importantes est une réussite rare dans la vie d’un mathématicien et Robert Penner raconte dans cet article les étapes et les rencontres passionnantes qui l’ont conduit ici, sur un chemin parfois tortueux, mais prometteur.

J’ai publié mon premier article sur l’ARN en 1992, en collaboration avec mon ami et ancien collègue Mike Waterman, parfois connu sous le nom de « père de la biologie computationnelle ».  Nous célébrions (ou déplorions peut-être) le début de chaque année universitaire à l’USC avec une sortie de pêche en haute mer, car c’est à la fin de l’été que le thon jaune se déplace dans les eaux chaudes au large de la Californie du Sud.  Un jour, en attendant que quelque chose morde à l’hameçon, il a mentionné ses récents travaux, que j’ai immédiatement reconnus comme une sorte de version altérée de la dualité de Poincaré.  Cela a donné lieu à notre premier article sur les espaces des structures secondaires de l’ARN, qui a été bien accueilli mais n’a eu d’impact majeur que beaucoup plus tard.  Cela a toutefois suffi à mettre le projet en branle et régulièrement, Mike m’a invité aux séminaires qu’il jugeait accessibles et susceptibles de m’intéresser.  Quelques années plus tard, nous avons organisé une réunion privée sur les macromolécules à l’USC, financée par le philanthrope Peter Preuss. Parmi les participants les plus éminents figurait Alexeii Finkelstein, une autorité mondiale de premier plan en matière de protéines, qui jouera par la suite un rôle crucial.  Nous sommes immédiatement devenus amis.  Son livre intitulé « Protein Physics: a course of lectures » (La physique des protéines, cycle de conférences), écrit avec son professeur Oleg Ptitsyn, est un chef-d’œuvre et je l’ai dévoré.

Ce sont les macromolécules – plus précisément l’ARN et les protéines, élément distinct et compréhensible d’un puzzle intimidant par son énormité – qui m’ont donné accès au domaine de la biologie.  Après tout, les macromolécules sont essentiellement des objets unidimensionnels qui interagissent à certains endroits le long de leur structure, tout comme les cordes en physique des hautes énergies.  Et j’ai immédiatement vu des solutions pour extrapoler la combinatoire de base de mes travaux antérieurs sur la théorie des cordes d’environ 25 ordres de grandeur de l’échelle de Planck pour passer à l’échelle d’Angstrom.  Un jour, lors d’un séminaire au Caltech, l’éminent physicien John Schwarz s’est esclaffé en entendant ma remarque, car l’une de ses grandes intuitions des années plus tôt était la même que la mienne à ceci près : les cordes étaient à l’origine un modèle pour les protons dont il avait réduit la combinatoire d’une vingtaine d’ordres de grandeur, avec exactement la même remarque sur l’invariance de la combinatoire lors du changement d’échelle.  On monte pour redescendre, on descend pour remonter.

Après avoir passé près de 25 ans à l’USC, au début des années 2000 j’ai déménagé à Aarhus, au Danemark.  Un jour, mon ami et collègue Joergen Andersen et moi étions en train de préparer le dîner quand il m’a demandé si j’avais des idées saugrenues d’application de la théorie de Teichmüller.  Je lui en ai proposé deux, l’une sur la quantification des couleurs et l’autre sur la topologie des protéines, cette dernière ayant déjà été proposée après le séminaire de Preuss.  Cela a débouché sur notre premier article sur la topologie des protéines et plus tard sur la géométrie des protéines – qui représente pour nous essentiellement la transition naturelle des connexions de graphe Z/2 des « graphes épais » aux connexions des graphes SO(3). Nous avons finalement étudié ces derniers à Aarhus avec une grande équipe, comprenant plusieurs départements universitaires, de la biologie moléculaire à la biophysique, en passant par la physique, la nanotechnologie et les mathématiques.  C’est au cours d’une visite d’Alexeii Finkelstein à Aarhus, pendant ses derniers moments là-bas, quand nous étions assis tous ensemble dans le salon du café, que le passage aux connexions du graphe SO(3) pour décrire les protéines a été mis en lumière, suite aux outils que Joergen et moi avions développés auparavant. Alexeii et moi avons visiblement pris l’habitude d’obtenir des avancées dans les dernières secondes de nos séjours ensemble… comme cela se reproduira plus tard.

Ce projet est devenu pluriannuel et a abouti à un résultat assez spectaculaire.  En simplifiant à outrance, les protéines sont essentiellement une concaténation de groupes peptidiques, de petites unités composées de 6 atomes, contraintes à se trouver dans un plan en raison d’effets quantiques.  Chacun de ces plans admet une orientation canonique qui découle de la chimie et contient un vecteur spécifique dans la direction de la liaison peptidique qu’il héberge.  Et voilà : un groupe peptidique fournit à l’espace tridimensionnel une base orthonormée orientée positivement, de sorte que toute paire ordonnée de ce type donne une rotation bien définie de l’espace tridimensionnel, ou en d’autres termes un élément du groupe de Lie SO(3).  Nous avons pris un sous-ensemble impartial et de haute qualité de la banque de données sur les protéines (PDB), le recueil de toutes les structures protéiques tridimensionnelles connues, et nous avons calculé les rotations de toutes les liaisons hydrogène entre les groupes peptidiques. Étonnamment, nous avons constaté que la nature n’emploie qu’environ 33 % du volume de SO(3).  De plus, en ce qui concerne ces 33 %, les données sont regroupées en trente régions bien définies, qui reproduisent, affinent et élargissent la classification connue de ces liaisons hydrogène.  Les résultats ont été suffisamment frappants pour que l’article soit publié dans la prestigieuse revue Nature-Communications, un résultat non négligeable, surtout pour des chercheurs en dehors du domaine.

Les choses en sont restées là pendant environ cinq ans.  J’ai continué à travailler en mathématiques/physique et sur l’ARN, et cette base de données sur la géométrie des protéines restait gentiment tranquille.  Je voulais quitter Aarhus parce qu’il s’est avéré que je n’étais pas très doué pour le socialisme et que j’en avais assez de payer un impôt marginal de 108 % sur mes revenus au Danemark. Sans blague !

Ayant visité l’IHES à plusieurs reprises pendant des décennies, j’ai saisi l’occasion d’en faire mon institution d’accueil, à temps partiel d’abord et désormais à temps plein, ce qui m’a permis notamment d’échanger et de travailler avec Misha Gromov. Les retours et conseils critiques qu’il m’a adressés par courriel pendant des années m’ont été très précieux.  Nous avons tous les deux passé des années à étudier la biologie et à assister à des séminaires. Paris est un haut lieu de la biologie tout comme il l’est pour les mathématiques ou la physique.  En découvrant à mon arrivée que j’étais titulaire de la chaire René Thom en biologie mathématique et que je ne comprenais que les macromolécules, les premières visites trimestrielles à l’IHES ont été consacrées à la lecture et à l’étude de milliers de pages de textes de biologie, puis de publications de recherche.

Environ cinq ans plus tard, en 2019, Alexeii Finkelstein entre à nouveau en scène, puisque Misha et moi l’avions invité en tant qu’ami commun à passer quelques semaines avec nous à l’IHES.  Mon objectif personnel et quelque peu égoïste était d’essayer de comprendre la prochaine étape pour mes clusters de protéines, et nous avons passé plusieurs semaines à parler de cela, entre autres choses, sans aboutir à une conclusion ferme.

En France, je commence toujours ma journée avec une petite série d’exercices physiques en regardant le journal télévisé américain de PBS de la veille. Il se trouve qu’un matin, pendant la visite d’Alexeii, Anthony Fauci du NIH s’exprimait pendant la séquence scientifique de l’émission. Il expliquait que les chercheurs s’étaient récemment fixé l’objectif de trouver une cible vaccinale universelle pour la grippe, et il était question de nouvelles méthodes de visualisation très abouties et d’une certaine protéine, que j’ai identifiée comme étant l’hémagglutinine après une courte recherche en ligne.  J’avais un outil à ma disposition, un seul, qui pouvait m’aider à sonder cette protéine, à savoir mettre en œuvre la méthode que j’avais développée au Danemark et voir quels clusters se produisaient parmi ses liaisons hydrogène entre les groupes de peptides.  Je ne peux que constater un heureux hasard car l’une des liaisons hydrogène était incroyablement rare : parmi les 1166165 liaisons de la base de données, l’hémagglutinine de la grippe présentait une liaison du groupe appelé B5e, le deuxième groupe le moins bien fourni avec seulement 295 exemples.  Un phénomène qui m’a sauté aux yeux et m’a montré l’extrême rareté de cette liaison hydrogène dans l’ensemble des liaisons hydrogène entre les groupes peptidiques de toute la banque de données de protéines (PDB).

Je l’ai montré à Alexeii et Misha, et nous avons discuté des autres facettes de cette protéine fascinante qu’est l’hémagglutinine.  Mais ce n’est que dans les toutes dernières secondes de la visite d’Alexeii, lorsqu’il est venu nous dire au revoir – comme à Aarhus six ou sept ans auparavant – que nous avons tout de suite dit : le lien est si rare que si nous pouvons le cibler avec un médicament ou un vaccin, alors un tel médicament ou vaccin n’aura probablement pas d’effets secondaires !  Ce fut comme un éclair de lucidité partagé (peut-être moins important que ce que nous pensions à l’époque) mais néanmoins une bonne intuition qui a mis en évidence l’utilisation de la base de données de protéines des clusters pour trouver des vaccins.  Le projet prenait un nouveau départ, en même temps que le départ d’Alexeii pour l’Italie.

J’ai tâtonné pendant les premiers mois.  Je n’avais que les clusters, l’appartenance à un petit groupe comme le B5e était donc clairement remarquable.  Je savais dès le début que les grands groupes pouvaient présenter des valeurs aberrantes tout aussi importantes, mais je n’avais aucun moyen raisonnable de les comparer.  J’ai néanmoins entrepris d’étudier tant bien que mal des collections entières de glycoprotéines virales, avec le même résultat : le B5e et quelques autres petits groupes étaient typiques.  Un schéma se dessinait déjà.  De plus, ma première impression de liaisons hydrogène remarquables, ou exotiques comme j’ai fini par les appeler, était qu’elles marquaient des endroits extrêmement géométriques sur la glycoprotéine virale, des endroits qui se détachaient très nettement et surtout qui s’attachaient beaucoup.  Assez logiquement au fond, puisque c’est la géométrie qui les avait localisés.  C’était une entreprise amusante mais malavisée, virus après virus, de trouver un site exotique et de ressentir une sensation de victoire à chaque fois, comme quand on finit par écraser une mouche agaçante.

J’étais en train de dresser une liste de ces sites exotiques et j’avais prévu de rédiger un document contenant une analyse détaillée de la grippe et un tableau supplémentaire des cibles virales.  Maintenant qu’il était de retour chez lui à Puschino, Alexeii et moi communiquions en ligne tous les jours, ainsi qu’avec un collègue de son laboratoire, Sergiy Garbuzinskiy, qui m’aidait à analyser les données.  Misha et moi avions de longues discussions quotidiennes à ce sujet.  Un article intitulé « Universal Influenza and Dengue Fever Targets », co-rédigé par Alexeii et moi a été envisagé et même écrit.

J’ai traité tous les virus que j’ai pu trouver sur le PDB – même si j’étais encore en train d’apprendre quelles étaient les bonnes protéines et que je ne savais pas grand-chose. J’ai étudié le virus de la fièvre de la vallée du Rift, ou FVR, histoire d’étudier un énième exemple et là, je suis tombé sur un signal encore plus fort.  C’était de nouveau le groupe B5e, mais il existait une autre mesure – nous l’avions appelée « stress » dans un article écrit avec le groupe danois, puis abandonné – qui mesurait la rareté d’une liaison donnée dans son groupe.  Dans la FVR, il y avait une liaison hydrogène qui, mesurée ainsi, était plus exotique que toutes celles que j’avais vues précédemment.  Un rapide coup d’œil en ligne a permis de découvrir que Pablo Guardado-Calvo, un collègue de l’Institut Pasteur expert en FVR, était basé à Paris. Je me suis permis de lui écrire pour lui exposer le peu que je savais à l’époque et lui décrire le site exotique que j’avais découvert pour la FVR.  J’ai été ravi qu’il me réponde immédiatement, alors qu’il était en vacances (c’était l’été), et je l’imagine surpris qu’un mathématicien ait en quelque sorte ciblé le peptide de fusion de la FRV à travers la géométrie.  Il a répondu à mes courriels avec des suggestions très pertinentes, alors que je craignais de le harceler, de le déranger pendant ses vacances et d’empoisonner notre relation.  Nous avons prévu de nous rencontrer à son retour à Paris.

Pablo est venu à l’IHES et a passé la journée avec nous.  Pour Misha et moi, c’était formidable d’apprendre tant de choses si rapidement.  Quant à Pablo, je pense qu’il était curieux de voir ce qu’était cet endroit légendaire, l’IHES.  Lorsque Pablo est parti, Misha et moi avons été vraiment frappés par l’envergure des connaissances de ce jeune homme et ce qu’il pouvait nous apprendre.  C’était la première fois que Pablo venait à l’IHES et que j’allais à l’Institut Pasteur.  Nous sommes devenus amis, et je lui suis immensément reconnaissant de tout ce qu’il m’a appris.

J’apprenais beaucoup aussi avec Alexeii et Sergiy et j’y prenais plaisir.  J’avais désormais compris que la notion de stress développée au Danemark et abandonnée ensuite donnait une mesure de l’énergie libre si on utilisait le formalisme de Pohl-Finkelstein qu’Alexeii et ses collègues avaient expliqué auparavant.  J’étais cependant très attaché à l’idée des clusters, et il manquait encore une méthode raisonnable pour comparer les différents clusters.  Misha et moi avons travaillé d’arrache-pied sur ce sujet, notamment sur la façon de combiner judicieusement les distributions de Boltzmann.

C’est Sergiy qui a fait la découverte : le site que j’avais trouvé pour la grippe était bien connu et s’appelait la poche de fusion.  Un anticorps adhérent avait même été décrit par un collègue de Singapour, Jimmy Kwang et compagnie, et cet anticorps offrait une protection à 100 % contre l’infection chez les souris.  J’ai écrit à Kwang et à ses collaborateurs pour leur demander pourquoi il n’y avait jamais eu de suite, mais ils ne m’ont jamais répondu.  Pablo m’a expliqué plus tard que les souris ne sont pas un bon modèle pour l’homme, et que les gourous de la grippe aux États-Unis pensaient probablement que d’autres sites étaient plus prometteurs.  Le premier article n’a donc pas vraiment frappé les esprits, puisque mon site universel était la poche de fusion, déjà connue. Néanmoins, il a servi à valider le concept de cette chose que j’essayais de trouver avec mes méthodes encore primitives.

Je comprenais les bases de la distribution de Boltzmann mais je ne l’avais jamais vraiment utilisée dans mes calculs.  Je me suis donc tourné vers mon collègue Thibault Damour, qui travaille sur les ondes gravitationnelles et qui a eu la gentillesse de m’écouter et de me fournir des explications.  Il m’a fait sonder mes clusters, et cela m’a permis de découvrir que la distribution des liaisons hydrogène qu’ils contenaient ne ressemblait vraiment pas à une distribution normale.  Il m’a appris d’autres détails sur les distributions de Boltzmann, alors que j’avais encore du mal à trouver comment les combiner ou les comparer.  La frustration était au rendez-vous.

Un matin, je me suis réveillé avec une idée lumineuse : après toutes ces années passées à voir ces données organisées en clusters, à apprendre à identifier les grands et les petits, leurs propriétés, ainsi qu’une partie de leur cartographie en SO(3), je me suis rendu compte qu’ils importaient très peu ici.  En effet, avec le groupe danois, nous avions calculé une densité sur le SO(3) lui-même, une grande et belle densité, pas besoin de combiner quoi que ce soit, il suffisait d’appliquer le quasi Boltzmann Ansatz de Pohl-Finkelstein à l’ensemble de la densité !  Nul doute que Thibault m’a aidé à comprendre cela, et c’était assez révolutionnaire pour qu’il ait fallu convaincre Misha avant qu’il n’adhère à cette idée.

J’étais donc maintenant prêt à calculer et calculer encore.  C’était génial !  J’ai enfin pu examiner la répartition de l’énergie libre dans toute la base de données PDB et je l’ai tracée.  Un autre grand ami de très longue date, Greg McShane, un géomètre qui s’adonne maintenant aux études informatiques et statistiques de toutes sortes, est venu de Grenoble à Paris pour que nous allions voir ensemble The Cure au festival Rock en Seine.  Il s’est attelé à l’écriture des codes qui m’ont donné la clé pour la suite de l’analyse.

Après avoir lu et étudié de nombreux textes et articles sur les glycoprotéines virales, y compris les dossiers PDB que Pablo me conseillait d’étudier, j’étais enfin sur la bonne voie.  J’ai compris que l’ énergie libre à valeur élevée visait des sites instables, sans importance géométrique, bien que les sites instables soient généralement cachés du système immunitaire dans des creux. J’avais également plusieurs exemples des différents mécanismes de fusion en tête, et Pablo et moi avons eu plusieurs réunions très utiles qui m’ont permis de consolider ma compréhension de tous ces concepts.

La chimie et les mathématiques étaient donc parfaites, et la biologie limpide.  J’en étais venu à anthropomorphiser les virus et je pouvais comprendre leur quête du grand amour.  En comprenant cela, il m’est apparu clairement qu’ils profiteraient des liaisons hydrogène dans ce but. Mais les aspects physiques ne tournaient toujours pas rond : je ne pouvais pas résoudre la distribution globale de l’énergie avec les énergies connues de divers motifs tels que les hélices alpha.  C’était vraiment embêtant.  Si c’était vrai, alors tout devait être parfait, or la physique posait vraiment problème.  Comme l’avait dit Misha un jour : si la physique est fausse, c’est comme si vous aviez un délicieux repas devant vous et que votre argenterie ne servait à rien.

Il y avait encore un obstacle conceptuel à surmonter, et Alexeii était frustré par mon incapacité à comprendre : l’énergie libre n’est PAS celle de la liaison hydrogène elle-même, mais plutôt celle du détail de la protéine qu’elle stabilise. C’est une distinction subtile et il m’a fallu une éternité pour bien la saisir.

Avec cette dernière pièce du puzzle en main, tout s’est mis en place.  Les manipulations artificielles avec lesquelles j’essayais de résoudre les problèmes physiques ont disparu, et tout était parfait, même en vérifiant la cohérence interne de la théorie tout entière : les énergies extrêmes dans ma distribution étaient exactement là où elles devaient être, juste en dessous des limites de stabilité des protéines.

Cela a donné lieu au premier article dans le Journal of Computational Biology.  Le deuxième article, qui sera mis en ligne dans les jours qui viennent [3], applique ces outils aux sept maladies connues, qui sont provoquées par des coronavirus affectant les êtres humains, et fournit notamment plusieurs sites intéressants en ce qui concerne les vaccins/médicaments/tests visant le virus SRAS-CoV-2 à l’origine du COVID-19.  Le confinement en France et l’absence d’interruptions qui l’accompagne m’ont permis de travailler deux mois pleins, à raison de 12 à 15 heures par jour, pour arriver à ce résultat.

C’est passionnant de se sentir impliqué.  J’ai aussi la chance de pouvoir me consacrer à un projet passionnant pendant le confinement et d’éviter de me focaliser sur une actualité inquiétante.  J’espère évidemment que mes sites serviront à apprivoiser le COVID-19, mais seules les expériences peuvent mesurer leur utilité, et à juste titre, un biologiste ne devrait s’intéresser à ce résultat que s’il fait ses preuves.

La méthode a d’autres applications présumées en biologie, à d’autres virus, bien sûr mais aussi en principe aux maladies neurodégénératives comme l’Alzheimer par exemple, qui impliquent des protéines mal repliées, et à la métastase du cancer, qui repose sur la motilité cellulaire – en réalité dans tout contexte où les protéines modifient la géométrie de leur épine dorsale en utilisant des liaisons hydrogène.

Grâce aux nombreuses autres applications potentielles de mes méthodes dans le domaine de la biologie, j’espère recruter d’autres personnes pour utiliser ce nouvel outil.  La plupart des bonnes idées n’en sont pas vraiment, mais celle-ci pourrait bien en être une.

 

[1] Robert C. Penner. Backbone Free Energy Estimator Applied to Viral Glycoproteins, Journal of Computational Biology https://doi.org/10.1089/cmb.2020.0120

[2] Robert C. Penner. Conserved High Free Energy Sites in Human Coronavirus Spike Glycoprotein Backbones. Journal of Computational Biology https://doi.org/10.1089/cmb.2020.0120

[3] L’article a été publié le 13 mai 2020: https://www.liebertpub.com/toc/cmb/0/0