Analyses bioinformatiques du coronavirus 2019-nCoV : pourquoi et comment ?

5 février 2020

-

par

À l'époque de parution de cet article, le nouveau nom de la pneumonie de Wuhan 'COVID-19' et le nom définitif du virus 'SARS-CoV-2' n'étaient pas connus. C'est pourquoi vous trouverez encore dans l'article ci-dessous l'ancien nom 2019-nCoV.

Ce n'est plus un secret : à l'heure où ces lignes sont écrites le coronavirus, 2019-nCoV de son petit nom scientifique, est en train de se propager dans le monde entier.

"Novel Coronavirus nCoV" par AJC1 (CC BY-SA 2.0)

La famille des coronavirus étant particulièrement connue pour son pouvoir de mutation rapide [réf. 1], la psychose s'installe petit à petit dans nos têtes et on se voit déjà contaminé. Mais heureusement nous disposons de deux armes potentiellement létales pour ce micro prédateur : la Science et la communication.

En termes de Science nous allons nous intéresser plus particulièrement à notre science : la bio-informatique. Nous ne nous aventurerons pas trop sur le domaine de la virologie, laissons ça aux experts de ce domaine (l'excellente vidéo de Tania Louis étant déjà un super point de départ [réf. 2]). Vous allez comprendre comment, avec un cas concret comme celui de cette épidémie de coronavirus, nos aptitudes de bio-informaticiens pourront, on l'espère, aider à sauver des vies.

La communication arrive ensuite en second plan puisqu'elle s'avèrera utile une fois le travail scientifique effectué afin de diffuser les consignes et les remèdes au plus grand nombre de nos semblables.

Comment identifier le virus ?

Fort des expériences récentes du passé (SRAS, fièvre porcine) la communauté scientifique a cette fois-ci dégainée les armes assez rapidement. En effet dès mi-décembre 2019, à la suite des premières annonces à propos d'un potentiel nouveau virus émergent depuis la ville de Wuhan en Chine et l'isolation de ce virus, les biologistes et bioinformaticiens se sont lancés dans le séquençage du virus. En termes de répartition des tâches : les biologistes ont réalisé le séquençage en lui-même et les bioinformaticiens se sont occupés de l'assemblage du génome du virus. Il faut noter que les techniques de séquençage sont maintenant bien maîtrisées : le coût et le délai d'obtention des reads à aligner ont drastiquement chuté ces dernières années.

A titre d'exemple le Sanger Institut annonce d'ailleurs séquencer plus de 3000 génomes humains par semaine dorénavant ! Début 2019 ils n'en étaient "qu'à" 1000 par semaine (information trouvable dans leur brochure annuelle), c'est dire comme la technologie avance rapidement. Précision utile : un génome humain est bien plus gros qu'un génome viral !
En revanche, malgré cette rapidité il est important de noter que les premiers séquençage du 2019-nCoV sont chinois et que leur fiabilité est pas mal critiquée. C'est d'ailleurs assez étrange car ils sont vraiment compétant en général (beaucoup de laboratoires français font envoyer leurs échantillons à séquencer en Chine par exemple).

Mais pour en revenir à nos moutons, le séquençage du virus a surtout permis d'affirmer que l'on avait bien à faire à un nouveau virus ! Car aucune concordance n'a été trouvée en comparant son génome avec ceux présents dans la banque mondiale des virus connus à ce jour. Attention, cela ne veut pas dire qu'on est face à un génome complètement neuf, mais simplement que malgré une séquence proche d'autres coronavirus, il est suffisamment différent pour qu'on considère qu'il s'agisse d'une nouvelle souche. De plus, même un virus déjà connu ne coïnciderait pas exactement à 100% à son génome consensus. Cela en raison de ses mutations aléatoires ponctuelles.
D'après cette source [réf. 3] le 2019-nCoV serait identique à 70% au virus de SRAS (contre 79,5% d'après la [réf. 5]) mais ce n'est pas assez pour affirmer que c'est bien le SRAS ou une de ses mutations. Alors à partir de quel seuil peut-on affirmer que nous sommes en présence d'un virus connu ? Là encore, et comme d'habitude en biologie : ça dépend. Mais si on veut absolument avoir une réponse, et qu'on s'aide des études scientifiques déjà parues [réf. 4], alors certains s'accordent à dire qu'aux alentours de 30% de différence de séquences et de symptômes/réponses au traitement différentes c'est considéré comme différent.

Nous retiendrons surtout qu'il aura fallu en tout et pour tout seulement 12 jours après l'alerte pour que le génome soit révélé : 29 903 bases et 10 gènes le composerait. À partir de là c'était donc acté : il porterait le doux nom de 2019-nCoV. 2019 pour l'année de la découverte et nCoV pour novel CoronaVirus.

D'où vient le coronavirus 2019-nCoV ?

Maintenant qu'il avait une identité et une famille, il fallait lui trouver une origine.

Le virus a été déclaré pour la première fois à proximité d'un marché alimentaire de Wuhan en Chine. La première hypothèse s'est donc orientée vers une transmission du coronavirus d'un animal à un homme via des vecteurs classiques : morsure, consommation de viande contaminée… Mais ce n'est qu'une hypothèse et il faut la confirmer ou la réfuter.

Pour en être certains, les bioinformaticiens ont fait appel à la puissance de la phylogénie : alignements multiples de séquences et arbres phylogénétiques à la clé. Nous avions déjà parlé du choix des meilleurs outils d'alignement et du mode de calcul de la conservation mais nous avions aussi déjà expliqué comment construire et interpréter des arbres phylogénétiques pour ceux que ça intéresserait.

Cela a permis de cibler géographiquement le type de souche du coronavirus. 2019-nCoV s'est ainsi révélé proche de la souche humaine de SARS de 2002 et de souches voisines chez des animaux (ici des chauves souris, Rhinolophus affinis). Le réservoir de ceux-ci se trouvant en Chine et le premier cas en étant originaire, il était assez raisonnable d'affirmer que ce lieu était l'origine de 2019-nCoV [réf. 5].

En ce qui concerne l'hôte probable juste avant l'homme, nous avions déjà des exemples connus du fait des anciennes épidémies de coronavirus (généralement des mammifères comme les chauves-souris ou encore les dromadaires). Mais une étude de scientifiques chinois semble affirmer que cette fois cet hôte intermédiaire serait le serpent. Les travaux ont beaucoup fait parler (et vendre) puisque ce serait la première fois qu'un coronavirus serait transmis d'un mammifère à un être vivant non-mammifère (en plus à sang froid) et que ce même être vivant aurait ensuite pu le transmettre à un mammifère. De plus, la méthode phylogénique utilisée par ces chercheurs ne serait pas approuvée par l'ensemble de la communauté. Il s'agit donc de rester prudent sur cette information.

mème 2019-nCoV fortement inspiré de celui de Mick Watson

Pour ce qui est de l'espèce d'origine du 2019-nCoV on reste alors encore à l'état d'hypothèses. Il est fort probable que la réponse nous arrive après la parution de cet article (le 5 février 2020), les comparaisons de génomes ou de morceaux de génomes inter-espèces pouvant être assez longues.

Grâce aux pouvoirs du séquençage et de la phylogénie nous sommes maintenant capables d'affirmer que ce nouveau coronavirus vient bien de Chine. On sait aussi grâce à nos amis virologistes qu'il a été sûrement transmis à l'homme par un animal (morsure, consommation de viande crue ou mauvaise cuisson).

Cela permet déjà de connaître le foyer de départ et donc de le mettre en quarantaine, mais aussi de demander à la population d'éviter de consommer de la viande crue.

Dernière précision sur l'importance géographique : c'est surtout important de savoir s'il y a une adéquation entre le pays/la région où la souche a été détectée chez un patient et le pays/la région où elle est apparue dans la nature. Sous entendu, est-ce qu'en plus de la Chine (qui pourrait n'être qu'un foyer secondaire) il existerait un autre pays d'où proviendrait la souche et qu'il faudrait également mettre en quarantaine ?

Que faire avec ces informations scientifiques sur le nouveau coronavirus de Wuhan ?

La première chose louable que la communauté scientifique a réalisé très rapidement : le partage d'information. Notons quand même pour nous bioinformaticiens qui apprécions télécharger l'ensemble d'un génome, que le GISAID a placé sous embargo les différents génomes ayant pu être séquencés. Si on veut un génome complet, on pourra quand même avoir accès à une version mais qui date d'avant le nommage du coronavirus en 2019-nCoV [réf 6]. Mieux que rien diront les optimistes.

Les séquences du 2019-nCoV sont partagées librement sur la plateforme du NCBI ainsi donc qu'un génome complet. Cela permet à n'importe qui, mais bon surtout aux chercheurs quand même, de récupérer ces séquences et de pouvoir travailler dessus pour essayer de trouver une faille au virus.

On ne sait pas s'ils sont partis de ces données, mais les virologistes de l'Institut Pasteur (pour ne citer qu'eux, cocorico oblige) ont développé assez rapidement un test diagnostique pour confirmer la contamination d'un patient au coronavirus de Wuhan. Il est à noter aussi qu'ils ont réussi à isoler le coronavirus 2019-nCoV depuis les premiers patients français de manière extrêmement rapide et que cela a aussi permis le séquençage de son génome complet. Nous pouvons vraiment être fier de nos équipes de recherches françaises ! Je vous conseille d'ailleurs vivement de (re)visionner leur conférence de presse du 31 janvier 2020 sur le sujet qui est extrêmement intéressante et riche en information [réf. 7].

D'autres ont pu réaliser un état des mutations observées sur les différents patients diagnostiqués dans le monde, le visuel sur cette application web est vraiment sympathique.

On parle maintenant d'un éventuel vaccin thérapeutique qui pourrait arriver dans les 6 prochains mois [réf. 8]. La difficulté pour un tel vaccin est que les coronavirus mutent rapidement. La psychose grandit encore un peu quand on sait que plus le virus reste longtemps "dans" une espèce, plus ses mutations peuvent être dangereuse pour l'espèce.

À partir de là on peut aussi savoir si le génome du coronavirus code pour certaines protéines de surface qui peuvent servir d'antigènes pour ce futur vaccin, ou de récepteur d'entrée dans les cellules, d'enzymes permettant la réplication de l'ARN du virus [réf. 9]

Une autre équipe de scientifiques s'est lancée sur la piste de la protéase du virus lui permettant d'entrer dans les cellules [réf. 10] en tentant de la modéliser à partir des données disponibles. Leur article de blog est passionnant tant en termes bioinformatique qu'en terme de découvertes scientifiques, je vous le conseille vivement.

On pourrait aussi s'orienter vers d'autres pistes de thérapies, un consortium de chercheurs anglo-suisses s'orientant d'ailleurs vers l'utilisation … du sucre (de la cyclodextrine en réalité) comme arme anti-coronavirus !

En attendant ce potentiel remède, d'autres bioinformaticiens plus orientés sur la modélisation de l'épidémie ont pu aider en proposant des modèles prédicitifs de contamination. On peut par exemple consulter cette carte interactive de propagation du 2019-nCoV pour constater l'avancée en quasi temps réel du coronavirus chinois. Elle est alimentée tous les jours par les scientifiques du monde entier.

Les premiers résultats commencent d'ailleurs à tomber et on sait maintenant que le foyer précis de l'épidémie à Wuhan n'est pas le marché alimentaire puisque le premier patient connu n'y a jamais mis les pieds [réf. 11].

Le séquençage de 2019-nCoV a aussi permi d'affirmer qu'il n'y a eu qu'un seul point d'entrée chez l'humain, puis des contaminations humain-humain par la suite ! [réf. 5, again !]

Ce n'est que le début des découvertes et elles ne sont là que grâce au travail de partage exemplaire des informations d'un pays à un autre.
Enfin pour suivre le déroulé de l'histoire autrement que via les médias qui ont tendance à travestir la réalité, je vous encourage à vous rendre de temps en temps sur la page Wikipédia du coronavirus 2019-nCoV qui ne cesse d'être alimentée au fur et à mesure des avancées. Cette page est d'ailleurs nourrie selon un processus de review semblable à celui des journaux scientifiques.

Si vous souhaitez suivre les articles scientifiques sortis autour du coronavirus, un collectif (TheEye.eu) s'est formé et a constitué un recueil de plusieurs milliers de publications.

Notice informative importante :

À ce jour (celui de la publication de cet article) nCov-2019 n'est dangereux que pour les personnes fragiles (bébés, agés, immunodéprimés, etc.). En cas de doute de si on est atteint ou non, il faut :

1) relativiser : les chances que vous ayez une grippe saisonnière (qui elle a déjà tué plusieurs dizaines de personnes en France) sont bien plus importantes que celles d'avoir le coronavirus (qui lui, malgré 6 cas en France, n'a encore tué personne sur l'hexagone)
2) porter un masque (adapté) pour prévenir la contamination des autres (conseil valable pour coronavirus comme tout autre maladie au passage)
3) téléphoner à son médecin traitant plutôt que d'aller contaminer tout le monde dans une salle d'attente. On entre également dans l'époque des consultations vidéo, pensez-y !
4) ne pas aller aux urgences ! Et ce pour les mêmes raisons que la salle d'attente bien évidemment. Dans le pire des cas votre médecin traitant vous y adressera si nécessaire.

Références de l'article :

1 - Le pouvoir de mutation d'un virus
2 - vidéo Réponses à vos questions sur le nouveau coronavirus de Tania LOUIS, Docteure en virologie et créatrice de contenus pédagogiques, chaîne YouTube éponyme
3 - The continuing 2019-nCoV epidemic threat of novel coronaviruses to global health — The latest 2019 novel coronavirus outbreak in Wuhan, China
4 - Defining viral species : making taxonomy useful
5 - Mining coronavirus genomes for clues to the outbreak’s origins
6 - Wuhan seafood market pneumonia virus isolate Wuhan-Hu-1, complete genome
7 - Conférence de presse du 31/01/2020 de l'Institut Pasteur sur le 2019-nCoV
8 - Therapeutic Drugs Targeting 2019-nCoV Main Protease by High-Throughput Screening
9 - The novel coronavirus 2019 (2019-nCoV) uses the SARS-coronavirus receptor ACE2 and the cellular protease TMPRSS2 for entry into target cells
10 - Wuhan coronavirus 2019-nCoV - what we can find out on a structural bioinformatics level
11 - Clinical features of patients infected with 2019 novel coronavirus in Wuhan, China

Je tiens à adresser un énorme merci à mes relecteurs sans qui cet article aurait été beaucoup moins bien ficelé et vraiment moins intéressant. Tout particulièrement à Gwenaëlle pour ses nombreuses remarques pertinentes (je l'ai d'ailleurs ajouté en co-auteur tant son travail de pré-publication a été important), à Guillaume pour ses remarques et ses liens d'intérêts sur le sujet et à Kevin pour m'avoir relu tout simplement 🙂

Crédit image : "Novel Coronavirus nCoV" par AJC1

Partagez cet article

Yoann M.

Je suis issu d'une licence de Biologie des Organismes et du Master de Bioinformatique de Bordeaux (Promo 2011). J'ai été bioinformaticien à l'Ecole Polytechnique Fédérale de Lausanne (EPFL) pendant 4 ans. Tout d'abord dans le laboratoire Trono puis dans le laboratoire Duboule, je fus ensuite rattaché à la plateforme de bioinformatique et de biostatistiques de l’EPFL (BBCF) où j'ai développé BioRepo, un LIMS (Laboratory Information Management System) pour les données issues de HTS. J'ai été ensuite en poste en tant que Bioinformaticien/Lead developer au sein de l’Institut de Recherche Technologique BIOASTER à Lyon pendant 9 ans. Je suis aujourd'hui heureux "retraité" de la bioinfo et sur une nouvelle aventure professionnelle en tant que responsable du service Intelligence de la Donnée au Département de l'Ain. Enfin, j'ai l'honneur et la fierté d'être un des co-fondateurs historiques de bioinfo-fr.net et grand supporter des Girondins de Bordeaux (dans la douleur depuis quelques années, mais toujours là !).

Pour continuer la lecture :

Commentaires

Laisser un commentaireAnnuler la réponse.

Pour insérer du code dans vos commentaires, utilisez les balises <code> et <\code>.