Le déclin (relatif) de la production bioinformatique française

L’idée de cet article vient d’une étude réa­li­sée en 2008 par Jean Lobry, Pro­fes­seur à l’Université Claude Ber­nard – Lyon 1, ceci dans le cadre de ses ensei­gne­ments en bio­in­for­ma­tique (plus exac­te­ment ses TD sur le lan­gage R). Mon objec­tif était de regar­der la dyna­mique de publi­ca­tion de la France dans le domaine de la bio­in­for­ma­tique depuis qu’il existe des revues spé­cia­li­sées dans ce domaine.

Méthodologie

Afin d’avoir des élé­ments de com­pa­rai­son, j’ai intro­duit deux autres pays dans mon panel : l’Allemagne et la Chine. L’Allemagne parce qu’il s’agit d’un pays euro­péen, non anglo­phone et de taille com­pa­rable à la France. La Chine du fait de l’extraordinaire déve­lop­pe­ment de ce pays au cours des quinze der­nières années. Ce déve­lop­pe­ment s’est accom­pa­gné d’une mon­tée en puis­sance de la science chi­noise et il était donc inté­res­sant de voir si cette dyna­mique se retrou­vait en bio­in­for­ma­tique.
Pour des rai­sons pra­tiques, je ne me suis inté­res­sé qu’aux revues publiant des déve­lop­pe­ments (algo­rithmes, bases de don­nées, logi­ciels). Pour ce faire, l’outil le plus com­mode reste Pub­Med puisque le sys­tème d’interrogation de cette base de don­nées per­met d’effectuer des requêtes mul­ti-cri­tères. Ain­si, l’exemple don­né ci-des­sous cor­res­pond à la requête per­met­tant de récu­pé­rer tous les articles publiés dans Bio­in­for­ma­tics et pour les­quels au moins un des auteurs avait une affi­lia­tion en France :

"Bioinformatics (Oxford, England)"[Journal] AND France[Affiliation]



Dans le cas de l’Allemagne et de la Chine, les choses étaient un peu plus compliquées du fait que les auteurs ont utilisé soit le nom de leur pays soit un acronyme. C’est ainsi que pour l’Allemagne j’ai bâti des requêtes en utilisant Germany ou FRG (Federal Republic of Germany) pour l’affiliation. En ce qui concerne la Chine, j’ai utilisé China ou PRC (People’s Republic of China).

L’étude de Jean Lobry ne portait que sur les articles publiés dans Bioinformatics. En effet, les autres revues dédiées à la thématique était alors apparues trop récemment pour pouvoir être utilisées dans une analyse portant sur une longue durée. Les années ayant passé, il est devenu possible d’incorporer les données provenant d’autres revues et, outre Bioinformatics (période 1985-2018), mon choix s’est porté sur Journal of Computational Biology (1994-2018), BMC Bioinformatics (2002-2018) et PLoS Computational Biology (2005-2018).

Cette étude étant centrée sur la production d’outils nouveaux je n’ai donc pas intégré dans ma liste Briefings in Bioinformatics qui publie essentiellement des articles de revue et des comparatifs de logiciels. Ma source de données étant PubMed, je n’ai pas utilisé les journaux qui n’étaient pas indexés dans ce système ainsi que ceux qui ne l’étaient que partiellement. De même, je n’ai pas intégré de journaux pour lesquels la bioinformatique ne représente qu’une partie des activités éditoriales, même si la proportion d’articles relevant de cette thématique pouvait être importante (e.g. Nucleic Acids Research, Genome Research, Genome Biology).


Figure 1 – Nombre d’articles publiés chaque année dans les revues du panel.

L’utilisation de PubMed comme source de données entraîne la non prise en compte des actes de colloques en bioinformatique. Il existe toutefois une exception qui est la conférence ISMB (Intelligent Systems for Molecular Biology). En effet, les actes de cette conférence ont été indexés dans PubMed de 1993 à 2000 et, après cette date, ils ont été publiés sous la forme d’un numéro spécial de Bioinformatics. N’ayant fait aucune distinction entre les numéros standards et les numéros spéciaux de Bioinformatics, les actes d’ISMB 2001-2018 ont donc été de facto intégrés dans mon étude. Afin que les contributions de cette conférence soient complètement intégrées, j’ai rajouté les actes de la période 1993-2000 grâce à leur indexation dans PubMed.

Toujours sur cette question de représentation des actes de colloques, BMC Bioinformatics accepte également de publier des numéros spéciaux dédiés à ces évènements. Toutefois, ceci ne se fait pas sur une base régulière comme c’est le cas pour ISMB et il ne m’a donc pas été possible de faire des statistiques sur les conférences concernées.

L'ensemble des données utilisées dans cette étude ainsi que les scripts R ayant permis de construire les graphiques sont disponibles sous la forme d'un dépôt Git à l'adresse https://gitlab.in2p3.fr/guy.perriere/bioinfo-fr.

Résultats

Sur la période considérée (1985-2018), un total de 32377 articles ont été publiés dans les quatre revues et la conférence considérées. Le premier résultat est celui de la croissance régulière du nombre total d’articles publiés depuis 1985 (Figure 1). D’un niveau basal à 50 articles dans la période 1985-1990, la production a été multipliée par 40 en 30 ans ! Depuis 2009, ce sont environ 2100 articles qui sont publiés par an et ce nombre reste stable depuis cette date. La croissance observée est liée à la multiplication des supports de publication mais aussi aux changements de périodicité des revues. C’est ainsi que Bioinformatics (sous l’appellation initiale de Computer Applications in the Biosciences) a débuté avec un rythme de publication trimestriel. Le passage à une périodicité bimestrielle s’est effectué en 1992 et la revue est finalement devenue mensuelle en 1998. Ici, la bioinformatique suit simplement la tendance générale en sciences à l’inflation du nombre d’articles et à la multiplication des supports de publication.


Figure 2 – Nombre d’articles publiés par pays.

Maintenant, si on regarde pour chacun des trois pays de notre panel quelle est l’évolution de sa contribution en nombre d’articles (Figure 2), on constate sans surprise que celle-ci croît en proportion du nombre total. Là où les choses deviennent plus intéressantes c’est lorsque l’on compare la dynamique des différents pays. Si, de 1985 à 2000, le nombre d’articles publiés par la France d’un côté et par l’Allemagne de l’autre reste a peu près semblable, on constate un net décrochement de la France après l’an 2000. Ainsi, en 2018 l’Allemagne a publié environ deux fois plus d’articles que la France.

Quid de la Chine? De 1985 à 2000 sa production est quasiment nulle : seulement sept articles recensés dans PubMed. Passé l’an 2000, une dynamique s’enclenche et la Chine passe devant la France en 2009 puis devant l’Allemagne en 2017. Si on regarde les chiffres par revue, un élément intéressant apparaît : c’est dans Journal of Computational Biology que la progression de la Chine est la plus forte. En effet, en 2018 la Chine y a publié sept fois plus d’articles que la France et près de quatre fois plus que l’Allemagne. Or il s’agit de la plus « méthodologique » des quatre revues considérées, signe de l’acquisition par la Chine de compétences portant sur ce qui est au cœur de la discipline.

L’évolution des contributions relatives de chaque pays par rapport au total est donnée sur la Figure 3. Afin de rendre plus lisible cette évolution, j’ai superposé aux points un lissage effectué au moyen d’une régression polynomiale de type LOWESS (LOcally WEighted Scatterplot Smoother). Quelles tendances constate-t-on sur ce graphique ? Tout d’abord la contribution de l’Allemagne est en croissance régulière depuis 1985 avec toutefois un plateau au cours de la période 2000-2012. La progression de la Chine est encore plus spectaculaire. Ainsi, en 2018 un peu plus de 13% des articles publiés dans les revues de notre panel incluaient une équipe chinoise dans la liste des auteurs. En revanche, l’évolution de la France se fait avec une tendance complètement opposée puisque la contribution relative de notre pays a diminué de façon dramatique entre 1985 et 2005. En effet, on assiste sur cette période à une division par trois de cette contribution (passage de 12.1% à 3.7%). Il semblerait toutefois que ce déclin ait été légèrement enrayé, avec une lente reprise depuis 2014. Cependant, l’Allemagne ayant également connu une augmentation de sa contribution depuis cette même date, le différentiel entre les deux pays reste le même.


Figure 3 – Contribution relative de chaque pays.

La contribution de ces trois pays en bioinformatique est-elle du même ordre que leur contribution générale en sciences et techniques, toutes disciplines confondues ? Pour mesurer leur contribution générale, j'ai utilisé les données d'une étude de la NSF (National Science Foundation) qui porte sur la période 2003-2016. Sur ladite période, la comparaison bioinformatique vs. toutes les sciences donne les résultats suivants :
- France : 4.0% vs. 3.6%
- Allemagne : 8.4% vs. 5.0%
- Chine : 4.6% vs. 14.9%

La contribution de la France en bioinformatique est comparable à sa contribution générale tandis que celle de l'Allemagne est plus élevée. On constate également que la production par ce pays de deux fois plus d'articles en bioinformatique que la France est une tendance sur le long terme. Le cas de la Chine est particulièrement intéressant. Son poids dans l'ensemble des sciences et techniques est devenu considérable, la Chine étant d'ailleurs devenu le premier contributeur mondial en 2016. Sur la période 2003-2016 sa contribution à la bioinformatique est de 4.6%, ce qui est comparable à la France, mais la dynamique visible sur la Figure 3 semble irrésistible. Il est donc parfaitement envisageable que la part de la Chine dans la production scientifique en bioinformatique continue de croître dans les prochaines années et qu'elle finisse par atteindre le même niveau que celui de sa production générale. Quelle sera alors la place de la France dans ce paysage ?

Pour conclure

Bien sûr, cette étude n’est qu’une mesure brute et restreinte de la production scientifique française en bioinformatique cependant elle confirme la tendance à la diminution qu’avait déjà observée Jean Lobry en 2008. Maintenant, comment est-il possible d’expliquer ce phénomène ? Une hypothèse serait l'absence d'une prise de conscience au niveau national de l’importance de la bioinformatique et de la priorité à lui accorder. La rupture entre la France et l’Allemagne date de 2000; or cette année est celle où le premier génome humain est publié et où les biologistes commencent à se rendre compte de l’importance de la bioinformatique dans leurs analyses. Cette importance aurait donc mieux été prise en compte par les instances décisionnelles en Allemagne qu’en France (le cas de la Chine étant à part). D’un autre côté, le léger redressement observé en France depuis 2014 pourrait être lié à une prise en compte tardive de cette importance, prise en compte qui s’est matérialisée au début des années 2010 par la mise en place de deux projets d’investissement d’avenir faisant une grande place à la bioinformatique, à savoir France Génomique et l’IFB (Institut Français de Bioinformatique).

Remerciements aux relecteurs : Isabelle, Guillaume et Maxime.



Pour continuer la lecture :


Commentaires

10 réponses à “Le déclin (relatif) de la production bioinformatique française”

  1. Bon­jour,

    C'est très inter­es­sant de voir que mal­gré l'essor de la bio­in­for­ma­tique, la France a un peu sous exploi­té le filon pour ain­si dire (com­pa­ra­ti­ve­ment à l'Allemagne). On voit aus­si net­te­ment la mon­tée en puis­sance de la Chine ces der­nières années.

    Bra­vo pour ce tra­vail très inter­es­sant, je n'ai que sur­vo­lé le code sur github mais je serais inter­es­sé pour en faire une video en rajou­tant d'autres pays vous pen­sez que c'est fai­sable à par­tir de vos scripts ?

    1. Le pro­blème est qu'il y a une par­tie "manuelle" pour trai­ter les résul­tats des requêtes Pub­Med. En effet, le sys­tème d'interrogation retourne un résul­tats qui com­prend un fichier CSV avec le nombre d'articles par année, ce qui faci­lite le trai­te­ment. Le pro­blèmes est que ce fichier n'est créé… que si le nombre d'articles dépasse un cer­tain seuil (que je ne connais pas). On peut en dis­cu­ter plus en détail par mail.

  2. Bon­jour,

    Mer­ci pour cet article inté­res­sant !

    J'ai fait cir­cu­ler l'information autour de moi, sur­tout sur l'essor des chi­nois dans ce domaine. Et les réac­tions que j'ai eu sont …plus timo­rés concer­nant l'influence "réelle" que peuvent avoir leurs publi­ca­tions.

    Mes col­lègues ont eu à revie­wer des publi­ca­tions chi­noises et de leur point de vue même s'il publie beau­coup de part leur démo­gra­phie scien­ti­fique qui augmente…la qua­li­té n'est pas néces­sai­re­ment au ren­dez-vous.

    J'ai l'impression que même s'ils publient beau­coup, l'idée reçu de mes col­lègues sera tou­jours qu'ils feront moins bien que les occi­den­taux…

    1. Bon­jour,

      Vu que je me base sur des d'articles publiés dans des revues "éta­blies" (pas de pre­da­tor edi­tor dans cette étude), le peer-revie­wing y est aus­si sélec­tif pour les chi­nois de que pour autres (Bio­in­for­ma­tics en par­ti­cu­lier est main­te­nant une revue très sélec­tive avec trois revie­wers par article sou­mis), donc leur argu­ment ne tient pas. Par contre, il y a sans doute effec­ti­ve­ment beau­coup plus d'articles sou­mis qu'acceptés.

  3. Avatar de ClemBuntu

    Bon­jour,
    Quel est le nombre de cher­cheurs en bio-info en France, en Alle­magne et en Chine ? Quel % de la popu­la­tion totale cela repré­sente ?

    1. Je ne sais pas et il n'y a pro­ba­ble­ment aucun moyen simple de le savoir. Il fau­drait éplu­cher les inti­tu­lés des toutes les équipes de tous les labos de recherche en biologie/​maths/​informatique/​physique en France/​Allemagne/​Chine.

  4. Mer­ci pour ce tra­vail de syn­thèse,

    Une des expli­ca­tions pour­rait aus­si venir du fait qu'il est moins néces­saire d'avoir des méthodes inno­vantes pour l'analyse du vivant, les élé­ments les plus com­plexes ont été déjà étu­diés, et donc qu'il y a aus­si un tour­nant vers les appli­ca­tions (por­tails galaxy, recherche ciblée de fonc­tion, etc), qui ne se publient pas dans ces revues. Ce serait la preuve d'une cer­taine "matu­ri­té" du domaine 🙂

    Pour don­ner quelques exemples, BLAST n'est pas dis­cu­té (même si des évo­lu­tions sont publiées depuis l'article de 1991), les outils de com­pa­rai­son de génome sont aus­si bien éta­blis, les génomes sont main­te­nant séquen­cés à très haut débit donc les tech­no­lo­gies sont "indus­tria­li­sées". Tout n'est pas fini, mais beau­coup a été fait depuis l'an 2000, donc il est nor­mal qu'il y ait un cer­tain "tas­se­ment" dans la publi­ca­tion de nou­velles métho­do­lo­gies (on est plus dans l'évolution incré­men­tale que dans la rup­ture tech­no­lo­gie …).

    Sté­phane

    1. Salut Sté­hane,

      Alors pour­quoi ça ne s'est pro­duit qu'en France et pas en Alle­magne ?

      1. Les consé­quences d'une poli­tique de finan­ce­ment par "pro­jets" ?

  5. ques­tion peut être naïve …
    le finan­ce­ment de la recherche en France (loi ESR) , les clas­se­ment inter­na­tio­naux uni­ver­si­taire (Shan­ghai) , c'est méca­nisme socio-éco­no­mique ne joue t'il pas un rôle pré­pon­dé­rant dans les up and down de cer­tain pays ?

Laisser un commentaire