Opinion :
Le déclin (relatif) de la production bioinformatique française

L’idée de cet article vient d’une étude réalisée en 2008 par Jean Lobry, Professeur à l’Université Claude Bernard – Lyon 1, ceci dans le cadre de ses enseignements en bioinformatique (plus exactement ses TD sur le langage R). Mon objectif était de regarder la dynamique de publication de la France dans le domaine de la bioinformatique depuis qu’il existe des revues spécialisées dans ce domaine.

Méthodologie

Afin d’avoir des éléments de comparaison, j’ai introduit deux autres pays dans mon panel : l’Allemagne et la Chine. L’Allemagne parce qu’il s’agit d’un pays européen, non anglophone et de taille comparable à la France. La Chine du fait de l’extraordinaire développement de ce pays au cours des quinze dernières années. Ce développement s’est accompagné d’une montée en puissance de la science chinoise et il était donc intéressant de voir si cette dynamique se retrouvait en bioinformatique.
Pour des raisons pratiques, je ne me suis intéressé qu’aux revues publiant des développements (algorithmes, bases de données, logiciels). Pour ce faire, l’outil le plus commode reste PubMed puisque le système d’interrogation de cette base de données permet d’effectuer des requêtes multi-critères. Ainsi, l’exemple donné ci-dessous correspond à la requête permettant de récupérer tous les articles publiés dans Bioinformatics et pour lesquels au moins un des auteurs avait une affiliation en France :

Dans le cas de l’Allemagne et de la Chine, les choses étaient un peu plus compliquées du fait que les auteurs ont utilisé soit le nom de leur pays soit un acronyme. C’est ainsi que pour l’Allemagne j’ai bâti des requêtes en utilisant Germany ou FRG (Federal Republic of Germany) pour l’affiliation. En ce qui concerne la Chine, j’ai utilisé China ou PRC (People’s Republic of China).

L’étude de Jean Lobry ne portait que sur les articles publiés dans Bioinformatics. En effet, les autres revues dédiées à la thématique était alors apparues trop récemment pour pouvoir être utilisées dans une analyse portant sur une longue durée. Les années ayant passé, il est devenu possible d’incorporer les données provenant d’autres revues et, outre Bioinformatics (période 1985-2018), mon choix s’est porté sur Journal of Computational Biology (1994-2018), BMC Bioinformatics (2002-2018) et PLoS Computational Biology (2005-2018).

Cette étude étant centrée sur la production d’outils nouveaux je n’ai donc pas intégré dans ma liste Briefings in Bioinformatics qui publie essentiellement des articles de revue et des comparatifs de logiciels. Ma source de données étant PubMed, je n’ai pas utilisé les journaux qui n’étaient pas indexés dans ce système ainsi que ceux qui ne l’étaient que partiellement. De même, je n’ai pas intégré de journaux pour lesquels la bioinformatique ne représente qu’une partie des activités éditoriales, même si la proportion d’articles relevant de cette thématique pouvait être importante (e.g. Nucleic Acids Research, Genome Research, Genome Biology).


Figure 1 – Nombre d’articles publiés chaque année dans les revues du panel.

L’utilisation de PubMed comme source de données entraîne la non prise en compte des actes de colloques en bioinformatique. Il existe toutefois une exception qui est la conférence ISMB (Intelligent Systems for Molecular Biology). En effet, les actes de cette conférence ont été indexés dans PubMed de 1993 à 2000 et, après cette date, ils ont été publiés sous la forme d’un numéro spécial de Bioinformatics. N’ayant fait aucune distinction entre les numéros standards et les numéros spéciaux de Bioinformatics, les actes d’ISMB 2001-2018 ont donc été de facto intégrés dans mon étude. Afin que les contributions de cette conférence soient complètement intégrées, j’ai rajouté les actes de la période 1993-2000 grâce à leur indexation dans PubMed.

Toujours sur cette question de représentation des actes de colloques, BMC Bioinformatics accepte également de publier des numéros spéciaux dédiés à ces évènements. Toutefois, ceci ne se fait pas sur une base régulière comme c’est le cas pour ISMB et il ne m’a donc pas été possible de faire des statistiques sur les conférences concernées.

L'ensemble des données utilisées dans cette étude ainsi que les scripts R ayant permis de construire les graphiques sont disponibles sous la forme d'un dépôt Git à l'adresse https://gitlab.in2p3.fr/guy.perriere/bioinfo-fr.

Résultats

Sur la période considérée (1985-2018), un total de 32377 articles ont été publiés dans les quatre revues et la conférence considérées. Le premier résultat est celui de la croissance régulière du nombre total d’articles publiés depuis 1985 (Figure 1). D’un niveau basal à 50 articles dans la période 1985-1990, la production a été multipliée par 40 en 30 ans ! Depuis 2009, ce sont environ 2100 articles qui sont publiés par an et ce nombre reste stable depuis cette date. La croissance observée est liée à la multiplication des supports de publication mais aussi aux changements de périodicité des revues. C’est ainsi que Bioinformatics (sous l’appellation initiale de Computer Applications in the Biosciences) a débuté avec un rythme de publication trimestriel. Le passage à une périodicité bimestrielle s’est effectué en 1992 et la revue est finalement devenue mensuelle en 1998. Ici, la bioinformatique suit simplement la tendance générale en sciences à l’inflation du nombre d’articles et à la multiplication des supports de publication.


Figure 2 – Nombre d’articles publiés par pays.

Maintenant, si on regarde pour chacun des trois pays de notre panel quelle est l’évolution de sa contribution en nombre d’articles (Figure 2), on constate sans surprise que celle-ci croît en proportion du nombre total. Là où les choses deviennent plus intéressantes c’est lorsque l’on compare la dynamique des différents pays. Si, de 1985 à 2000, le nombre d’articles publiés par la France d’un côté et par l’Allemagne de l’autre reste a peu près semblable, on constate un net décrochement de la France après l’an 2000. Ainsi, en 2018 l’Allemagne a publié environ deux fois plus d’articles que la France.

Quid de la Chine? De 1985 à 2000 sa production est quasiment nulle : seulement sept articles recensés dans PubMed. Passé l’an 2000, une dynamique s’enclenche et la Chine passe devant la France en 2009 puis devant l’Allemagne en 2017. Si on regarde les chiffres par revue, un élément intéressant apparaît : c’est dans Journal of Computational Biology que la progression de la Chine est la plus forte. En effet, en 2018 la Chine y a publié sept fois plus d’articles que la France et près de quatre fois plus que l’Allemagne. Or il s’agit de la plus « méthodologique » des quatre revues considérées, signe de l’acquisition par la Chine de compétences portant sur ce qui est au cœur de la discipline.

L’évolution des contributions relatives de chaque pays par rapport au total est donnée sur la Figure 3. Afin de rendre plus lisible cette évolution, j’ai superposé aux points un lissage effectué au moyen d’une régression polynomiale de type LOWESS (LOcally WEighted Scatterplot Smoother). Quelles tendances constate-t-on sur ce graphique ? Tout d’abord la contribution de l’Allemagne est en croissance régulière depuis 1985 avec toutefois un plateau au cours de la période 2000-2012. La progression de la Chine est encore plus spectaculaire. Ainsi, en 2018 un peu plus de 13% des articles publiés dans les revues de notre panel incluaient une équipe chinoise dans la liste des auteurs. En revanche, l’évolution de la France se fait avec une tendance complètement opposée puisque la contribution relative de notre pays a diminué de façon dramatique entre 1985 et 2005. En effet, on assiste sur cette période à une division par trois de cette contribution (passage de 12.1% à 3.7%). Il semblerait toutefois que ce déclin ait été légèrement enrayé, avec une lente reprise depuis 2014. Cependant, l’Allemagne ayant également connu une augmentation de sa contribution depuis cette même date, le différentiel entre les deux pays reste le même.


Figure 3 – Contribution relative de chaque pays.

La contribution de ces trois pays en bioinformatique est-elle du même ordre que leur contribution générale en sciences et techniques, toutes disciplines confondues ? Pour mesurer leur contribution générale, j'ai utilisé les données d'une étude de la NSF (National Science Foundation) qui porte sur la période 2003-2016. Sur ladite période, la comparaison bioinformatique vs. toutes les sciences donne les résultats suivants :
- France : 4.0% vs. 3.6%
- Allemagne : 8.4% vs. 5.0%
- Chine : 4.6% vs. 14.9%

La contribution de la France en bioinformatique est comparable à sa contribution générale tandis que celle de l'Allemagne est plus élevée. On constate également que la production par ce pays de deux fois plus d'articles en bioinformatique que la France est une tendance sur le long terme. Le cas de la Chine est particulièrement intéressant. Son poids dans l'ensemble des sciences et techniques est devenu considérable, la Chine étant d'ailleurs devenu le premier contributeur mondial en 2016. Sur la période 2003-2016 sa contribution à la bioinformatique est de 4.6%, ce qui est comparable à la France, mais la dynamique visible sur la Figure 3 semble irrésistible. Il est donc parfaitement envisageable que la part de la Chine dans la production scientifique en bioinformatique continue de croître dans les prochaines années et qu'elle finisse par atteindre le même niveau que celui de sa production générale. Quelle sera alors la place de la France dans ce paysage ?

Pour conclure

Bien sûr, cette étude n’est qu’une mesure brute et restreinte de la production scientifique française en bioinformatique cependant elle confirme la tendance à la diminution qu’avait déjà observée Jean Lobry en 2008. Maintenant, comment est-il possible d’expliquer ce phénomène ? Une hypothèse serait l'absence d'une prise de conscience au niveau national de l’importance de la bioinformatique et de la priorité à lui accorder. La rupture entre la France et l’Allemagne date de 2000; or cette année est celle où le premier génome humain est publié et où les biologistes commencent à se rendre compte de l’importance de la bioinformatique dans leurs analyses. Cette importance aurait donc mieux été prise en compte par les instances décisionnelles en Allemagne qu’en France (le cas de la Chine étant à part). D’un autre côté, le léger redressement observé en France depuis 2014 pourrait être lié à une prise en compte tardive de cette importance, prise en compte qui s’est matérialisée au début des années 2010 par la mise en place de deux projets d’investissement d’avenir faisant une grande place à la bioinformatique, à savoir France Génomique et l’IFB (Institut Français de Bioinformatique).

Remerciements aux relecteurs : Isabelle, Guillaume et Maxime.

  • À propos de
  • Chercheur au CNRS en bioinformatique depuis 1992. Mes thématiques de recherche sont la phylogénie et l'évolution. J'ai été le premier président élu de la Société Française de Bioinformatique SFBI. Je suis encore directeur pour quelque temps du Pôle Rhône-Alpes de Bioinformatique (PRABI).

9 commentaires sur “Le déclin (relatif) de la production bioinformatique française

  1. Bonjour,

    C'est très interessant de voir que malgré l'essor de la bioinformatique, la France a un peu sous exploité le filon pour ainsi dire (comparativement à l'Allemagne). On voit aussi nettement la montée en puissance de la Chine ces dernières années.

    Bravo pour ce travail très interessant, je n'ai que survolé le code sur github mais je serais interessé pour en faire une video en rajoutant d'autres pays vous pensez que c'est faisable à partir de vos scripts ?

    • Le problème est qu'il y a une partie "manuelle" pour traiter les résultats des requêtes PubMed. En effet, le système d'interrogation retourne un résultats qui comprend un fichier CSV avec le nombre d'articles par année, ce qui facilite le traitement. Le problèmes est que ce fichier n'est créé... que si le nombre d'articles dépasse un certain seuil (que je ne connais pas). On peut en discuter plus en détail par mail.

  2. Bonjour,

    Merci pour cet article intéressant !

    J'ai fait circuler l'information autour de moi, surtout sur l'essor des chinois dans ce domaine. Et les réactions que j'ai eu sont ...plus timorés concernant l'influence "réelle" que peuvent avoir leurs publications.

    Mes collègues ont eu à reviewer des publications chinoises et de leur point de vue même s'il publie beaucoup de part leur démographie scientifique qui augmente...la qualité n'est pas nécessairement au rendez-vous.

    J'ai l'impression que même s'ils publient beaucoup, l'idée reçu de mes collègues sera toujours qu'ils feront moins bien que les occidentaux...

    • Bonjour,

      Vu que je me base sur des d'articles publiés dans des revues "établies" (pas de predator editor dans cette étude), le peer-reviewing y est aussi sélectif pour les chinois de que pour autres (Bioinformatics en particulier est maintenant une revue très sélective avec trois reviewers par article soumis), donc leur argument ne tient pas. Par contre, il y a sans doute effectivement beaucoup plus d'articles soumis qu'acceptés.

  3. Bonjour,
    Quel est le nombre de chercheurs en bio-info en France, en Allemagne et en Chine ? Quel % de la population totale cela représente ?

    • Je ne sais pas et il n'y a probablement aucun moyen simple de le savoir. Il faudrait éplucher les intitulés des toutes les équipes de tous les labos de recherche en biologie/maths/informatique/physique en France/Allemagne/Chine.

  4. Merci pour ce travail de synthèse,

    Une des explications pourrait aussi venir du fait qu'il est moins nécessaire d'avoir des méthodes innovantes pour l'analyse du vivant, les éléments les plus complexes ont été déjà étudiés, et donc qu'il y a aussi un tournant vers les applications (portails galaxy, recherche ciblée de fonction, etc), qui ne se publient pas dans ces revues. Ce serait la preuve d'une certaine "maturité" du domaine 🙂

    Pour donner quelques exemples, BLAST n'est pas discuté (même si des évolutions sont publiées depuis l'article de 1991), les outils de comparaison de génome sont aussi bien établis, les génomes sont maintenant séquencés à très haut débit donc les technologies sont "industrialisées". Tout n'est pas fini, mais beaucoup a été fait depuis l'an 2000, donc il est normal qu'il y ait un certain "tassement" dans la publication de nouvelles méthodologies (on est plus dans l'évolution incrémentale que dans la rupture technologie ...).

    Stéphane

    • Salut Stéhane,

      Alors pourquoi ça ne s'est produit qu'en France et pas en Allemagne ?

Laisser un commentaire