- Le blog participatif de bioinformatique francophone depuis 2012 -

Le déclin (relatif) de la production bioinformatique française

L’idée de cet article vient d’une étude réa­li­sée en 2008 par Jean Lobry, Pro­fes­seur à l’Université Claude Ber­nard – Lyon 1, ceci dans le cadre de ses ensei­gne­ments en bio­in­for­ma­tique (plus exac­te­ment ses TD sur le lan­gage R). Mon objec­tif était de regar­der la dyna­mique de publi­ca­tion de la France dans le domaine de la bio­in­for­ma­tique depuis qu’il existe des revues spé­cia­li­sées dans ce domaine.

Méthodologie

Afin d’avoir des élé­ments de com­pa­rai­son, j’ai intro­duit deux autres pays dans mon panel : l’Allemagne et la Chine. L’Allemagne parce qu’il s’agit d’un pays euro­péen, non anglo­phone et de taille com­pa­rable à la France. La Chine du fait de l’extraordinaire déve­lop­pe­ment de ce pays au cours des quinze der­nières années. Ce déve­lop­pe­ment s’est accom­pa­gné d’une mon­tée en puis­sance de la science chi­noise et il était donc inté­res­sant de voir si cette dyna­mique se retrou­vait en bio­in­for­ma­tique.
Pour des rai­sons pra­tiques, je ne me suis inté­res­sé qu’aux revues publiant des déve­lop­pe­ments (algo­rithmes, bases de don­nées, logi­ciels). Pour ce faire, l’outil le plus com­mode reste Pub­Med puisque le sys­tème d’interrogation de cette base de don­nées per­met d’effectuer des requêtes mul­ti-cri­tères. Ain­si, l’exemple don­né ci-des­sous cor­res­pond à la requête per­met­tant de récu­pé­rer tous les articles publiés dans Bio­in­for­ma­tics et pour les­quels au moins un des auteurs avait une affi­lia­tion en France :

Dans le cas de l’Allemagne et de la Chine, les choses étaient un peu plus com­pli­quées du fait que les auteurs ont uti­li­sé soit le nom de leur pays soit un acro­nyme. C’est ain­si que pour l’Allemagne j’ai bâti des requêtes en uti­li­sant Germany ou FRG (Fede­ral Repu­blic of Ger­ma­ny) pour l’affiliation. En ce qui concerne la Chine, j’ai uti­li­sé China ou PRC (People’s Repu­blic of Chi­na).

L’étude de Jean Lobry ne por­tait que sur les articles publiés dans Bio­in­for­ma­tics. En effet, les autres revues dédiées à la thé­ma­tique était alors appa­rues trop récem­ment pour pou­voir être uti­li­sées dans une ana­lyse por­tant sur une longue durée. Les années ayant pas­sé, il est deve­nu pos­sible d’incorporer les don­nées pro­ve­nant d’autres revues et, outre Bio­in­for­ma­tics (période 1985–2018), mon choix s’est por­té sur Jour­nal of Com­pu­ta­tio­nal Bio­lo­gy (1994–2018), BMC Bio­in­for­ma­tics (2002–2018) et PLoS Com­pu­ta­tio­nal Bio­lo­gy (2005–2018).

Cette étude étant cen­trée sur la pro­duc­tion d’outils nou­veaux je n’ai donc pas inté­gré dans ma liste Brie­fings in Bio­in­for­ma­tics qui publie essen­tiel­le­ment des articles de revue et des com­pa­ra­tifs de logi­ciels. Ma source de don­nées étant Pub­Med, je n’ai pas uti­li­sé les jour­naux qui n’étaient pas indexés dans ce sys­tème ain­si que ceux qui ne l’étaient que par­tiel­le­ment. De même, je n’ai pas inté­gré de jour­naux pour les­quels la bio­in­for­ma­tique ne repré­sente qu’une par­tie des acti­vi­tés édi­to­riales, même si la pro­por­tion d’articles rele­vant de cette thé­ma­tique pou­vait être impor­tante (e.g. Nucleic Acids Research, Genome Research, Genome Bio­lo­gy).


Figure 1 – Nombre d’articles publiés chaque année dans les revues du panel.

L’utilisation de Pub­Med comme source de don­nées entraîne la non prise en compte des actes de col­loques en bio­in­for­ma­tique. Il existe tou­te­fois une excep­tion qui est la confé­rence ISMB (Intel­li­gent Sys­tems for Mole­cu­lar Bio­lo­gy). En effet, les actes de cette confé­rence ont été indexés dans Pub­Med de 1993 à 2000 et, après cette date, ils ont été publiés sous la forme d’un numé­ro spé­cial de Bio­in­for­ma­tics. N’ayant fait aucune dis­tinc­tion entre les numé­ros stan­dards et les numé­ros spé­ciaux de Bio­in­for­ma­tics, les actes d’ISMB 2001–2018 ont donc été de fac­to inté­grés dans mon étude. Afin que les contri­bu­tions de cette confé­rence soient com­plè­te­ment inté­grées, j’ai rajou­té les actes de la période 1993–2000 grâce à leur indexa­tion dans Pub­Med.

Tou­jours sur cette ques­tion de repré­sen­ta­tion des actes de col­loques, BMC Bio­in­for­ma­tics accepte éga­le­ment de publier des numé­ros spé­ciaux dédiés à ces évè­ne­ments. Tou­te­fois, ceci ne se fait pas sur une base régu­lière comme c’est le cas pour ISMB et il ne m’a donc pas été pos­sible de faire des sta­tis­tiques sur les confé­rences concer­nées.

L'ensemble des don­nées uti­li­sées dans cette étude ain­si que les scripts R ayant per­mis de construire les gra­phiques sont dis­po­nibles sous la forme d'un dépôt Git à l'adresse https://​git​lab​.in2p3​.fr/​g​u​y​.​p​e​r​r​i​e​r​e​/​b​i​o​i​n​f​o​-fr.

Résultats

Sur la période consi­dé­rée (1985–2018), un total de 32377 articles ont été publiés dans les quatre revues et la confé­rence consi­dé­rées. Le pre­mier résul­tat est celui de la crois­sance régu­lière du nombre total d’articles publiés depuis 1985 (Figure 1). D’un niveau basal à 50 articles dans la période 1985–1990, la pro­duc­tion a été mul­ti­pliée par 40 en 30 ans ! Depuis 2009, ce sont envi­ron 2100 articles qui sont publiés par an et ce nombre reste stable depuis cette date. La crois­sance obser­vée est liée à la mul­ti­pli­ca­tion des sup­ports de publi­ca­tion mais aus­si aux chan­ge­ments de pério­di­ci­té des revues. C’est ain­si que Bio­in­for­ma­tics (sous l’appellation ini­tiale de Com­pu­ter Appli­ca­tions in the Bios­ciences) a débu­té avec un rythme de publi­ca­tion tri­mes­triel. Le pas­sage à une pério­di­ci­té bimes­trielle s’est effec­tué en 1992 et la revue est fina­le­ment deve­nue men­suelle en 1998. Ici, la bio­in­for­ma­tique suit sim­ple­ment la ten­dance géné­rale en sciences à l’inflation du nombre d’articles et à la mul­ti­pli­ca­tion des sup­ports de publi­ca­tion.


Figure 2 – Nombre d’articles publiés par pays.

Main­te­nant, si on regarde pour cha­cun des trois pays de notre panel quelle est l’évolution de sa contri­bu­tion en nombre d’articles (Figure 2), on constate sans sur­prise que celle-ci croît en pro­por­tion du nombre total. Là où les choses deviennent plus inté­res­santes c’est lorsque l’on com­pare la dyna­mique des dif­fé­rents pays. Si, de 1985 à 2000, le nombre d’articles publiés par la France d’un côté et par l’Allemagne de l’autre reste a peu près sem­blable, on constate un net décro­che­ment de la France après l’an 2000. Ain­si, en 2018 l’Allemagne a publié envi­ron deux fois plus d’articles que la France.

Quid de la Chine ? De 1985 à 2000 sa pro­duc­tion est qua­si­ment nulle : seule­ment sept articles recen­sés dans Pub­Med. Pas­sé l’an 2000, une dyna­mique s’enclenche et la Chine passe devant la France en 2009 puis devant l’Allemagne en 2017. Si on regarde les chiffres par revue, un élé­ment inté­res­sant appa­raît : c’est dans Jour­nal of Com­pu­ta­tio­nal Bio­lo­gy que la pro­gres­sion de la Chine est la plus forte. En effet, en 2018 la Chine y a publié sept fois plus d’articles que la France et près de quatre fois plus que l’Allemagne. Or il s’agit de la plus « métho­do­lo­gique » des quatre revues consi­dé­rées, signe de l’acquisition par la Chine de com­pé­tences por­tant sur ce qui est au cœur de la dis­ci­pline.

L’évolution des contri­bu­tions rela­tives de chaque pays par rap­port au total est don­née sur la Figure 3. Afin de rendre plus lisible cette évo­lu­tion, j’ai super­po­sé aux points un lis­sage effec­tué au moyen d’une régres­sion poly­no­miale de type LOWESS (LOcal­ly WEigh­ted Scat­ter­plot Smoo­ther). Quelles ten­dances constate-t-on sur ce gra­phique ? Tout d’abord la contri­bu­tion de l’Allemagne est en crois­sance régu­lière depuis 1985 avec tou­te­fois un pla­teau au cours de la période 2000–2012. La pro­gres­sion de la Chine est encore plus spec­ta­cu­laire. Ain­si, en 2018 un peu plus de 13% des articles publiés dans les revues de notre panel incluaient une équipe chi­noise dans la liste des auteurs. En revanche, l’évolution de la France se fait avec une ten­dance com­plè­te­ment oppo­sée puisque la contri­bu­tion rela­tive de notre pays a dimi­nué de façon dra­ma­tique entre 1985 et 2005. En effet, on assiste sur cette période à une divi­sion par trois de cette contri­bu­tion (pas­sage de 12.1% à 3.7%). Il sem­ble­rait tou­te­fois que ce déclin ait été légè­re­ment enrayé, avec une lente reprise depuis 2014. Cepen­dant, l’Allemagne ayant éga­le­ment connu une aug­men­ta­tion de sa contri­bu­tion depuis cette même date, le dif­fé­ren­tiel entre les deux pays reste le même.


Figure 3 – Contri­bu­tion rela­tive de chaque pays.

La contri­bu­tion de ces trois pays en bio­in­for­ma­tique est-elle du même ordre que leur contri­bu­tion géné­rale en sciences et tech­niques, toutes dis­ci­plines confon­dues ? Pour mesu­rer leur contri­bu­tion géné­rale, j'ai uti­li­sé les don­nées d'une étude de la NSF (Natio­nal Science Foun­da­tion) qui porte sur la période 2003–2016. Sur ladite période, la com­pa­rai­son bio­in­for­ma­tique vs. toutes les sciences donne les résul­tats sui­vants :
- France : 4.0% vs. 3.6%
- Alle­magne : 8.4% vs. 5.0%
- Chine : 4.6% vs. 14.9%

La contri­bu­tion de la France en bio­in­for­ma­tique est com­pa­rable à sa contri­bu­tion géné­rale tan­dis que celle de l'Allemagne est plus éle­vée. On constate éga­le­ment que la pro­duc­tion par ce pays de deux fois plus d'articles en bio­in­for­ma­tique que la France est une ten­dance sur le long terme. Le cas de la Chine est par­ti­cu­liè­re­ment inté­res­sant. Son poids dans l'ensemble des sciences et tech­niques est deve­nu consi­dé­rable, la Chine étant d'ailleurs deve­nu le pre­mier contri­bu­teur mon­dial en 2016. Sur la période 2003–2016 sa contri­bu­tion à la bio­in­for­ma­tique est de 4.6%, ce qui est com­pa­rable à la France, mais la dyna­mique visible sur la Figure 3 semble irré­sis­tible. Il est donc par­fai­te­ment envi­sa­geable que la part de la Chine dans la pro­duc­tion scien­ti­fique en bio­in­for­ma­tique conti­nue de croître dans les pro­chaines années et qu'elle finisse par atteindre le même niveau que celui de sa pro­duc­tion géné­rale. Quelle sera alors la place de la France dans ce pay­sage ?

Pour conclure

Bien sûr, cette étude n’est qu’une mesure brute et res­treinte de la pro­duc­tion scien­ti­fique fran­çaise en bio­in­for­ma­tique cepen­dant elle confirme la ten­dance à la dimi­nu­tion qu’avait déjà obser­vée Jean Lobry en 2008. Main­te­nant, com­ment est-il pos­sible d’expliquer ce phé­no­mène ? Une hypo­thèse serait l'absence d'une prise de conscience au niveau natio­nal de l’importance de la bio­in­for­ma­tique et de la prio­ri­té à lui accor­der. La rup­ture entre la France et l’Allemagne date de 2000 ; or cette année est celle où le pre­mier génome humain est publié et où les bio­lo­gistes com­mencent à se rendre compte de l’importance de la bio­in­for­ma­tique dans leurs ana­lyses. Cette impor­tance aurait donc mieux été prise en compte par les ins­tances déci­sion­nelles en Alle­magne qu’en France (le cas de la Chine étant à part). D’un autre côté, le léger redres­se­ment obser­vé en France depuis 2014 pour­rait être lié à une prise en compte tar­dive de cette impor­tance, prise en compte qui s’est maté­ria­li­sée au début des années 2010 par la mise en place de deux pro­jets d’investissement d’avenir fai­sant une grande place à la bio­in­for­ma­tique, à savoir France Géno­mique et l’IFB (Ins­ti­tut Fran­çais de Bio­in­for­ma­tique).

Remer­cie­ments aux relec­teurs : Isa­belle, Guillaume et Maxime.

Vous avez aimé ? Dites-le nous !

Moyenne : 0 /​ 5. Nb de votes : 0

Pas encore de vote pour cet article.

Partagez cet article :




Commentaires

10 réponses à “Le déclin (relatif) de la production bioinformatique française”

  1. Bon­jour,

    C'est très inter­es­sant de voir que mal­gré l'essor de la bio­in­for­ma­tique, la France a un peu sous exploi­té le filon pour ain­si dire (com­pa­ra­ti­ve­ment à l'Allemagne). On voit aus­si net­te­ment la mon­tée en puis­sance de la Chine ces der­nières années.

    Bra­vo pour ce tra­vail très inter­es­sant, je n'ai que sur­vo­lé le code sur github mais je serais inter­es­sé pour en faire une video en rajou­tant d'autres pays vous pen­sez que c'est fai­sable à par­tir de vos scripts ?

    1. Le pro­blème est qu'il y a une par­tie "manuelle" pour trai­ter les résul­tats des requêtes Pub­Med. En effet, le sys­tème d'interrogation retourne un résul­tats qui com­prend un fichier CSV avec le nombre d'articles par année, ce qui faci­lite le trai­te­ment. Le pro­blèmes est que ce fichier n'est créé… que si le nombre d'articles dépasse un cer­tain seuil (que je ne connais pas). On peut en dis­cu­ter plus en détail par mail.

  2. Bon­jour,

    Mer­ci pour cet article inté­res­sant !

    J'ai fait cir­cu­ler l'information autour de moi, sur­tout sur l'essor des chi­nois dans ce domaine. Et les réac­tions que j'ai eu sont …plus timo­rés concer­nant l'influence "réelle" que peuvent avoir leurs publi­ca­tions.

    Mes col­lègues ont eu à revie­wer des publi­ca­tions chi­noises et de leur point de vue même s'il publie beau­coup de part leur démo­gra­phie scien­ti­fique qui augmente…la qua­li­té n'est pas néces­sai­re­ment au ren­dez-vous.

    J'ai l'impression que même s'ils publient beau­coup, l'idée reçu de mes col­lègues sera tou­jours qu'ils feront moins bien que les occi­den­taux…

    1. Bon­jour,

      Vu que je me base sur des d'articles publiés dans des revues "éta­blies" (pas de pre­da­tor edi­tor dans cette étude), le peer-revie­wing y est aus­si sélec­tif pour les chi­nois de que pour autres (Bio­in­for­ma­tics en par­ti­cu­lier est main­te­nant une revue très sélec­tive avec trois revie­wers par article sou­mis), donc leur argu­ment ne tient pas. Par contre, il y a sans doute effec­ti­ve­ment beau­coup plus d'articles sou­mis qu'acceptés.

  3. Clément

    Bon­jour,
    Quel est le nombre de cher­cheurs en bio-info en France, en Alle­magne et en Chine ? Quel % de la popu­la­tion totale cela repré­sente ?

    1. Je ne sais pas et il n'y a pro­ba­ble­ment aucun moyen simple de le savoir. Il fau­drait éplu­cher les inti­tu­lés des toutes les équipes de tous les labos de recherche en biologie/​maths/​informatique/​physique en France/​Allemagne/​Chine.

  4. Mer­ci pour ce tra­vail de syn­thèse,

    Une des expli­ca­tions pour­rait aus­si venir du fait qu'il est moins néces­saire d'avoir des méthodes inno­vantes pour l'analyse du vivant, les élé­ments les plus com­plexes ont été déjà étu­diés, et donc qu'il y a aus­si un tour­nant vers les appli­ca­tions (por­tails galaxy, recherche ciblée de fonc­tion, etc), qui ne se publient pas dans ces revues. Ce serait la preuve d'une cer­taine "matu­ri­té" du domaine 🙂

    Pour don­ner quelques exemples, BLAST n'est pas dis­cu­té (même si des évo­lu­tions sont publiées depuis l'article de 1991), les outils de com­pa­rai­son de génome sont aus­si bien éta­blis, les génomes sont main­te­nant séquen­cés à très haut débit donc les tech­no­lo­gies sont "indus­tria­li­sées". Tout n'est pas fini, mais beau­coup a été fait depuis l'an 2000, donc il est nor­mal qu'il y ait un cer­tain "tas­se­ment" dans la publi­ca­tion de nou­velles métho­do­lo­gies (on est plus dans l'évolution incré­men­tale que dans la rup­ture tech­no­lo­gie …).

    Sté­phane

    1. Salut Sté­hane,

      Alors pour­quoi ça ne s'est pro­duit qu'en France et pas en Alle­magne ?

      1. Les consé­quences d'une poli­tique de finan­ce­ment par "pro­jets" ?

  5. ques­tion peut être naïve …
    le finan­ce­ment de la recherche en France (loi ESR) , les clas­se­ment inter­na­tio­naux uni­ver­si­taire (Shan­ghai) , c'est méca­nisme socio-éco­no­mique ne joue t'il pas un rôle pré­pon­dé­rant dans les up and down de cer­tain pays ?

Laisser un commentaire