Encore une nouvelle journée de code qui commence, j'ouvre ma boîte et… tiens donc, trois nouvelles annonces de la Société Française de BioInformatique. Ça tombe bien, dans quelques mois je soutiens ma thèse, je devrais peut-être commencer à chercher du boulot. Voyons voir ça… CDD développeur web… Post-Doc développeur logiciel… CDD Ingénieur développement logiciel… Bon sang, mais y'en a que pour les devs ! C'est à croire que la bioinfo se limite à ça. Et pas l'ombre d'un CDI en plus ! Mais au fait… Est-ce juste une mauvaise journée, ou est-ce représentatif de la bioinfo d'aujourd'hui ? Si seulement quelqu'un pouvait faire une analyse globale de toutes ces offres…
Vous aussi vous en avez rêvé ? Et bien, bioinfo-fr l'a fait ! Après tout, quoi de mieux qu'une bande de bioinformaticiens pour traiter des données sur l'emploi en bioinformatique. Toutes les questions que vous avez pu vous poser sur le marché du travail vont enfin trouver réponse aujourd'hui. Et si ce n'était pas le cas ? Devinez quoi… On fournit même le code et les données ! De quoi occuper vos longues soirées en attendant des jours meilleurs. Mais regardons déjà ce que l'équipe a pu tirer de tout ça. Attention, vous êtes prêts ? C'est parti !
Origine des données et disponibilité du code
Comme vous avez bien sûr déjà lu nos articles sur l'insertion professionnelle des bioinformaticiens (ici et ici), vous savez que la SFBI entretient une liste qui, entre autres choses, diffuse régulièrement des offres d'emploi. Depuis 2012, les annonceurs ont la possibilité de déposer leurs offres directement sur le site de la SFBI (c'est même devenu obligatoire depuis 2014). Ces offres sont déjà en partie préformatées (type de contrat, durée, etc) ce qui facilite grandement leur analyse. Nous avons donc concentré nos efforts uniquement sur les offres déposées sur le site web.
L'intégralité du code est en Python et se trouve sur un dépôt Github. Son installation et son utilisation sont décrites dans le README du projet. Vous ne savez pas encore utiliser git ? Ça tombe bien, on a aussi un article pour ça. N'hésitez pas à partager avec nous vos analyses, ou à proposer des pull requests avec vos propres graphes.
Le code est accompagné d'une base de données JSON qui contient, au moment de la rédaction de cet article, la quasi-totalité des offres du site du 23 avril 2012 au 19 février 2016, soit un total de 1289 offres. Les analyses qui suivent sont bien sûr fortement liées à cette base, il conviendra donc d'être prudent si on extrapole ces résultats à l'ensemble du marché de l'emploi en bioinformatique. Elle a de plus été amputée des informations relatives aux annonceurs (adresse de contact, nom de la boîte, etc), principalement en retirant la description des offres pour ne conserver que les métadonnées. Nous avons néanmoins généré un nuage de mots à partir des descriptions des offres, lequel illustre cet article. On vous laisse tirer vos conclusions, mais ce nuage laisse présager d'un marché du travail orienté vers les data scientists, la recherche et les développeurs.
Dans ce qui suit, nous allons creuser différents aspects de ces offres : les types de contrats, les diplômes exigés, la durée des contrats à durée déterminée, et enfin une analyse de tout ça par région. Tous ces graphes sont générés par le fichier global_lins.py et lexical_analysis.py dans le dépôt du projet. D'autres graphes sont disponibles mais ils ne seront pas commentés dans cet article.
Types de contrats
Les offres contiennent 4 types de contrats, répartis de la manière suivante :
Les CDD représentent plus de la moitié des offres (55,1%), suivis par les stages (22,1%), les CDI (16,5%) et les thèses (6,3%). Étrangement, il semblerait que la liste de la SFBI ne soit pas très utilisée pour diffuser des offres de thèse, ou alors qu'il soit plus facile de financer un CDD qu'une thèse quand on cherche un bioinformaticien.
Les nuages de mots basés sur les titres des offres dans chaque catégorie sont donnés ci-après.
Les mots employés dans les titres de CDD et CDI semblent tourner autour de la notion d'ingénieur. Pour les stages, les termes "analyse", "données" et "M2" dominent complètement les descriptifs des offres. Pour les thèses, c'est un peu plus diffus, mais il semblerait que l'on cherche pas mal de doctorants en bioinformatique structurale.
Le site de la SFBI propose aussi de définir des sous-catégories pour les offres de type CDI et CDD. Voici les répartitions obtenues pour les CDI…
On retrouve dans les CDI les catégories habituelles du milieu académique (IE — Ingénieur d'Études, IR — Ingénieur de Recherche, MdC — Maître de Conférence, CR — Chargé de Recherche, PR — Professeur) et une catégorie "CDI autre" pour tout ce qui ne colle pas dans les catégories précédentes (on s'attend à ce que cette dernière catégorie contienne notamment les offres du secteur privé et les offres académiques étrangères). Le milieu académique français occupe ainsi moins de la moitié des CDI publiés sur la SFBI (notons que ce milieu privilégie souvent ses propres plateformes pour la publication des postes).
Les CDD n'ont que 4 catégories : ATER, Post-doc, CDD autre et CDD Ingénieur. Les postes ATER sont si peu représentés que nous n'en parlerons pas par la suite. On constate que les post-docs occupent la moitié de ces offres. Le site de la SFBI semble donc être un lieu de choix pour trouver un post-doc, encore faut-t-il que notre domaine soit bien concerné. Voila ce que donne un nuage de mots formé à partir des titres d'annonces de la sous-catégorie "post-doc".
C'est finalement assez varié, allant de l'analyse de données aux biostatistiques en passant par le machine learning. On trouve également la modélisation (modelling) et le séquençage (sequencing, ngs) en bonnes positions. Notons que cancer est la thématique biologique la plus citée, ce qu'on pouvait attendre d'un axe de recherche qui reçoit une large part des financements actuels. Enfin, n'oublions pas un des problèmes majeurs révélé par cette image : les annonceurs sont incapables de se décider sur la présence du tiret dans le mot post-doc !
Niveaux de diplôme exigés
La grande question de ces dernières années : doit-on faire une thèse après un master ? Y‑a-t-il de la place sur le marché du travail pour des Bac+8 ? La figure suivante donne la répartition des niveaux d'études exigés pour les offres des catégories CDI et CDD. Attention, les niveaux d'études ont été déduits à partir de la sous-catégorie de chaque offre. Les sous-catégories "CDD autre" et "CDI autre" n'ont donc pas pu être analysées (soit 749 offres restantes, une fois les stages et thèses également retirés).
Comme on peut le voir, il n'y a pas une énorme différence entre les offres qui nécessitent un doctorat et celles qui se contentent d'un niveau master, ceci probablement grâce à l'abondance de post-docs dans la liste. Il faudrait cependant réaliser une analyse plus poussée sur les catégories "autre" pour vraiment en tirer quelque chose.
Quel est la durée d'un poste CDD en bioinformatique ?
On l'a vu, les CDD dominent plus de la moitié des offres. Mais vous vous demandez sûrement combien de temps ces CDD durent : s'agit-il de contrats longs, de contrats courts, ou encore de contrats très courts ? Pour simplifier, nous les avons répartis en tranches de 6 mois. La figure suivante ne contient que les offres de la catégorie CDD, c'est-à-dire qu'elle ne contient ni les stages, ni les thèses.
On constate que la majorité des CDD (44%) ont une durée plutôt courte (inférieure ou égale à 1 an), dont une petite part est de durée très courte (8% des CDD ont une durée inférieure ou égale à 6 mois). Même s'il existe des offres de durées supérieures, il semblerait que la limite légale (2 ans) explique le reste de la répartition (43% entre 1 et 2 ans, et seulement 14% de plus de 2 ans).
On s'attend évidemment à ce que ce résultat soit biaisé par l'abondance de certains types de postes. Que donne la distribution des durées par type de contrat CDD ? Le graphe ci-dessous est un violinplot qui donne une idée de la distribution pour chaque catégorie. La ligne verticale rouge représente la médiane pour chaque catégorie. Le nombre à droite représente le nombre total d'offres de la catégorie.
Comme prévu, les distributions n'ont rien de comparable. On constate par exemple que les post-docs ont une distribution plutôt bimodale, avec un pic à 1 an et un autre à 2 ans (probablement dû au mode de financement). Les contrats de post-doc de moins de 6 mois sont inexistants. Même si la distribution s'étale vers les durées longues, les post-docs supérieurs à 2 ans sont une denrée très rare, même s'ils ont le mérite (ou pas selon les points de vue) d'exister.
L'essentiel des contrats très courts (de durée inférieure à 6 mois) semblent être concentrés dans les catégories CDD autre et CDD Ingénieur, avec même des contrats proposés pour des durées de seulement 1 mois ! On notera cependant qu'il existe aussi des contrats longs dans ces catégories.
Répartition des offres sur la France
Nous nous sommes aussi intéressés à la distribution dans l'espace de toutes ces offres : y a‑t-il des inégalités territoriales concernant l'emploi bioinformatique en France ? Les deux graphes suivants présentent le nombre d'offres par région et par département (cliquez sur les images pour les agrandir).
Comme on pouvait s'y attendre, l'Île de France concentre à elle seule 40% des offres, dont 22% d'offres uniquement pour Paris intra-muros. Notons qu'une part significative des offres de la SFBI concerne l'étranger (15%), ce qui est assez remarquable pour une liste de diffusion essentiellement destinée à un public français. Enfin on peut identifier 2 autres bassins d'emploi en bioinformatique en France : Lyon et Montpellier (qui apparaissent au travers de leurs régions et départements respectifs). Au final, les agglomérations parisienne, lyonnaise, et montpelliéraine concentrent les trois quarts des offres de la SFBI, le reste étant plutôt dispersé en France.
Qu'en-est-il des types de contrats, niveaux de diplômes, et durées des postes, si on les observe par région ?
Les résultats sont délicats à interpréter du fait de la disparité du nombre total d'offres par région. On peut cependant constater que les postes situés à l'étranger concernent surtout des thèses et des CDD (majoritairement des post-docs). Les CDI sont inexistants de 2 grandes régions : le Centre et la Bourgogne-Franche-Comté. On trouve cependant des thèses un peu partout sauf en Normandie et Bourgogne-Franche-Comté (mais il y a globalement peu d'offres dans ces régions).
Pour les diplômes requis, l'étranger se distingue là encore énormément de la France : la majorité des offres demande d'avoir un doctorat (85%). En France, on tourne toujours plus ou moins autour de 50% (avec quelques variations rarement significatives du fait du faible échantillonnage des régions du bas du graphe).
Pour les durées, les profils diffèrent parfois beaucoup selon les régions, bien que les médianes se situent toujours à 12 ou 18 mois lorsqu'on est en France. Par exemple, à quantité égale de CDD proposés, la région Languedoc-Roussillon-Midi-Pyrénées propose beaucoup plus de contrats courts que la région Auvergne-Rhône-Alpes, laquelle possède un profil plus uniforme, synonyme de diversité. L'étranger semble assez varié sur la durée des offres, mais se distingue de la France par une médiane situé à 24 mois (comprendre qu'au moins la moitié des offres sont des contrats longs voire très longs). On y trouve également une bonne partie, sinon la plupart, des offres de 36 mois ou plus. Au final, l'exception française s'exprime par la brièveté de ses offres (certains diraient la précarité de ses offres, mais est-on vraiment moins précaire pendant un post-doc de 4 ans ?). Il est cependant intéressant de voir que le privé semble être un aussi mauvais élève que le public de ce coté là.
Conclusion
Avec plus de 5500 abonnés, la liste de diffusion de la SFBI est un outil exceptionnel pour analyser l'état du marché de l'emploi en bioinformatique en France. Cependant, même en se limitant aux offres préformatées disponibles sur le site, nous avons dû réaliser un énorme travail de nettoyage des données. Analyser les offres non formatées semble donc être une tâche autrement plus complexe, qui permettrait cependant de remonter beaucoup plus loin dans le temps (et pourquoi pas, d'analyser l'effet de certaines lois sur la durée des contrats de travail par exemple). Notons que ce type d'analyse pourrait être grandement amélioré en contraignant un peu plus les entrées des utilisateurs (par exemple, en imposant une durée en mois), ou en ajoutant de nouvelles entrées qui pourraient être facilement analysées (on pense notamment au niveau de rémunération). Ceci est évidemment un message caché à destination des gestionnaires du site de la SFBI 🙂 .
Si on extrapole ces analyses, à quoi ressemble le bioinformaticien français ? Oui, toi qui lis ces lignes, nous te connaissons maintenant. Tu as fait ton stage de M2 sur de l'analyse de données. Tu as signé un CDD de 12 ou 18 mois, peut être même un post-doc si tu as ton doctorat, et de la fenêtre de ton bureau tu peux contempler un bout du bassin parisien. Bioinformaticien médian, nous te saluons !
Enfin, une dernière remarque pour ceux qui en veulent toujours plus. L'analyse que nous avons proposé est plutôt statique, elle utilise l'ensemble des données alors qu'elles s'étalent sur 4 longues années. J'imagine que beaucoup d'entre vous aimeraient une analyse de l'évolution du marché année après année (notamment, au hasard, pour la durée des CDD). Tout ceci, mes amis, fera l'objet d'un second article. Mais n'hésitez pas à suivre et à participer au dépôt Github pour avoir toutes ces infos en avant-première.
Un grand merci à Kumquatum, HedJour et Yoann M. pour les améliorations apportées au cours de la relecture de cet article.
Laisser un commentaire