Meet-4EU+, le bilan !

25 janvier 2021

-

par

Bien le bonjour amis lecteurs. Pour le billet du jour je vous propose une visite dans les coulisses d'un cours/projet déroulé cette année à l'université de la Sorbonne : Meet-4EU+. J'apporterai ainsi mon regard sur l'organisation de cette année, agrémentée de quelques petites anecdotes subjectives.

L'idée de ce cours est de proposer aux étudiants de master 2 de bio-informatique un projet qu'ils devront réaliser et présenter à la fin du semestre à une conférence devant un jury d'experts. Après 4 années de pratique sur des questions de structure des protéines, cette 5ème édition avait pour but l'extraction de motifs ( ou patterns) dans les données de cartes de contacts chromosomiques : les compartiments et les TADs. Voyons voir ce que ça a donné !

Organisation globale du cours

L'idée originale de Meet-U, telle qu'imaginée par Paris Saclay, est de proposer un challenge commun à tous les étudiants de master 2 de bioinformatique de Paris. Les étudiants répartis en équipes de 4-5 sont accompagnés par les enseignants afin de proposer des solutions à ce challenge et de les présenter en conditions réelles devant un jury d'experts du domaine pendant un symposium inversé de fin de semestre. La thématique annuelle est choisie amicalement entre les enseignants en prenant un problème à résoudre dans la littérature. Autant dire que des idées passionnantes sortent chaque année de cette émulsion.

Pour cette année, dans le contexte de l'alliance 4EU+, Meet-4EU+ a repris le concept de Meet-U et trois universités européennes ont rejoint la fête. Ainsi, des équipes de quatre villes (Heidelberg, Varsovie, Prague et Paris) ont travaillé ensemble sur un sujet écrit par votre humble serviteur .

Après une présentation du sujet fin septembre, on suit les étudiants 2h toutes les deux semaines durant tout un semestre en s'assurant qu'ils sont bien organisés et que ça avance. L'évaluation est faite sur quatre points : leur présentation finale (par le jury), un rapport concis de 10 pages qui présente leurs résultats, l'originalité et la pertinence de l'approche ainsi que la qualité de leur code (évaluation des enseignants). Pour cela un dépôt Github est mis à disposition des étudiants permettant un suivi simplifié. Celui-ci s'est surtout fait à distance cette année au vu de la situation sanitaire, et le lieu de rencontre principal a été un serveur Discord avec des salons vocaux par groupe.

La construction du sujet de cette année : recycler mes articles du blog

Pour cette année, le sujet choisi a été simple : faire le meilleur outil possible pour détecter les TADs ou les compartiments génomiques.

Le blog était déjà plein de bon tutoriels écrits par votre humble serviteur au fil des années. Donc en ajoutant deux bons articles précis en plus sur les questions du cours, on obtenait un cours en ligne déjà tout prêt sur le blog pour avoir un support en plus des diapositives. Me reposer sur les échanges avec les relecteurs de ce blog a été un moyen formidable pour me former et une chance assez rare de construire un cours avec plein de retours sur comment transmettre un message. De plus, en cette période sanitaire ou tout est souvent en ligne, avoir déjà un support de blog en renfort des cours semblait être une bonne idée pour aider les étudiants à apprendre et comprendre un cours avec plusieurs manières de l'exprimer.

Question organisation des étudiants, cette année le plan était le suivant : diviser les étudiants en deux sujets à choisir. Soit détecter les TADs de la manière la plus précise possible en se comparant à la référence d'une publication majeure du domaine, soit détecter les compartiments génomiques et répondre à une question de biologie en plus au choix. Dans le cas des compartiments génomiques j'ai généré moi-même les résultats de comparaison ce qui permettait d'avoir une référence connue et bien maîtrisée.

On avait ainsi deux types de profils. Les équipes qui voulaient coder et optimiser un code prendraient le sujet TAD. Les équipes qui voulaient un challenge algorithmique simple et ensuite faire beaucoup d'analyses en biologie prendraient le sujet sur les compartiments.

Suite à un retour avec les différents pays, on a ensuite proposé aux équipes de comparer les résultats d'une équipe à celle d'un autre pays. Le jury en fin de semestre a alors jugé les étudiants non pas sur la qualité de leurs résultats, mais sur comment les étudiants ont compris la question et le recul qu'ils ont eu sur la qualité de leurs résultats. Ainsi, une équipe qui est partie dans une direction qui marche faiblement mais qui avait des bons arguments était tout aussi bien notée (voir plus) qu'une équipe qui a eu "la chance" de trouver une bonne méthode mais n'arrivait pas à justifier pourquoi.

Bilan de la journée en ligne

Condition covid oblige, nous avons été obligés de faire la conférence finale en ligne. Voici de mon point de vue comment s'est passée la journée. Organiser une conférence c’est difficile, mais alors organiser une conférence en ligne, ça l'est encore plus. On savait que les problèmes techniques existent, et il y en a eu qui mériteraient tout un article sur les solutions possibles pour des conférences en ligne !

Pour faire au plus simple nous avons finalement opté pour un Zoom avec la possibilité de 300 participant pour une moyenne de 70 tout le long du stream. Toute la matinée les groupes d’étudiants sont passés un à un et ont montré leurs résultats face aux enseignants et le jury de cette année composé de Aleksandra Pekowska, Benoit Moindrot, Nicolas Servant et Julien Mozziconacci.

Côté TAD la mission était de détecter des TAD de manière la plus précise possible. Pour relever ce défi, deux équipes ont pris le parti de comparer les TAD qu’ils détectaient à l’aide des motifs de CTCF tandis que les autres ont préféré implémenter des solutions nouvelles. On a notamment vu une équipe de Heidelberg proposer un modèle de deep learning pour détecter les TAD tout à fait convaincant. Le niveau général était assez haut et à permis à pas mal de groupes de se rapprocher de résultats comparables à la littérature.

Côté compartiment, les choix de comment orienter le sujet étaient nombreux. La première mission était de détecter les compartiments à 100kb et ensuite prendre une piste possible parmi les suivantes :

Vérifier si les compartiments détectés par les contacts interchromosomiques et intrachromosomiques étaient les mêmes.
Vérifier l’effet de la résolution sur la robustesse des résultats ou essayer de trouver le nombre optimal de sous-compartiments génomiques contenus dans les données HiC.

Je leur avais donné un petit script permettant de transformer une carte HiC en image 3D qui a étrangement orienté tous les étudiants à aller dans cette dernière direction. Il est intéressant de voir que 6 ans après que cette question fut posée, le nombre optimal de compartiments génomiques dans une cellule reste toujours compliqué à définir.

L'après-midi a été l'occasion d'enchaîner avec les présentations des 4 membres du jury sur des sujets divers. Aleksandra Pekowska a ouvert le bal avec une très belle présentation sur la formation des boucles de chromatine. Ensuite nous avons eu Benoit Moindrot parlant des sites de CTCF allèle spécifique et à quel point cela affecte la structure des TAD. Le relais a ensuite été pris par Nicolas Servant qui nous a parlé des outils pour bien normaliser les données HiC dans le cas de données associées au cancer. Le bal fut fermé par Julien Mozziconacci qui a présenté ses résultats sur le lien entre éléments répétés et 3D des génomes. Un bon panel construit avec soin pour donner du recul aux étudiants suite à leurs présentations !

Une partie des participants de la journée en ligne !

Cette édition était un sacré investissement humain pour la mise en place, je ne compte plus les heures de test pour apprendre mais le bilan était tout à fait positif et apprécié de tous, à l'année prochaine !

Un grand merci à Élodie Laine, Juliana Bernardes et Alessandra Carbone de m'avoir fait progresser et participer à toute cette aventure.

Merci aux relecteurs de cette semaine : Gwenaëlle, ZaZo0o, Olivier Dameron

Partagez cet article

Léopold Carron

Bioinformaticien de formation ayant complété son cursus par un master de machine learning appliqué aux langues à Nantes. Après une thèse et postdoc à la Sorbonne, je suis maintenant data scientist. J'aime python, le machine learning et analyser des données!

Pour continuer la lecture :

Commentaires

Laisser un commentaireAnnuler la réponse.

Pour insérer du code dans vos commentaires, utilisez les balises <code> et <\code>.