Meet-4EU+, le bilan !

Bien le bon­jour amis lec­teurs. Pour le billet du jour je vous pro­pose une visite dans les cou­lisses d'un cours/​projet dérou­lé cette année à l'université de la Sor­bonne : Meet-4EU+. J'apporterai ain­si mon regard sur l'organisation de cette année, agré­men­tée de quelques petites anec­dotes sub­jec­tives.

L'idée de ce cours est de pro­po­ser aux étu­diants de mas­ter 2 de bio-infor­ma­tique un pro­jet qu'ils devront réa­li­ser et pré­sen­ter à la fin du semestre à une confé­rence devant un jury d'experts. Après 4 années de pra­tique sur des ques­tions de struc­ture des pro­téines, cette 5ème édi­tion avait pour but l'extraction de motifs ( ou pat­terns) dans les don­nées de cartes de contacts chro­mo­so­miques : les com­par­ti­ments et les TADs. Voyons voir ce que ça a don­né !

Organisation globale du cours

L'idée ori­gi­nale de Meet‑U, telle qu'imaginée par Paris Saclay, est de pro­po­ser un chal­lenge com­mun à tous les étu­diants de mas­ter 2 de bio­in­for­ma­tique de Paris. Les étu­diants répar­tis en équipes de 4–5 sont accom­pa­gnés par les ensei­gnants afin de pro­po­ser des solu­tions à ce chal­lenge et de les pré­sen­ter en condi­tions réelles devant un jury d'experts du domaine pen­dant un sym­po­sium inver­sé de fin de semestre. La thé­ma­tique annuelle est choi­sie ami­ca­le­ment entre les ensei­gnants en pre­nant un pro­blème à résoudre dans la lit­té­ra­ture. Autant dire que des idées pas­sion­nantes sortent chaque année de cette émul­sion.

Pour cette année, dans le contexte de l'alliance 4EU+, Meet-4EU+ a repris le concept de Meet‑U et trois uni­ver­si­tés euro­péennes ont rejoint la fête. Ain­si, des équipes de quatre villes (Hei­del­berg, Var­so­vie, Prague et Paris) ont tra­vaillé ensemble sur un sujet écrit par votre humble ser­vi­teur .

Après une pré­sen­ta­tion du sujet fin sep­tembre, on suit les étu­diants 2h toutes les deux semaines durant tout un semestre en s'assurant qu'ils sont bien orga­ni­sés et que ça avance. L'évaluation est faite sur quatre points : leur pré­sen­ta­tion finale (par le jury), un rap­port concis de 10 pages qui pré­sente leurs résul­tats, l'originalité et la per­ti­nence de l'approche ain­si que la qua­li­té de leur code (éva­lua­tion des ensei­gnants). Pour cela un dépôt Github est mis à dis­po­si­tion des étu­diants per­met­tant un sui­vi sim­pli­fié. Celui-ci s'est sur­tout fait à dis­tance cette année au vu de la situa­tion sani­taire, et le lieu de ren­contre prin­ci­pal a été un ser­veur Dis­cord avec des salons vocaux par groupe.

La construction du sujet de cette année : recycler mes articles du blog

Pour cette année, le sujet choi­si a été simple : faire le meilleur outil pos­sible pour détec­ter les TADs ou les com­par­ti­ments géno­miques.

Le blog était déjà plein de bon tuto­riels écrits par votre humble ser­vi­teur au fil des années. Donc en ajou­tant deux bons articles pré­cis en plus sur les ques­tions du cours, on obte­nait un cours en ligne déjà tout prêt sur le blog pour avoir un sup­port en plus des dia­po­si­tives. Me repo­ser sur les échanges avec les relec­teurs de ce blog a été un moyen for­mi­dable pour me for­mer et une chance assez rare de construire un cours avec plein de retours sur com­ment trans­mettre un mes­sage. De plus, en cette période sani­taire ou tout est sou­vent en ligne, avoir déjà un sup­port de blog en ren­fort des cours sem­blait être une bonne idée pour aider les étu­diants à apprendre et com­prendre un cours avec plu­sieurs manières de l'exprimer.

Ques­tion orga­ni­sa­tion des étu­diants, cette année le plan était le sui­vant : divi­ser les étu­diants en deux sujets à choi­sir. Soit détec­ter les TADs de la manière la plus pré­cise pos­sible en se com­pa­rant à la réfé­rence d'une publi­ca­tion majeure du domaine, soit détec­ter les com­par­ti­ments géno­miques et répondre à une ques­tion de bio­lo­gie en plus au choix. Dans le cas des com­par­ti­ments géno­miques j'ai géné­ré moi-même les résul­tats de com­pa­rai­son ce qui per­met­tait d'avoir une réfé­rence connue et bien maî­tri­sée.

On avait ain­si deux types de pro­fils. Les équipes qui vou­laient coder et opti­mi­ser un code pren­draient le sujet TAD. Les équipes qui vou­laient un chal­lenge algo­rith­mique simple et ensuite faire beau­coup d'analyses en bio­lo­gie pren­draient le sujet sur les com­par­ti­ments.

Suite à un retour avec les dif­fé­rents pays, on a ensuite pro­po­sé aux équipes de com­pa­rer les résul­tats d'une équipe à celle d'un autre pays. Le jury en fin de semestre a alors jugé les étu­diants non pas sur la qua­li­té de leurs résul­tats, mais sur com­ment les étu­diants ont com­pris la ques­tion et le recul qu'ils ont eu sur la qua­li­té de leurs résul­tats. Ain­si, une équipe qui est par­tie dans une direc­tion qui marche fai­ble­ment mais qui avait des bons argu­ments était tout aus­si bien notée (voir plus) qu'une équipe qui a eu "la chance" de trou­ver une bonne méthode mais n'arrivait pas à jus­ti­fier pour­quoi.

Bilan de la journée en ligne

Condi­tion covid oblige, nous avons été obli­gés de faire la confé­rence finale en ligne. Voi­ci de mon point de vue com­ment s'est pas­sée la jour­née. Orga­ni­ser une confé­rence c’est dif­fi­cile, mais alors orga­ni­ser une confé­rence en ligne, ça l'est encore plus. On savait que les pro­blèmes tech­niques existent, et il y en a eu qui méri­te­raient tout un article sur les solu­tions pos­sibles pour des confé­rences en ligne ! 

Pour faire au plus simple nous avons fina­le­ment opté pour un Zoom avec la pos­si­bi­li­té de 300 par­ti­ci­pant pour une moyenne de 70 tout le long du stream. Toute la mati­née les groupes d’étudiants sont pas­sés un à un et ont mon­tré leurs résul­tats face aux ensei­gnants et le jury de cette année com­po­sé de Alek­san­dra Pekows­ka, Benoit Moin­drot, Nico­las Ser­vant et Julien Moz­zi­co­nac­ci. 

Côté TAD la mis­sion était de détec­ter des TAD de manière la plus pré­cise pos­sible. Pour rele­ver ce défi, deux équipes ont pris le par­ti de com­pa­rer les TAD qu’ils détec­taient à l’aide des motifs de CTCF tan­dis que les autres ont pré­fé­ré implé­men­ter des solu­tions nou­velles. On a notam­ment vu une équipe de Hei­del­berg pro­po­ser un modèle de deep lear­ning pour détec­ter les TAD tout à fait convain­cant. Le niveau géné­ral était assez haut et à per­mis à pas mal de groupes de se rap­pro­cher de résul­tats com­pa­rables à la lit­té­ra­ture.

Côté com­par­ti­ment, les choix de com­ment orien­ter le sujet étaient nom­breux. La pre­mière mis­sion était de détec­ter les com­par­ti­ments à 100kb et ensuite prendre une piste pos­sible par­mi les sui­vantes :

  • Véri­fier si les com­par­ti­ments détec­tés par les contacts inter­chro­mo­so­miques et intra­chro­mo­so­miques étaient les mêmes.
  • Véri­fier l’effet de la réso­lu­tion sur la robus­tesse des résul­tats ou essayer de trou­ver le nombre opti­mal de sous-com­par­ti­ments géno­miques conte­nus dans les don­nées HiC. 

Je leur avais don­né un petit script per­met­tant de trans­for­mer une carte HiC en image 3D qui a étran­ge­ment orien­té tous les étu­diants à aller dans cette der­nière direc­tion. Il est inté­res­sant de voir que 6 ans après que cette ques­tion fut posée, le nombre opti­mal de com­par­ti­ments géno­miques dans une cel­lule reste tou­jours com­pli­qué à défi­nir.

L'après-midi a été l'occasion d'enchaîner avec les pré­sen­ta­tions des 4 membres du jury sur des sujets divers. Alek­san­dra Pekows­ka a ouvert le bal avec une très belle pré­sen­ta­tion sur la for­ma­tion des boucles de chro­ma­tine. Ensuite nous avons eu Benoit Moin­drot par­lant des sites de CTCF allèle spé­ci­fique et à quel point cela affecte la struc­ture des TAD. Le relais a ensuite été pris par Nico­las Ser­vant qui nous a par­lé des outils pour bien nor­ma­li­ser les don­nées HiC dans le cas de don­nées asso­ciées au can­cer. Le bal fut fer­mé par Julien Moz­zi­co­nac­ci qui a pré­sen­té ses résul­tats sur le lien entre élé­ments répé­tés et 3D des génomes. Un bon panel construit avec soin pour don­ner du recul aux étu­diants suite à leurs pré­sen­ta­tions !

Cette édi­tion était un sacré inves­tis­se­ment humain pour la mise en place, je ne compte plus les heures de test pour apprendre mais le bilan était tout à fait posi­tif et appré­cié de tous, à l'année pro­chaine !

Un grand mer­ci à Élo­die Laine, Julia­na Ber­nardes et Ales­san­dra Car­bone de m'avoir fait pro­gres­ser et par­ti­ci­per à toute cette aven­ture.

Mer­ci aux relec­teurs de cette semaine : Gwe­naëlle, ZaZo0o, Oli­vier Dame­ron



Pour continuer la lecture :


Commentaires

Laisser un commentaire