Découverte :
canSnippet : le voilà !

Nous vous l'avions annoncé il y a quasiment un an jour pour jour lors de notre présentation à JOBIM2017 à Lille. Il est maintenant là, disponible, consultable et à portée de tous : canSnippet Community Edition.
A vos marques pages, c'est ici que ça se passera dorénavant : https://cansnippet.bioinfo-fr.net/ !
Le principe
Avoir une collection de snippets (petits bouts de codes réutilisables) axés autour de la bioinformatique facilement trouvables et retrouvables pour le commun des bioinformaticiens...

Découverte :
Apprivoiser l'ami ursidé de Python : Pandas

Durant mon stage de M2, j’ai eu l’occasion de chatouiller ce drôle d’animal qu’est pandas. En effet, j’ai travaillé sur des données de protéomique contenues dans des fichiers tabulés. Il s'agissait de comparer la présence des protéines ou leur expression dans différents échantillons. Les abondances relatives (la variable étudiée) étaient indiquées pour les différentes protéines identifiées (plusieurs milliers et correspondant aux lignes du fichier) dans les différents échantillons analysés (correspondant aux colonnes)...

Découverte :
Qu'est-ce qu'un site d'initiation de la transcription ?

Comment je me suis posé la question.
Chez les eucaryotes, l'ADN est organisé en domaines plus ou moins compactés, avec des taux de transcription plus ou moins élevés, et qui sont marqués différentiellement par un certain nombre de marques épigénétiques (méthylation de l'ADN, modifications post-traductionnelles des histones, variants d'histones, etc.). Il est fréquent d'essayer de corréler le niveau d'expression des gènes avec la présence ou l'absence d'une marque épigénétique à proximité des sites d’initiations de la transcription (raccourcis en TSS, pour transcription start sites)...

Découverte :
Les bases de données de séquençage : GEO, SRA, ENA, ArrayExpress

De nos jours, lors de la publication de résultats, il est nécessaire de rendre public les éventuelles données de séquençage générées. Si un faible nombre d’irréductibles continuent à ne fournir les données que sur demande, les bonnes pratiques poussent à les déposer dans des bases de données librement accessibles. Quatre grandes bases de données de séquençage existent : les états-uniennes  GEO et SRA du NCBI, et les européennes ArrayExpress et ENA de l'EMBL-EBI...

Découverte :
Le site du NCBI "un peu" plus moderne grâce aux extensions de navigateurs

« Pour la semaine prochaine vous allez devoir trouver et étudier l’article sur le site du NCBI [insérer un nom bien compliqué ici] »
Passée la déception d’avoir à se plonger dans un article obscur en anglais, on ouvre l’article en question et là… on découvre un énorme pavé de texte ma foi fort intéressant mais assez pénible à lire.
Ça c’est le cas auquel j’ai été le plus confronté mais vous pouvez l’adapter à toutes situations où il faut aller sur le site du NCBI (que ce soit pour chercher une séquence FASTA ou compléter sa biblio)...

Découverte :
Créez vos documents collaboratifs en LaTeX

Aujourd'hui, on vous présente une méthode pour créer vos documents collaboratifs en ligne, en utilisant LaTeX, ainsi que quelques astuces qui pourront peut-être vous simplifier la vie !
Un petit peu de contexte
Imaginons : vous êtes un jeune chercheur dynamique, et vous voulez rédiger un papier avec vos collaborateurs. Ou bien vous êtes un étudiant, et vous devez rendre un rapport quelconque à partir d'un travail fait en groupe...

Découverte :
Virtualisez pour plus de reproductibilité

Virtualisez pour plus de reproductibilité
Pour commencer
Vous avez entendu parler de reproductibilité. Vous voulez vous y mettre ? Vous vous dites que la virtualisation vous aiderait à utiliser toujours la même version d'un outil précis. En savoir plus sur Docker vous aiderait bien ? Cet article est donc pour vous. Je profite de l'occasion pour parler aussi de Singularity. Mais pour bien commencer, on va expliquer le concept des Machines Virtuelles...

Découverte :
Identification des relations entre la variabilité génétique et le phénotype : cartographie QTL

Les individus d’une même espèce, à moins qu’ils ne soient des clones identiques, sont tous légèrement différents les uns des autres. Cette différence s’exprime à tous les niveaux, de l’apparence (phénotype macroscopique), au génome (différents allèles pour le même gène), en passant par les phénotypes microscopiques (aussi appelés moléculaires - on pensera ici aux transcriptomes, (phospho)protéomes, ou encore metabolomes)...

Découverte :
Eh toi ! rev_comp, tu l'écris comment ?

Écrire un algorithme de rev_comp ou complément inverse, on l'a tous déjà fait. Aujourd'hui c'est devenu un classique des cours d'algorithmique en étude de bioinformatique, c'est un algorithme simple mais qui demande de savoir utiliser les structures de contrôle de base. À la fois un bon exercice pratique et pédagogique, doit-il cependant rester implémenté comme à nos débuts ? Cette question m'a traversé l'esprit durant un cours où mon implémentation et celles de mes camarades étaient toutes différentes avec à chaque fois différents algorithmes de base...

Découverte :
Retour d'expérience : bonnes pratiques à appliquer en cas de déréférencement Google (et autres)

Avertissement : cet article déroge exceptionnellement à la ligne éditoriale que nous nous sommes imposées depuis le début de l'aventure. Nous n'allons pas parler de bioinformatique de près ou de loin dans cet article. Quoique les plus enthousiastes d'entre vous pourraient dire que cela peut arriver à une application web bioinfo 🙂

 
Mise en bouche
Nous avons malheureusement, et à notre grande surprise, vécu récemment un déréférencement inattendu de tous les plus gros moteurs de recherche connus et reconnus : Google, Duckduckgo, Yahoo, Bing, Lycos, ...