Découverte :
Apprivoiser l'ami ursidé de Python : Pandas

Durant mon stage de M2, j’ai eu l’occasion de chatouiller ce drôle d’animal qu’est pandas. En effet, j’ai travaillé sur des données de protéomique contenues dans des fichiers tabulés. Il s'agissait de comparer la présence des protéines ou leur expression dans différents échantillons. Les abondances relatives (la variable étudiée) étaient indiquées pour les différentes protéines identifiées (plusieurs milliers et correspondant aux lignes du fichier) dans les différents échantillons analysés (correspondant aux colonnes)...

Opinion :
Les commandements du stagiaire en bioinformatique

La période des stages n'est pas loin et toi, jeune étudiant(e) bioinformaticien(ne) - futur(e) stagiaire, te demandes comment choisir parmi toutes ces annonces. Pas de panique, c'est tout à fait normal de se poser toute une ribambelle de questions, nous y sommes tous passés. La bonne nouvelle c'est que c'est ton jour de chance : les réponses se trouvent (normalement) dans ce billet.
À la recherche du stage : Motivation, mon amie

La première des choses à cocher dans ta checklist c'est la motivation...

Découverte :
Qu'est-ce qu'un site d'initiation de la transcription ?

Comment je me suis posé la question.
Chez les eucaryotes, l'ADN est organisé en domaines plus ou moins compactés, avec des taux de transcription plus ou moins élevés, et qui sont marqués différentiellement par un certain nombre de marques épigénétiques (méthylation de l'ADN, modifications post-traductionnelles des histones, variants d'histones, etc.). Il est fréquent d'essayer de corréler le niveau d'expression des gènes avec la présence ou l'absence d'une marque épigénétique à proximité des sites d’initiations de la transcription (raccourcis en TSS, pour transcription start sites)...

Didacticiel :
LaTeX : automatisez le traitement des CSV

Vous avez peut-être vu l'excellent article de Chopopope sur l'utilisation des flottants en LaTeX, et en particulier la partie sur la création de tableaux. Non ? Pour les retardataires, c'est par ici…
Vous vous êtes surement rendu compte que créer des tableaux peut être long et fastidieux. De plus, en bons bioinformaticiens, vos données tabulées sont écrites dans des fichiers Exc… CSV. Et vous trouvez un peu bête (pour ne pas dire plus) de devoir recopier votre fichier CSV dans LaTeX tout en formatant le tableau...

Astuce :
Customiser matplotlib (faire son matplotlibrc)

Suite à une mésaventure liée à matplotlib sur le chan IRC #bioinfo-fr (mésaventure suite aux fameuses erreurs de display ; si vous voulez tout savoir : si on configure mal son matplotlib on peut générer des erreurs qui font qu'on obtient des images vides… voir la partie sur le backend plus tard :o), j'ai parlé de la joie qu'est d'avoir un matplotlibrc et à quel point ça simplifie la vie...

Découverte :
Les bases de données de séquençage : GEO, SRA, ENA, ArrayExpress

De nos jours, lors de la publication de résultats, il est nécessaire de rendre public les éventuelles données de séquençage générées. Si un faible nombre d’irréductibles continuent à ne fournir les données que sur demande, les bonnes pratiques poussent à les déposer dans des bases de données librement accessibles. Quatre grandes bases de données de séquençage existent : les états-uniennes  GEO et SRA du NCBI, et les européennes ArrayExpress et ENA de l'EMBL-EBI...

Astuce :
Maîtrisez le cache de Rmarkdown !

Pour des raisons de reproduction de la science, il est important de conserver une trace de tout ce que l'on fait sur son ordinateur. Pour cela, faire des rapports est la meilleure manière que je connaisse qui permette d'inclure le code et les résultats d'une analyse. Pour faire ça bien avec R, on a déjà vu dans un article précédant que les rapports Rmarkdown étaient une très bonne solution...

Didacticiel :
LaTeX : les maths !

Après avoir appris à compiler, à insérer des flottants et à mettre en forme les paragraphes, on va s'attaquer à un truc plutôt coolish qui fait la force de LaTeX : la mise en forme de maths ! Comme c'est long et vaste, on va faire ça en plusieurs fois 😉 !
Tables des matières :
1. Ce qu'il faut ajouter au préambule
2. Types de formules (de base)
3. Fonctions
3.1. Aperçu des fonctions prédéfinies
3...

Didacticiel :
Jouer avec l'API de KEGG

Il n'est pas rare que nous ayons un jour besoin de récupérer des informations de la base de données KEGG (Kyoto Encyclopedia of Genes and Genomes). Cette base de données fournit un nombre conséquent d'informations sur les génomes et les réseaux de gènes mais également sur les voies métaboliques ou les maladies. Dans ces cas là, bien souvent, nous passons directement par le site internet à l'adresse http://www...

Didacticiel :
Petite introduction sur... les éléments répétés

Suite à l'excellent billet proposé par un autre auteur du blog, de nombreuses questions sur ce que sont les éléments répétés sont restées en suspens. Après le séquençage du génome humain dans les années 2000, de nombreux chercheurs ont constaté que la majeure partie du génome n'était pas composée de gènes, mais d'ADN à l'époque qualifié de poubelle. Celui-ci contenant un grand nombre de motifs étranges qui ne semblaient alors pas avoir de sens...