Au boulot !

Five of seven dwarves | Randy Robertson

Comme diraient quelques personnes de petites tailles mondialement connues : "♫ Eh oh, eh oh, on s'en va au boulot ! ♫ ".

Car oui, c'est aujourd'hui la reprise chez bioinfo-fr.net ! On espère vous avoir manqué (un peu) et que ce qu'on vous a préparé pour la rentrée vous satisfera !

Le planning de publication a été refait, de nouveaux auteurs se sont manifestés, d'autres ont tiré leur révérence. C'est un nouveau cycle qui commence et c'est toujours bon de partir sur une nouvelle dynamique !

Si vous aussi vous désirez participer, n'hésitez pas à nous contacter : contribuer]AT[bioinfo-fr]DOT[net

CanSnippet Community edition, notre nouvel outil de partage de bouts de code, ne devrait plus trop tarder. Nous vous tiendrons au courant !

Un très bon Automne à toutes et à tous.

Édito

Didacticiel :
LaTeX : automatisez le traitement des CSV

Vous avez peut-être vu l'excellent article de Chopopope sur l'utilisation des flottants en LaTeX, et en particulier la partie sur la création de tableaux. Non ? Pour les retardataires, c'est par ici…
Vous vous êtes surement rendu compte que créer des tableaux peut être long et fastidieux. De plus, en bons bioinformaticiens, vos données tabulées sont écrites dans des fichiers Exc… CSV. Et vous trouvez un peu bête (pour ne pas dire plus) de devoir recopier votre fichier CSV dans LaTeX tout en formatant le tableau...

Astuce :
Customiser matplotlib (faire son matplotlibrc)

Suite à une mésaventure liée à matplotlib sur le chan IRC #bioinfo-fr (mésaventure suite aux fameuses erreurs de display ; si vous voulez tout savoir : si on configure mal son matplotlib on peut générer des erreurs qui font qu'on obtient des images vides… voir la partie sur le backend plus tard :o), j'ai parlé de la joie qu'est d'avoir un matplotlibrc et à quel point ça simplifie la vie...

Découverte :
Les bases de données de séquençage : GEO, SRA, ENA, ArrayExpress

De nos jours, lors de la publication de résultats, il est nécessaire de rendre public les éventuelles données de séquençage générées. Si un faible nombre d’irréductibles continuent à ne fournir les données que sur demande, les bonnes pratiques poussent à les déposer dans des bases de données librement accessibles. Quatre grandes bases de données de séquençage existent : les états-uniennes  GEO et SRA du NCBI, et les européennes ArrayExpress et ENA de l'EMBL-EBI...

Astuce :
Maîtrisez le cache de Rmarkdown !

Pour des raisons de reproduction de la science, il est important de conserver une trace de tout ce que l'on fait sur son ordinateur. Pour cela, faire des rapports est la meilleure manière que je connaisse qui permette d'inclure le code et les résultats d'une analyse. Pour faire ça bien avec R, on a déjà vu dans un article précédant que les rapports Rmarkdown étaient une très bonne solution...

Didacticiel :
LaTeX : les maths !

Après avoir appris à compiler, à insérer des flottants et à mettre en forme les paragraphes, on va s'attaquer à un truc plutôt coolish qui fait la force de LaTeX : la mise en forme de maths ! Comme c'est long et vaste, on va faire ça en plusieurs fois 😉 !
Tables des matières :
1. Ce qu'il faut ajouter au préambule
2. Types de formules (de base)
3. Fonctions
3.1. Aperçu des fonctions prédéfinies
3...

Didacticiel :
Jouer avec l'API de KEGG

Il n'est pas rare que nous ayons un jour besoin de récupérer des informations de la base de données KEGG (Kyoto Encyclopedia of Genes and Genomes). Cette base de données fournit un nombre conséquent d'informations sur les génomes et les réseaux de gènes mais également sur les voies métaboliques ou les maladies. Dans ces cas là, bien souvent, nous passons directement par le site internet à l'adresse http://www...

Didacticiel :
Petite introduction sur... les éléments répétés

Suite à l'excellent billet proposé par un autre auteur du blog, de nombreuses questions sur ce que sont les éléments répétés sont restées en suspens. Après le séquençage du génome humain dans les années 2000, de nombreux chercheurs ont constaté que la majeure partie du génome n'était pas composée de gènes, mais d'ADN à l'époque qualifié de poubelle. Celui-ci contenant un grand nombre de motifs étranges qui ne semblaient alors pas avoir de sens...

Didacticiel :
LaTeX : la mise en forme du texte et des paragraphes

Bon maintenant qu'on sait compiler et insérer des flottants, un truc critique à voir c'est comment mettre en forme : mettre en italique, en emphase, en gras, souligner, faire des listes à puces, insérer du code…
Préparez-vous, ça risque d'être un peu long :). (Et par un peu long je veux aussi dire un peu enquiquinant, mais il faut y passer…)
Mise en forme du texte
Faire joujou avec la police
Par défaut, LaTeX met les caractères en forme droite en minuscule...

Didacticiel :
Les éléments répétés du génome humain : aperçu rapide avec R et le tidyverse

Dans un précédent article, nous avions regardé le fichier d'annotation des gènes du génome humain d’après Gencode. J'avais utilisé pour cela la puissante combinaison dplyr + ggplot2 (packages centraux du tidyverse), particulièrement adaptée à tout ce qui est manipulation et visualisation de données tabulaires.
Mais notre génome n'est pas constitué que de gènes, loin s'en faut ! Les éléments répétés sont en fait bien plus majoritaires...

Découverte :
Le site du NCBI "un peu" plus moderne grâce aux extensions de navigateurs

« Pour la semaine prochaine vous allez devoir trouver et étudier l’article sur le site du NCBI [insérer un nom bien compliqué ici] »
Passée la déception d’avoir à se plonger dans un article obscur en anglais, on ouvre l’article en question et là… on découvre un énorme pavé de texte ma foi fort intéressant mais assez pénible à lire.
Ça c’est le cas auquel j’ai été le plus confronté mais vous pouvez l’adapter à toutes situations où il faut aller sur le site du NCBI (que ce soit pour chercher une séquence FASTA ou compléter sa biblio)...