Astuce :
Analyses rapides de fichiers

Analyse de fichiers dans le bon vieux temps ! | Creative Commons 2.0, wikimedia

Langage : shell, sous GNU/Linux
Commandes présentées : wc, awk, sed, tr, head, nl, cut
Niveau : débutant
Dans le cadre de notre travail, nous sommes souvent amenés à manipuler de nombreux fichiers contenant des milliers de lignes et des dizaines de champs. Dans ces cas-là, nous avons souvent tendance à virer à la paranoïa et à vouloir nous assurer que nos fichiers sont bien formatés et contiennent bien le nombre de lignes, champs ou éléments attendus...

Astuce :
Fusionner des fichiers entre eux : la commande join

Langage : shell
Commande présentée : join
Niveau : débutant
Présentation de la commande join
La commande join est disponible nativement sur les systèmes d'exploitation GNU/Linux. Il s'agit d'une commande POSIX et elle est donc présente sur tous les systèmes d'exploitation UNIX et UNIX-Like. La plupart des gens utilisent cette commande pour récupérer les lignes communes entre deux fichiers mais elle ne se limite pas à ce seul cas...

Astuce :
SQLite

Dans un précédent article, nous vous avons parlé des bases de données, leur importance et leur intérêt. Ici je vais vous parler de SQLite, une bibliothèque donnant accès à un moteur de base de données relationnelle qui vous permettra de travailler avec du SQL et cela sans avoir besoin de configurer ou d'installer quoi que ce soit: simple, rapide et efficace. Vous pouvez à loisir l'inclure dans tous vos projets, le code source de SQLite étant dans le domaine public...

Astuce :
Chercher des motifs dans un fichier

Langage : shell
Commandes présentées : grep, split (succintement)
Niveau : débutant
Présentation de la commande grep
La commande grep est disponible nativement sur la plupart des systèmes d'exploitation GNU/Linux. La plupart des utilisateurs utilisent cette commande pour rechercher un mot ou un groupe de mots, que nous appellerons motif (pattern en anglais), dans un fichier texte. Cependant cette commande ne se limite pas à du simple cas par cas...

Astuce :
Monter un serveur de test pour des besoins d’analyses en bioinformatique

Dans cet article je vais vous parler d'une facette un peu moins connue de la bioinformatique en vous présentant comment il est possible, à l'heure actuelle, d'assembler un serveur d’analyse bioinformatique avec un budget serré. Il ne s'agit pas d'une étude de marché très poussée mais d'un simple exemple du matériel qu'il est possible d'utiliser pour réaliser un serveur de développement performant...

Astuce :
Astuce : ajouter des options dans un script Bash avec getopt

But : comprendre le fonctionnement de getopt en Bash pour éviter la multiplications de script là où un seul générique pourrait suffire.
Prérequis : savoir faire des scripts Bash, connaître la substitution de commande et savoir manipuler les arguments.
Difficulté : 2 (moyen)
Pour ceux qui codent en Perl, vous connaissez déjà sûrement le module GetOpt et plus particulièrement son extension GetOpt::Long (ou encore le module getopt du langage Python)...

Astuce :
Astuce programmation BioPython : Parser les multi-genbank et les multi-FASTA produits par Batch Entrez

Prérequis : Savoir 'un peu' se servir d'un shell et avoir installé Python et son module Bio.
But : Redécouper des multi-genbank ou des multi-FASTA en un fichier par entrée.
Difficulté : 2/5 (Facile)
Principe : Le NCBI propose un outil très pratique pour récupérer facilement des jeux de données diversifiés : BatchEntrez, vous trouverez plus d'information ici. On télécharge ainsi un fichier texte unique réunissant toutes les données...

Astuce :
Récupérez facilement des données hébergées par le NCBI : BatchEntrez

But : Les bases de données du NCBI abritent de très nombreuses informations : génomes, protéines, références bibliographiques, etc. Si vous souhaitez récupérer l'une d'entre-elles, une recherche sur le site est la solution la plus simple, mais si vous avez besoin de récupérer de nombreuses données dans un des formats proposés, alors le NCBI a mis l'outil BatchEntrez à votre disposition...

Astuce :
Comment travailler sur une grappe de serveurs (cluster)

Patrick Finnegan / CC BY 2.0
Avec les avancées en biologie ces dernières années, la quantité de données produites et les ressources informatiques nécessaires à leur traitement ont grandement augmenté. Pour faire face à ces problèmes, l'une des solutions les plus répandues est la mise en place de grappes de serveurs (plus souvent désignées par le terme anglais computer cluster ou simplement cluster)...

Astuce :
Command line Tips : passage de variable dans awk

But : Dans un fichier organisé en colonnes, nous allons extraire les lignes contenant un mot (donné en argument) dans une colonne fixée à l'avance (1ère colonne).
Prérequis : Connaître un peu le shell (pour l'exercice).
Difficulté : 2/5 (Facile)
Exercice : Pour agrémenter la note, on extraira dans quatre fichiers distincts les lignes contenant les quatre mots les plus représentés du fichier PDB ci-dessous (un mot, un fichier)...