Chercher des motifs dans un fichier

Langage : shell
Commandes présentées : grep , split (succintement)
Niveau : débutant

Présentation de la commande grep

La commande grep est disponible nativement sur la plupart des systèmes d’exploitation GNU/Linux. La plupart des utilisateurs utilisent cette commande pour rechercher un mot ou un groupe de mots, que nous appellerons motif ( pattern en anglais), dans un fichier texte. Cependant cette commande ne se limite pas à du simple cas par cas.
Grep recherche le motif en parcourant tout le fichier texte du début jusqu’à la fin. Ainsi, autant pour un fichier de quelques lignes, le résultat sera quasi immédiat, autant pour un fichier de plusieurs milliers de lignes le résultat peut être plus ou moins long.
Dans ce billet je vous présenterai les différentes façons dont je me sers régulièrement de grep , que ce soit de la simple recherche d’un mot clé à la recherche, plus ou moins complexe, de plusieurs motifs.

Exemple d’une commande grep sans chercher le motif exact et avec une colorisation. Auteur : Nolwenn. Image libre de droit.

Lire la suite


Astuce programmation BioPython : Parser les multi-genbank et les multi-FASTA produits par Batch Entrez

Prérequis : Savoir ‘un peu’ se servir d’un shell et avoir installé Python et son module Bio.

But : Redécouper des multi-genbank ou des multi-FASTA en un fichier par entrée.

Difficulté : 2/5 (Facile)

Principe  : Le NCBI propose un outil très pratique pour récupérer facilement des jeux de données diversifiés :  BatchEntrez , vous trouverez plus d’information  ici . On télécharge ainsi un fichier texte unique réunissant toutes les données. Si les données sont au format FASTA, on obtient un multi-FASTA ; ce format est bien reconnu par les logiciels, par contre, pour des fichiers au format Genbank on obtient un multi-Genbank moins aisé à manipuler. On souhaiterait donc redécouper ce fichier de façon à obtenir un fichier unique par entrée. Il est possible de faire ce découpage à la main  mais ça reste assez contraignant dès qu’on a plus de deux entrées, mais fort heureusement, Python et sa bibliothèque Bio sont là pour nous aider !

Lire la suite


Récupérez facilement des données hébergées par le NCBI : BatchEntrez

But : Les bases de données du NCBI abritent de très nombreuses informations : génomes, protéines, références bibliographiques, etc. Si vous souhaitez récupérer l’une d’entre-elles, une recherche sur le site est la solution la plus simple, mais si vous avez besoin de récupérer de nombreuses données dans un des formats proposés, alors le NCBI a mis l’outil BatchEntrez à votre disposition. À l’aide d’une liste d’identifiants genbank , refseq ou même pubmed , il vous permet de tout télécharger en une fois (d’où la notion de ‘ batch ‘).

Difficulté : 1/5 (Très Facile)

Prenons un exemple très simple : on souhaite récupérer les séquences FASTA de trois génomes de cyanobactéries marines dont on connaît les identifiants genbank ou refseq .

On commence par créer un fichier texte (e.g. batch.test ) listant ces entrées :

NC_008319.1
NC_007516.1
NC_007513.1

Lire la suite


Récupérer la fiche d’un gène avec les Eutils du NCBI

En bioinformatique il n’est pas rare que l’on ait besoin d’accéder à des informations disponibles sur des bases de données internationales, nous verrons ici le cas de la banque Gene du  NCBI . Avant de s’intéresser à la récupération d’une fiche d’un gène en passant par les Eutils, un peu de théorie et d’explications sur une fiche type s’impose.
Lire la suite