Auteur/autrice : Guillaume Devailly
Ses publications :
-
Fréquences des dinucléotides dans le génome d'organismes modèles
L'analyse de séquences est au cœur de nombreux domaines de la bio-informatique. Le billet du jour s'intéressera aux séquences ADN, en se proposant de compter la fréquence en dinucléotides dans quelques génomes d'organismes modèles (avec une petite arrière-pensée derrière la tête). Qu'est-ce qu'un dinucléotide ? L'ADN double brins est classiquement structuré sous forme de double hélice,…
-
Pourquoi certains fichiers FASTQ finissent par 001 ?
Sur le chan IRC du blog, un de nos membres se demandait pourquoi les noms de fichiers FASTQ devait finir par _001.fastq sur la plateforme de cloud computing d'Illumina BaseSpace. Mais avant de répondre à cette question pressante, repartons du début. Les fichiers FASTQ En cette période de domination du séquençage haut débit de l'ADN,…
-
Créer des Heatmaps à partir de grosses matrices en R
En génomique, et sans doute dans tout un tas d'autres domaines omiques ou big data, nous essayons souvent de tracer des grosses matrices sous forme d'heatmap. Par grosse matrice, j'entends une matrice dont le nombre de lignes et/ou de colonnes est plus grand que le nombre de pixels sur l'écran que vous utilisez. Par exemples,…
-
Blagues de bioinformaticiens
Plutôt que de vous coller un poisson en papier dans le dos en ce 1er Avril 2020 (de toute façon c'est difficile avec le confinement), je vous propose plutôt une collection de blagues dont la qualité générale n'est pas nécessairement à la hauteur de la réputation de ce blog. Un petit rébus : votre code doit…
-
Sept problèmes fascinants posés par les récepteurs olfactifs
Le cinquième va vous étonner ! Introduction : l'olfaction, un sens assez bien compris et compréhensible L’olfaction n'est peut-être pas le plus noble des sens, comparé à la vue ou l’ouïe par exemple, mais il s'agit d'un sens assez bien compris aujourd'hui. C'est notamment grâce aux travaux des biologistes Linda B. Buck et Richard Axel, récompensés par…
-
Qu'est-ce qu'un site d'initiation de la transcription ?
Comment je me suis posé la question. Chez les eucaryotes, l'ADN est organisé en domaines plus ou moins compactés, avec des taux de transcription plus ou moins élevés, et qui sont marqués différentiellement par un certain nombre de marques épigénétiques (méthylation de l'ADN, modifications post-traductionnelles des histones, variants d'histones, etc.). Il est fréquent d'essayer de…
-
Les bases de données de séquençage : GEO, SRA, ENA, ArrayExpress
De nos jours, lors de la publication de résultats, il est nécessaire de rendre public les éventuelles données de séquençage générées. Si un faible nombre d’irréductibles continuent à ne fournir les données que sur demande, les bonnes pratiques poussent à les déposer dans des bases de données librement accessibles. Quatre grandes bases de données de séquençage…
-
Les éléments répétés du génome humain : aperçu rapide avec R et le tidyverse
Dans un précédent article, nous avions regardé le fichier d'annotation des gènes du génome humain d’après Gencode. J'avais utilisé pour cela la puissante combinaison dplyr + ggplot2 (packages centraux du tidyverse), particulièrement adaptée à tout ce qui est manipulation et visualisation de données tabulaires. Mais notre génome n'est pas constitué que de gènes, loin s'en…
-
dplyr et le génome humain
Introduction Non, ne fuyez pas tout de suite, chers lecteurs, tout va s'éclaircir : dplyr, c’est plyr pour les data.frame (les tableaux de données). Attendez, j’y viens, plyr, c’est un package R pour appliquer (apply) des fonctions. Donc, dplyr (prononcez “diplir”), c’est un package R, pour appliquer des fonctions à un tableau de données. Et ça,…