Auteur/autrice : Guillaume Devailly

Ses publications :

  • Fréquences des dinucléotides dans le génome d'organismes modèles

    Fréquences des dinucléotides dans le génome d'organismes modèles

    L'analyse de séquences est au cœur de nom­breux domaines de la bio-infor­ma­tique. Le billet du jour s'intéressera aux séquences ADN, en se pro­po­sant de comp­ter la fré­quence en dinu­cléo­tides dans quelques génomes d'organismes modèles (avec une petite arrière-pen­sée der­rière la tête). Qu'est-ce qu'un dinucléotide ? L'ADN double brins est clas­si­que­ment struc­tu­ré sous forme de double hélice,…

  • Pourquoi certains fichiers FASTQ finissent par 001 ?

    Pourquoi certains fichiers FASTQ finissent par 001 ?

    Sur le chan IRC du blog, un de nos membres se deman­dait pour­quoi les noms de fichiers FASTQ devait finir par _001.fastq sur la pla­te­forme de cloud com­pu­ting d'Illumina BaseS­pace. Mais avant de répondre à cette ques­tion pres­sante, repar­tons du début. Les fichiers FASTQ En cette période de domi­na­tion du séquen­çage haut débit de l'ADN,…

  • Créer des Heatmaps à partir de grosses matrices en R

    Créer des Heatmaps à partir de grosses matrices en R

    En géno­mique, et sans doute dans tout un tas d'autres domaines omiques ou big data, nous essayons sou­vent de tra­cer des grosses matrices sous forme d'heat­map. Par grosse matrice, j'entends une matrice dont le nombre de lignes et/​ou de colonnes est plus grand que le nombre de pixels sur l'écran que vous uti­li­sez. Par exemples,…

  • Blagues de bioinformaticiens

    Blagues de bioinformaticiens

    Plu­tôt que de vous col­ler un pois­son en papier dans le dos en ce 1er Avril 2020 (de toute façon c'est dif­fi­cile avec le confi­ne­ment), je vous pro­pose plu­tôt une col­lec­tion de blagues dont la qua­li­té géné­rale n'est pas néces­sai­re­ment à la hau­teur de la répu­ta­tion de ce blog. Un petit rébus : votre code doit…

  • Sept problèmes fascinants posés par les récepteurs olfactifs

    Sept problèmes fascinants posés par les récepteurs olfactifs

    Le cinquième va vous étonner ! Introduction : l'olfaction, un sens assez bien compris et compréhensible L’olfaction n'est peut-être pas le plus noble des sens, com­pa­ré à la vue ou l’ouïe par exemple, mais il s'agit d'un sens assez bien com­pris aujourd'hui. C'est notam­ment grâce aux tra­vaux des bio­lo­gistes Lin­da B. Buck et Richard Axel, récom­pen­sés par…

  • Qu'est-ce qu'un site d'initiation de la transcription ?

    Qu'est-ce qu'un site d'initiation de la transcription ?

    Comment je me suis posé la question. Chez les euca­ryotes, l'ADN est orga­ni­sé en domaines plus ou moins com­pac­tés, avec des taux de trans­crip­tion plus ou moins éle­vés, et qui sont mar­qués dif­fé­ren­tiel­le­ment par un cer­tain nombre de marques épi­gé­né­tiques (méthy­la­tion de l'ADN, modi­fi­ca­tions post-tra­duc­tion­nelles des his­tones, variants d'histones, etc.). Il est fré­quent d'essayer de…

  • Les bases de données de séquençage : GEO, SRA, ENA, ArrayExpress

    Les bases de données de séquençage : GEO, SRA, ENA, ArrayExpress

    De nos jours, lors de la publi­ca­tion de résul­tats, il est néces­saire de rendre public les éven­tuelles don­nées de séquen­çage géné­rées. Si un faible nombre d’irréductibles conti­nuent à ne four­nir les don­nées que sur demande, les bonnes pra­tiques poussent à les dépo­ser dans des bases de don­nées libre­ment acces­sibles. Quatre grandes bases de don­nées de séquen­çage…

  • Les éléments répétés du génome humain : aperçu rapide avec R et le tidyverse

    Les éléments répétés du génome humain : aperçu rapide avec R et le tidyverse

    Dans un pré­cé­dent article, nous avions regar­dé le fichier d'annotation des gènes du génome humain d’après Gen­code. J'avais uti­li­sé pour cela la puis­sante com­bi­nai­son dplyr + ggplot2 (packages cen­traux du tidy­verse), par­ti­cu­liè­re­ment adap­tée à tout ce qui est mani­pu­la­tion et visua­li­sa­tion de don­nées tabu­laires. Mais notre génome n'est pas consti­tué que de gènes, loin s'en…

  • dplyr et le génome humain

    dplyr et le génome humain

    Introduction Non, ne fuyez pas tout de suite, chers lec­teurs, tout va s'éclaircir : dplyr, c’est plyr pour les data.frame (les tableaux de don­nées). Atten­dez, j’y viens, plyr, c’est un package R pour appli­quer (apply) des fonc­tions. Donc, dplyr (pro­non­cez “diplir”), c’est un package R, pour appli­quer des fonc­tions à un tableau de don­nées. Et ça,…