Archives par tags: R

Suivez l'guide :
Fréquences des dinucléotides dans le génome d'organismes modèles

L'analyse de séquences est au cœur de nombreux domaines de la bio-informatique. Le billet du jour s'intéressera aux séquences ADN, en se proposant de compter la fréquence en dinucléotides dans quelques génomes d'organismes modèles (avec une petite arrière-pensée derrière la tête).

Qu'est-ce qu'un dinucléotide ?

L'ADN double brins est classiquement structuré sous forme de double hélice, avec deux brins de direction opposée...

Suivez l'guide :
Manipulation d'intervalles génomiques dans R

Introduction

Nous avons abordé, dans le précédent article de cette série, les bases de la manipulation d'intervalles dans R.

Ce deuxième article a pour objectif de montrer comment manipuler des intervalles génomiques. Au niveau le plus basique, un intervalle est défini par deux nombres entiers positifs délimitant son début et sa fin. Nous allons pouvoir ajouter des couches supplémentaires d'informations, telles que les chromosomes et leurs tailles ainsi que le brin...

Suivez l'guide :
Introduction à la manipulation d'intervalles dans R

Introduction

"Quelle est la profondeur de ce séquençage ?"

"Quelle proportion de SNPs se situent dans des exons ?"

"Y a-t-il des pics dans ces données de ChIP-seq ?"

"Quelle proportion de promoteurs chevauchent des îlots CpG ?"

Voilà le genre de questions rencontrées fréquemment en bioinformatique. Nous pouvons y répondre à l'aide de la manipulation d'intervalles...

Opinion :
Choisir entre R et Python en bioinformatique ? Regards croisés entre collègues enseignants-chercheurs

Gaëlle Lelandais et Pierre Poulain

Qui sommes-nous ?

Tous les deux passionnés par l’enseignement, les problématiques de big data et d’analyse de données en biologie, nous nous côtoyons professionnellement depuis 15 ans, avec écoute et bienveillance. Si l’étiquette de « bioinformaticien » nous est souvent attribuée, nous sommes pourtant très différents.

Je (Gaëlle) travaille sur des problématiques de génomique fonctionnelle des champignons...

Didacticiel :
Pourquoi et comment déposer un package R sur Bioconductor ?

Ça y est, votre code R un poil brut commence à avoir de la substance et vous envisagez d'en faire un outil à part entière. Comme tout bioinformaticien qui se respecte, vous envisagez donc de packager (ou paqueter en français) proprement cet ensemble de scripts R.

Non on ne largue pas une nuée de scripts non commentés, non documentés, avec juste un mail disant "Non mais tu changes tel et tel paramètres et ça fonctionne"...

Astuce :
Créer des Heatmaps à partir de grosses matrices en R

En génomique, et sans doute dans tout un tas d'autres domaines omiques ou big data, nous essayons souvent de tracer des grosses matrices sous forme d'heatmap. Par grosse matrice, j'entends une matrice dont le nombre de lignes et/ou de colonnes est plus grand que le nombre de pixels sur l'écran que vous utilisez. Par exemples, si vous avez une matrice de 50 colonnes et de 20 000 lignes (cas assez fréquent quand il y a une ligne par gène), il y a de forte chances que cette matrice aura plus de lignes qu'il n'y a de pixels sur votre écran -- 1080 pixels verticaux sur un écran HD (à moins bien sûr que vous lisiez ceci dans un futur lointain d'hyper haute définition)...

Découverte :
Rendre ses projets R plus accessibles grâce à Shiny

Bonjour à tous !

Vous avez un script que vous souhaitez partager avec une équipe expérimentale? Vous ne voulez pas que les utilisateurs modifient le code pour paramétrer votre programme? Vous codez avec R ? Alors cet article est fait pour vous ! Nous allons voir comment créer une application web avec R et permettre à votre utilisateur d’exécuter votre code sans le voir.

Shiny

Le package que nous utiliserons est shiny...

Découverte :
Qu'est-ce qu'un site d'initiation de la transcription ?

Comment je me suis posé la question.
Chez les eucaryotes, l'ADN est organisé en domaines plus ou moins compactés, avec des taux de transcription plus ou moins élevés, et qui sont marqués différentiellement par un certain nombre de marques épigénétiques (méthylation de l'ADN, modifications post-traductionnelles des histones, variants d'histones, etc.). Il est fréquent d'essayer de corréler le niveau d'expression des gènes avec la présence ou l'absence d'une marque épigénétique à proximité des sites d’initiations de la transcription (raccourcis en TSS, pour transcription start sites)...

Astuce :
Maîtrisez le cache de Rmarkdown !

Pour des raisons de reproduction de la science, il est important de conserver une trace de tout ce que l'on fait sur son ordinateur. Pour cela, faire des rapports est la meilleure manière que je connaisse qui permette d'inclure le code et les résultats d'une analyse. Pour faire ça bien avec R, on a déjà vu dans un article précédant que les rapports Rmarkdown étaient une très bonne solution...

Didacticiel :
Les éléments répétés du génome humain : aperçu rapide avec R et le tidyverse

Dans un précédent article, nous avions regardé le fichier d'annotation des gènes du génome humain d’après Gencode. J'avais utilisé pour cela la puissante combinaison dplyr + ggplot2 (packages centraux du tidyverse), particulièrement adaptée à tout ce qui est manipulation et visualisation de données tabulaires.
Mais notre génome n'est pas constitué que de gènes, loin s'en faut ! Les éléments répétés sont en fait bien plus majoritaires...