Étiquette : R
-
De la procrastination dans l'R
Connaissances requises Connaissances basiques en R. Si vous ne faites pas la différence entre un test exact de Fisher et le test du Chi‑2, cela ne devrait pas poser de problème. Euh, bah c'est tout ! Introduction Si l'on s'en réfère à la définition : Un informaticien, et a fortiori un bioinformaticien, fera tout pour mettre en œuvre des…
-
L'annotation de régions génomiques et les analyses d’enrichissement
Les annotations sont essentielles lors d'analyses fonctionnelles à large échelle sur le génome. Lorsque l’on pratique des analyses en génomique, basées sur des techniques comme le RNA-seq ou le ChIP-seq, on se retrouve avec respectivement une liste de transcrits ou de pics (régions génomiques). Dans le cas des analyses ChIP-seq, on souhaite caractériser les gènes cibles du facteur…
-
L'analyse en composantes principales (avec R)
L'ACP, ou Analyse en Composantes Principales, est une méthode d'exploration de données qui consiste à réduire la dimensionnalité du problème pour en extraire l'essentiel. Par une projection dans un espace plus petit, on réduit le nombre de variables, et si on réduit suffisamment on peut en faire un outil de diagnostic graphique. Comme c'est une…
-
Guide de démarrage pour ggplot2, un package graphique pour R
Le traitement et l’analyse de données sont une part importante des tâches demandées à un bioinformaticien. L’utilisation de R facilite grandement la manipulation des données et permet également leur représentation de multiples façons. Malgré le potentiel de R, ce dernier est souvent sous-exploité à cause d’une syntaxe parfois trop complexe. Je vais vous présenter aujourd’hui…
-
Soirée BED & FASTA !
Après la petite histoire de l’analyse des séquences d’ADN, voici un tutoriel pour apprendre quelques trucs et astuces dans ce domaine. Biologiste en mal de connaissances de programmation ou pro de R, vous trouverez ici de quoi vous amuser avec un fichier Fasta ou un Bed. Nous allons voir comment faire un alignement multiple de…
-
Les mélanges gaussiens
La plupart des mesures que l'on obtient des expériences en biologie suivent approximativement une distribution dite "normale", ou "gaussienne", dont la densité a la forme d'une cloche, symétrique avec un unique sommet au milieu. C'est aussi l'hypothèse d'un grand nombre d'outils d'analyse statistique. Mais que faire quand on observe deux sommets ou plus ? Le plus…
-
Julia : le successeur de R ?
Actuellement le langage R est incontournable pour qui veut manipuler des données en bioinformatique, en particulier pour l'analyse statistique. Mais un successeur est en passe de s'imposer : Julia, combinant puissance du langage avec les fonctionnalités de R, et comblant les nombreux défauts de ce dernier — mais plus encore ! Voici une présentation de ce tout…
-
Suivez le guide : en quête de HMM
Bases Théoriques : Une chaîne de Markov , ça vous dit quelque chose ? Une classe de modèles de Markov, appelée Modèle de Markov Caché (Hidden Markov Model, HMM), est un modèle mathématique permettant de segmenter un signal observé en régions (états cachés) définis par le modèle. Lequel est composé de quatre éléments : N états, une matrice d’émissions, des conditions…