Auteur/autrice : Julien Delafontaine
Ses publications :
-
Vers une meilleure encryption des données génétiques
La démocratisation du séquençage du génome humain, ouvrant les portes de la médecine personnalisée, provoque aussi beaucoup d'inquiétudes au sujet de la protection des données. La séquence unique de l'ADN d'un individu, en effet, peut indiquer entre autres les prédispositions à des maladies, la tolérance à diverses substances, les traits potentiels de la descendance, le…
-
L'analyse en composantes principales (avec R)
L'ACP, ou Analyse en Composantes Principales, est une méthode d'exploration de données qui consiste à réduire la dimensionnalité du problème pour en extraire l'essentiel. Par une projection dans un espace plus petit, on réduit le nombre de variables, et si on réduit suffisamment on peut en faire un outil de diagnostic graphique. Comme c'est une…
-
Cython : votre programme Python mais 100x plus vite
Python est un langage extrêmement pratique car il est facile à lire et à écrire, comparé à un langage de "bas niveau" et compilé comme le C. D'un autre côté, à l'exécution il est beaucoup plus lent. C'est un compromis entre les deux qu'offre Cython, permettant d'accélérer votre programme d'un facteur 2 à plus de…
-
BLAST en pratique
Cet article a pour but de vous montrer une application pratique de BLAST, le fameux programme d'alignement de séquences détenant un record de citations, avec certains problèmes qu'on peut rencontrer et ce qu'on peut tirer de son résultat. BLAST a au moins deux usages typiques en génomique : Trouver les occurrences similaires à une séquence de…
-
Les mélanges gaussiens
La plupart des mesures que l'on obtient des expériences en biologie suivent approximativement une distribution dite "normale", ou "gaussienne", dont la densité a la forme d'une cloche, symétrique avec un unique sommet au milieu. C'est aussi l'hypothèse d'un grand nombre d'outils d'analyse statistique. Mais que faire quand on observe deux sommets ou plus ? Le plus…
-
Julia : le successeur de R ?
Actuellement le langage R est incontournable pour qui veut manipuler des données en bioinformatique, en particulier pour l'analyse statistique. Mais un successeur est en passe de s'imposer : Julia, combinant puissance du langage avec les fonctionnalités de R, et comblant les nombreux défauts de ce dernier — mais plus encore ! Voici une présentation de ce tout…
-
L'analyse de données RNA-seq : mode d'emploi
Un jour, un biologiste se pointe chez vous avec d'une part un disque dur externe dans la main, d'autre part l'air soucieux. Il veut que vous analysiez ses données RNA-seq. Le disque, c'est parce qu'il a environ 50Gb de données à vous transmettre ; l'air soucieux, c'est parce qu'elles ont coûté dans les 15'000 euros, et…