Catégorie : Suivez l'guide
-
IA et bioinformatique : exploitons les réseaux convolutionnels (CNN)
Interessons-nous aujourd'hui aux séquences d’ADN. Nous utiliserons le dataset téléchargeable ici : https://www.kaggle.com/datasets/nageshsingh/dna-sequence-dataset L'ensemble des fichiers nécessaire à cet article sont disponibles ici. Vous trouverez dans ce lot de données un ensemble de séquences d’ADN issues de 3 espèces : l’homme, le chien et le chimpanzé. Chacune de ces séquences appartient à une des 7 familles de…
-
Bioinformatique et IA : un premier pas
Intelligence Artificielle, Machine Learning, Deep-Learning, quid du Data-Scientist Intelligence artificielle (IA), Machine learning (Apprentissage machine, pour les francophones), Deep-learning (Apprentissage profond), autant de termes si étrangers et familiers à la fois… Comment se retrouver dans cette jungle de termes techniques ? Commençons par définir ce qu'est l'IA. Base de science-fiction pour certains, source d'inquiétudes pour d'autres,…
-
Fréquences des dinucléotides dans le génome d'organismes modèles
L'analyse de séquences est au cœur de nombreux domaines de la bio-informatique. Le billet du jour s'intéressera aux séquences ADN, en se proposant de compter la fréquence en dinucléotides dans quelques génomes d'organismes modèles (avec une petite arrière-pensée derrière la tête). Qu'est-ce qu'un dinucléotide ? L'ADN double brins est classiquement structuré sous forme de double hélice,…
-
Manipulation d'intervalles génomiques dans R
Introduction Nous avons abordé, dans le précédent article de cette série, les bases de la manipulation d'intervalles dans R. Ce deuxième article a pour objectif de montrer comment manipuler des intervalles génomiques. Au niveau le plus basique, un intervalle est défini par deux nombres entiers positifs délimitant son début et sa fin. Nous allons pouvoir…
-
Introduction à la manipulation d'intervalles dans R
Introduction "Quelle est la profondeur de ce séquençage ?" "Quelle proportion de SNPs se situent dans des exons ?" "Y a‑t-il des pics dans ces données de ChIP-seq ?" "Quelle proportion de promoteurs chevauchent des îlots CpG ?" Voilà le genre de questions rencontrées fréquemment en bioinformatique. Nous pouvons y répondre à l'aide de la…
-
Qu'est ce qu'un TAD ? (Topological associated domain)
Dans l'article précédent, j'ai parlé des différentes échelles d'organisation de la chromatine mais me suis attardé sur les échelons les plus grands. Cette observation globale de la carte a alors permis de définir la notion de compartiment génomique. Mais comment l'ADN s'organise localement ? Qu'observe-t-on sur une carte de contact chromosomique en zoomant finement sur une…
-
Qu'est-ce qu'un compartiment génomique ?
Cette question est la première que m'a posé mon jury de thèse lors de ma soutenance. Aujourd'hui, je vous propose d'y répondre le plus simplement possible. Pour comprendre cet article, il est probablement nécessaire de connaître les bases du Hi‑C, déjà résumées par votre humble serviteur en visualisation, ou en analyse sur ce blog au…
-
Télécharger des données de séquençage sur le NCBI.. pour les débutants !
Toi petit étudiant de M1 qui arrive en premier jour de stage… Viens par ici… Oui TOI ! Toi à qui ton maître de stage te demande de récupérer les données de séquençage d'un article vachement bien, sans que tu saches le faire… TOI ! Toi le physicien qui se met à la biologie mais qui ignore…