3 ans de bioinformatique communautaire

Voilà on l'a fait ! Nous venons d'acquérir notre Licence en blog bioinformatique mention communauté francophone de Geekus biologicus. Merci à tous de nous suivre, de promouvoir nos articles et d'interagir avec nous par le biais des commentaires.

Nous avons volontairement stoppé la publication des articles en ce début d'année afin de nous concentrer sur la restructuration de l'équipe et le planning de parution d'articles.

Après l'appel du début d'année lancé sur la liste mail SFBI, nous comptons un peu plus de 50 contributeurs dans l'équipe. Les parutions repartiront à partir de la semaine prochaine et on commencera d'ailleurs très fort avec un didacticiel sur l'incontournable analyse en composantes principales (ACP).

Le compte à rebours est donc lancé jusqu'à mercredi prochain. En attendant, on va aller souffler nos bougies !

Merci pour votre soutien.

Yoann M. pour bioinfo-fr.net

Édito

Astuce :
L'annotation de régions génomiques et les analyses d’enrichissement

Les annotations sont essentielles lors d'analyses fonctionnelles à large échelle sur le génome. 
Lorsque l’on pratique des analyses en génomique, basées sur des techniques comme le RNA-seq ou le ChIP-seq, on se retrouve avec respectivement une liste de transcrits ou de pics (régions génomiques). Dans le cas des analyses ChIP-seq, on souhaite caractériser les gènes cibles du facteur de transcription étudié sur tout le génome (genome-wide), pour comprendre la fonction biologique de ce facteur...

Astuce :
RNA-seq : plus de profondeur ou plus d'échantillons ?

Lorsque l'on se lance dans l'aventure du séquençage haut débit de transcriptome, on est amené à se poser LA question, oui LA, celle que l'on redoute à peu près tous quand on a un budget serré :
À quelle profondeur dois-je séquencer mes échantillons ?
Toutes les publications s'accordent à le dire, plus on a de réplicats, plus on a de puissance statistique pour détecter les gènes différentiellement exprimés...

Découverte :
SARTools : l'analyse différentielle pour tous

Un article court aujourd’hui pour présenter SARTools, un outil d’analyse différentielle de données de RNA-seq.
Plus qu’un outil, SARTools est plutôt un pipeline simplifié pour traiter des données d’analyses réalisées dans un plan d’expérience assez basique.
En effet le cadre d’utilisation de SARTools est volontairement limité aux plans d’expérience simples, à savoir des comparaisons de deux (ou plus) conditions/mutants avec au moins deux réplicats par condition...

Actualité :
Ecole doctorale Française en Bio-informatique: Les dates à ne pas manquer

En France, pour faire une thèse, il faut dans la plus grande partie des cas candidater à une école doctorale. Ces écoles, souvent assignées à une ville ou à une région, ont chacune leurs propres emplois du temps et leurs propres règles. Nous vous proposons ici une liste des dates à ne pas manquer pour s'inscrire à certaines d'entre elles.

/!\ : Les dates présentées ici sont celles de l'année 2015 à condition que le site web associé à l'école soit à jour...

Découverte :
iPath partout !

Depuis quelques mois j'utilise un outil nommé iPath2.0 qui peut être très utile pour certains.

Présentation de l'outil
iPath2.0 est un outil en ligne, accessible à l'adresse http://pathways.embl.de/iPath2.cgi. Son principal intérêt est la visualisation et l'analyse de voies métabolique.

Brèves :
Former et se former en bioinformatique avec GOBLET !

Dans cet article, je vous présenterai un nouveau site qui peut être intéressant aussi bien pour les étudiants que pour les enseignants, voire également pour les bioinformaticiens déjà en fonction. Ici je ne vous noierai pas sous les lignes de code, mais je vous décrirai ce que le portail GOBLET vous propose en terme d'exercice. Prêts ? À vos claviers !
À propos de GOBLET
GOBLET, the Global Organisation for Bioinformatics Learning, Education and Training, est une fondation dont les mission sont, entre autres, de :

fournir un support global de formation à l'intention des étudiants et des formateurs en bioinformatique au travers d'un réseau structuré et stable ;
faciliter les capacités de développement en bioinformatique dans tous les pays ;
développer des standards et des guides pour la formation en bioinformatique...

Découverte :
L'analyse en composantes principales (avec R)

L'ACP, ou Analyse en Composantes Principales, est une méthode d'exploration de données qui consiste à réduire la dimensionnalité du problème pour en extraire l'essentiel. Par une projection dans un espace plus petit, on réduit le nombre de variables, et si on réduit suffisamment on peut en faire un outil de diagnostic graphique. Comme c'est une projection, il est important de comprendre qu'on perd de l'information dans le processus, mais cela permet d'interpréter plus facilement les données...

Opinion :
De la nécessité d’une pratique collaborative en bioinformatique

Depuis l’avènement des algorithmes d’alignement de séquences jusqu’aux outils d’analyses de réseaux de protéines, la bioinformatique se cherche une définition et une place dans la science. Est-ce une discipline ? Est-ce un outil ? Quelle formation faut-il avoir pour être bioinformaticien ? Et à quoi ressemblerait idéalement un diplôme en bioinformatique ?
On sera tous d’accord qu’il n’y a pas une seule réponse à ces questions...

Découverte :
Open Refine

 Un grand coup de balai
Le nettoyage de données est un défi en bioinformatique. Entre les personnes qui veulent réinventer les standards et les personnes qui ne savent pas les suivre, nous nous trouvons souvent en train de nettoyer, de formater et de changer la structure de nos données pour qu'elles soient conformes à une certaine norme ou compréhensibles par nos programmes.

Il existe une grande variété de types de donnés, et l'un des plus couramment utilisés est le format TSV (Tabulation-Separated Value): il permet de structurer assez facilement les données et reste compatible avec la plupart des outils bioinformatiques...

Découverte :
Python fait la numba

Suite à cet article, j'ai eu envie de comparer les temps d'exécution de Cython et Numba.
Il est toujours intéressant de faire des tests de performances (benchmarks) de temps à autre, pour voir si on ne peut pas améliorer certains de nos algorithmes Cython est un très bon moyen pour optimiser vos programmes, mais il est encore compliqué (pour moi) à appréhender et nécessite de faire des efforts d'apprentissage pour accéder à toute sa puissance...

XSLT by OmniFeed