3 ans de bioinformatique communautaire

Voilà on l'a fait ! Nous venons d'acquérir notre Licence en blog bioinformatique mention communauté francophone de Geekus biologicus. Merci à tous de nous suivre, de promouvoir nos articles et d'interagir avec nous par le biais des commentaires.

Nous avons volontairement stoppé la publication des articles en ce début d'année afin de nous concentrer sur la restructuration de l'équipe et le planning de parution d'articles.

Après l'appel du début d'année lancé sur la liste mail SFBI, nous comptons un peu plus de 50 contributeurs dans l'équipe. Les parutions repartiront à partir de la semaine prochaine et on commencera d'ailleurs très fort avec un didacticiel sur l'incontournable analyse en composantes principales (ACP).

Le compte à rebours est donc lancé jusqu'à mercredi prochain. En attendant, on va aller souffler nos bougies !

Merci pour votre soutien.

Yoann M. pour bioinfo-fr.net

Édito

Actualité :
Ecole doctorale Française en Bio-informatique: Les dates à ne pas manquer

En France, pour faire une thèse, il faut dans la plus grande partie des cas candidater à une école doctorale. Ces écoles, souvent assignées à une ville ou à une région, ont chacune leurs propres emplois du temps et leurs propres règles. Nous vous proposons ici une liste des dates à ne pas manquer pour s'inscrire à certaines d'entre elles.

/!\ : Les dates présentées ici sont celles de l'année 2015 à condition que le site web associé à l'école soit à jour...

Découverte :
iPath partout !

Depuis quelques mois j'utilise un outil nommé iPath2.0 qui peut être très utile pour certains.

Présentation de l'outil
iPath2.0 est un outil en ligne, accessible à l'adresse http://pathways.embl.de/iPath2.cgi. Son principal intérêt est la visualisation et l'analyse de voies métabolique.

Brèves :
Former et se former en bioinformatique avec GOBLET !

Dans cet article, je vous présenterai un nouveau site qui peut être intéressant aussi bien pour les étudiants que pour les enseignants, voire également pour les bioinformaticiens déjà en fonction. Ici je ne vous noierai pas sous les lignes de code, mais je vous décrirai ce que le portail GOBLET vous propose en terme d'exercice. Prêts ? À vos claviers !
À propos de GOBLET
GOBLET, the Global Organisation for Bioinformatics Learning, Education and Training, est une fondation dont les mission sont, entre autres, de :

fournir un support global de formation à l'intention des étudiants et des formateurs en bioinformatique au travers d'un réseau structuré et stable ;
faciliter les capacités de développement en bioinformatique dans tous les pays ;
développer des standards et des guides pour la formation en bioinformatique...

Découverte :
L'analyse en composantes principales (avec R)

L'ACP, ou Analyse en Composantes Principales, est une méthode d'exploration de données qui consiste à réduire la dimensionnalité du problème pour en extraire l'essentiel. Par une projection dans un espace plus petit, on réduit le nombre de variables, et si on réduit suffisamment on peut en faire un outil de diagnostic graphique. Comme c'est une projection, il est important de comprendre qu'on perd de l'information dans le processus, mais cela permet d'interpréter plus facilement les données...

Opinion :
De la nécessité d’une pratique collaborative en bioinformatique

Depuis l’avènement des algorithmes d’alignement de séquences jusqu’aux outils d’analyses de réseaux de protéines, la bioinformatique se cherche une définition et une place dans la science. Est-ce une discipline ? Est-ce un outil ? Quelle formation faut-il avoir pour être bioinformaticien ? Et à quoi ressemblerait idéalement un diplôme en bioinformatique ?
On sera tous d’accord qu’il n’y a pas une seule réponse à ces questions...

Découverte :
Open Refine

 Un grand coup de balai
Le nettoyage de données est un défi en bioinformatique. Entre les personnes qui veulent réinventer les standards et les personnes qui ne savent pas les suivre, nous nous trouvons souvent en train de nettoyer, de formater et de changer la structure de nos données pour qu'elles soient conformes à une certaine norme ou compréhensibles par nos programmes.

Il existe une grande variété de types de donnés, et l'un des plus couramment utilisés est le format TSV (Tabulation-Separated Value): il permet de structurer assez facilement les données et reste compatible avec la plupart des outils bioinformatiques...

Découverte :
Python fait la numba

Suite à cet article, j'ai eu envie de comparer les temps d'exécution de Cython et Numba.
Il est toujours intéressant de faire des tests de performances (benchmarks) de temps à autre, pour voir si on ne peut pas améliorer certains de nos algorithmes Cython est un très bon moyen pour optimiser vos programmes, mais il est encore compliqué (pour moi) à appréhender et nécessite de faire des efforts d'apprentissage pour accéder à toute sa puissance...

Opinion :
Le recrutement en bioinfo

Oncle Sam le dit : "I want you". Et il n'est pas le seul. En cette période de crise, le marché de la bioinfo se porte plutôt pas trop mal. Cela dit, il y a beaucoup de candidats et on peut facilement passer à coté d'une offre si on ne fait pas attention à quelques détails. C'est pourquoi j'ai eu envie d'écrire ce petit guide sur les étapes du recrutement en bioinfo ; petit guide qui n'a ni la prétention d'être exhaustif, ni de détenir la vérité universelle sur le recrutement...

Actualité :
Les 10 ans du World Community Grid

Le 16 novembre 2014, le World Community Grid (WCG) fête ses 10 ans d’existence. Créé par IBM en 2004, ce projet de grille de calcul distribué par ordinateur se donne pour mission de soutenir des projets de recherche à fins humanitaires. Selon Wikipedia, une grille de calcul est une infrastructure virtuelle "qui exploite la puissance de calcul (processeurs, mémoires, ...) de milliers d'ordinateurs afin de donner l'illusion d'un ordinateur virtuel très puissant"...

Découverte :
Comparaison de structures : le TM-Score

Pour comparer des structures 3D de protéines, nous avons vu le RMSD dans un précédent article. Je vous propose cette semaine de parler du TM-Score décrit par Zhang et Skolnick en 2004.

Les bases
Le TM-Score a été développé afin de calculer la qualité des structures de protéines prédites lors de la compétition CASP5. Le but est donc de comparer une prédiction avec un modèle de référence...

XSLT by OmniFeed