Archives par tags: csv

Découverte :
Bioconvert - simplifier les conversions de formats

Bioconvert

Qui n'a jamais eu à convertir un fichier de données biologiques dans un autre format ? Il y a bien sur le classique fastq vers fasta, pour lequel nombre d'entre nous ont codé un convertisseur "maison", pas forcément optimal. D'autres formats sont parfois plus problématiques, par exemple la conversion vers et depuis GFF2/GFF3. De ces différents constats − convertisseurs "maison" (donc pas toujours parfaits), grande diversité de formats (parfois très complexes et peu documentés) nouveaux formats ou formats obsolètes, etc − est née l'idée de créer un outil de conversion dédié aux formats utilisés en bioinformatique : Bioconvert...

Didacticiel :
Écrire son parseur à la main — chroniques d'une mauvaise bonne idée

Partie 1
Où l'on prend conscience de l'existence de standards, et de leur nécessité.

Tout petit programme s'éveillant au monde se trouvera un jour face à ses obligations : s’interfacer avec ce dernier. La lumière extérieure devra alors pénétrer son petit antre, apportant malicieusement l'information de mille autres petits programmes, si hétéroclites et désordonnés que nul ne sais vraiment qui fait quoi...

Découverte :
Open Refine

 Un grand coup de balai
Le nettoyage de données est un défi en bioinformatique. Entre les personnes qui veulent réinventer les standards et les personnes qui ne savent pas les suivre, nous nous trouvons souvent en train de nettoyer, de formater et de changer la structure de nos données pour qu'elles soient conformes à une certaine norme ou compréhensibles par nos programmes.

Il existe une grande variété de types de donnés, et l'un des plus couramment utilisés est le format TSV (Tabulation-Separated Value): il permet de structurer assez facilement les données et reste compatible avec la plupart des outils bioinformatiques...