Introduction : Pourquoi des tests statistiques ?
Les tests statistiques sont de puissants outils d’aide à la décision pour le chercheur, qui lui permettent de vérifier des hypothèses expérimentales, avec un certain seuil de probabilité. Ces tests sont simples à appliquer, mais parfois moins simples à comprendre. C’est pourquoi nous allons étudier ensemble ces tests pas à pas afin que vous puissiez comprendre quel test utiliser pour vos données, comment l’appliquer et comment utiliser ces résultats.
Que nous apprennent les tests ?
Les tests permettent de vérifier une hypothèse biologique. Les hypothèses biologiques sont formulées de telle façon que la réponse soit du type vrai/faux. L’hypothèse testée sera toujours l’hypothèse négative : il n’y a pas de corrélation, il n’y a pas de différence etc. Cette hypothèse est alors appelée hypothèse nulle ou H0. L'hypothèse inverse est alors appelée H1.
Exemple 1 : le taux de croissance du plant de riz est plus faible à 20°C qu’à 30°C. Hypothèse H0 : il n’y a pas de différence de croissance à 20°C et 30°C. Autrement dit, nous testerons alors si les éventuelles différences observées entre les données mesurées à 20 et 30°C sont significatives ou dues à la variabilité naturelle de la croissance des plants de riz.
Exemple 2 : L’expression d’un gène est différente en présence de fort taux de nitrates. Hypothèse H0 : il n’y a pas de différence significative d’expression.
Les tests peuvent avoir deux résultats possibles :
- On rejette H0 : cela ne rend pas l’hypothèse contraire H1 vraie mais probable. Il est important de garder à l’esprit que le rejet de H0 peut avoir d’autres causes que les mécanismes invoqués dans l’hypothèse biologique. Dans l’exemple 2 il pourrait s’agir de l’influence des nitrates mais aussi d’autres éléments, comme des éléments du sols réagissant avec les nitrates, des micro-organismes différents etc.
- On ne peut pas rejeter H0 : cela signifie qu’il n’y a pas assez d’éléments montrant que l’hypothèse contraire H1 est vraie, mais cela ne signifie pas qu’elle est fausse.
Quels tests, dans quels cas ?
Types de variables
Variables quantitatives ou qualitatives ?
Vos variables sont quantitatives si elles sont issues d'un comptage ou de mesures. Parmi ces variables quantitatives, on distingue les variables discontinues (ou discrètes), des variables continues. Les variables discontinues peuvent prendre un nombre fini de valeurs si on les considère dans un intervalle, comme les comptages qui prennent des valeurs entières et positives. Les variables continues peuvent prendre une infinité de valeurs sur un intervalle, c'est le cas des mesures. Elles sont qualitatives si elles correspondent à une catégorie : couleur, sexe… Les variables qualitatives sont associées aux variables quantitatives discontinues dans le cadre de tests statistiques, chaque variante de la caractéristique analysée pouvant être ordonnée. On distingue les variables qualitatives ordinales des nominales. Les variables ordinales sont regroupées en classes devant être ordonnées dans un ordre particulier : une feuille peut être verte, ce qui est mieux que jaune, ce qui est mieux que marron, dans le cadre d'une étude sur la résistance à la sécheresse.… Les variables nominales identifient des groupes auxquels appartiennent les sujets sans ordre de valeur : un animal peut être mâle ou femelle sans qu'il n'y ait d'ordre de valeur.
Variables échantillonnées de façon indépendante ou appariée ?
Les échantillons sont indépendants s'ils sont pris au hasard dans la population et si la variabilité concerne des individus différents : dans l'exemple 2, on cultive en parallèle plusieurs groupes de plantes à différents taux de nitrates. Les échantillons sont appariés si la variabilité concerne les mêmes individus : dans l'exemple 2, on cultive un groupe de plantes à un certain taux de nitrates, puis à un autre etc.
Types de tests
Test bilatéral ou unilatéral ?
Un test bilatéral permet d’étudier une corrélation, qu'elle soit positive ou négative. On pourrait utiliser ce type de test dans l’exemple 2 pour déterminer si les nitrates ont une influence sur l’expression d’un gène. Un test unilatéral permet d’étudier une corrélation soit positive soit négative. Dans l’exemple 1, on ne s’intéresse qu’à la corrélation positive entre la température et la croissance de la plante. La plupart des tests permettent les tests bilatéraux et unilatéraux mais ce n'est pas le cas de tous.
Test paramétrique ou tests non paramétrique ?
Les tests paramétriques imposent de fortes contraintes sur les données testées, telles que la normalité des distributions ou l'égalité des variances entre les deux groupes étudiés. Les tests paramétriques sont les plus puissants, mais ces conditions peuvent être difficiles à satisfaire, notamment sur les petits jeux de données. Les tests non paramétriques n'imposent pas de telles contraintes hormis celles nécessaires à toute analyse de données : les sujets de l'échantillon doivent avoir été pris de façon indépendante et aléatoire dans la population, et chaque individu doit être indépendant des autres individus de l'échantillon. Dans l'exemple d'un sondage, les sujets doivent être choisis au hasard (tout âge, sexe, origine etc.) prélevés indépendamment : plusieurs endroits/modes d'interrogation (métro en heure de pointe ET supermarché ET site internet etc.) et doivent être indépendants les uns des autres (autant que possible, pas de membres de la même famille, pas de communication préalable entre les individus afin que les résultats de l'un n'influencent pas les résultats d'un autre).
Types d'analyses
Analyse univariée ou analyse multivariée ?
Les analyses univariées correspondent à l'analyse d'une seule variable. Il peut s'agir par exemple de la comparaison d'une caractéristique entre plusieurs populations, comme dans l'exemple 1 le taux de croissance du riz dans deux environnements : à 20°C et 30°C. Il peut aussi s'agir de la concordance d'une observation avec une loi générale, dans ce cas, on analyse une seule variable sur un seul échantillon. Exemple : on sait que la prévalence des yeux bleus dans la population générale est de 10% et on veut savoir si le gène des yeux bleus est lié à celui des cheveux blonds. On va donc analyser le taux d'yeux bleus chez un échantillon de blonds, et déterminer si il est compatible avec une prévalence de 10%. Les analyses multivariées correspondent quant à elles à l'analyse de deux variables : le facteur d'étude et la variable de réponse. Dans l'exemple 2 le facteur d'étude est quantitatif (taux de nitrates) ainsi que la variable de réponse (taux d'expression du gène). Dans le cas des analyses univariées, on choisira son test statistique selon le schéma suivant :
Dans le cas des analyses multivariées :
La plupart des tests, si ce n'est tous, sont disponibles sous R et si vous désirez vous y plonger plus en détails ils sont très bien documentés sur internet. Je ne les détaillerai donc pas ici afin de ne pas vous étouffer sous les formules.
Déroulement du test et analyse des résultats
Quelque soit le test que vous sélectionnez, le déroulement sera toujours le même. Après la première étape de définition des hypothèses et des variables, il est important de définir le seuil de rejet de H0 : le seuil alpha doit être déterminé par le scientifique en fonction de son besoin de fiabilité du résultat. Par exemple en choisissant un seuil à 0.05, on décide de rejeter H0 si il y a moins de 5% de chance qu'elle soit vraie.
Nous allons calculer alors la statistique de test. La statistique de test est un système de calcul défini par le test utilisé et basé sur les valeurs mesurées. Il comporte une formule et souvent des estimateurs. Ces estimateurs sont des fonctions permettant d'estimer un paramètre inconnu (tel que la prévalence d'un caractère dans la population quand on ne possède sa prévalence que dans un échantillon).
La statistique de test (ST) suit une loi de probabilité définie par H0. Elle peut être représentée par exemple pour un test unilatéral par la courbe suivante :
La ST étudiée est alors comparée à cette loi de probabilité, et la p‑valeur, résultat du test, est calculée par l'aire sous la courbe entre la ST observée et l'extremum de l'intervalle : il s'agit de la probabilité d'observer des valeurs plus extrêmes si H0 est vraie. La p‑valeur sera donnée en fonction du test utilisé, soit par une formule soit par une table de résultats. Si la p‑valeur est inférieure au seuil alpha, alors on rejette H0, si elle est supérieure, alors on ne peut pas rejeter H0.
Dans le cas d'un test unilatéral, on ne considérera le seuil alpha que d'un coté de la distribution comme dans la figure précédente (ex : 0.05 à droite et ST observée positive), puisqu'on ne s'intéresse ici qu'à une corrélation positive. Pour un test bilatéral on le considérera des deux côtés de la distribution puisqu'on ne s'occupe pas du signe (ex : 0.025 de chaque côté pour un risque de 0.05 et quelque soit le signe de la ST observée).
Attention : Une p‑valeur n'apporte aucune information sur le degré de différence ou de ressemblance, une p‑valeur très grande n'indique pas une différence très grande entre deux échantillons.
Il est aussi important de se rappeler qu'aucun test n'est parfait et qu'il peut y avoir de nombreuses sources d'erreurs. Les erreurs possibles sont de deux types lors des tests statistiques :
- L'erreur de première espèce ou risque alpha : il s'agit du risque de trouver une différence significative alors qu'il n'y en a pas, et donc de rejeter H0 alors que H0 est vraie (Faux positifs).
- L'erreur de seconde espèce ou risque beta : il s'agit du risque de ne pas détecter de différence significative alors qu'elle existe et donc de ne pas rejeter H0 alors que H1 est vraie (Faux négatifs). La puissance statistique d'un test est définie par la formule 1‑beta et permet d'évaluer sa capacité à mettre en évidence une différence significative lorsqu'elle existe (sensibilité).
Il convient alors de traiter ces résultats avec précaution. De même, évitez la répétition de tests statistiques, les risques d'erreurs se multipliant quand les tests s'additionnent.
Sources
Livres
- Statistiques Epidémiologie — 2011, T. Ancelle (Je vous le recommande, très clair pour les non initiés et plein d'infos) disponible ici
Sites internet
- Introduction aux statistiques — © 1996, Ramousse R., Le Berre M. & Le Guelte L
- http://marne.u707.jussieu.fr/biostatgv/?module=tests
- http://foucart.thierry.free.fr/StatPC/
Autres références intéressantes
Comprendre et réaliser les tests statistiques à l'aide de R : Manuel de biostatistique, Gaël Millot en vente ici
Merci aux gentils relecteurs : Nico M., Norore et Bu pour leurs conseils et leurs remarques constructives.
[edit] : Suite aux commentaires, l'article a été quelque peu modifié. Merci à vous.
Laisser un commentaire