Introduction : Pourquoi des tests statistiques ?

Ne vous laissez pas submerger par les chiffres | Auteur Gerd Altmann licence CC0
Les tests statistiques sont de puissants outils d’aide à la décision pour le chercheur, qui lui permettent de vérifier des hypothèses expérimentales, avec un certain seuil de probabilité. Ces tests sont simples à appliquer, mais parfois moins simples à comprendre. C’est pourquoi nous allons étudier ensemble ces tests pas à pas afin que vous puissiez comprendre quel test utiliser pour vos données, comment l’appliquer et comment utiliser ces résultats.
Que nous apprennent les tests ?
Les tests permettent de vérifier une hypothèse biologique. Les hypothèses biologiques sont formulées de telle façon que la réponse soit du type vrai/faux. L’hypothèse testée sera toujours l’hypothèse négative : il n’y a pas de corrélation, il n’y a pas de différence etc. Cette hypothèse est alors appelée hypothèse nulle ou H0. L'hypothèse inverse est alors appelée H1.
Exemple 1 : le taux de croissance du plant de riz est plus faible à 20°C qu’à 30°C. Hypothèse H0 : il n’y a pas de différence de croissance à 20°C et 30°C. Autrement dit, nous testerons alors si les éventuelles différences observées entre les données mesurées à 20 et 30°C sont significatives ou dues à la variabilité naturelle de la croissance des plants de riz.
Exemple 2 : L’expression d’un gène est différente en présence de fort taux de nitrates. Hypothèse H0 : il n’y a pas de différence significative d’expression.
Les tests peuvent avoir deux résultats possibles :
- On rejette H0 : cela ne rend pas l’hypothèse contraire H1 vraie mais probable. Il est important de garder à l’esprit que le rejet de H0 peut avoir d’autres causes que les mécanismes invoqués dans l’hypothèse biologique. Dans l’exemple 2 il pourrait s’agir de l’influence des nitrates mais aussi d’autres éléments, comme des éléments du sols réagissant avec les nitrates, des micro-organismes différents etc.
- On ne peut pas rejeter H0 : cela signifie qu’il n’y a pas assez d’éléments montrant que l’hypothèse contraire H1 est vraie, mais cela ne signifie pas qu’elle est fausse.
Quels tests, dans quels cas?
Types de variables
Variables quantitatives ou qualitatives ?
Vos variables sont quantitatives si elles sont issues d'un comptage ou de mesures. Parmi ces variables quantitatives, on distingue les variables discontinues (ou discrètes), des variables continues. Les variables discontinues peuvent prendre un nombre fini de valeurs si on les considère dans un intervalle, comme les comptages qui prennent des valeurs entières et positives. Les variables continues peuvent prendre une infinité de valeurs sur un intervalle, c'est le cas des mesures. Elles sont qualitatives si elles correspondent à une catégorie : couleur, sexe... Les variables qualitatives sont associées aux variables quantitatives discontinues dans le cadre de tests statistiques, chaque variante de la caractéristique analysée pouvant être ordonnée. On distingue les variables qualitatives ordinales des nominales. Les variables ordinales sont regroupées en classes devant être ordonnées dans un ordre particulier : une feuille peut être verte, ce qui est mieux que jaune, ce qui est mieux que marron, dans le cadre d'une étude sur la résistance à la sécheresse.... Les variables nominales identifient des groupes auxquels appartiennent les sujets sans ordre de valeur : un animal peut être mâle ou femelle sans qu'il n'y ait d'ordre de valeur.
Variables échantillonnées de façon indépendante ou appariée ?
Les échantillons sont indépendants s'ils sont pris au hasard dans la population et si la variabilité concerne des individus différents : dans l'exemple 2, on cultive en parallèle plusieurs groupes de plantes à différents taux de nitrates. Les échantillons sont appariés si la variabilité concerne les mêmes individus : dans l'exemple 2, on cultive un groupe de plantes à un certain taux de nitrates, puis à un autre etc.
Types de tests
Test bilatéral ou unilatéral?
Un test bilatéral permet d’étudier une corrélation, qu'elle soit positive ou négative. On pourrait utiliser ce type de test dans l’exemple 2 pour déterminer si les nitrates ont une influence sur l’expression d’un gène. Un test unilatéral permet d’étudier une corrélation soit positive soit négative. Dans l’exemple 1, on ne s’intéresse qu’à la corrélation positive entre la température et la croissance de la plante. La plupart des tests permettent les tests bilatéraux et unilatéraux mais ce n'est pas le cas de tous.
Test paramétrique ou tests non paramétrique ?
Les tests paramétriques imposent de fortes contraintes sur les données testées, telles que la normalité des distributions ou l'égalité des variances entre les deux groupes étudiés. Les tests paramétriques sont les plus puissants, mais ces conditions peuvent être difficiles à satisfaire, notamment sur les petits jeux de données. Les tests non paramétriques n'imposent pas de telles contraintes hormis celles nécessaires à toute analyse de données : les sujets de l'échantillon doivent avoir été pris de façon indépendante et aléatoire dans la population, et chaque individu doit être indépendant des autres individus de l'échantillon. Dans l'exemple d'un sondage, les sujets doivent être choisis au hasard (tout âge, sexe, origine etc.) prélevés indépendamment : plusieurs endroits/modes d'interrogation (métro en heure de pointe ET supermarché ET site internet etc.) et doivent être indépendants les uns des autres (autant que possible, pas de membres de la même famille, pas de communication préalable entre les individus afin que les résultats de l'un n'influencent pas les résultats d'un autre).
Types d'analyses
Analyse univariée ou analyse multivariée ?
Les analyses univariées correspondent à l'analyse d'une seule variable. Il peut s'agir par exemple de la comparaison d'une caractéristique entre plusieurs populations, comme dans l'exemple 1 le taux de croissance du riz dans deux environnements : à 20°C et 30°C. Il peut aussi s'agir de la concordance d'une observation avec une loi générale, dans ce cas, on analyse une seule variable sur un seul échantillon. Exemple : on sait que la prévalence des yeux bleus dans la population générale est de 10% et on veut savoir si le gène des yeux bleus est lié à celui des cheveux blonds. On va donc analyser le taux d'yeux bleus chez un échantillon de blonds, et déterminer si il est compatible avec une prévalence de 10%. Les analyses multivariées correspondent quant à elles à l'analyse de deux variables : le facteur d'étude et la variable de réponse. Dans l'exemple 2 le facteur d'étude est quantitatif (taux de nitrates) ainsi que la variable de réponse (taux d'expression du gène). Dans le cas des analyses univariées, on choisira son test statistique selon le schéma suivant :

Serahline (cc-by-sa ) d'après : Introduction aux statistiques - © 1996, Ramousse R., Le Berre M. & Le Guelte L.
Dans le cas des analyses multivariées :
La plupart des tests, si ce n'est tous, sont disponibles sous R et si vous désirez vous y plonger plus en détails ils sont très bien documentés sur internet. Je ne les détaillerai donc pas ici afin de ne pas vous étouffer sous les formules.
Déroulement du test et analyse des résultats
Quelque soit le test que vous sélectionnez, le déroulement sera toujours le même. Après la première étape de définition des hypothèses et des variables, il est important de définir le seuil de rejet de H0 : le seuil alpha doit être déterminé par le scientifique en fonction de son besoin de fiabilité du résultat. Par exemple en choisissant un seuil à 0.05, on décide de rejeter H0 si il y a moins de 5% de chance qu'elle soit vraie.
Nous allons calculer alors la statistique de test. La statistique de test est un système de calcul défini par le test utilisé et basé sur les valeurs mesurées. Il comporte une formule et souvent des estimateurs. Ces estimateurs sont des fonctions permettant d'estimer un paramètre inconnu (tel que la prévalence d'un caractère dans la population quand on ne possède sa prévalence que dans un échantillon).
La statistique de test (ST) suit une loi de probabilité définie par H0. Elle peut être représentée par exemple pour un test unilatéral par la courbe suivante:
La ST étudiée est alors comparée à cette loi de probabilité, et la p-valeur, résultat du test, est calculée par l'aire sous la courbe entre la ST observée et l'extremum de l'intervalle : il s'agit de la probabilité d'observer des valeurs plus extrêmes si H0 est vraie. La p-valeur sera donnée en fonction du test utilisé, soit par une formule soit par une table de résultats. Si la p-valeur est inférieure au seuil alpha, alors on rejette H0, si elle est supérieure, alors on ne peut pas rejeter H0.
Dans le cas d'un test unilatéral, on ne considérera le seuil alpha que d'un coté de la distribution comme dans la figure précédente (ex: 0.05 à droite et ST observée positive), puisqu'on ne s'intéresse ici qu'à une corrélation positive. Pour un test bilatéral on le considérera des deux côtés de la distribution puisqu'on ne s'occupe pas du signe (ex: 0.025 de chaque côté pour un risque de 0.05 et quelque soit le signe de la ST observée).
Attention : Une p-valeur n'apporte aucune information sur le degré de différence ou de ressemblance, une p-valeur très grande n'indique pas une différence très grande entre deux échantillons.
Il est aussi important de se rappeler qu'aucun test n'est parfait et qu'il peut y avoir de nombreuses sources d'erreurs. Les erreurs possibles sont de deux types lors des tests statistiques :
- L'erreur de première espèce ou risque alpha : il s'agit du risque de trouver une différence significative alors qu'il n'y en a pas, et donc de rejeter H0 alors que H0 est vraie (Faux positifs).
- L'erreur de seconde espèce ou risque beta : il s'agit du risque de ne pas détecter de différence significative alors qu'elle existe et donc de ne pas rejeter H0 alors que H1 est vraie (Faux négatifs). La puissance statistique d'un test est définie par la formule 1-beta et permet d'évaluer sa capacité à mettre en évidence une différence significative lorsqu'elle existe (sensibilité).
Il convient alors de traiter ces résultats avec précaution. De même, évitez la répétition de tests statistiques, les risques d'erreurs se multipliant quand les tests s'additionnent.
Sources
Livres
- Statistiques Epidémiologie - 2011, T. Ancelle (Je vous le recommande, très clair pour les non initiés et plein d'infos) disponible ici
Sites internet
- Introduction aux statistiques - © 1996, Ramousse R., Le Berre M. & Le Guelte L
- http://marne.u707.jussieu.fr/biostatgv/?module=tests
- http://foucart.thierry.free.fr/StatPC/
Autres références intéressantes
Comprendre et réaliser les tests statistiques à l'aide de R : Manuel de biostatistique, Gaël Millot en vente ici
Merci aux gentils relecteurs : Nico M., Norore et Bu pour leurs conseils et leurs remarques constructives.
[edit] : Suite aux commentaires, l'article a été quelque peu modifié. Merci à vous.
Julien Delafontaine
octobre 9, 2013 à 10:53
J'avais jamais entendu parler du test de Walsh et il n'est même pas mentionné sur Wikipedia. Pourtant il existe et prétend être comparable au Student pour de petites populations normales. Quelqu'un sait pourquoi il est si peu connu? Mauvaise performance?
nallias
octobre 11, 2013 à 10:30
ça semble correspondre à http://fr.wikipedia.org/wiki/Test_t_de_Welch
Julien Delafontaine
octobre 12, 2013 à 1:50
Le Welch suppose que les populations sont normales, comme celui de Student. Ce ne serait pas la bonne case du tableau.
tflutre
octobre 11, 2013 à 4:18
"La p-valeur est la probabilité d'observer les variables mesurées si H0 est vraie": non, la p-valeur est la probabilité d'observer une valeur de la statistique de test obtenue sur des données futures aussi, ou plus, extrême que celle obtenue sur les variables observées si H0 est vraie.
Si on note T(Y) la valeur de la statistique de test sur les données réellement observées, Y, et T(Y_futur) la valeur de la statistique de test sur des données non-observées, Y_futur, la p-valeur s'écrit: p = Pr[T(Y_futur) >= T(Y) | H0].
Le fait que la formule mentionne Y_futur signifie que la p-valeur "utilise" des données qui n'ont jamais été observées (!). En plus de cela, il y a quantité d'autres arguments mis en avant pour ne pas forcément utiliser par défaut les p-valeurs, mais aussi calculer les "facteurs de Bayes" lorsque l'on fait un test d'hypothèse.
Voir par exemple "Calibration of p values for testing precise null hypotheses" de Selke, Bayarri & Berger, The American Statistician 2001.
Pour une application en biologie, voir "Bayesian statistical methods for genetic association studies", Stephens & Balding, Nat Rev Genet 2009.
Julien Delafontaine
octobre 12, 2013 à 1:56
tflutre a raison et c'est important de corriger la définition.
Loic
octobre 23, 2013 à 4:53
Bon tutoriel. Juste une remarque, à quoi correspond la "distribution normale" ? Sauf erreur de ma part, pour la comparaison des moyennes, il faut que la distribution des moyennes soit normale, pas celle des données. Or, la distribution des moyennes est normale si:
- les données sont normales
- l'échantillon est de grande taille (et dans ce cas quelque soit la distribution des données)
C'est le contenu du Théorème central limite, je crois.
Julien Delafontaine
octobre 23, 2013 à 6:57
Certains tests demandent que les données soient (à peu près) distribuées selon une loi normale. Souvent ce n'est pas le cas mais le test est assez robuste quand même pour admettre un biais.
En ce qui concerne la "distribution des moyennes", le théorème central limite dit que l'estimateur usuel de la moyenne (qu'on utilise pour nos notes à l'école), qui est une variable aléatoire, suit asymptotiquement une loi normale - sous nos conditions habituelles -, donc on peut considérer c'est toujours le cas quand l'échantillon est assez grand. La véritable moyenne, elle, n'a pas de distribution puisque c'est juste un nombre inconnu.
De toute façon, l'hypothèse de normalité concerne bien les données. On la vérifie d'habitude avec un QQ-plot, par exemple (qqnorm dans R).
J'espère que je dis pas trop de bêtises, je suis pas un pro des stats non plus.
Paatz
décembre 30, 2016 à 4:29
Je sais pas si ce flux de commentaire est toujours actif, mais je tente quand même. Lorsqu'on a plusieurs facteurs d'étude (plusieurs pour étudier le même concept). Peut-on analyser les données avec les mêmes tests ?
Merci de votre réponse !