- Le blog participatif de bioinformatique francophone depuis 2012 -

Tests Statistiques : suivez l'guide

Introduction : Pourquoi des tests statistiques ?

Image libre de droits
Ne vous lais­sez pas sub­mer­ger par les chiffres | Auteur Gerd Alt­mann licence CC0

Les tests sta­tis­tiques sont de puis­sants outils d’aide à la déci­sion pour le cher­cheur, qui lui per­mettent de véri­fier des hypo­thèses expé­ri­men­tales, avec un cer­tain seuil de pro­ba­bi­li­té. Ces tests sont simples à appli­quer, mais par­fois moins simples à com­prendre. C’est pour­quoi nous allons étu­dier ensemble ces tests pas à pas afin que vous puis­siez com­prendre quel test uti­li­ser pour vos don­nées, com­ment l’appliquer et com­ment uti­li­ser ces résul­tats.

Que nous apprennent les tests ?

Les tests per­mettent de véri­fier une hypo­thèse bio­lo­gique. Les hypo­thèses bio­lo­giques sont for­mu­lées de telle façon que la réponse soit du type vrai/​faux. L’hypothèse tes­tée sera tou­jours l’hypothèse néga­tive : il n’y a pas de cor­ré­la­tion, il n’y a pas de dif­fé­rence etc. Cette hypo­thèse est alors appe­lée hypo­thèse nulle ou H0. L'hypothèse inverse est alors appe­lée H1.

Exemple 1 : le taux de crois­sance du plant de riz est plus faible  à 20°C qu’à  30°C. Hypo­thèse H0 : il n’y a pas de dif­fé­rence de crois­sance  à 20°C et  30°C.  Autre­ment dit, nous tes­te­rons alors si les éven­tuelles dif­fé­rences obser­vées entre les don­nées mesu­rées à 20 et 30°C sont signi­fi­ca­tives ou dues à la varia­bi­li­té natu­relle de la crois­sance des plants de riz.

Exemple 2 : L’expression d’un gène est dif­fé­rente en pré­sence de fort taux de nitrates. Hypo­thèse H0 : il n’y a pas de dif­fé­rence signi­fi­ca­tive d’expression.

Les tests peuvent avoir deux résul­tats pos­sibles :

  1. On rejette H0 : cela ne rend pas l’hypothèse contraire H1 vraie mais pro­bable. Il est impor­tant de gar­der à l’esprit que le rejet de H0 peut avoir d’autres causes que les méca­nismes invo­qués dans l’hypothèse bio­lo­gique. Dans l’exemple 2 il pour­rait s’agir de l’influence des nitrates mais aus­si d’autres élé­ments, comme des élé­ments du sols réagis­sant avec les nitrates, des micro-orga­nismes dif­fé­rents etc.
  2. On ne peut pas reje­ter H0 : cela signi­fie qu’il n’y a pas assez d’éléments mon­trant que l’hypothèse contraire H1 est vraie, mais cela ne signi­fie pas qu’elle est fausse.

Quels tests, dans quels cas ?

Types de variables

Variables quantitatives ou qualitatives ?

Vos variables sont quan­ti­ta­tives si elles sont issues d'un comp­tage ou de mesures. Par­mi ces variables quan­ti­ta­tives, on dis­tingue les variables dis­con­ti­nues (ou dis­crètes), des variables conti­nues. Les variables dis­con­ti­nues peuvent prendre un nombre fini de valeurs si on les consi­dère dans un inter­valle, comme les comp­tages qui prennent des valeurs entières et posi­tives. Les variables conti­nues peuvent prendre une infi­ni­té de valeurs sur un inter­valle, c'est le cas des mesures. Elles sont qua­li­ta­tives si elles cor­res­pondent à une caté­go­rie : cou­leur, sexe… Les variables qua­li­ta­tives sont asso­ciées aux variables quan­ti­ta­tives dis­con­ti­nues dans le cadre de tests sta­tis­tiques, chaque variante de la carac­té­ris­tique ana­ly­sée pou­vant être ordon­née. On dis­tingue les variables qua­li­ta­tives ordi­nales des nomi­nales. Les variables ordi­nales sont regrou­pées en classes devant être ordon­nées dans un ordre par­ti­cu­lier : une feuille peut être verte, ce qui est mieux que jaune, ce qui est mieux que mar­ron, dans le cadre d'une étude sur la résis­tance à la séche­resse.… Les variables nomi­nales iden­ti­fient des groupes aux­quels appar­tiennent les sujets sans ordre de valeur :  un ani­mal peut être mâle ou femelle sans qu'il n'y ait d'ordre de valeur.

Variables échantillonnées de façon indépendante ou appariée ?

Les échan­tillons sont indé­pen­dants s'ils sont pris au hasard dans la popu­la­tion et si la varia­bi­li­té concerne des indi­vi­dus dif­fé­rents : dans l'exemple 2, on cultive en paral­lèle plu­sieurs groupes de plantes à dif­fé­rents taux de nitrates. Les échan­tillons sont appa­riés si la varia­bi­li­té concerne les mêmes indi­vi­dus : dans l'exemple 2, on cultive un groupe de plantes à un cer­tain taux de nitrates, puis à un autre etc.

Types de tests

Test bilatéral ou unilatéral ?

Un test bila­té­ral per­met d’étudier une cor­ré­la­tion, qu'elle soit posi­tive ou néga­tive. On pour­rait uti­li­ser ce type de test dans l’exemple 2 pour déter­mi­ner si les nitrates ont une influence sur l’expression d’un gène. Un test uni­la­té­ral per­met d’étudier une cor­ré­la­tion soit posi­tive soit néga­tive. Dans l’exemple 1, on ne s’intéresse qu’à la cor­ré­la­tion posi­tive entre la tem­pé­ra­ture et la crois­sance de la plante. La plu­part des tests per­mettent les tests bila­té­raux et uni­la­té­raux mais ce n'est pas le cas de tous.

Test paramétrique ou tests non paramétrique ?

Les tests para­mé­triques imposent de fortes contraintes sur les don­nées tes­tées, telles que la nor­ma­li­té des dis­tri­bu­tions ou l'égalité des variances entre les deux groupes étu­diés. Les tests para­mé­triques sont les plus puis­sants, mais ces condi­tions peuvent être dif­fi­ciles à satis­faire, notam­ment sur les petits jeux de don­nées. Les tests non para­mé­triques n'imposent pas de telles contraintes hor­mis celles néces­saires à toute ana­lyse de don­nées :  les sujets de l'échantillon doivent avoir été pris de façon indé­pen­dante et  aléa­toire dans la popu­la­tion, et chaque indi­vi­du doit être indé­pen­dant des autres indi­vi­dus de l'échantillon. Dans l'exemple d'un son­dage, les sujets doivent être choi­sis au hasard (tout âge, sexe, ori­gine etc.) pré­le­vés indé­pen­dam­ment : plu­sieurs endroits/​modes d'interrogation (métro en heure de pointe ET super­mar­ché ET site inter­net etc.) et doivent être indé­pen­dants les uns des autres (autant que pos­sible, pas de membres de la même famille, pas de com­mu­ni­ca­tion préa­lable entre les indi­vi­dus afin que les résul­tats de l'un n'influencent pas les résul­tats d'un autre).

Types d'analyses

Analyse univariée ou analyse multivariée ?

Les ana­lyses uni­va­riées cor­res­pondent à  l'analyse d'une seule variable. Il peut s'agir par exemple de la com­pa­rai­son d'une carac­té­ris­tique entre plu­sieurs popu­la­tions, comme dans l'exemple 1 le taux de crois­sance du riz dans deux envi­ron­ne­ments : à 20°C et 30°C. Il peut aus­si s'agir de la concor­dance d'une obser­va­tion avec une loi géné­rale, dans ce cas, on ana­lyse une seule variable sur un seul échan­tillon. Exemple : on sait que la pré­va­lence des  yeux bleus dans la popu­la­tion géné­rale est de 10% et on veut savoir si le gène des yeux bleus est lié à celui des che­veux blonds. On va donc ana­ly­ser le taux d'yeux bleus chez un échan­tillon de blonds, et déter­mi­ner si il est com­pa­tible avec une pré­va­lence de 10%. Les ana­lyses mul­ti­va­riées cor­res­pondent quant à elles à l'analyse de deux variables : le fac­teur d'étude et la variable de réponse. Dans l'exemple 2 le fac­teur d'étude est quan­ti­ta­tif (taux de nitrates)  ain­si que la variable de réponse (taux d'expression du gène). Dans le cas des ana­lyses uni­va­riées, on choi­si­ra son test sta­tis­tique selon le sché­ma sui­vant :

D'après : Introduction aux statistiques - © 1996, Ramousse R., Le Berre M. & Le Guelte L.
Serah­line (cc-by-sa ) d'après : Intro­duc­tion aux sta­tis­tiques — © 1996, Ramousse R., Le Berre M. & Le Guelte L.

Dans le cas des ana­lyses mul­ti­va­riées :

D'après : http://marne.u707.jussieu.fr/biostatgv/?module=tests
Serah­line (cc-by-sa ) d'après : http://​marne​.u707​.jus​sieu​.fr/​b​i​o​s​t​a​t​g​v​/​?​m​o​d​u​l​e​=​t​e​sts

La plu­part des tests, si ce n'est tous, sont dis­po­nibles sous R et si vous dési­rez vous y plon­ger plus en détails ils sont très bien docu­men­tés sur inter­net. Je ne les détaille­rai donc pas ici afin de ne pas vous étouf­fer sous les for­mules.

Déroulement du test et analyse des résultats

Quelque soit le test que vous sélec­tion­nez, le dérou­le­ment sera tou­jours le même. Après la pre­mière étape de défi­ni­tion des hypo­thèses et des variables, il est impor­tant de défi­nir le seuil de rejet de H0 : le seuil alpha doit être déter­mi­né par le scien­ti­fique en fonc­tion de son besoin de fia­bi­li­té  du résul­tat. Par exemple en choi­sis­sant un seuil à 0.05, on décide de reje­ter H0 si il y a moins de 5% de chance qu'elle soit vraie.

Nous allons cal­cu­ler alors la sta­tis­tique de test.  La sta­tis­tique de test est un sys­tème de cal­cul défi­ni par le test uti­li­sé et basé sur les valeurs mesu­rées. Il com­porte une for­mule et  sou­vent des esti­ma­teurs.  Ces esti­ma­teurs sont des fonc­tions per­met­tant d'estimer un para­mètre incon­nu (tel que la pré­va­lence d'un carac­tère dans la popu­la­tion quand on ne pos­sède sa pré­va­lence que dans un échan­tillon).

La sta­tis­tique de test (ST) suit une loi de pro­ba­bi­li­té défi­nie par H0.  Elle peut être repré­sen­tée par exemple pour un test uni­la­té­ral par la courbe sui­vante :

Rplot
Serah­line (cc-by-sa ) d'après Sta­tis­tiques Epi­dé­mio­lo­gie — 2011, T. Ancelle

La ST étu­diée est alors com­pa­rée à cette loi de pro­ba­bi­li­té, et la p‑valeur, résul­tat du test, est cal­cu­lée par l'aire sous la courbe entre la ST obser­vée et l'extre­mum de l'intervalle : il s'agit de la pro­ba­bi­li­té d'observer des valeurs plus extrêmes si H0 est vraie. La p‑valeur sera don­née en fonc­tion du test uti­li­sé, soit par une for­mule soit par une table de résul­tats. Si la p‑valeur est infé­rieure au seuil alpha, alors on rejette H0, si elle est supé­rieure, alors on ne peut pas reje­ter H0.

Dans le cas d'un test uni­la­té­ral, on ne consi­dé­re­ra le seuil alpha que d'un coté de la dis­tri­bu­tion comme dans la figure pré­cé­dente (ex : 0.05 à droite et ST obser­vée posi­tive), puisqu'on ne s'intéresse ici qu'à une cor­ré­la­tion posi­tive. Pour un test bila­té­ral on le consi­dé­re­ra  des deux côtés de la dis­tri­bu­tion puisqu'on ne s'occupe pas du signe (ex : 0.025 de chaque côté pour un risque de 0.05 et quelque soit le signe de la ST obser­vée).

Atten­tion : Une p‑valeur n'apporte aucune infor­ma­tion sur le degré de dif­fé­rence ou de res­sem­blance, une p‑valeur très grande n'indique pas une dif­fé­rence très grande entre deux échan­tillons.

Il est aus­si  impor­tant de se rap­pe­ler qu'aucun test n'est par­fait et qu'il peut y avoir de nom­breuses sources d'erreurs. Les erreurs pos­sibles sont de deux types lors des tests sta­tis­tiques :

  • L'erreur de pre­mière espèce ou risque alpha : il s'agit du risque de trou­ver une dif­fé­rence signi­fi­ca­tive alors qu'il n'y en a pas, et donc de reje­ter H0 alors que H0 est vraie (Faux posi­tifs).
  • L'erreur de seconde espèce ou risque beta : il s'agit du risque de ne pas détec­ter de dif­fé­rence signi­fi­ca­tive alors qu'elle existe et donc de ne pas reje­ter H0 alors que H1 est vraie (Faux néga­tifs). La puis­sance sta­tis­tique d'un test est défi­nie par la for­mule 1‑beta et per­met d'évaluer sa capa­ci­té à mettre en évi­dence une dif­fé­rence signi­fi­ca­tive lorsqu'elle existe (sen­si­bi­li­té).

Il convient alors de trai­ter ces résul­tats avec pré­cau­tion. De même, évi­tez la répé­ti­tion de tests sta­tis­tiques, les risques d'erreurs se mul­ti­pliant quand les tests s'additionnent.

Sources

Livres

  • Sta­tis­tiques Epi­dé­mio­lo­gie — 2011, T. Ancelle (Je vous le recom­mande, très clair pour les non ini­tiés et plein d'infos) dis­po­nible ici

Sites inter­net

Autres références intéressantes

Com­prendre et réa­li­ser les tests sta­tis­tiques à l'aide de R : Manuel de bio­sta­tis­tique, Gaël Mil­lot en vente ici

Mer­ci aux gen­tils relec­teurs  :  Nico M., Norore et Bu pour leurs conseils et leurs remarques construc­tives.

[edit] : Suite aux com­men­taires, l'article a été quelque peu modi­fié. Mer­ci à vous.




Commentaires

8 réponses à “Tests Statistiques : suivez l'guide”

  1. Avatar de Julien Delafontaine
    Julien Delafontaine

    J'avais jamais enten­du par­ler du test de Walsh et il n'est même pas men­tion­né sur Wiki­pe­dia. Pour­tant il existe et pré­tend être com­pa­rable au Student pour de petites popu­la­tions nor­males. Quelqu'un sait pour­quoi il est si peu connu ? Mau­vaise per­for­mance ?

      1. Avatar de Julien Delafontaine
        Julien Delafontaine

        Le Welch sup­pose que les popu­la­tions sont nor­males, comme celui de Student. Ce ne serait pas la bonne case du tableau.

  2. Avatar de tflutre

    "La p‑valeur est la pro­ba­bi­li­té d'observer les variables mesu­rées si H0 est vraie": non, la p‑valeur est la pro­ba­bi­li­té d'observer une valeur de la sta­tis­tique de test obte­nue sur des don­nées futures aus­si, ou plus, extrême que celle obte­nue sur les variables obser­vées si H0 est vraie.
    Si on note T(Y) la valeur de la sta­tis­tique de test sur les don­nées réel­le­ment obser­vées, Y, et T(Y_futur) la valeur de la sta­tis­tique de test sur des don­nées non-obser­vées, Y_​futur, la p‑valeur s'écrit : p = Pr[T(Y_futur) >= T(Y) | H0].
    Le fait que la for­mule men­tionne Y_​futur signi­fie que la p‑valeur "uti­lise" des don­nées qui n'ont jamais été obser­vées (!). En plus de cela, il y a quan­ti­té d'autres argu­ments mis en avant pour ne pas for­cé­ment uti­li­ser par défaut les p‑valeurs, mais aus­si cal­cu­ler les "fac­teurs de Bayes" lorsque l'on fait un test d'hypothèse.
    Voir par exemple "Cali­bra­tion of p values for tes­ting pre­cise null hypo­theses" de Selke, Bayar­ri & Ber­ger, The Ame­ri­can Sta­tis­ti­cian 2001.
    Pour une appli­ca­tion en bio­lo­gie, voir "Baye­sian sta­tis­ti­cal methods for gene­tic asso­cia­tion stu­dies", Ste­phens & Bal­ding, Nat Rev Genet 2009.

    1. Avatar de Julien Delafontaine
      Julien Delafontaine

      tflutre a rai­son et c'est impor­tant de cor­ri­ger la défi­ni­tion.

  3. Bon tuto­riel. Juste une remarque, à quoi cor­res­pond la "dis­tri­bu­tion nor­male" ? Sauf erreur de ma part, pour la com­pa­rai­son des moyennes, il faut que la dis­tri­bu­tion des moyennes soit nor­male, pas celle des don­nées. Or, la dis­tri­bu­tion des moyennes est nor­male si :
    — les don­nées sont nor­males
    — l'échantillon est de grande taille (et dans ce cas quelque soit la dis­tri­bu­tion des don­nées)
    C'est le conte­nu du Théo­rème cen­tral limite, je crois.

    1. Cer­tains tests demandent que les don­nées soient (à peu près) dis­tri­buées selon une loi nor­male. Sou­vent ce n'est pas le cas mais le test est assez robuste quand même pour admettre un biais.

      En ce qui concerne la "dis­tri­bu­tion des moyennes", le théo­rème cen­tral limite dit que l'estimateur usuel de la moyenne (qu'on uti­lise pour nos notes à l'école), qui est une variable aléa­toire, suit asymp­to­ti­que­ment une loi nor­male — sous nos condi­tions habi­tuelles -, donc on peut consi­dé­rer c'est tou­jours le cas quand l'échantillon est assez grand. La véri­table moyenne, elle, n'a pas de dis­tri­bu­tion puisque c'est juste un nombre incon­nu.

      De toute façon, l'hypothèse de nor­ma­li­té concerne bien les don­nées. On la véri­fie d'habitude avec un QQ-plot, par exemple (qqnorm dans R).

      J'espère que je dis pas trop de bêtises, je suis pas un pro des stats non plus.

  4. Je sais pas si ce flux de com­men­taire est tou­jours actif, mais je tente quand même. Lorsqu'on a plu­sieurs fac­teurs d'étude (plu­sieurs pour étu­dier le même concept). Peut-on ana­ly­ser les don­nées avec les mêmes tests ?

    Mer­ci de votre réponse !

Laisser un commentaire