On souhaite comparer 2 lots A (n valeurs xi) et un lot B (m valeurs yi)
On définit la variable Ux :
On définit la variable Uy de façons symétrique
En fait on peut montrer que Ux+Uy=mn (démonstration exposée au $3) donc quand on a calculé Ux on obtient très facilement Uy par mn-Ux.
La variable de décision lors d'un test est U=min(Ux;Uy).
On verra en fin de paragraphe dans les démonstrations qu'il existe une façon de calculer U en utilisant la somme des rangs des 2 lots ... c'est plus simple quand on calcule à la main, mais ça ne change pas le résultat de U. Et comme on utlise des logiciels ...
Soit un lot A (n=5 valeurs xi) et un lot B (m=5 valeurs yi) mesurés pour la grandeur G
Lot A, ordonné |
5,1 |
6,0 |
7,4 |
8,0 |
11,0 |
Lot B, ordonné |
6,2 |
7,4 |
8,7 |
10,3 |
13,0 |
On classe toutes les valeurs par ordre croissant, les "lot A" sont soulignées :
5,1 6,0 6,2 7,4 7,4 8,0 8,7 10,3 11 13
C'est parti pour le calcul de Ux :
D'où Ux = 0+0+1+2+4+0+0+0,5+0+0=7,5
C'est parti pour le calcul de Uy :
D'où Uy = 2+2+4+4+5+0+0,5+0+0+0=17,5
En fait si on avait appliqué la propriété Ux+Uy=nm, on aurait pu directement dire Uy=5*5-7,5=25-7,5=17,5.
Donc dans notre exemple U=min(Ux,Uy)=7,5. cqfd.
Remarque. Une écriture mathématique de définition de Ux pourrait être :
\( Ux=\sum_{i=1}^{n} \sum_{j=1}^{m} (1~si~y_j < x_i~ou~0,5~si~y_j=x_i~sinon~0) \)On peut, à l'aide d'un exemple, donner une bonne idée de l'allure des fonctions de répartition et lois de densité de probabilité de Ux (ou Uy). Il faut évidemment préciser la taille des 2 échantillons (n et m).
Ci-dessous, les représentations pour n=m=6.
Le principe du test H0 (pas de décalage) versus H1 (décalage) sera donc de regarder aux extrêmes les valeurs de Ux (ou Uy) pour rejeter ou pas H0 au risque α. La figure ci-dessus montre les bornes de rejet de H0 (à droite et à gauche) pour les risques α 0,05 (5%) et 0,01 (1%). On aura là un test bilatéral très classique. En fait comme on n'est pas centré sur une espérance nulle mais à mn/2, et que historiquement on devait lire des tables pas faciles à manipuler, on va utiliser une astuce, on va tabuler U=min(Ux,Uy) et l'adapter à une lecture en test bilatéral (on regarde à droite et à gauche comme montré sur la figure ci-dessus).
Pour ne pas parler des langages R et Python (voir paragraphe 4), on trouve de bons calculateurs des statistiques de Mann et Whitney en ligne.
On peut en revenir aussi aux tables statistiques avec valeurs critiques aux risques choisis (0,05 et 0,01).
La variable Wx de Wilcoxon repose aussi sur la notion de rang comme la variable "Ux" de Mann et Whitney. Elle est calculée ainsi :
Et on peut montrer que :
2 échantillon, A (n valeurs xi) et B (m valeurs yi)
$$ Ux=Wx- \frac {n(n+1)}{2} \\ Uy=Wy- \frac {m(m+1)}{2} \\ $$Exemple.
On reprend l'exemple précédent.
Lot A, ordonné |
5,1 |
6,0 |
7,4 |
8,0 |
11,0 |
Lot B, ordonné |
6,2 |
7,4 |
8,7 |
10,3 |
13,0 |
On ordonne en se rappelant les échantillons d'appartenance.
Lot |
A |
A |
B |
A |
B |
A |
B |
B |
A |
B |
somme des rangs |
Ux ou Uy |
Ordre |
5,1 |
6,0 |
6,2 |
7,4 |
7,4 |
8,0 |
8,7 |
10,3 |
11,0 |
13,0 |
||
Rangs |
1 |
2 |
3 |
4,5 |
4,5 |
6 |
7 |
8 |
9 |
10 |
||
Rangs pour A |
1 |
2 |
4,5 |
6 |
9 |
Wx=1+2+4,5+6+9 |
Ux =22,5-(5*6)/2 |
|||||
Rangs pour B |
3 |
4,5 |
7 |
8 |
10 |
Wy=3+4.5+7+8+10 |
Uy =32,5-(5*6)/2 |
Le test de Mann et Whitney est rarement utilisé pour les grands effectifs car pour de tels effectifs on peut souvent tester l'hypothèse de normalité des distribution, l'hypothèse d'homogénéité des variances et donc réaliser un test paramétrique de comparaison de moyenne de type Student. Il est un peu plus puissant.
Mais le test de Mann-Whitney reste possible. Et il y a même une propriété intéressante de Ux et Uy : on approche alors la loi normale (sous H0 vraie) ! La plupart des tables se limitent d'ailleurs aux effectifs de 20 car au-delà l'approximation de loi normale est excellente.
Pour m et n grands, Ux et Uy sont approchés par une loi normale de : \( moyenne=m_U=\frac {nm}{2} \\ écart-type=s_U=\sqrt {\frac {nm(n+m+1)}{12}} \)
On pourra donc obtenir les seuils critiques avec une table de z de loi normale centrée réduite par :
\( |z|=\frac {|Ux-m_u|}{s_U}= \frac {|Uy-m_u|}{s_U}=\frac {|Ux-{\frac {nm}{2}}|} {\sqrt {\frac {nm(n+m+1)}{12}}} = \frac {|Uy-{\frac {nm}{2}}|} {\sqrt {\frac {nm(n+m+1)}{12}}} \)On rappelle par exemple les valeurs critiques pour |z| en test bilatéral, 1,96 pour la seuil de risque 0,05 et 2,58 pour le seuil de risque 0,01.
La plupart des logiciels exécutant le test de Mann-Whitney donne la valeur p-z calculée. Attention, si n et m sont petits (>20), ne pas s'en servir.
Les ex-aequo rendent en fait le test moins puissant (le risque de ne pas rejeter H0). Il existe des calculs de correction...
Pour exemple, le langae R donne le message suivant si il y a des ex-aequo : "Warning message: In wilcox.test.default(vecteur1, vecteur2) : impossible de calculer la p-value exacte avec des ex-aequos".