Mann-Whitney

A propos de la variable de décision U

1.1 Définitions de Ux, Uy, U et mode de calcul

On souhaite comparer 2 lots A (n valeurs x_i) et un lot B (m valeurs y_i)

On définit la variable Ux :

Pour chaque valeur x_i, on parcourt toutes les valeurs y_i et on compte le nombre de celles qui lui sont strictement inférieures. On somme tous ces nombres.
Pour chaque valeur x_i, on parcourt toutes les valeurs y_i et on compte le nombre de celles qui lui sont égales et on multiplie par 1/2. Et on somme.
Ux est la somme des deux sommes ci-dessus.

On définit la variable Uy de façons symétrique

En fait on peut montrer que Ux+Uy=mn (démonstration exposée au $3) donc quand on a calculé Ux on obtient très facilement Uy par mn-Ux.

La variable de décision lors d'un test est U=min(Ux;Uy).

On verra en fin de paragraphe dans les démonstrations qu'il existe une façon de calculer U en utilisant la somme des rangs des 2 lots ... c'est plus simple quand on calcule à la main, mais ça ne change pas le résultat de U. Et comme on utlise des logiciels ...

Exemple

Soit un lot A (n=5 valeurs x_i) et un lot B (m=5 valeurs y_i) mesurés pour la grandeur G

Lot A, ordonné	5,1	6,0	7,4	8,0	11,0
Lot B, ordonné	6,2	7,4	8,7	10,3	13,0

On classe toutes les valeurs par ordre croissant, les "lot A" sont soulignées :

5,1 6,0 6,2 7,4 7,4 8,0 8,7 10,3 11 13

C'est parti pour le calcul de Ux :

x₁ = 5,1 ; aucun y_i n'est strictement inférieur -> 0
x₂ = 6,0 ; aucun y_i n'est strictement inférieur -> 0
x₃ = 7,4 ; 1 y_i est strictement inférieur -> 1
x₄ = 8,0 ; 2 y_i sont strictement inférieurs -> 2
x₅ = 11,0 ; 4 y_i sont strictement inférieurs -> 4
x₁ = 5,1 ; aucun y_i n'est égal -> 0
x₂ = 6,0 ; aucun y_i n'est égal -> 0
x₃ = 7,4 ; 1 y_i est égal -> 0,5
x₄ = 8,0 ; aucun y_i n'est égal -> 0
x₅ = 11 ; aucun y_i n'est égal -> 0

D'où Ux = 0+0+1+2+4+0+0+0,5+0+0=7,5

C'est parti pour le calcul de Uy :

y₁ = 6,2 ; 2 x_i sont strictement inférieurs -> 2
y₂ = 7,4 ; 2 x_i sont strictement inférieurs -> 2
y₃ = 8,7 ; 4 x_i sont strictement inférieurs -> 4
y₄ = 10,3 ; 4 x_i sont strictement inférieurs -> 4
y₅ = 13 ; 5 x_i sont strictement inférieurs -> 5
y₁ = 6,2 ; aucun x_i n'est égal -> 0
y₂ = 7,4 ; 1 x_i est égal-> 0,5
y₃ = 8,7 ; aucun x_i n'est égal -> 0
y₄ = 10,3 ; aucun x_i n'est égal -> 0
y₅ = 13 ; aucun x_i n'est égal -> 0

D'où Uy = 2+2+4+4+5+0+0,5+0+0+0=17,5

En fait si on avait appliqué la propriété Ux+Uy=nm, on aurait pu directement dire Uy=5*5-7,5=25-7,5=17,5.

Donc dans notre exemple U=min(Ux,Uy)=7,5. cqfd.

Remarque. Une écriture mathématique de définition de Ux pourrait être :

$ Ux=\sum_{i=1}^{n} \sum_{j=1}^{m} (1~si~y_j < x_i~ou~0,5~si~y_j=x_i~sinon~0) $

retour en haut de page

1.3 Propriétés, fonction de répartition et loi de densité de Ux (ou Uy)

Ux et Uy prennent des valeurs entre 0 et nm et avec Ux+Uy=nm
Pour 2 échantillons dont les rangs sont totalement séparés par exemple tous les x_i sont inférieurs à tous les y_i, alors Ux = 0 et Uy = nm.
(si (∀x_i et ∀y_j), x_i < y_j, alors Ux = 0 et Uy = nm.)
Et le symétrique si tous les y_i sont inférieurs aux x_j.
Pour 2 lots de même distribution de probabilité des valeurs dans les deux échantillons (donc sous l'hypothèse H0 de non différence), l'espérance de Ux est égale à celle de Uy est égale à nm/2.
Sous H0, E(Ux)=E(Uy)=nm/2.

On peut, à l'aide d'un exemple, donner une bonne idée de l'allure des fonctions de répartition et lois de densité de probabilité de Ux (ou Uy). Il faut évidemment préciser la taille des 2 échantillons (n et m).

Ci-dessous, les représentations pour n=m=6.

Le principe du test H0 (pas de décalage) versus H1 (décalage) sera donc de regarder aux extrêmes les valeurs de Ux (ou Uy) pour rejeter ou pas H0 au risque α. La figure ci-dessus montre les bornes de rejet de H0 (à droite et à gauche) pour les risques α 0,05 (5%) et 0,01 (1%). On aura là un test bilatéral très classique. En fait comme on n'est pas centré sur une espérance nulle mais à mn/2, et que historiquement on devait lire des tables pas faciles à manipuler, on va utiliser une astuce, on va tabuler U=min(Ux,Uy) et l'adapter à une lecture en test bilatéral (on regarde à droite et à gauche comme montré sur la figure ci-dessus).

retour en haut de page

1.4 Propriétés de U=min(Ux,Uy) et test bilatéral de comparaison de 2 lots indépendants

Comme U=min(Ux,Uy) on a : 0 < U < nm/2. En effet Ux+Uy=mn.
Et ainsi sous l'hypothèse H0, en regardant aux extrêmes "à gauche" et "à droite" (test bilatéral) :
P((Ux ≤a) ou (Ux ≥ mn-a)) = P((Ux ≤a) ou (Uy ≤a)) = 2P(Ux ≤a).
Donc, sous l'hypothèse H0, en définissant U=min(Ux,Uy), pour tout réel a dans [0 ; nm/2], on a :
P((Ux ≤a) ou (Ux ≥ mn-a)) = 2P(Ux ≤a) = p(U ≤a ). Et c'est cette dernière valeur qu'on regardera en test bilatéral.
Attention : Il faudra bien faire attention de travailler avec des tables qui donnent des probabilités au test bilatéral (two-tailed en anglais) (ou alors faudra doubler la valeur de risque donnée par une table unilatérale).

utiliser U avec test bilatéral Mann Whitney

retour en haut de page

1.5 Calculateur en ligne ou utilisation de tables avec valeurs critiques de U ?

Pour ne pas parler des langages R et Python (voir paragraphe 4), on trouve de bons calculateurs des statistiques de Mann et Whitney en ligne.

Par exemple https://www.socscistatistics.com/tests/mannwhitney/. Attention à bien paramétrer en two-tailed (bilatéral) pour un test H0 (pas de différence) contre H1 (différence). Après avoir renseigné et envoyé "Calculate U", pensez à regarder de près "Calculate details".
Autre site de calcul : https://biostatgv.sentiweb.fr/?module=tests/mann . Le résultat précise clairement qu'il s'agit bien d'un test bilatéral. On teste bien H0 (pas de différence) contre H1 (différence).

On peut en revenir aussi aux tables statistiques avec valeurs critiques aux risques choisis (0,05 et 0,01).

A l'adresse : https://jonathanlenoir.files.wordpress.com/2013/12/tables-mann-whitney-wilcoxon-kruskal-wallis.pdf . Très clairement présenté. La table en test bilatéral apparaît première.
Ou à l'adresse https://math.usask.ca/~laverty/S245/Tables/wmw.pdf. Attention à bien regarder le risque, en bilatéral ou unilatéral (directional, nondirectional respectivement). Pour H0 (pas de différence) contre H1 (différence), il faut la table en mode bilatéral (directional).

retour en haut de page

1.6 Pour passionnés : calculs de Ux (ou Uy) en utilisant la variable Wx (ou Wy) de Wilcoxon

La variable Wx de Wilcoxon repose aussi sur la notion de rang comme la variable "Ux" de Mann et Whitney. Elle est calculée ainsi :

On classe toutes les données par ordre de rang croissant (en se rappelant qui vient de quel lot). Et on affecte le nombre de classement. Donc 1 ou 2 ou 3 etc.
Si il y a des ex-aequo, on classe chacun au rang moyen

Et on peut montrer que :

2 échantillon, A (n valeurs x_i) et B (m valeurs y_i)

$$ Ux=Wx- \frac {n(n+1)}{2} \\ Uy=Wy- \frac {m(m+1)}{2} \\ $$

Exemple.

On reprend l'exemple précédent.

Lot A, ordonné	5,1	6,0	7,4	8,0	11,0
Lot B, ordonné	6,2	7,4	8,7	10,3	13,0

On ordonne en se rappelant les échantillons d'appartenance.

Lot	A	A	B	A	B	A	B	B	A	B	somme des rangs Wx ou Wy	Ux ou Uy
Ordre	5,1	6,0	6,2	7,4	7,4	8,0	8,7	10,3	11,0	13,0
Rangs	1	2	3	4,5	4,5	6	7	8	9	10
Rangs pour A	1	2		4,5		6			9		Wx=1+2+4,5+6+9 Wx=22,5	Ux =22,5-(5*6)/2 Ux= 7,5
Rangs pour B			3		4,5		7	8		10	Wy=3+4.5+7+8+10 Wy=32,5	Uy =32,5-(5*6)/2 Ux= 17,5

retour en haut de page

1.5 Quand les effectifs n et m deviennent grands (dépassent 20)

Le test de Mann et Whitney est rarement utilisé pour les grands effectifs car pour de tels effectifs on peut souvent tester l'hypothèse de normalité des distribution, l'hypothèse d'homogénéité des variances et donc réaliser un test paramétrique de comparaison de moyenne de type Student. Il est un peu plus puissant.

Mais le test de Mann-Whitney reste possible. Et il y a même une propriété intéressante de Ux et Uy : on approche alors la loi normale (sous H0 vraie) ! La plupart des tables se limitent d'ailleurs aux effectifs de 20 car au-delà l'approximation de loi normale est excellente.

Pour m et n grands, Ux et Uy sont approchés par une loi normale de : $ moyenne=m_U=\frac {nm}{2} \\ écart-type=s_U=\sqrt {\frac {nm(n+m+1)}{12}} $

On pourra donc obtenir les seuils critiques avec une table de z de loi normale centrée réduite par :

$ |z|=\frac {|Ux-m_u|}{s_U}= \frac {|Uy-m_u|}{s_U}=\frac {|Ux-{\frac {nm}{2}}|} {\sqrt {\frac {nm(n+m+1)}{12}}} = \frac {|Uy-{\frac {nm}{2}}|} {\sqrt {\frac {nm(n+m+1)}{12}}} $

On rappelle par exemple les valeurs critiques pour |z| en test bilatéral, 1,96 pour la seuil de risque 0,05 et 2,58 pour le seuil de risque 0,01.

La plupart des logiciels exécutant le test de Mann-Whitney donne la valeur p-z calculée. Attention, si n et m sont petits (>20), ne pas s'en servir.

retour en haut de page

1.6 Les ex-aequo

Les ex-aequo rendent en fait le test moins puissant (le risque de ne pas rejeter H0). Il existe des calculs de correction...

Pour exemple, le langae R donne le message suivant si il y a des ex-aequo : "Warning message: In wilcox.test.default(vecteur1, vecteur2) : impossible de calculer la p-value exacte avec des ex-aequos".

retour en haut de page