A propos de la variable de décision U

1.1 Définitions de Ux, Uy, U et mode de calcul

On souhaite comparer 2 lots A (n valeurs xi) et un lot B (m valeurs yi)

On définit la variable Ux :

On définit la variable Uy de façons symétrique

En fait on peut montrer que Ux+Uy=mn (démonstration exposée au $3) donc quand on a calculé Ux on obtient très facilement Uy par mn-Ux.

La variable de décision lors d'un test est U=min(Ux;Uy).

On verra en fin de paragraphe dans les démonstrations qu'il existe une façon de calculer U en utilisant la somme des rangs des 2 lots ... c'est plus simple quand on calcule à la main, mais ça ne change pas le résultat de U. Et comme on utlise des logiciels ...

Exemple

Soit un lot A (n=5 valeurs xi) et un lot B (m=5 valeurs yi) mesurés pour la grandeur G

Lot A, ordonné

5,1

6,0

7,4

8,0

11,0

Lot B, ordonné

6,2

7,4

8,7

10,3

13,0

On classe toutes les valeurs par ordre croissant, les "lot A" sont soulignées :

5,1  6,0  6,2  7,4   7,4  8,0  8,7  10,3  11  13

C'est parti pour le calcul de Ux :

D'où Ux = 0+0+1+2+4+0+0+0,5+0+0=7,5

C'est parti pour le calcul de Uy :

D'où Uy = 2+2+4+4+5+0+0,5+0+0+0=17,5

En fait si on avait appliqué la propriété Ux+Uy=nm, on aurait pu directement dire Uy=5*5-7,5=25-7,5=17,5.

 

Donc dans notre exemple U=min(Ux,Uy)=7,5. cqfd.

Remarque. Une écriture mathématique de définition de Ux pourrait être :

\( Ux=\sum_{i=1}^{n} \sum_{j=1}^{m} (1~si~y_j < x_i~ou~0,5~si~y_j=x_i~sinon~0) \)

retour en haut de page


1.3 Propriétés, fonction de répartition et loi de densité de Ux (ou Uy)

On peut, à l'aide d'un exemple, donner une bonne idée de l'allure des fonctions de répartition et lois de densité de probabilité de Ux (ou Uy). Il faut évidemment préciser la taille des 2 échantillons (n et m).

Ci-dessous, les représentations pour n=m=6.

distribution de Ux

Le principe du test H0 (pas de décalage) versus H1 (décalage) sera donc de regarder aux extrêmes les valeurs de Ux (ou Uy) pour rejeter ou pas H0 au risque α. La figure ci-dessus montre les bornes de rejet de H0 (à droite et à gauche) pour les risques α 0,05 (5%) et 0,01 (1%). On aura là un test bilatéral très classique. En fait comme on n'est pas centré sur une espérance nulle mais à mn/2, et que historiquement on devait lire des tables pas faciles à manipuler, on va utiliser une astuce, on va tabuler U=min(Ux,Uy) et l'adapter à une lecture en test bilatéral (on regarde à droite et à gauche comme montré sur la figure ci-dessus).

retour en haut de page


1.4 Propriétés de U=min(Ux,Uy) et test bilatéral de comparaison de 2 lots indépendants

utiliser U avec test bilatéral Mann Whitney

retour en haut de page


1.5 Calculateur en ligne ou utilisation de tables avec valeurs critiques de U ?

Pour ne pas parler des langages R et Python (voir paragraphe 4), on trouve de bons calculateurs des statistiques de Mann et Whitney en ligne.

 

On peut en revenir aussi aux tables statistiques avec valeurs critiques aux risques choisis (0,05 et 0,01).

retour en haut de page


1.6 Pour passionnés : calculs de Ux (ou Uy) en utilisant la variable Wx (ou Wy) de Wilcoxon

La variable Wx de Wilcoxon repose aussi sur la notion de rang comme la variable "Ux" de Mann et Whitney. Elle est calculée ainsi :

Et on peut montrer que :

2 échantillon, A (n valeurs xi) et B (m valeurs yi)

$$ Ux=Wx- \frac {n(n+1)}{2} \\ Uy=Wy- \frac {m(m+1)}{2} \\ $$

Exemple.

On reprend l'exemple précédent.

Lot A, ordonné

5,1

6,0

7,4

8,0

11,0

Lot B, ordonné

6,2

7,4

8,7

10,3

13,0

On ordonne en se rappelant les échantillons d'appartenance.

Lot

A

A

B

A

B

A

B

B

A

B

somme des rangs
Wx ou Wy

Ux ou Uy

Ordre

5,1

6,0

6,2

7,4

7,4

8,0

8,7

10,3

11,0

13,0

Rangs

1

2

3

4,5

4,5

6

7

8

9

10

Rangs pour A

1

2

4,5

6

9

Wx=1+2+4,5+6+9
Wx=22,5

Ux =22,5-(5*6)/2
Ux= 7,5

Rangs pour B

3

4,5

7

8

10

Wy=3+4.5+7+8+10
Wy=32,5

Uy =32,5-(5*6)/2
Ux= 17,5

retour en haut de page


1.5 Quand les effectifs n et m deviennent grands (dépassent 20)

Le test de Mann et Whitney est rarement utilisé pour les grands effectifs car pour de tels effectifs on peut souvent tester l'hypothèse de normalité des distribution, l'hypothèse d'homogénéité des variances et donc réaliser un test paramétrique de comparaison de moyenne de type Student. Il est un peu plus puissant.

Mais le test de Mann-Whitney reste possible. Et il y a même une propriété intéressante de Ux et Uy : on approche alors la loi normale (sous H0 vraie) ! La plupart des tables se limitent d'ailleurs aux effectifs de 20 car au-delà l'approximation de loi normale est excellente.

 

Pour m et n grands, Ux et Uy sont approchés par une loi normale de : \( moyenne=m_U=\frac {nm}{2} \\ écart-type=s_U=\sqrt {\frac {nm(n+m+1)}{12}} \)

On pourra donc obtenir les seuils critiques avec une table de z de loi normale centrée réduite par :

\( |z|=\frac {|Ux-m_u|}{s_U}= \frac {|Uy-m_u|}{s_U}=\frac {|Ux-{\frac {nm}{2}}|} {\sqrt {\frac {nm(n+m+1)}{12}}} = \frac {|Uy-{\frac {nm}{2}}|} {\sqrt {\frac {nm(n+m+1)}{12}}} \)

On rappelle par exemple les valeurs critiques pour |z| en test bilatéral, 1,96 pour la seuil de risque 0,05 et 2,58 pour le seuil de risque 0,01.

La plupart des logiciels exécutant le test de Mann-Whitney donne la valeur p-z calculée. Attention, si n et m sont petits (>20), ne pas s'en servir.

retour en haut de page


1.6 Les ex-aequo

Les ex-aequo rendent en fait le test moins puissant (le risque de ne pas rejeter H0). Il existe des calculs de correction...

Pour exemple, le langae R donne le message suivant si il y a des ex-aequo : "Warning message: In wilcox.test.default(vecteur1, vecteur2) : impossible de calculer la p-value exacte avec des ex-aequos".

retour en haut de page