2. Test de Shapiro-Wilk

Il existe plusieurs tests qui permettent de tester l'hypothèse nulle (H0) selon laquelle un échantillon {x1 , … , xn} serait issu d'une population normalement distribuée. Celui dit Shapiro-Wilk est du à Samuel Sanford Shapiro et Martin Wilk. D'après la littérature ce serait le plus puissant devant d'autres tests de normalité (notamment celui de Kolmogorv et Smirnov appliqué à la loi normale).

2.1 La variable de décision de Shapiro-Wilk sous l'hypothèse H0

le test de Shapiro-Wilk est un test "au fonctionnement très classique". On calcule une variable de décision, W observé. Si la probabilité (p-value) pour W observé est inférieure au niveau de risque choisi (risque α), alors on rejette l'hypothèse nulle H0 que l'échantillon provienne d'une distribution normale au risque α de se tromper. Si la p-value est supérieure au niveau α choisi, alors l'hypotèse H0 d'un échantillon provenant d'une population parente normale ne peut pas être rejetée. Les risques α classiquement choisis sont 0,5 ou 0,01 ou 0,001. Le test fonctionne en mode "unilatéral" : plus la statistique de test s’éloigne de 1 et plus le risque de se tromper en rejetant H0 est faible.

Avec des échantillons à effectifs assez faibles (n=5 à 20 par exemple) l'effet aléa de tirage est très élevé et il est presque toujours difficile de rejeter l'hypothèse H0 d'une loi parente normale. Si l'échantillon est de grande taille, comme la loi normale est sur ℜ et que ce n'est jamais vrai expérimentalement, on finit toujours par coincer (malédiction des très gros échantillons !) : les représentations en diagramme "quantile-quantile loi normale" (Q Q plot) sont alors très intéressants. Voilà pourquoi en biologie de laboratoire de recherche, où on travaille souvent avec des petits effectifs, on pratique souvent des tests non paramétriques. Même si ils sont moins puissants que les tests paramétriques.

D'où sort vraiment la variable W dépasse mon niveau de maths. La distribution des valeurs de W sous l'hypothèse H0 et les valeurs seuils n'ont pas été simples à calculer historiquement : jusqu'à n=50 par Shapiro et Wilk en 1965 à la publication du test à n=5000 aujourd'hui.

2.2 Exemple, avec les données des paragraphes 1.1 et 1.2

On rappelle les données de l'échantillon "E_A" de 25 valeurs :

5.394.965.764.605.334.93
6.194.885.235.785.155.07
5.095.395.324.904.385.14
5.435.864.465.034.545.02
5.12

Moyenne E_A = 5,158. Ecart-type (éch.) E_A = 0,439.

On rappelle que les méthodes graphiques nous ont amené à accepter l'hypothèse d'une distribution parente normale.

Que dit le test de Shapiro-Wilk ? (Réalisé avec la fonction shapiro.test(data), langage R)

Shapiro-Wilk normality test
W = 0.96814, p-value = 0.5983

On est dans le domaine du très probable sous l'hypothèse H0 avec p-value = 60% environ. Ce qui conforte les résultats graphiques : on accepte l'hypothèse d'une distribution parente normale.

Note : on remarquera que W est proche de 1.

2.2 Exemple, avec les données des paragraphes 1.3

On rappelle les données de l'échantillon "E_B" de 30 valeurs :

20.6320.7120.7120.7019.3220.56
19.9619.5720.6820.7120.0420.56
20.6320.1819.5619.7720.0620.68
20.3820.0619.8820.0819.6520.19
19.5320.1120.6820.4219.3020.65

Moyenne E_B = 20,20. Ecart-type (éch.) E_B = 0,46.

On rappelle que les méthodes graphiques nous ont amené à refuser l'hypothèse d'une distribution parente normale.

Que dit le test de Shapiro-Wilk ? (Réalisé avec la fonction shapiro.test(data), langage R)

Shapiro-Wilk normality test
W = 0.89225, p-value = 0.005456

On est dans le domaine du très peu probable sous l'hypothèse H0 avec p-value = 5 pour 1000 environ. Ce qui conforte les résultats graphiques : on refuse l'hypothèse d'une distribution parente normale (avec un risque vers 5 pour 1000 de se tromper).

retour en haut de page