De nombreux tests statistiques (ceux dits paramétriques) supposent que les distributions des valeurs dans les échantillons observées sont issues de distributions parentes normales. On a souvent des "bonnes intuitions" pour penser que c'est vrai puisque tout phénomène qui combine différents aléas normaux ou pas et de dispersions pas trop différentes se traduit par un aléa global en loi normale (c'est le théorème central limite). Mais, ça peut se tester.
On propose des méthodes dans ce chapitre :
- méthodes graphiques : histogramme, diagramme en boîte et diagramme quantiles-quantiles d'ajustement à la
loi normale (= normal-QQplot, très utile pour examiner des échantillons à fort effectif) ;
- test de Shapiro-Wilk.
On verra que ce n'est jamais facile de conclure. En effet, si on a un petit échantillon (genre 5 à 20 valeurs), l'effet d'aléa de tirage est très élevé et il est presque toujours difficile de rejeter l'hypothèse H0 d'une loi parente normale. Si l'échantillon est de grande taille, comme la loi normale est sur ℜ et que ce n'est jamais vrai expérimentalement, on finit toujours par trouver que c'est non normal, alors que les écarts à la normalité sont insignifiants et auraient pu être négligés. C'est la malédiction des tests de normalité : petits échantillons toujours normaux, grands échantillons jamais normaux. Voilà pourquoi en biologie, où on travaille d'ailleurs souvent avec des petits effectifs, on pratique souvent des tests statistiques non paramétriques (pas besoin de supposer la normalité de la distribution parente). Même si ils sont moins puissants que les tests paramétriques.