2. Observations graphiques

1.1 Histogrammes et boite à moustaches

Observer l'allure d'un histogramme avec l'allure de la loi normale en tête ou un diagramme en "boite à moustaches" (symétrie des quantiles et des moustaches pour une distribution normale) permet de se donner une idée de la normalité possible ou pas de la population parente dont est tiré un échantillon. Mais cela suppose un effectif conséquent pour l'échantillon (à partir de 25...).

Exemple

Soit un échantillon "E_A" de 25 valeurs :

5.394.965.764.605.334.93
6.194.885.235.785.155.07
5.095.395.324.904.385.14
5.435.864.465.034.545.02
5.12

Moyenne E_A = 5,158. Ecart-type (éch.) E_A = 0,439.

Voici l'histogramme à 5 classes et le diagramme en "boite à moustaches". Pour les histogrammes, un nombre de classes aux alentours de la racine carré de l'effectif est souvent le bon choix.

histogramme histogramme bte-moustaches

Conclusion : "A l'oeil", on accepte l'hypothèse d'une normalité de la distribution parente. En effet, l'histogramme en "densité de proba." colle bien à une loi normale et la boite à moustache donne un bloc des 1° au 3° quartiles assez équilibré et suffisamment "court" devant la longueur des moustaches (dans une loi normale les 1° et 3° quartiles qui donnent 50% des valeurs sont à plus ou moins 0,67 écart-type de la moyenne et on a 95% des valeurs à plus ou moins 1,96 écart-type).

1.2 Le diagramme quantile - quantile des données expérimentales versus la loi normale

Le diagramme quantile - quantile (Q–Q plot) permet de comparer graphiquement 2 distributions. On trace "quantile contre quantile". Pour cela, un ensemble d'intervalles pour les quantiles est choisi du type x%, 2x%, 3x% ....jusqu'à 100%. Chaque point (x,y) du graphique correspond à un quantile de la première distribution (abscisse x) face au quantile de la deuxième distribution (ordonnée y). Si les deux distributions à comparer ont la même forme, les points obtenus seront alignés.

Mais le mieux, c'est de comprendre par l'exemple.

On reprend l'exemple précédent

On va classer les valeurs et les placer selon des quantiles. Pour cet exemple, on peut utiliser tous les quantiles possibles comme on n'a que 25 valeurs et pas d'ex-aequo : on va ainsi pouvoir utiliser 25 quantiles, c'est à dire un pas de 1/25 de 1/25(4%) jusqu'à 100%.

On obtient :

0%4%8%12%16%20%24%28%32%36%40%44% 48%52%56%60%64%68%72%76%80%84%88%92% 96%100%
4.384.384.464.544.604.884.904.964.96 5.025.035.075.095.125.155.15 5.235.325.335.395.395.435.765.785.866.19

On va maintenant demander les mêmes quantiles pour la loi normale centrée réduite (celle de moyenne 0 et d'écart-type 1) (avec une table ou un logiciel). On obtient, avec des arrondis à 2 décimales :

0%4%8%12%16%20%24%28%32%36%40%44% 48%52%56%60%64%68%72%76%80%84%88%92% 96%100%
-1.75-1.41-1.17-0.99-0.84-0.71 -0.58-0.47-0.36-0.25-0.15-0.05 0.050.150.250.360.470.58 0.710.840.991.171.411.75

Il faut donc désormais mettre en correspondance les valeurs aux mêmes quantiles de nos 2 tableaux. Le tableau des quantiles pour la loi normale centrée réduite donnera l'axe des x et celui pour les valeurs expérimentales l'axe des y. On obtient le tracé quantile-quantile (versus loi normale) :

qqnorm qqnorm + tracé regr 24 - 76%

En pratique, les logiciels dédiés aux calculs statistiques réalisent automatiquement les diagrammes quantiles quantiles versus la loi normale. Ils réalisent des calculs sophistiqués de quantiles sur les valeurs expérimentales : les calculs utilisent des "lissages" et sont adaptés à des échantillons depuis les faibles effectifs jusqu'à des tailles immenses et avec ex-aequo ... (voir par exemple le help de qqnorm() du langage R).

Voici ci-dessous ce que donne notre exemple traité directement avec la fonction qqnorm() du langage R. Zéro calculs intermédiaires à réaliser !

avec qqnor() de R

Et on voit qu'on a bien le même résultat qu'avec la méthode "manuelle". Ouf! Enfin presque le même résultat car si on regarde de très près, R a su estimer un quantile pour le point expérimental 6,19, ce que notre méthode ne permettait pas...

Et la conclusion : "On évite de regarder trop aux extrêmes car on a un petit effectif et donc de forts risques de bizarreries aux quantiles extrêmes. A l'oeil, difficile de ne pas accepter l'hypothèse H0 d'une population parente normale."

retour en haut de page


1.3 Un autre exemple !

Soit un échantillon "E_B" de 30 valeurs :

20.6320.7120.7120.7019.3220.56
19.9619.5720.6820.7120.0420.56
20.6320.1819.5619.7720.0620.68
20.3820.0619.8820.0819.6520.19
19.5320.1120.6820.4219.3020.65

Moyenne E_B = 20,20. Ecart-type (éch.) E_B = 0,46.

1.3.1 Histogrammes et diagramme en boite

Voici un histogramme à 4 classes, puis à 8 classes avec les effectifs. Puis un histogramme à 8 classes mais en densité de probabilité et avec la loi normale de moyenne et d'écart-type de l'échantillon en surimpression.

hist. 4 classes hist 8 classes hist 8 classes et loi normale

On peut déjà émettre un doute quant à l'hypothèse d'un échantillon issu d'une population parente normale. Mais attention, on est face à un échantillon de 30 valeurs, fort aléa ...

On peut regarder l'allure en boite à moustaches :

boite moustaches

On peut émettre un gros doute quant à l'hypothèse d'un échantillon issu d'une population parente normale. Mais attention, on est face à un échantillon de 30 valeurs, fort aléa ...

1.3.2 Diagramme quantile - quantile des données expérimentales versus la loi normale

qqnorm + commentaires qqnorm + qqline

Cela confirme l'envie de rejeter l'hypothèse d'un échantillon issu d'une population parente normale.

retour en haut de page


1.4 Retour sur les deux exemples

Pour information, le premier exemple a été obtenu par tirage de 25 valeurs dans une population parente normale de moyenne 5 et d'écart-type 0,5. (A l'aide de la fonction rnorm(25,5,0.5) en langage R, puis arrondis à 2 décimales)

Pour information, le deuxième exemple a été obtenu par tirage de 30 valeurs dans une population parente arcsinus de moyenne 20 et d'écart-type 0,5. (A l'aide de la fonction Arcsine() en langage R, package distr, 30 tirages, moyenne à 20 et écart-type à 1/√2 = 0,707, puis arrondis à 2 décimales). On notera que le tirage obtenu est d'ailleurs assez éloigné de la "forme idéale arcsinus" : Ah le hasard !

Relisez aussi le paragraphe 0 ("Et si c'était un peu mission impossible ?").

retour en haut de page