|
Ce chapitre décrit l'application du test t à la comparaison de deux proportions, puis introduit le test χ2 applicable à un nombre quelconque de proportions eximées sous forme de tableau de contingence. |
| 10.2 Le Test du khi-deux (χ2) | ||
| 10.3 Tableaux de contingence > 2 x 2 | ||
| 10.4 Conditions d''application d'un test de χ2 | ||
| Annexe - Données des exemples | ||
| Annexe - Feuilles de calcul |
| Test de khi-deux | ||
| Effectifs observés, effectifs attendus | ||
| Distribution de χ2 | ||
| Contribution au χ2 | ||
| Excédents, déficits |
| On a souvent besoin de comparer des proportions qui font intervenir plus de deux modalités d'une variable catégorielle. Par exemple, on peut vouloir examiner la proportion des différentes catégories grammaticales (nom, verbes, adjectifs, etc.) dans deux textes différents. On peut aussi vouloir comparer plus de deux groupes. D'une manière générale, on peut vouloir comparer les proportions de R modalités dans C groupes, ce qui donne un tableau à double entrée de R rangées et C colonnes, appelé tableau de contigence.
Le test approprié pour ce type de données s'appelle test de khi-deux (χ2). Ce test est basé sur une comparaison des effectifs observés chaque case du tableau avec les effectifs attendus dans le cas de l'hypothèse nulle, c'est-à-dire si les proportions étaient les mêmes pour chaque groupe. Nous prendrons tout d'abord un cas simple, composé de deux groupes et de deux modalités. En fait, ce cas correspond exactement à l'exemple du Petit Prince ci-dessus. La variable catégorielle comporte deux modalités (appartient ou n'appartient pas au vocabulaire fondamental, que nous noterons F et ~F). |
||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||
|
On peut facilement calculer l'effectif que devrait comporter chaque case dans le cas de l'hypothèse nulle. La proportion globale, les deux échantillons confondus est de 459/600 pour F, soit 0.77, et de 141/600, soit 0.23 pour ~F. Si la répartition était équitable entre le Petit Pince et Le Monde, on devrait avoir la même proportion rapportée à leurs effectifs réciproques, c'est-à-dire 0.77 x 300 = 229.5 pour F, et 0.23 x 300 = 70.5 pour ~F. On peut dresser un tableau avec les effectifs attendus : |
||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||
|
On peut alors calculer les écarts entre les effectifs observés et les effectifs attendus dans chaque case. La somme de ces écarts est toutefois nulle, et comme nous l'avons fait pour les écarts aux moyennes dans l'étude de la dispersion, nous allons prendre les carrés des écarts, de façon à annuler le signe. |
||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||
|
Enfin, les écarts ont plus ou moins d'importance selon qu'ils mettent en jeu de plus ou moins grands effectifs attendus dans les cases. On pondère donc leur importance en divisant leur valeur par l'effectif attendu dans chaque case. On obtient ainsi des écarts (carrés) relatifs. Leur somme est la statistique χ2. |
||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||
|
La formule ci-dessous récapitule ces calculs (O représente l'effectif observé pour chaque case, et E l'effectif attendu) :
|
||||||||||||||||||||||||||||||||||||||||
| La statistique χ2 suit une distribution particulière, appelée, de façon logique, distribution du χ2.
Comme pour la distribution de Student, la distribution du χ2 est en fait une famille de distributions qui dépendent d'un paramètre, le nombre de degrés de libertés. Ici, le nombre de degrés de libertés correspond au nombre de cases que l'on peut librement modifier dans un tableau de contigence sans changer les totaux des lignes et des colonnes. Un raisonnement rapide montre que sur une table 2 x 2, on ne peu changer qu'une case. Dès qu'on fait ce changement, toutes les autres cases se déduisent par soustraction. D'une façon générale, pour un tableau de R lignes et C colonnes, on peut changer librement (R - 1)(C - 1) cases : ddl = (R - 1)(C - 1) La distribution du χ2 a l'allure donnée par la figure ci-dessous. Très asymétrique pour de petites valeurs, elle devient de plus en plus symétrique lorsque le nombre de degrés de liberté s'accroît. |
||||
|
||||
|
|
||||
|
La surface sous la courbe donne la probabilité de rejet de l'hypothèse nulle à tort. Elle correspond à la probabilité d'obtenir une valeur de χ2 au moins aussi grande que la probabilité critique par le seul fait du hasard. |
||||
|
||||
|
La distribution du χ2 a 1 ddl nous indique qu'avec le χ2 de 10.10 obtenu pour l'exemple du Petit Prince, la p.c. est de 0.0015, donc bien en dessous du seuil de 0.05 (et même de 0.01). On peut donc rejeter l'hypothèse nulle, et affirmer que le Petit Prince a un vocabulaire plus basique que le Monde. |
On remarquera que 10.10 = 3.182 c'est-à-dire le carré de la statistique obtenue plus haut avec le test t. C'est toujours le cas avec un tableau de contigence 2 x2. Dans ce cas, et dans ce cas seulement, on peut donc utiliser indifféremment un test t ou un test de χ2. En fait, on aura souvent intérêt à utiliser plutôt un test t, pour deux raisons :
|
|
Les calculs sont exactement les mêmes que pour le cas 2 x 2. A titre d'exemple nous allons examiner la distribution du mot Jésus dans les quatre évangiles. Les quatre évangiles utilisent-ils ce mot avec des fréquences comparables ? On obtient un tableau 2 x 4. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Etant donné que ces comptages sont simples à effectuer avec des outils informatiques, nous avons pris la totalité de chaque texte, que nous pouvons considérer, avec un peu d'imagination, comme un échantillon extrait d'une population infinie, dans laquelle les occurrences du mot Jésus auraient la proportion moyenne observée sur les quatre textes. On peut effectuer un test de χ2, dont le détail des calculs est le suivant. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
On doit chercher la p.c. dans la distribution du χ2 à (2 - 1) x (4 - 1) = 3 degrés de libertés. On trouve 1,16 x 10-8. On peut rejeter l'hypothèse nulle sans hésitation, et affirmer la présence d'une différence importante entre les quatre évangiles. L'examen des tableaux de calcul nous permet d'analyser la situation plus en détail. Le tableau des écarts montre la direction des différences. Le dernier tableau (écarts pondérés) donne la contribution au χ2 de chacune de cases. Les différences les plus importantes correspondent aux contributions les plus élevées au χ2 final. Les différences correspondent à un excédent du mot Jésus par rapport à la moyenne pour Jean et Marc (en rouge), et pour un déficit pour Luc et Matthieu (en vert). On peut calculer la contribution de chacune des cases au χ2 global. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
On voit qu'à lui seul, Jean contribue à près de la moitié du χ2 global. C'est l'évangile qui se distingue le plus des autres. On a ensuite d'une part Marc, en excédent modéré d'un côté, et Luc et Matthieu d'autre part, avec des déficits comparables. Ces constatations prennent un certain relief quand on sait que les historiens considèrent que Jean a été écrit le plus tardivement, dans une communauté chrétienne héllénistique (Ephèse ?). Quant à Luc et Matthieu, on considère généralement qu'ils ont été écrits à Rome, à partir de Marc qui leur a servi de source. On retrouve manifestement les traces de cette généalogie dans l'analyse des données. |
|
L'utilisation du test de χ2 nécessite quelques précautions : 1. On doit faire les calculs sur les effectifs, pas sur les pourcentages ! 2. Les observations doivent être indépendantes. 3. L'effectif minimum dans chaque case doit être > 5 (ceci est l'équivalent la condition Np et N(1 - p) > 5 déjà rencontrée). 4. On doit inclure les non-occurrences dans le tableau (il ne serait pas correct de faire un tableau 1 x 4 dans l'exemple précédent, en ne retenant que les occurrences du mot Jésus). |
|
|
||||||||||||||
|
|||||||||||||||
|
||||||||
|
||||||||
(c) Jean Véronis, 2002