INF Z16 - Informatique et statistique I

Chapitre 10. Comparer des proportions

Ce chapitre décrit l'application du test t à la comparaison de deux proportions, puis introduit le test χ2 applicable à un nombre quelconque de proportions eximées sous forme de tableau de contingence.

 

Plan

10.1 Test t sur des proportions

10.2 Le Test du khi-deux (χ2)
10.3 Tableaux de contingence > 2 x 2
10.4 Conditions d''application d'un test de χ2
Annexe - Données des exemples
Annexe - Feuilles de calcul

 Principaux termes du chapitre

Tableau de contingence

Test de khi-deux
Effectifs observés, effectifs attendus
Distribution de χ2
Contribution au χ2
Excédents, déficits

 10.1 Test t sur des proportions

Nous avons vu au chapitre que les proportions étaient assimilables à des moyennes et qu'on pouvait, sous certaines conditions (Np et N(1 - p) > 5) traiter les tests d'hypothèses sur les proportions comme ceux sur les moyennes. Nous pouvons étendre la même logique aux comparaisons de deux proportions d'échantillons et appliquer un test t (nous ne verrons ici que le cas d'écahntillons indépendants).

Comme pour les moyennes, il va falloir estimer la variance de la population à partir de celles des deux échantillons.


Exemple 10.1
Nous faisons l'hypothèse que le Petit Prince de Saint-Exupéry a un vocabulaire relativement simple. Nous tirons aléatoirement 300 mots dans le livre, et nous les comparons avec 300 mots tirés dans des articles du journal Le Monde.
  PPrince Monde
N 300 300
p 0.82 0.71
    
Le logiciel Cordial nous indique que 82% des mots de l'échantillon du Petit Prince appartiennent à la liste des 3500 mots du français fondamental de Gougenheim. Cette proportion est de 71% pour celui du Monde.

Nous appellerons :

  • p1 et p2 les proportions à comparer ;
  • N1 et N2 les tailles respectives de ces échantillons.

Les effectifs de la modalité concernée dans les deux échantillons sont respectivement N1p1 et N2p2. Par exemple, pour le Petit Prince, on a 0.82 x 300 = 246 mots qui appartiennent au français fondamental, et pour Le Monde, 0.71 x 200 = 213. Souvent, on connaît directement cette valeur, parce qu'on a justement compté la modalité (dans notre exemple ce n'est pas le cas car le logiciel utilisé, Cordial, nous donne simplement un pourcentage).

Il suffit d'ajouter ces deux valeurs pour avoir l'effectif total de la modalité en question sur les deux échantillons combinés. Dans notre exemple 246 + 213 = 459. Comme on connaît l'effectif total (N1 + N2) il est élémentaire de déduire la proportion combinée :

 p =     N1p1+ N2p2   

N1 + N2

Dans notre exemple p = 460 / 600.

L'écart-type combiné correspond à la formule habituelle :

s


Exemple 10.2
Résumé des calculs. Comme pour la moyenne, la formule se simplifie beaucoup lorsque les tailles d'échantillons sont identiques puisque p est alors simplement la moyenne des deux proportions.
  PPrince Monde Total
Np 246 213 459
N 300 300 600
p 0.82 0.71 0.77
s 0.38 0.45 0.42

Une fois p calculé, on obtient facilement la statistique z :

  p1 - p2      
z  = 
s
1 1

 + 
N1 N2

Dans le cas qui nous a servi d'exemple on trouve z = 3.18, ce qui correspond à une p.c. unilatérale de 0.001. On peut donc rejeter l'hypothèse nulle. Le Petit Prince est bien écrit avec un vocabulaire plus simple que celui d'un quotidien comme Le Monde.

On n'a généralement pas à faire les calculs détaillés, car la plupart des logiciels fournissent des fonctions qui donnent directement la valeur ci-dessus. On trouvera en annexe une feuille qui fait ce calcul .

Comme précédemment, il sera bon d'évaluer la taille des échantillons nécessaires à l'aide de la feuille de calcul de puissance avant d'entreprendre un test.


La formule est la même que pour les moyennes d'échantillons indépendants.

 10.2 Le test du Khi-deux

 10.2.1 Tableaux de contingence

On a souvent besoin de comparer des proportions qui font intervenir plus de deux modalités d'une variable catégorielle. Par exemple, on peut vouloir examiner la proportion des différentes catégories grammaticales (nom, verbes, adjectifs, etc.) dans deux textes différents. On peut aussi vouloir comparer plus de deux groupes. D'une manière générale, on peut vouloir comparer les proportions de R modalités dans C groupes, ce qui donne un tableau à double entrée de R rangées et C colonnes, appelé tableau de contigence.

Le test approprié pour ce type de données s'appelle test de khi-deux (χ2). Ce test est basé sur une comparaison des effectifs observés chaque case du tableau avec les effectifs attendus dans le cas de l'hypothèse nulle, c'est-à-dire si les proportions étaient les mêmes pour chaque groupe. Nous prendrons tout d'abord un cas simple, composé de deux groupes et de deux modalités.

En fait, ce cas correspond exactement à l'exemple du Petit Prince ci-dessus. La variable catégorielle comporte deux modalités (appartient ou n'appartient pas au vocabulaire fondamental, que nous noterons F et ~F).


Exemple 10.3
Données de l'exemple du Petit Prince organisées sous forme de tableau de contingence (effectifs observés)
  PPrince Monde Total
F 246 213 459
~F 54 87 141
Total 300 300 600

On peut facilement calculer l'effectif que devrait comporter chaque case dans le cas de l'hypothèse nulle. La proportion globale, les deux échantillons confondus est de 459/600 pour F, soit 0.77, et de 141/600, soit 0.23 pour ~F.

Si la répartition était équitable entre le Petit Pince et Le Monde, on devrait avoir la même proportion rapportée à leurs effectifs réciproques, c'est-à-dire 0.77 x 300 = 229.5 pour F, et 0.23 x 300 = 70.5 pour ~F. On peut dresser un tableau avec les effectifs attendus :


Exemple 10.4

Effectifs attendus. On voit que les totaux des lignes et des colonnes sont identiques à ceux du tableau précédent.

  PPrince Monde Total
F 229,50 229,50 459
~F 70,50 70,50 141
Total 300 300 600

On peut alors calculer les écarts entre les effectifs observés et les effectifs attendus dans chaque case. La somme de ces écarts est toutefois nulle, et comme nous l'avons fait pour les écarts aux moyennes dans l'étude de la dispersion, nous allons prendre les carrés des écarts, de façon à annuler le signe.


Exemple 10.5
Ecarts entre effectifs observés et attendus.
  PPrince Monde Total
F 16,50 -16,50 0
~F -16,50 16,50 0
Total 0 0 0
Carrés des écarts
  PPrince Monde Total
F 272,25 272,25 544,50
~F 272,25 272,25 544,50
Total 544,50 544,50 1089,00

Enfin, les écarts ont plus ou moins d'importance selon qu'ils mettent en jeu de plus ou moins grands effectifs attendus dans les cases. On pondère donc leur importance en divisant leur valeur par l'effectif attendu dans chaque case. On obtient ainsi des écarts (carrés) relatifs.

Leur somme est la statistique χ2.


Exemple 10.6

Carrés pondérés.

  PPrince Monde Total
F 1,19 1,19 2,37
~F 3,86 3,86 7,72
Total 5,05 5,05 10,10

La formule ci-dessous récapitule ces calculs (O représente l'effectif observé pour chaque case, et E l'effectif attendu) :

Σ     (O - E)2   
 χ2 = 
E

 10.2.2 La distribution du χ2

La statistique χ2 suit une distribution particulière, appelée, de façon logique, distribution du χ2.

Comme pour la distribution de Student, la distribution du χ2 est en fait une famille de distributions qui dépendent d'un paramètre, le nombre de degrés de libertés. Ici, le nombre de degrés de libertés correspond au nombre de cases que l'on peut librement modifier dans un tableau de contigence sans changer les totaux des lignes et des colonnes. Un raisonnement rapide montre que sur une table 2 x 2, on ne peu changer qu'une case. Dès qu'on fait ce changement, toutes les autres cases se déduisent par soustraction. D'une façon générale, pour un tableau de R lignes et C colonnes, on peut changer librement (R - 1)(C - 1) cases :

ddl = (R - 1)(C - 1)

La distribution du χ2 a l'allure donnée par la figure ci-dessous. Très asymétrique pour de petites valeurs, elle devient de plus en plus symétrique lorsque le nombre de degrés de liberté s'accroît.


Exemple 10.7

Distribution du χ2 pour 1, 2, 3, 5 ou 10 degrés de libertés.


La surface sous la courbe donne la probabilité de rejet de l'hypothèse nulle à tort. Elle correspond à la probabilité d'obtenir une valeur de χ2 au moins aussi grande que la probabilité critique par le seul fait du hasard.


Exemple 10.8

Surface sous la courbe correspondant au seuil de 0.05.


La distribution du χ2 a 1 ddl nous indique qu'avec le χ2 de 10.10 obtenu pour l'exemple du Petit Prince, la p.c. est de 0.0015, donc bien en dessous du seuil de 0.05 (et même de 0.01). On peut donc rejeter l'hypothèse nulle, et affirmer que le Petit Prince a un vocabulaire plus basique que le Monde.

 10.2.3 χ2 et test t

On remarquera que 10.10 = 3.182 c'est-à-dire le carré de la statistique obtenue plus haut avec le test t. C'est toujours le cas avec un tableau de contigence 2 x2. Dans ce cas, et dans ce cas seulement, on peut donc utiliser indifféremment un test t ou un test de χ2. En fait, on aura souvent intérêt à utiliser plutôt un test t, pour deux raisons :
  1. Le test de χ2 est bilatéral : il montre qu'un effet existe, mais on ne teste pas s'il se produit dans un sens ou dans l'autre. On aurait en fait eu exactement le même résultat avec la situation inverse, où le Monde aurait eu un vocabulaire plus basique que le Petit Prince et dans la même proportion. Si on a une idée préalable de la direction de la différence, on peut appliquer un test t unilatéral (ce que nous avons fait), et l'on sait qu'un test unilatéral a toujours plus de puissance (tester avec la feuille ).
  2. La statistique t ou z permet de calculer des intervalles de confiance, qui peuvent être utiles dans l'interprétation des résultats.

 10.3 Tableaux de contingence > 2 x 2

Les calculs sont exactement les mêmes que pour le cas 2 x 2. A titre d'exemple nous allons examiner la distribution du mot Jésus dans les quatre évangiles. Les quatre évangiles utilisent-ils ce mot avec des fréquences comparables ? On obtient un tableau 2 x 4.


Exemple 10.9
Répartition du mot Jésus dans les quatre évangiles.
  Jean Luc Marc Matt. Total
J 261 216 180 198 855
~J 18733 24504 14162 22732 80131
Total 18994 24720 14342 22930 80986

Etant donné que ces comptages sont simples à effectuer avec des outils informatiques, nous avons pris la totalité de chaque texte, que nous pouvons considérer, avec un peu d'imagination, comme un échantillon extrait d'une population infinie, dans laquelle les occurrences du mot Jésus auraient la proportion moyenne observée sur les quatre textes.

On peut effectuer un test de χ2, dont le détail des calculs est le suivant.


Exemple 10.10
Ecarts entre effectifs observés et attendus.
  Jean Luc Marc Matt. Total
J 60,47 -44,98 28,59 -44,08 0
~J -60,47 44,98 -28,59 44,08 0
Total 0 0 0 0 0
Carrés des écarts.
  Jean Luc Marc Matt. Total
J 3657,00 2023,06 817,16 1943,11 8440
~J 3657,00 2023,06 817,16 1943,11 8440
Total 7314,00 4046,12 1634,32 3886,22 16881
Ecarts pondérés (contribution au χ2).
  Jean Luc Marc Matt. Total
J 18,24 7,75 5,40 8,03 39,41
~J 0,19 0,08 0,06 0,09 0,42
Total 18,43 7,83 5,45 8,11 39,83

On doit chercher la p.c. dans la distribution du χ2 à (2 - 1) x (4 - 1) = 3 degrés de libertés. On trouve 1,16 x 10-8. On peut rejeter l'hypothèse nulle sans hésitation, et affirmer la présence d'une différence importante entre les quatre évangiles.

L'examen des tableaux de calcul nous permet d'analyser la situation plus en détail. Le tableau des écarts montre la direction des différences. Le dernier tableau (écarts pondérés) donne la contribution au χ2 de chacune de cases. Les différences les plus importantes correspondent aux contributions les plus élevées au χ2 final. Les différences correspondent à un excédent du mot Jésus par rapport à la moyenne pour Jean et Marc (en rouge), et pour un déficit pour Luc et Matthieu (en vert).

On peut calculer la contribution de chacune des cases au χ2 global.


Exemple 10.11
Pourcentage du χ2.
  Jean Luc Marc Matt. Total
J 46% 19% 14% 20% 99%
~J 0% 0% 0% 0% 1%
Total 46% 20% 14% 20% 100%

On voit qu'à lui seul, Jean contribue à près de la moitié du χ2 global. C'est l'évangile qui se distingue le plus des autres. On a ensuite d'une part Marc, en excédent modéré d'un côté, et Luc et Matthieu d'autre part, avec des déficits comparables.

Ces constatations prennent un certain relief quand on sait que les historiens considèrent que Jean a été écrit le plus tardivement, dans une communauté chrétienne héllénistique (Ephèse ?). Quant à Luc et Matthieu, on considère généralement qu'ils ont été écrits à Rome, à partir de Marc qui leur a servi de source. On retrouve manifestement les traces de cette généalogie dans l'analyse des données.

 10.4 Conditions d'application du test de χ2

L'utilisation du test de χ2 nécessite quelques précautions :

1. On doit faire les calculs sur les effectifs, pas sur les pourcentages !

2. Les observations doivent être indépendantes.

3. L'effectif minimum dans chaque case doit être > 5 (ceci est l'équivalent la condition Np et N(1 - p) > 5 déjà rencontrée).

4. On doit inclure les non-occurrences dans le tableau (il ne serait pas correct de faire un tableau 1 x 4 dans l'exemple précédent, en ne retenant que les occurrences du mot Jésus).

 Données des exemples

 Petit Prince
  Fichier des mots du Petit Prince
  Fichier des mots du Monde
  Comparaison des proportions
Cliquez avec le bouton droit pour télécharger sur votre ordinateur.
 Evangiles
  Test de Khi-deux

 Feuilles de calcul

 Calcul de puissance et de taille d'échantillon
  Comparaison de deux proportions
 Test t
  Test t sur deux proportions


(c) Jean Véronis, 2002