Introduction aux tests du Chi-deux

Les tests du Chi-deux sont une famille de procédures statistiques qui peuvent être utilisées pour déterminer s'il existe une association significative entre deux variables catégorielles. Le test du Chi-deux d'indépendance est utilisé pour déterminer s'il existe une association significative entre deux variables catégorielles. Le test du Chi-deux d'adéquation est utilisé pour déterminer si la distribution d'une variable catégorielle diffère d'une distribution hypothétique.

Test d'adéquation

Lors de la construction d'un modèle pour décrire un ensemble de données, il est toujours important de s'assurer que le modèle correspond aux données. Le test d'adéquation du $\chi^2$ est un test statistique utilisé pour déterminer s'il existe une différence significative entre la distribution de fréquence attendue et observée dans une ou plusieurs catégories.
Dans notre contexte, nous pouvons utiliser le coefficient de dispersion, $CD$ pour nous guider dans la sélection d'une distribution de modélisation. Pour tester si la distribution sélectionnée correspond vraiment aux données, nous déploierons un test d'adéquation du $\chi^2$ (chi-carré).

Les tests statistiques sont formulés en termes d'hypothèse nulle $H_0$ et d'hypothèses alternatives, $H_1$. Pour un test d'adéquation du $\chi^2$, l'hypothèse nulle est l'affirmation que le modèle est approprié. L'hypothèse alternative est l'affirmation que le modèle n'est pas approprié. La valeur $\chi^2$ définie ci-dessous est calculée à partir des données et est utilisée pour décider de rejeter l'hypothèse nulle et de rejeter le modèle.

Formule:

Test d'adéquation du $\chi^2$

La statistique de test pour l'adéquation du $\chi^2$ est donnée par $$\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}$$ où $O_i$ est la fréquence observée et $E_i$ est la fréquence attendue.
Les degrés de liberté pour ce test sont $df=k-m-1$ où $k$ est le nombre de catégories (cellules) et $m$ est le nombre de paramètres estimés dans le modèle.
La valeur $P$ pour le test est la probabilité d'observer une statistique de test aussi grande que celle que nous avons observée, en supposant que l'hypothèse nulle est vraie. Une grande statistique de test signifie ici que les fréquences observées et attendues sont très différentes.

Exemple 1

Un dé est lancé 60 fois et les fréquences suivantes sont obtenues: $$\begin{array}{|c|c|c|c|c|c|c|} \hline \text{Face} & 1 & 2 & 3 & 4 & 5 & 6 \\ \hline \text{Fréquence} & 8 & 10 & 12 & 9 & 11 & 10 \\ \hline \end{array}$$ Testez l'hypothèse que le dé est équitable à un niveau de signification de $10\%$.

Si le dé est équitable, alors chaque résultat devrait se produire avec une probabilité de $\frac{1}{6}$. Comme le dé est lancé $60$ fois, les fréquences attendues sont de $60\cdot \frac{1}{6}=10$ pour chaque face. La statistique de test est $\chi^2 = \frac{(8-10)^2}{10} + \frac{(10-10)^2}{10} + \frac{(12-10)^2}{10} + \frac{(9-10)^2}{10} + \frac{(11-10)^2}{10} + \frac{(10-10)^2}{10} = 1$. Les degrés de liberté sont de $6-1=5$. La valeur $P$ est $P(\chi^2 > 2.4) = 0.66$. Comme $0.66 > 0.05$, nous ne rejetons pas l'hypothèse nulle et concluons que le dé est équitable.

Solution

Exemple 2

Une entreprise de bonbons produit des sacs de bonbons de quatre couleurs : rouge, vert, bleu et jaune. Ils prétendent que chaque couleur apparaît également souvent. Pour vérifier cela, un groupe de consommateurs sélectionne au hasard $200$ bonbons et observe: $$\begin{array}{|c|c|c|c|c|} \text{Couleur} & R & V & B & J \\ \hline \text{Fréquence} & 55 & 45 & 50 & 50 \\ \hline \end{array}$$
À un niveau de signification de $5\%$, testez s'il existe des preuves que la distribution des couleurs de bonbons diffère de l'affirmation de l'entreprise.

Les fréquences attendues sont de $50$ pour chaque couleur. La statistique de test est $\chi^2 = \frac{(55-50)^2}{50} + \frac{(45-50)^2}{50} + \frac{(50-50)^2}{50} + \frac{(50-50)^2}{50} = 1.4$. Les degrés de liberté sont de $4-1=3$. La valeur $P$ est $P(\chi^2 > 1.4) = 0.71$. Comme $0.71 > 0.05$, nous ne rejetons pas l'hypothèse nulle et concluons que la distribution des couleurs de bonbons ne diffère pas de l'affirmation de l'entreprise.

Solution

Exemple long 1

Un enseignant soupçonne qu'un dé peut être biaisé et demande aux élèves de le lancer $120$ fois. Les résultats observés sont les suivants: $$\begin{array}{|c|c|c|c|c|c|c|} \hline \text{Face} & 1 & 2 & 3 & 4 & 5 & 6 \\ \hline \text{Fréquence} & 15 & 25 & 20 & 18 & 22 & 20 \\ \hline \end{array}$$
En supposant que le dé est équitable, chaque résultat devrait avoir une probabilité égale. Effectuez un test d'adéquation du $\chi^2$ à un niveau de signification de $5\%$.

Exemple long 2

Un magasin d'animaux interroge 100 clients pour savoir quel type d'animal de compagnie ils préfèrent. Le magasin s'attend à ce que les préférences soient réparties de manière égale dans quatre catégories : chats, chiens, poissons et oiseaux. Cependant, les résultats de l'enquête sont les suivants: $$ \begin{array}{|c|c|c|c|c|} \hline \text{Animal} & \text{Chats} & \text{Chiens} & \text{Poissons} & \text{Oiseaux} \\ \hline \text{Fréquence} & 30 & 20 & 25 & 25 \\ \hline \end{array} $$
À un niveau de signification de $5\%$, testez s'il existe des preuves que la distribution des préférences en matière d'animaux de compagnie diffère de l'affirmation du magasin.

Test du Chi-Deux d'Indépendance

Le test du chi-deux d'indépendance est un test statistique utilisé pour déterminer s'il existe une association significative entre deux variables catégorielles. Il évalue si la distribution d'une variable diffère selon les niveaux d'une autre variable. En d'autres termes, il nous aide à voir si les changements dans une variable sont liés aux changements dans une autre.
L'hypothèse nulle stipule que les deux variables sont indépendantes (c'est-à-dire qu'il n'y a pas d'association entre elles). L'hypothèse alternative stipule qu'il y a une association entre les deux variables. La statistique de test est une variable aléatoire chi-deux définie par la formule :
où O est la fréquence observée et E est la fréquence attendue sous l'hypothèse nulle. La somme est prise sur toutes les catégories.
Le test du chi-deux d'indépendance est un test non paramétrique, ce qui signifie qu'il ne fait aucune hypothèse sur la distribution des données. Cependant, il est sensible à la taille de l'échantillon, et il est recommandé d'avoir une taille d'échantillon suffisamment grande pour garantir la validité des résultats du test.