Introduction aux tests du Chi-deux

Les tests du Chi-deux sont une famille de procédures statistiques qui peuvent être utilisées pour déterminer s'il existe une association significative entre deux variables catégorielles.
  • Le test du Chi-deux d'indépendance est utilisé pour déterminer s'il existe une association significative entre deux variables catégorielles.
  • Le test du Chi-deux d'ajustement est utilisé pour déterminer si la distribution d'une variable catégorielle diffère d'une distribution hypothétique.
  • Test d'adéquation

    Lors de la construction d'un modèle pour décrire un ensemble de données, il est toujours important de s'assurer que le modèle correspond aux données. Le test d'adéquation du $\chi^2$ est un test statistique utilisé pour déterminer s'il existe une différence significative entre la distribution de fréquence attendue et observée dans une ou plusieurs catégories.
    Dans notre contexte, nous pouvons utiliser le coefficient de dispersion, $CD$, pour nous guider dans la sélection d'une distribution de modélisation.

    Définition:

    Coefficient de Dispersion

    Le coefficient de dispersion, $CD$, est une mesure de la variabilité relative d'une distribution. Il est défini comme le rapport de l'écart type à la moyenne: $$CD = \frac{\sigma}{\mu}$$ où $\sigma$ est l'écart type et $\mu$ est la moyenne.

    Le coefficient de détermination $CD$ pour un échantillon de $n$ observations est donné par $$CD = \frac{s}{\bar{x}}$$ où $s$ est l'écart type de l'échantillon et $\bar{x}$ est la moyenne de l'échantillon.

    Remarque

    Le coefficient de dispersion est une mesure de la variabilité relative d'une distribution. C'est une quantité sans dimension qui indique dans quelle mesure les données sont dispersées par rapport à la moyenne.

    La valeur du $CD$ peut être interprétée comme suit:

  • Une valeur de $CD$ proche de $0$ indique que les données sont étroitement regroupées autour de la moyenne
  • une valeur plus grande du $CD$ indique une plus grande variabilité

  • En général, une valeur du $CD$ inférieure à $0.2$ suggère une distribution normale, tandis qu'une valeur du $CD$ supérieure à $0.2$ suggère une distribution non normale.

    Test d'adéquation du Chi-deux

    Pour tester si la distribution sélectionnée correspond vraiment aux données, nous allons déployer un test d'adéquation du Chi-deux ($\chi^2$).

    Les tests statistiques sont formulés en termes d'hypothèse nulle $H_0$ et d'hypothèses alternatives, $H_1$. Pour un test d'adéquation du $\chi^2$, l'hypothèse nulle est l'énoncé selon lequel le modèle est approprié. L'hypothèse alternative est l'énoncé selon lequel le modèle n'est pas approprié. La valeur du $\chi^2$ définie ci-dessous est calculée à partir des données et est utilisée pour décider de rejeter ou non l'hypothèse nulle et de rejeter le modèle.

    Formule:

    Test d'adéquation du $\chi^2$

    La statistique de test pour l'adéquation du $\chi^2$ est donnée par $$\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}$$ où $O_i$ est la fréquence observée et $E_i$ est la fréquence attendue.
    Les degrés de liberté pour ce test sont $df=k-m-1$ où $k$ est le nombre de catégories (cellules) et $m$ est le nombre de paramètres estimés dans le modèle.
    La valeur $P$ pour le test est la probabilité d'observer une statistique de test aussi grande que celle que nous avons observée, en supposant que l'hypothèse nulle est vraie. Une grande statistique de test signifie ici que les fréquences observées et attendues sont très différentes.

    Exemple 1

    Un enseignant soupçonne qu'un dé peut être biaisé et demande aux élèves de le lancer $120$ fois. Les résultats observés sont: $$\begin{array}{|c|c|c|c|c|c|c|} \hline \text{Face} & 1 & 2 & 3 & 4 & 5 & 6 \\ \hline \text{Fréquence} & 15 & 25 & 20 & 18 & 22 & 20 \\ \hline \end{array}$$
    En supposant que le dé est juste, chaque issue devrait avoir une probabilité égale. Effectuez un test d'adéquation du chi-deux à un niveau de signification de $5\%$.

    Exemple 2

    Un magasin d'animaux interroge 100 clients pour savoir quel type d'animal ils préfèrent. Le magasin s'attend à ce que les préférences soient uniformément réparties sur quatre catégories: chats, chiens, poissons et oiseaux. Cependant, les résultats de l'enquête sont les suivants: $$ \begin{array}{|c|c|c|c|c|} \hline \text{Animal} & \text{Chats} & \text{Chiens} & \text{Poissons} & \text{Oiseaux} \\ \hline \text{Fréquence} & 30 & 20 & 25 & 25 \\ \hline \end{array} $$
    À un niveau de signification de $5\%$, testez s'il existe des preuves que la distribution des préférences pour les animaux diffère de la revendication du magasin.

    Exemple 3

    Un dé est lancé 60 fois et les fréquences suivantes sont obtenues: $$\begin{array}{|c|c|c|c|c|c|c|} \hline \text{Face} & 1 & 2 & 3 & 4 & 5 & 6 \\ \hline \text{Fréquence} & 8 & 10 & 12 & 9 & 11 & 10 \\ \hline \end{array}$$

    Exemple 4

    Un magasin de bonbons produit des sacs avec des bonbons de quatre couleurs: rouge, vert, bleu et jaune. Ils affirment que chaque couleur apparaît également souvent. Pour vérifier cela, un groupe de consommateurs sélectionne au hasard $200$ bonbons et observe: $$\begin{array}{|c|c|c|c|c|} \hline \text{Couleur} & R & V & B & J \\ \hline \text{Fréquence} & 55 & 45 & 50 & 50 \\ \hline \end{array}$$

    Exemple 5

    Une entreprise automobile affirme que ses couleurs de voiture sont également réparties parmi cinq couleurs: rouge, noir, bleu, blanc et marron. Pour vérifier cela, un groupe de consommateurs sélectionne au hasard $100$ voitures et observe: $$\begin{array}{|c|c|c|c|c|c|} \hline \text{Couleur} & Rouge & Noir & Bleu & Blanc & Marron \\ \hline \text{Fréquence} & 10 & 25 & 20 & 30 & 15\\ \hline \end{array}$$

    Exemple 6

    Une entreprise de boissons affirme que les préférences des clients pour ses cinq saveurs de boissons — Cola, Citron, Orange, Raisin et Mangue — sont également probables. Un chercheur en marketing interroge 200 clients et enregistre les réponses suivantes:$$\begin{array}{|c|c|c|c|c|} \hline \text{Saveur} & Cola & Citron & Orange & Raisin & Mangue \\ \hline \text{Fréquence} & 60 & 25 & 45 & 30 & 40\\ \hline \end{array}$$

    Test du Chi-Deux d'Indépendance

    Le test du chi-deux d'indépendance est un test statistique utilisé pour déterminer s'il existe une association significative entre deux variables catégorielles. Il évalue si la distribution d'une variable diffère selon les niveaux d'une autre variable. En d'autres termes, il nous aide à voir si les changements dans une variable sont liés aux changements dans une autre.
    L'hypothèse nulle stipule que les deux variables sont indépendantes (c'est-à-dire qu'il n'y a pas d'association entre elles). L'hypothèse alternative stipule qu'il existe une association entre les deux variables. La statistique de test est une variable aléatoire chi-deux définie comme suit :

    Formule:

    Test du Chi-Deux d'Indépendance

    Les données pour le test d'indépendance sont organisées dans un tableau de contingence avec $r$ lignes et $c$ colonnes. La valeur de la ligne $i$ et de la colonne $j$ est notée $O_{ij}$. Les comptes marginaux du tableau sont utilisés pour calculer la fréquence attendue pour chaque cellule du tableau sous l'hypothèse d'indépendance. La fréquence attendue est calculée comme suit :$$ E_{i j}=\frac{1}{n}\left\{\left(\sum_j O_{i j}\right)\left(\sum_i O_{i j}\right)\right\}$$ La statistique de test pour le test du $\chi^2-$ d'ajustement est donnée par : $$\chi^2=\sum_{i, j} \frac{\left(O_{i j}-E_{i j}\right)^2}{E_{i j}}$$ avec $df=(r-1)(c-1)$ degrés de liberté.
    La statistique de test est comparée à la valeur critique de la distribution du chi-deux avec $df$ degrés de liberté à un niveau de signification spécifié (par exemple, 0,05). Si la statistique de test dépasse la valeur critique, nous rejetons l'hypothèse nulle et concluons qu'il existe une association significative entre les deux variables.

    Remarque

    Le test du chi-deux d'indépendance est un test non paramétrique, ce qui signifie qu'il ne fait aucune hypothèse sur la distribution des données. Cependant, il est sensible à la taille de l'échantillon, et il est recommandé d'avoir une taille d'échantillon suffisamment grande pour garantir la validité des résultats du test.

    Exemple 1

    Le tableau suivant montre la distribution des bisons dans le parc national de Yellowstone par âge et emplacement. $$\begin{array}{|c|c|c|c|} \hline \text { Âge } & \text { Nord } & \text { Sud } & \text { Total } \\ \hline 0-1 & 10 & 20 & 30 \\ \hline 2-3 & 15 & 25 & 40 \\ \hline 4-5 & 20 & 30 & 50 \\ \hline \text { Total } & 45 & 75 & 120 \\ \hline \end{array} $$

    Exemple 2

    Un chercheur en santé publique souhaite savoir s'il existe une association entre le groupe d'âge et l'utilisation d'un nouveau médicament antidouleur en vente libre. Un échantillon de 150 individus est interrogé et classé comme suit : $$\begin{array}{|c|c|c|c|} \hline \text { Groupe d'âge } & \text { Utilisé le médicament } & \text { N'a pas utilisé le médicament } & \text { Total } \\ \hline 18-35 & 30 & 10 & 40 \\ \hline 36-55 & 25 & 25 & 50 \\ \hline 56+ & 10 & 50 & 60 \\ \hline \text { Total } & 65 & 85 & 150 \\ \hline \end{array} $$

    Exemple 3

    Un analyste de l'industrie automobile souhaite savoir si le type de voiture (SUV, berline ou camion) est associé à un type de carburant préféré (essence ou électrique). Un échantillon aléatoire de 120 acheteurs de voitures est interrogé, et les résultats sont les suivants : $$\begin{array}{|c|c|c|c|} \hline \text { Type de voiture } & \text { Essence } & \text { Électrique } & \text { Total } \\ \hline \text { SUV } & 30 & 10 & 40 \\ \hline \text { Berline } & 25 & 15 & 40 \\ \hline \text { Camion } & 20 & 20 & 40 \\ \hline \text { Total } & 75 & 45 & 120 \\ \hline \end{array} $$