Introduction aux tests d'hypothèses

De nombreuses expériences nécessitent que nous décidions entre deux affirmations ou déclarations concurrentes sur un paramètre qui sont vraies.

Pour décider laquelle est correcte, un test d'hypothèse est effectué pour vérifier s'il existe ou non suffisamment de preuves statistiques en faveur d'une certaine croyance ou hypothèse sur un paramètre de population.

Un test d'hypothèse consiste à : collecter des données à partir d'un échantillon, évaluer les données et décider s'il existe suffisamment de preuves dans les données pour rejeter l'hypothèse nulle.

Définition:

Hypothèse nulle ($H_0$)

L'hypothèse nulle, notée $H_0$, est le fait communément accepté, la valeur historique ou la valeur revendiquée d'un paramètre.

Définition:

Hypothèse alternative ($H_1$)

L'hypothèse alternative, notée $H_1$, est l'opposé de l'hypothèse nulle. Elle est utilisée pour discréditer l'hypothèse nulle.
Les tests statistiques fonctionnent de manière similaire aux procès pénaux américains ; une personne est présumée innocente jusqu'à ce que sa culpabilité soit prouvée. Dans un test statistique, l'hypothèse nulle, $H_0$, est présumée vraie jusqu'à ce qu'elle soit démontrée fausse par des preuves statistiques. Dans des situations comme celles-ci, l'hypothèse alternative, $H_1$, sera privilégiée par rapport à l'hypothèse nulle.
Les preuves statistiques nécessaires pour discréditer l'hypothèse nulle sont : une statistique de test et sa distribution d'échantillonnage.

Définition:

Statistique de test

Une statistique de test est une valeur calculée à partir des données de l'échantillon qui est utilisée pour déterminer si l'hypothèse nulle doit être rejetée ou non.
Selon le paramètre testé, la statistique de test et la distribution de test seront différentes. Le tableau ci-dessous montre la statistique de test et la distribution qui doivent être consultées pour différents paramètres lors de l'examen de populations uniques.
Le tableau ci-dessous montre la statistique de test et la distribution qui doivent être consultées pour différents paramètres lors de l'examen de populations uniques. $$\begin{array}{ lll } \text { Paramètre } & \text { Statistique de test } & \text { Distribution } \\ \hline \text { Moyenne de la population, } \mu(\sigma \text { connu }) & Z=\frac{\bar{x}-k}{\sigma / \sqrt{n}} & \text { Normal ( } Z \text {-table }) \\ \text { Moyenne de la population, } \mu(\sigma \text { inconnu }) & T=\frac{\bar{x}-k}{s / \sqrt{n}} & \text { Student's }(t \text {-table }) \\ \text { Proportion de la population, } p & Z=\frac{\hat{p}-k}{\sqrt{\frac{p(1-p)}{n}}} & \text { Normal ( } Z \text {-tableau }) \end{array}$$
La statistique de test est essentielle aux tests d'hypothèses, car elle quantifie la distance entre la statistique de l'échantillon et le paramètre hypothétique, par rapport à la variabilité attendue. En la comparant à un seuil (valeur critique ou valeur $P$), nous prenons une décision sur la plausibilité de l'hypothèse nulle.
Les bonnes pratiques statistiques exigent que nous stipulions à l'avance la quantité de preuves contre $H_0$ qui sera nécessaire pour le rejeter. Une façon de stipuler un critère de rejet est de définir un niveau de signification.

Définition:

Niveau de signification

Le niveau de signification, noté $\alpha$, est la probabilité de rejeter l'hypothèse nulle lorsqu'elle est vraie.
Comme pour l'estimation des paramètres, le niveau de signification est utilisé pour définir une zone de rejet, où la statistique de test est peu susceptible d'être trouvée. La zone de rejet sert de guide visuel pour savoir quand rejeter l'hypothèse nulle en faveur de l'hypothèse alternative. En général, le niveau de signification, $\alpha$, est faible et les plus couramment utilisés sont : $1 \%, 2 \%$ et $5 \%$
Alternativement, une valeur $P$ peut être utilisée pour prendre une décision sur l'hypothèse nulle.

Définition:

$P-$valeur

La $P-$value est la probabilité d'observer une statistique de test aussi extrême que celle calculée à partir des données de l'échantillon, en supposant que l'hypothèse nulle est vraie.
En d'autres termes, la valeur $P$ évalue dans quelle mesure les données de l'échantillon soutiennent l'argument selon lequel l'hypothèse nulle est vraie et mesure la compatibilité des données de l'échantillon avec l'hypothèse nulle.

Ainsi, une valeur $P$ élevée indique que les données de l'échantillon sont probables avec une vraie hypothèse nulle et une valeur $P$ faible indique que les données de l'échantillon sont peu probables avec une vraie hypothèse nulle.

De plus, une valeur $P$ faible suggère que l'échantillon fournit suffisamment de preuves pour rejeter l'hypothèse nulle pour l'ensemble de la population.

Ainsi, si la valeur $P$ est inférieure au niveau de signification, $\alpha$, alors nous pouvons rejeter l'hypothèse nulle en faveur de l'hypothèse alternative. En revanche, si la valeur $P$ est supérieure au niveau de signification, $\alpha$, alors nous ne parvenons pas à rejeter l'hypothèse nulle.

Lignes directrices sur la manière de mener un test d'hypothèse

Il existe un certain nombre de paramètres de population que nous pouvons tester (par exemple $\mu, \sigma, p \dots)$ , mais en fin de compte, tous les tests d'hypothèse suivent la même structure. Voici comment ils sont effectués en général.
Soit $\theta=$ le paramètre de population d'intérêt
$k=$ la valeur historique du paramètre.
1. Identifiez le paramètre d'intérêt.
2. Établir l'hypothèse nulle, $H_0$.

L'hypothèse nulle suit toujours la forme : $H_0: \theta=k$
3. Établissez l'hypothèse alternative, $H_1$.

Selon les données obtenues à partir de l'échantillon ou la manière dont le problème est formulé, choisissez une seule des hypothèses alternatives suivantes pour être $H_1$ $$ \begin{array}{lll} H_1: \theta < k & \Rightarrow & \text { test de la queue gauche } \\ H_1: \theta > k & \Rightarrow & \text { test de la queue droite } \\ H_1: \theta \neq k & \Rightarrow & \text { test de la queue double } \end{array} $$
Après avoir choisi $H_1$, dessinez la zone de rejet si le niveau de signification, $\alpha$, est donné. METTRE DES IMAGES ICI
4. En utilisant les informations obtenues à partir de l'expérience, calculez la statistique de test.

La statistique de test pour chaque paramètre de population sera calculée différemment. Dans le cadre de ce cours, les paramètres d'intérêt seront la moyenne lorsque la variance de la population est connue, la moyenne lorsque la variance de la population est inconnue et la proportion de la population. Chacun sera traité dans sa propre section.
5. Si la statistique de test n'est pas dans la zone de rejet (bleu), alors il n'y a pas suffisamment de preuves pour rejeter l'hypothèse nulle.

Si la statistique de test est dans la zone de rejet, alors il y a suffisamment de preuves pour rejeter l'hypothèse nulle en faveur de l'hypothèse alternative.
6. Calculer la valeur $P$ et prendre une décision statistique.

  • Si la valeur $P >\alpha \quad \Rightarrow \quad$ Échec du rejet de $H_0$.
  • Si la valeur $P<\alpha \quad \Rightarrow \quad$ Rejeter $H_0$ en faveur de $H_1 $.
  • Géométriquement, la valeur $P$ correspond à la taille de la zone spécifiée par la statistique de test. Ainsi, le rejet ou le non-rejet de l'hypothèse nulle se résume essentiellement à comparer la taille de la région spécifiée par la statistique de test à la taille de la ou des régions définies par le niveau de signification.
    Si la zone spécifiée par la statistique de test (rouge) est plus grande que celle définie par le niveau de signification (bleu), alors nous ne parvenons pas à rejeter l'hypothèse nulle. Inversement, si la zone générée par la statistique de test est plus petite que le niveau de signification prescrit, alors nous rejetons l'hypothèse nulle en faveur de l'hypothèse alternative. METTRE DES IMAGES ICI.
    En principe, nous pouvons déterminer si l'hypothèse nulle sera rejetée ou non, sans dessiner de graphique. Cela se fait simplement en comparant les valeurs absolues de la statistique de test à la valeur critique définie par $\alpha$ comme suit:

  • Si $|\text{ statistique de test}| <|\text{valeur critique}| \quad \Rightarrow \quad$ Échec du rejet de $H_0$.
  • Si $|\text{ statistique de test}| >|\text{valeur critique}| \quad \Rightarrow \quad$ Rejet de $H_0$ en faveur de $H_1$.
  • 7. Énoncez la conclusion dans le contexte du problème.

    Exemple

    Une entreprise affirme que la durée de vie moyenne de ses ampoules est de 1 200 heures. Un groupe de protection des consommateurs soupçonne que la durée de vie moyenne est en réalité inférieure à 1 200 heures. Quelle est l'hypothèse alternative appropriée ?

  • A. $H_1 : \mu=1 200$
  • B. $H_1 : \mu \neq 1 200$
  • C. $H_1 : \mu<1 200$
  • D. $H_1 : \mu>1 200$
  • C. $H_1: \mu<1200$

    Solution

    Exemple

    Une société pharmaceutique affirme que son nouveau médicament n'a aucun effet sur la pression artérielle, et la pression artérielle systolique moyenne reste à 120 mmHg. Un médecin souhaite tester si le médicament a un effet, soit en augmentant soit en diminuant la pression artérielle. Quelle est l'hypothèse alternative appropriée ?

  • A. $H_1: \mu=120$
  • B. $H_1: \mu \neq 120$
  • C. $H_1: \mu<120$
  • D. $H_1: \mu>120$
  • B. $H_1: \mu\neq 120$

    Solution

    Exemple

    Un chercheur pense que le poids moyen des pommes dans un certain verger a augmenté par rapport à la moyenne de l'année dernière de 150 grammes. Quelle est l'hypothèse alternative appropriée ?

  • A. $H_1: \mu=150$
  • B. $H_1: \mu \neq 150$
  • C. $H_1: \mu<150$
  • D. $H_1: \mu>150$
  • D. $H_1: \mu> 150$

    Solution

    Exemple

    Le score moyen d'un test de mathématiques est estimé à 75 points, mais un enseignant émet l'hypothèse que la nouvelle méthode d'enseignement entraînera des scores supérieurs à 75 points. Quelle est l'hypothèse alternative appropriée ?

  • A. $H_1: \mu=75$
  • B. $H_1: \mu \neq 75$
  • C. $H_1: \mu<75$
  • D. $H_1: \mu>75$
  • D. $H_1: \mu> 75$

    Solution

    Exemple

    Les ventes quotidiennes moyennes dans un petit café sont de 800 $, mais le gérant soupçonne que les ventes ont diminué depuis qu'un nouveau concurrent a ouvert à proximité. Quelle est l'hypothèse alternative appropriée ?

  • A. $H_1: \mu=800$
  • B. $H_1: \mu \neq 800$
  • C. $H_1: \mu<800$
  • D. $H_1: \mu>800$
  • C. $H_1: \mu< 800$

    Solution

    Exemple

    Un sondage politique indique que $60 \%$ des électeurs soutiennent une nouvelle politique. Un chercheur estime que la proportion réelle d'électeurs qui soutiennent la politique est différente de $60 \%$. Quelle est l'hypothèse alternative appropriée ?

  • A. $H_1: p=0.6$
  • B. $H_1: p \neq 0.6$
  • C. $H_1: p<0.6$
  • D. $H_1: p>0.6$
  • B. $H_1: p\ neq 0.6$

    Solution

    Exemple

    Une entreprise de fabrication affirme que $90 \%$ de ses produits répondent aux normes de qualité. Un auditeur soupçonne que la proportion réelle de produits répondant aux normes de qualité est inférieure à $90 \%$. Quelle est l'hypothèse alternative appropriée ?

  • A. $H_1: p=0.9$
  • B. $H_1: p \neq 0.9$
  • C. $H_1: p<0.9$
  • D. $H_1: p>0.9$
  • C. $H_1: p<0.9$

    Solution

    Exemple

    Une machine remplit des boîtes de céréales avec une moyenne de 500 g par boîte. L'écart type est connu pour être de 10 g. Un échantillon aléatoire de 30 boîtes a un poids moyen de 505 g. Le test est effectué à un niveau de signification de $5\%$ pour déterminer si le poids moyen est différent de 500 g.

    La statistique de test calculée est $z=2.74$ et les valeurs critiques sont $\pm 1.96$. Quelle décision faut-il prendre ?

  • A. Rejeter l'hypothèse nulle car $|z|>1.96$.
  • B. Ne pas rejeter l'hypothèse nulle car $|z|<1.96$.
  • C. Rejeter l'hypothèse nulle car $z>1.96$.
  • D. Ne pas rejeter l'hypothèse nulle car $z<1.96$.
  • A. Rejeter l'hypothèse nulle car $|z|>1,96$.

    Solution

    Exemple

    Un chercheur affirme que le score moyen à un test de mathématiques est de 75. Un échantillon aléatoire de $25$ étudiants a un score moyen de 78 et un écart type de 5. Le test est effectué à un niveau de signification de $1 \%$ pour déterminer si le score moyen est supérieur à 75.

    La statistique de test calculée est $t=3.00$, et la valeur critique est $t_{0.01,24}=2.492$. Quelle décision faut-il prendre ? Quelle décision faut-il prendre ?

  • A. Rejeter l'hypothèse nulle car $t>2.492$.
  • B. Ne pas rejeter l'hypothèse nulle car $t<2.492$.
  • C. Rejeter l'hypothèse nulle car $|t|>2.492$.
  • D. Ne pas rejeter l'hypothèse nulle car $|t|<2.492$.
  • A. Rejeter l'hypothèse nulle car $t>2,492$.

    Solution

    Exemple

    Une enquête révèle que $40 \%$ des adultes préfèrent les achats en ligne. Un échantillon aléatoire de 100 adultes constate que $48\%$ préfèrent les achats en ligne. Le test est effectué à un niveau de signification de $5 \%$ pour déterminer si la proportion réelle est différente de $40\%$.

    La statistique de test calculée est $z=1.60$ et les valeurs critiques sont $\pm 1.96$. Quelle décision faut-il prendre ?

  • A. Rejeter l'hypothèse nulle car $z>1.96$.
  • B. Ne pas rejeter l'hypothèse nulle car $|z|<1.96$.
  • C. Rejeter l'hypothèse nulle car $z<-1.96$.
  • D. Ne pas rejeter l'hypothèse nulle car $|z|>1.96$.
  • B. Impossible de rejeter l'hypothèse nulle car $|z|<1,96 $..

    Solution

    Exemple

    Une usine affirme que la durée de vie moyenne d'un type de batterie est de 300 heures. L'écart type est connu pour être de 50 heures. Un échantillon aléatoire de 36 batteries a une durée de vie moyenne de 290 heures. Le test est effectué à un niveau de signification de $5 \%$ pour déterminer si la durée de vie moyenne est inférieure à 300 heures.

    La statistique de test calculée est $z=-1.20$ et la valeur critique est $z_{0.05}=-1.645$. Quelle décision faut-il prendre ?

  • A. Rejeter l'hypothèse nulle car $z<-1.645$.
  • B. Ne pas rejeter l'hypothèse nulle car $z>-1.645$.
  • C. Rejeter l'hypothèse nulle car $|z|>1.645$.
  • D. Ne pas rejeter l'hypothèse nulle car $|z|<1.645$.
  • B. Impossible de rejeter l' hypothèse nulle car $z>-1,645$.

    Solution

    Exemple

    On prétend que $70\%$ des étudiants utilisent régulièrement la bibliothèque. Un échantillon aléatoire de $200$ étudiants révèle que 150 étudiants ($ 75 \%$) utilisent régulièrement la bibliothèque. Le test est mené à un niveau de signification de $1 \%$ pour déterminer si la proportion est supérieure à $70 \% $.

    La statistique de test calculée est $z=1.83$, et la valeur critique est $z_{0.01}=2.33$. Quelle décision faut-il prendre ?

  • A. Rejeter l'hypothèse nulle car $z>2.33$.
  • B. Ne pas rejeter l'hypothèse nulle car $z<2.33$.
  • C. Rejeter l'hypothèse nulle car $|z|>2.33$.
  • D. Ne pas rejeter l'hypothèse nulle car $|z|<2.33$.
  • B. Impossible de rejeter l' hypothèse nulle car $z<2,33$.

    Solution

    Exemple

    Un nutritionniste teste si la teneur calorique moyenne d'un type de barre de collation est inférieure à 200 calories. La valeur p du test est de $0,02$ et le niveau de signification est $\alpha=0,05$. Quelle décision doit être prise ?



  • A. Rejeter l'hypothèse nulle car $p<\alpha$.
  • B. Ne pas rejeter l'hypothèse nulle car $p>\alpha $.< / /li>
  • C. Rejeter l'hypothèse nulle car $p>\alpha$.
  • D. Ne pas rejeter l'hypothèse nulle car $p<\alpha$.
  • A. Rejeter l'hypothèse nulle car $p<\alpha$.

    Solution

    Exemple

    Une usine affirme que le diamètre moyen de ses boulons est de 5 mm. Un test donne une $P-$value de $0,045$. Le niveau de signification est $\alpha=0,01$. Quelle décision faut-il prendre ?

  • A. Rejeter l'hypothèse nulle car $p<\alpha$.
  • B. Ne pas rejeter l'hypothèse nulle car $p>\alpha $.
  • C. Rejeter l'hypothèse nulle car $p>\alpha$.
  • D. Ne pas rejeter l'hypothèse nulle car $p<\alpha$.
  • B. Impossible de rejeter l'hypothèse nulle car $p>\alpha$.

    Solution

    Exemple

    Un chercheur teste si la proportion d'étudiants qui possèdent une tablette est supérieure à $40 \%$. L'échantillon donne une $P-$value de $0,18$ . Le niveau de signification est $\alpha=0,05$. Quelle décision doit être prise ?

  • A. Rejeter l'hypothèse nulle car $p<\alpha$.
  • B. Ne pas rejeter l'hypothèse nulle car $p>\alpha $.< / /li>
  • C. Rejeter l'hypothèse nulle car $p>\alpha$.
  • D. Ne pas rejeter l'hypothèse nulle car $p<\alpha$.
  • B. Impossible de rejeter l'hypothèse nulle car $p>\alpha$.

    Solution

    Exemple

    Une étude teste si le poids moyen d'une certaine espèce de poisson est de 20 kg. Un échantillon aléatoire produit une $P-$valeur de $0,008$. Le test est mené à un niveau de signification de $\alpha=0,01$. Quelle décision doit être prise ?

  • A. Rejeter l'hypothèse nulle car $p<\alpha$.
  • B. Ne pas rejeter l'hypothèse nulle car $p>\alpha $.< / /li>
  • C. Rejeter l'hypothèse nulle car $p>\alpha$.
  • D. Ne pas rejeter l'hypothèse nulle car $p<\alpha$.
  • A. Rejeter l'hypothèse nulle car $p<\alpha$.

    Solution

    Exemple

    Un sondage affirme que $50 \%$ des électeurs soutiennent une nouvelle politique. Un échantillon aléatoire produit une statistique de test avec une $P-$valeur de $0,12$. Le test est mené à un niveau de signification de $\alpha=0,10$. Quelle décision doit être prise ?

  • A. Rejeter l'hypothèse nulle car $p<\alpha$.
  • B. Ne pas rejeter l'hypothèse nulle car $p>\alpha $.
  • C. Rejeter l'hypothèse nulle car $p>\alpha$.
  • D. Ne pas rejeter l'hypothèse nulle car $p<\alpha$.
  • B. Impossible de rejeter l'hypothèse nulle car $p>\alpha$.

    Solution

    Exemple

    Une entreprise affirme que le temps de traitement moyen d'une demande est de 15 minutes. Un échantillon aléatoire donne une valeur $P-$ de $0,03$ dans un test bilatéral. Le niveau de signification est $\alpha=0,05$. Quelle décision faut-il prendre ?

  • A. Rejeter l'hypothèse nulle car $p<\alpha$.
  • B. Ne pas rejeter l'hypothèse nulle car $p>\alpha $.< / /li>
  • C. Rejeter l'hypothèse nulle car $p>\alpha$.
  • D. Ne pas rejeter l'hypothèse nulle car $p<\alpha$.
  • A. Rejeter l'hypothèse nulle car $p<\alpha$.

    Solution

    Erreurs

    Étant donné que nous prenons une décision statistique basée sur une variable aléatoire, aucune hypothèse ne sera $100 \%$ correcte. Par conséquent, il existe toujours un risque de tirer une conclusion erronée. Il existe deux types d'erreurs : type I et type II.

    Définition:

    Erreur de type I

    Une erreur de type I se produit lorsque l'hypothèse nulle est rejetée alors qu'elle est en réalité vraie. La probabilité de commettre une erreur de type I est égale au niveau de signification, $\alpha$.

    Définition:

    Erreur de type II

    Une erreur de type II se produit lorsque l'hypothèse nulle n'est pas rejetée alors qu'elle est en réalité fausse. La probabilité de commettre une erreur de type II est notée $\beta$.
    La probabilité de commettre une erreur de type II dépend de la taille de l'échantillon, du niveau de signification et de la taille de l'effet. La taille de l'effet est la différence entre le paramètre hypothétique et la valeur réelle du paramètre. Plus la taille de l'effet est grande, plus la probabilité de commettre une erreur de type II est faible.
    Voici un tableau qui résume les deux types d'erreurs ainsi que leurs probabilités associées : $$\begin{array}{ l|ll } \text { Décision basée sur l'échantillon } & H_0 \text { est vrai } & H_0 \text { est faux } \\ \hline \text { Échec du rejet } H_0 & \begin{array}{l} \text { Décision correcte } \\ P=1-\alpha \end{array} & \begin{array}{l} \text { Erreur de type II } \\ P=\beta \end{array} \\ \text { Rejet } H_0 & \begin{array}{l} \text { Erreur de type I } \\ P=\alpha \end{array} & \begin{array}{l} \text { Décision correcte } \\ P=1-\beta \end{array} \end{array}$$
    Les risques de ces deux erreurs sont inversement liés et déterminés par le niveau de signification et la puissance du test.

    Définition:

    Pouvoir

    La puissance d'un test est la probabilité de rejeter l'hypothèse nulle lorsqu'elle est fausse. La puissance d'un test est égale à $1-\beta$.

    Facteurs influençant la puissance d'un test

    Pour réduire le risque de commettre une erreur de type I, nous pouvons réduire le niveau de signification, $\alpha$. Cependant, réduire le niveau de signification signifie que nous serions moins susceptibles de détecter une véritable différence, si elle existe réellement.
    Pour réduire le risque de commettre une erreur de type II, nous devons nous assurer que le test est suffisamment puissant. Pour cela, nous utilisons un échantillon suffisamment grand pour détecter une différence pratique lorsqu'elle existe réellement.
    Outre la taille de l'échantillon, d'autres facteurs qui affectent la puissance sont :
  • Niveau de signification, $\alpha$
  • Variabilité ou variance de la variable de réponse mesurée.
  • Ampleur de la variable d'effet.
  • La puissance augmente lorsque le chercheur augmente la taille de l'échantillon, ainsi que lorsqu'il augmente la taille des effets et les niveaux de signification. En réalité, le chercheur souhaite que les erreurs de type I et de type II soient faibles. En termes de niveau de signification et de puissance, cela signifie que nous souhaitons un niveau de signification faible (proche de 0) et une puissance élevée (proche de 1).

    Exemple

    Un ingénieur industriel teste si le temps moyen d'assemblage d'un produit diffère du temps standard de 45 minutes. L'hypothèse nulle est $H_0: \mu=45$, et l'hypothèse alternative est $H_1: \mu\neq 45$. Qu'est-ce qu'une erreur de type II dans ce contexte ?

  • A. Conclure que le temps d'assemblage moyen est différent de 45 minutes alors qu'il ne l'est pas.
  • B. Conclure que le temps d'assemblage moyen est de 45 minutes alors qu'il diffère en réalité.
  • C. Conclure que le temps d'assemblage moyen est inférieur à 45 minutes alors qu'il est plus long.
  • D. Conclure que le temps d'assemblage moyen est supérieur à 45 minutes alors qu'il est plus court.
  • B. Conclure que le temps d'assemblage moyen est de 45 minutes alors qu'en réalité, il est différent.

    Solution

    Exemple

    Un responsable de la santé publique teste si la proportion de ménages ayant accès à l'eau potable dans une région est différente de $70 \%$. L'hypothèse nulle est $H_0: p=0.70$, et l'hypothèse alternative est $H_1: p \neq 0.70$ Qu'est-ce qu'une erreur de type I dans ce contexte ?

  • A. Conclure que la proportion de ménages ayant accès à l'eau potable est différente de $70 \%$ alors que ce n'est pas le cas.
  • B. Conclure que la proportion de ménages ayant accès à l'eau potable est de $70 \%$ alors qu'elle diffère en réalité.
  • C. Conclure que la proportion de ménages ayant accès à l'eau potable est inférieure à $70 \%$ alors qu'elle est plus élevée.
  • D. Conclure que la proportion de ménages ayant accès à l'eau potable est supérieure à $70 \%$ alors qu'elle est plus faible.
  • A. Conclure que la proportion de ménages ayant accès à l'eau potable est différente de 70 % alors que ce n'est pas le cas.

    Solution

    Exemple

    Un essai clinique teste si un nouveau médicament réduit la pression artérielle en dessous de la moyenne actuelle de 120 mmHg. L'hypothèse nulle est $H_0: \mu=120$, et l'hypothèse alternative est $H_1: \mu<120$. Qu'est-ce qu'une erreur de type I dans ce contexte ?

  • A. Conclure que le médicament réduit la pression artérielle alors qu'il ne le fait pas.
  • B. Conclure que le médicament ne réduit pas la pression artérielle alors qu'il le fait.
  • C. Ne pas détecter que le médicament réduit la pression artérielle.
  • D. Ne pas mener suffisamment d'essais pour déterminer l' effet.
  • A. Conclure que le médicament réduit la pression artérielle alors qu'il ne le fait pas.

    Solution

    Exemple

    Un fabricant affirme que $95 \%$ de ses produits répondent aux normes de qualité. L'hypothèse nulle est $H_0 $ : $p=0.95$, et l'hypothèse alternative est $H_1: p<0.95$. Qu'est-ce qu'une erreur de type II dans ce contexte ?

  • A. Rejeter $H_0$ lorsque $p=0.95 $.
  • B. Conclure que la proportion répondant aux normes de qualité est de $95 \%$ alors qu'elle est en réalité inférieure.
  • C. Conclure que la proportion répondant aux normes de qualité est inférieure à $95 \%$ alors qu'elle ne l'est pas.
  • D. Ne pas détecter une diminution de la proportion répondant aux normes de qualité.
  • D. Ne pas détecter une diminution de la proportion répondant aux normes de qualité.

    Solution

    Exemple

    Un chercheur vérifie si la température moyenne d'une région a augmenté au-dessus de la moyenne historique de $15^{\circ} C$. L'hypothèse nulle est $H_0: \mu=15$, et l'hypothèse alternative est $H_1: \mu>15$. Qu'est-ce qu'une erreur de type I dans ce contexte ?

  • A. Conclure que la température moyenne a augmenté alors que ce n'est pas le cas.
  • B. Conclure que la température moyenne n'a pas augmenté alors que c'est le cas.
  • C. Ne pas détecter une augmentation de la température moyenne.
  • D. Mauvaise déclaration de la taille de l'échantillon pour l'étude.
  • A. Conclure que la température moyenne a augmenté alors que ce n'est pas le cas.

    Solution

    Exemple

    Un service de santé vérifie si la proportion de personnes vaccinées dans une communauté est inférieure aux 80 % requis pour l'immunité collective. L'hypothèse nulle est $H_0: p = 0,80$ et l'hypothèse alternative est $H_1 : p < 0,80$ Qu'est-ce qu'une erreur de type II dans ce contexte ?

  • A. Conclure que le taux de vaccination est inférieur à 80 % alors qu'il ne l'est pas.
  • B. Conclure que le taux de vaccination est de 80 % alors qu'il est en réalité inférieur .
  • C. Ne pas détecter que le taux de vaccination est inférieur à 80 % .
  • D. Ne pas mener une enquête suffisamment vaste.
  • C. Ne pas détecter que le taux de vaccination est inférieur à 80 %.

    Solution

    Exemple

    Un biologiste teste si la proportion d'une espèce d'oiseau migrant chaque année est différente de $60 \%$. L'hypothèse nulle est $H_0: p=0.60$, et l'hypothèse alternative est $H_1: p \neq 0.60$. Quelle est l'erreur de type I dans ce contexte ?

  • A. Conclure que la proportion de migration diffère de $60 \%$ alors que ce n'est pas le cas.
  • B. Conclure que la proportion de migration est de $60 \%$ alors qu'elle diffère en réalité.
  • C. Ne pas détecter de différence dans la proportion de migration.
  • D. Mauvais calcul de la proportion d'oiseaux migrateurs.
  • A. Conclure que la proportion de migration diffère de $60 \%$ alors que ce n'est pas le cas.

    Solution

    Exemple

    Un scientifique agricole teste si un nouvel engrais augmente le rendement des cultures au-dessus de la moyenne standard de 50 boisseaux par acre. L'hypothèse nulle est $H_0: \mu=50$, et l'hypothèse alternative est $H_1: \mu>50$. Si le test conduit à rejeter $H_0$ alors que $H_0$ est en fait vrai, de quel type d'erreur s'agit-il ?

  • A. Erreur de type I
  • B. Erreur de type II
  • C. Erreur d'échantillonnage
  • D. Erreur de mesure
  • A. Erreur de type I

    Solution

    Tests sur la moyenne lorsque la variance de la population est connue

    La moyenne de la population, $\mu$, est un paramètre qui intéresse souvent les chercheurs.

    Comme pour l'estimation par intervalles, les hypothèses de normalité et les implications du Théorème Central Limite sont valables:

    C'est-à-dire

  • 1. $\bar{X} \sim N\left(\mu_{\bar{x}}, \sigma_{\bar{x}}\right) \quad ; \quad$ à condition que $n \geq 30$
  • 2. Si $n<30$, alors la distribution sous-jacente de $\bar{X}$ doit être normale.


  • Puisque la distribution d'échantillonnage des moyennes suit une distribution normale, la normale standard ($Z$-table) servira de distribution nulle (statistique) pour déterminer les valeurs critiques et calculer les $P$-valeurs.

    Comment mener un test sur la moyenne lorsque $\sigma$ est connu

    Soit $k=$ la valeur revendiquée ou historique de la moyenne de la population, $\mu$

    1. Énoncer l'hypothèse nulle
    $H_0:\mu=k$

    2. Énoncer l'hypothèse alternative
    $H_1: \mu < k $
    $H_1: \mu > k $ ou
    $H_1: \mu \neq k $

    3. Dessiner la zone de rejet si le niveau de signification, $\alpha$, est donné, et déterminer la (les) valeur(s) critique(s), $Z_c$, associée(s) à la région de rejet.

    4. En utilisant les informations obtenues à partir de l'échantillon, calculer la statistique de test, $Z_t$ $$Z_t=\frac{\bar{x}-k}{\sigma / \sqrt{n}}$$

    5. Prendre une décision statistique. Faites cela avec un graphique ou en comparant la statistique de test à la (aux) valeur(s) critique(s).

  • Si la statistique de test tombe dans la région de rejet, rejetez l'hypothèse nulle.
  • Si la statistique de test tombe dans la région de non-rejet, ne rejetez pas l'hypothèse nulle.


  • 6. Faire une conclusion dans le contexte du problème.

    7. Calculer la $P$-valeur et prendre une décision basée sur la $P$-valeur.

  • Si la $P$-valeur est inférieure à $\alpha$, rejetez l'hypothèse nulle.
  • Si la $P$-valeur est supérieure à $\alpha$, ne rejetez pas l'hypothèse nulle.
  • Remarque

    Dans le cas d'un test à double queue, la $P$-valeur doit être doublée car il y a deux zones de rejet (et donc deux zones d'opportunité) où la statistique de test pourrait tomber.

    Règle générale

    Comme pour l'estimation des paramètres, la conclusion du test d'hypothèse doit être formulée avec soin. Voici deux formes généralement acceptées pour formuler la conclusion.

    `` Au niveau de signification de _____, il y a suffisamment/pas suffisamment de preuves pour indiquer que la moyenne est _____ ``

    `` Au niveau de signification de _____, il y a/pas assez de preuves pour indiquer que la moyenne est _____ ``

    ** Écrivez l'hypothèse nulle en anglais, et dans le contexte du problème dans le dernier espace.

    Remarque

    Il est important de ne pas dire que ``la vraie moyenne est $\bar{x}$``. Cela est dû au fait que la valeur de la moyenne utilisée pour discréditer l'hypothèse nulle est une statistique d'échantillon et donc une variable aléatoire. Ainsi, sa valeur est susceptible de changer chaque fois que nous tirons un nouvel échantillon de la population.

    Remarque

    Il est généralement considéré comme mauvaise pratique de dire que nous ``acceptons l'hypothèse nulle`` car cela implique un niveau de certitude que l'hypothèse nulle est vraie, ce qui n'est pas justifié par le cadre de test d'hypothèse. Au lieu de cela, nous disons que nous ``ne rejetons pas l'hypothèse nulle.`` Voici pourquoi:

  • Le test d'hypothèse commence par l'hypothèse que l'hypothèse nulle $\left(H_0\right)$ est vraie.
  • Le but est de déterminer s'il y a suffisamment de preuves dans les données de l'échantillon pour rejeter $H_0$.
  • Si nous ne rejetons pas $H_0$, cela ne prouve pas que $H_0$ est vrai; cela signifie simplement qu'il n'y a pas suffisamment de preuves contre elle.


  • Ne pas rejeter $H_0$, pourrait se produire pour plusieurs raisons telles que
  • taille d'échantillon insuffisante
  • ou une faible taille d'effet.
  • Exemple

    Considérons un test d'hypothèse où $H_0: \mu=29$ et $H_1: \mu \neq 29$. Un échantillon aléatoire de $25$ observations prélevé dans une population a produit une moyenne d'échantillon de $25.3$ . La population suit une distribution normale avec $\sigma=8$.

    Exemple

    Considérons un test d'hypothèse où $H_0: \mu=30$ et $H_1: \mu<30$. Un échantillon aléatoire de $36$ observations prélevé dans une population a produit une moyenne d'échantillon de $27.6$ . La population a un écart type de $\sigma=10$.

    Exemple

    Considérons un test d'hypothèse où $H_0: \mu=54$ et $H_1: \mu>54$. Un échantillon aléatoire de 40 observations prélevé dans une population a produit une moyenne d'échantillon de $56.78$ . La population a un écart type de $\sigma=5.25$.

    Exemple

    Un collègue à moi qui enseigne les équations différentielles soupçonne que le sac de fromage suisse de luxe de 10 onces qu'il achète au supermarché pèse en réalité moins de 10 onces. Il a pris un échantillon aléatoire de 20 de ces paquets et a constaté que la moyenne du poids de l'échantillon était de 9,955 onces. La population suit une distribution normale avec un écart type de 0,15 onces.

    Exemple

    Une étude affirme que les personnes âgées vivant à Mirabel passent en moyenne 14 heures à jardiner pendant le week-end. Un échantillon aléatoire de 200 personnes a montré que ces personnes âgées passent en moyenne 14,65 heures à jardiner pendant le week-end. Supposons que l'écart type est connu pour être de 3 heures.

    Exemple

    La durée de vie en heures d'une batterie est connue pour être distribuée normalement avec un écart type de $\sigma=1.25$ heures. Un échantillon aléatoire de 10 batteries a une durée de vie moyenne de $\bar{x}=40.5$ heures.

    Exemple

    Un test de point de fusion de $n=10$ échantillons d'un liant utilisé dans la fabrication d'un propergol de fusée a donné $\bar{x}=154.2^{\circ} F$. Supposons que le point de fusion suit une distribution normale avec $\sigma=1.5^{\circ} F$.

    Exemple

    Un ingénieur qui étudie la résistance à la traction d'un alliage d'acier destiné à être utilisé dans les manches de clubs de golf sait que la résistance à la traction est approximativement distribuée normalement avec $\sigma=60 psi$. Un échantillon aléatoire de 12 spécimens a une résistance à la traction moyenne de $\bar{x}=3450$ psi.

    Exemple

    Dans une étude récente, il a été affirmé que la durée moyenne des appels interurbains effectués par les clients résidentiels est de 10 minutes. Un échantillon aléatoire de 100 clients résidentiels a montré que la durée moyenne des appels interurbains était de 10,20 minutes. Supposons que la durée des appels interurbains suit une distribution normale avec un écart type de 3,80 minutes.

    Exemple

    Un fabricant de cartons de lait affirme que la quantité moyenne de lait dispensée dans les cartons est de 32 onces. Un échantillon aléatoire de 25 cartons a montré que la quantité moyenne de lait dispensée dans les cartons était de 31,93 onces. Supposons que la quantité de lait dispensée dans les cartons suit une distribution normale avec un écart type de 1,5 onces.

    Tests sur la moyenne lorsque la variance de la population est inconnue

    La procédure pour effectuer un test d'hypothèse sur la moyenne lorsque la variance de la population est inconnue est similaire à un test lorsque la variance de la population est connue. La seule différence est que la statistique de test passe d'une statistique $Z$ à une statistique $t$.

    $$Z_t=\frac{\bar{x}-k}{\sigma / \sqrt{n}} \Rightarrow T_t=\frac{\bar{x}-k}{s / \sqrt{n}} $$ la distribution $t$ sert de distribution nulle (statistique), et les valeurs $P$ sont estimées différemment que lorsque la variance de la population est connue.

    Comment effectuer un test sur la moyenne lorsque $\sigma$ est inconnu

    Soit $k=$ la valeur revendiquée ou historique de la moyenne de la population, $\mu$

    1. Énoncer l'hypothèse nulle
    $H_0:\mu=k$

    2. Énoncer l'hypothèse alternative
    $H_1: \mu < k $
    $H_1: \mu > k $ ou
    $H_1: \mu \neq k $

    3. Dessiner la zone de rejet si le niveau de signification, $\alpha$, est donné, et déterminer la (les) valeur(s) critique(s), $t_{c, n-1}$, associée(s) à la région de rejet. Les degrés de liberté associés à ce test sont $df=n-1$

    4. En utilisant les informations obtenues à partir de l'échantillon, calculer la statistique de test, $T_t$, $$T_t=\frac{\bar{x}-k}{s / \sqrt{n}}$$

    5. Prendre une décision statistique. Faites cela avec un graphique ou en comparant la statistique de test à la (aux) valeur(s) critique(s).

  • Si la statistique de test tombe dans la région de rejet, rejetez l'hypothèse nulle.
  • Si la statistique de test tombe dans la région de non-rejet, ne rejetez pas l'hypothèse nulle.

    6. Faire une conclusion dans le contexte du problème.


  • 7. Estimer la valeur $P$ et prendre une décision basée sur la valeur $P$.

  • Si la valeur $P$ est inférieure à $\alpha$, rejetez l'hypothèse nulle.
  • Si la valeur $P$ est supérieure à $\alpha$, ne rejetez pas l'hypothèse nulle.
  • Remarque

    Pour estimer la valeur $P$ pour le test, soyez sur la ligne pour les degrés de liberté qui sont associés au test d'hypothèse. Ensuite, trouvez les deux valeurs pour lesquelles la statistique de test est prise en sandwich entre. Une fois que vous avez isolé ces deux valeurs, remontez la colonne jusqu'à ce que vous atteigniez la ligne qui dit $\alpha$. Lisez les valeurs; elles serviront de plage pour estimer la taille de la valeur $P$

    Remarque

    Dans le cas d'un test à double queue, la valeur $P$ doit être doublée car il y a deux zones de rejet (et donc deux zones d'opportunité) où la statistique de test pourrait tomber.

    Règle générale

    Comme pour l'estimation des paramètres, la conclusion du test d'hypothèse doit être formulée avec soin. Voici deux formes généralement acceptées pour formuler la conclusion.

    `` Au niveau de signification de _____, il y a suffisamment/pas suffisamment de preuves pour indiquer que la moyenne est _____ ``

    `` Au niveau de signification de _____, il y a/pas assez de preuves pour indiquer que la moyenne est _____ ``

    ** Écrivez l'hypothèse nulle en anglais, et dans le contexte du problème dans le dernier espace.

    Exemple

    Considérons un test d'hypothèse où $H_0: \mu=205$ et $H_1: \mu>205$. Un échantillon aléatoire de 14 observations prélevé dans une population qui suit une distribution normale a produit une moyenne d'échantillon de 212,37 et un écart-type de 16,35 .

    Exemple

    Considérons un test d'hypothèse où $H_0: \mu=50$ et $H_1: \mu<50$. Un échantillon aléatoire de 8 observations prélevé dans une population qui suit une distribution normale a produit une moyenne d'échantillon de 44,98 et un écart-type de 6,77.

    Exemple

    Considérons un test d'hypothèse où $H_0:\mu=10.70$ et $H_1: \mu \neq 10.70$. Un échantillon aléatoire de 47 observations prélevé dans une population a produit une moyenne d'échantillon de 12.025 et un écart-type de 4.90 .

    Exemple

    Le président d'une université affirme que le temps moyen passé à faire la fête par les étudiants de cette université est inférieur à 11 heures par semaine. Un échantillon aléatoire de 40 étudiants pris dans cette université a montré qu'ils passaient en moyenne 10,5 heures à faire la fête, avec un écart-type de 2,3 heures.

    Exemple

    Une équipe de physiciens étudie la fréquence de vibration d'un diapason nouvellement conçu. Le fabricant affirme que le diaphone vibre à une fréquence moyenne de 256 Hz . Les physiciens soupçonnent que la fréquence moyenne réelle diffère de la valeur revendiquée. Un échantillon aléatoire de 15 diapasons a produit une moyenne de 253 Hz et un écart-type de 3,5 Hz.

    Exemple

    Les températures corporelles de 25 sujets féminins ont donné une moyenne d'échantillon de $\bar{x}=98.264^{\circ} F$ et un écart-type de $s=0.4821^{\circ}F$.

    Exemple

    Un fabricant de chaussures de course sait que la durée de vie moyenne d'un modèle particulier de chaussures est de 15 mois. Quelqu'un dans la division de recherche et développement de la société de chaussures prétend avoir développé un produit plus durable. Ce nouveau produit a été porté par 36 individus et a duré en moyenne 17 mois. La variabilité de la chaussure d'origine est estimée sur la base de l'écart-type du nouveau groupe qui est de 5,5 mois.

    Exemple

    La société affirme que ses biscuits ont une durée de conservation de 5 ans. Un échantillon aléatoire de 200 biscuits a été pris dans l'entrepôt et a révélé que la durée de conservation moyenne de l'échantillon était de 58 mois avec un écart-type de 4,5 mois. Supposons que la population soit normalement distribuée.

    Tests sur la proportion de la population

    La distribution nulle pour le test sur la proportion de la population est la distribution normale standard. La statistique de test est le score z. La statistique de test est calculée comme suit:

    $$Z=\frac{\hat{p}-k}{\sqrt{\frac{k(1-k)}{n}}}$$

    où $\hat{p}$ est la proportion d'échantillon, $p$ est la valeur revendiquée ou historique de la proportion de la population, et $n$ est la taille de l'échantillon.

    Comment effectuer un test sur la proportion de la population

    Soit $k=$ la valeur revendiquée ou historique de la moyenne de la population, $\mu$

    1. Énoncer l'hypothèse nulle
    $H_0:p=k$

    2. Énoncer l'hypothèse alternative
    $H_1: p < k $
    $H_1: p > k $ ou
    $H_1: p \neq k $

    3. Dessiner la zone de rejet si le niveau de signification, $\alpha$, est donné, et déterminer la ou les valeurs critiques, $Z_{c}$, associées à la région de rejet.

    4. En utilisant les informations obtenues à partir de l'échantillon, calculer la statistique de test, $Z_t$, $$Z_t=\frac{\hat{p}-k}{ \sqrt{\frac{k(1-k)}{n}}} \quad ;\quad \hat{p}=\frac{x}{n}$$

    5. Prendre une décision statistique. Faites cela avec un graphique ou en comparant la statistique de test à la ou aux valeurs critiques.

  • Si la statistique de test tombe dans la région de rejet, rejetez l'hypothèse nulle.
  • Si la statistique de test tombe dans la région de non-rejet, ne rejetez pas l'hypothèse nulle.


  • 6. Faire une conclusion dans le contexte du problème.

    7. Calculer la valeur $P$ et prendre une décision basée sur la valeur $P$.

  • Si la valeur $P$ est inférieure à $\alpha$, rejetez l'hypothèse nulle.
  • Si la valeur $P$ est supérieure à $\alpha$, ne rejetez pas l'hypothèse nulle.
  • Remarque

    La taille de l'échantillon doit être suffisamment grande pour que la distribution d'échantillonnage de la proportion d'échantillon soit approximativement normale. Ceci est vérifié en utilisant la condition de succès-échec: $nk \geq 5$ et $n(1-k) \geq 5$.

    Règle générale

    Comme pour l'estimation des paramètres, la conclusion du test d'hypothèse doit être soigneusement formulée. Voici deux formes généralement acceptées pour formuler la conclusion.

    `` Au niveau de signification de _____, il y a suffisamment/pas suffisamment de preuves pour indiquer que la proportion de la population est _____ ``

    `` Au niveau de signification de _____, il y a/pas assez de preuves pour indiquer que le pourcentage de la population est _____ ``

    ** Écrivez l'hypothèse nulle en anglais, et dans le contexte du problème dans le dernier espace vide.

    Exemple

    Une entreprise alimentaire envisage de commercialiser un nouveau type de yaourt glacé. Cependant, avant de commercialiser ce yaourt, la direction de l'entreprise souhaite connaître le pourcentage de personnes qui l'apprécient. L'équipe de recherche de l'entreprise a sélectionné un échantillon aléatoire de 400 personnes et leur a demandé de goûter à ce yaourt. Parmi eux, 150 ont dit qu'ils l'aimaient.

    Exemple

    Une étude menée en 2015 a affirmé que $11\%$ de tous les enfants aux États-Unis vivent actuellement avec au moins un grand-parent. En 2020, un échantillon aléatoire de 1600 enfants a révélé que 180 vivaient actuellement avec au moins un grand-parent.

    Exemple

    Une entreprise qui vend des pièces d'ordinateur affirme que plus de $90\%$ de leurs commandes sont expédiées dans les 72 heures suivant leur réception. Le département de contrôle de la qualité a pris un échantillon aléatoire de 150 commandes et a constaté que 140 ont été expédiées dans les 72 heures suivant la commande.

    Exemple

    Un fabricant de produits électroniques affirme que moins de $5\%$ de leurs produits sont défectueux. Un échantillon aléatoire de 1000 produits a révélé que 60 d'entre eux étaient défectueux.

    Exemple

    Un fabricant de produits chimiques affirme que moins de $2\%$ de leurs produits contiennent des impuretés. Un échantillon aléatoire de 500 produits a révélé que 10 d'entre eux contenaient des impuretés.

    Exemple

    Une entreprise de technologie affirme que son nouveau chatbot AI répond correctement à $85 \%$ des requêtes des utilisateurs. L'entreprise a récemment mis en œuvre une mise à jour, et l'équipe de développement estime que la proportion de réponses correctes a augmenté. Un échantillon aléatoire de 200 requêtes a été pris, et 180 ont été trouvées pour être correctement répondues.

    Exemple

    Une entreprise spécialisée dans les logiciels de reconnaissance faciale affirme que leur algorithme AI identifie correctement les visages $98\%$ du temps. Une récente mise à jour de l'algorithme a été publiée, et les ingénieurs craignent que la mise à jour ait modifié la précision du système. Un échantillon aléatoire de 500visages a été pris, et l'algorithme a correctement identifié 480 d'entre eux.

    Exemple

    Un chercheur affirme qu'au moins $10 \%$ de tous les casques de football ont des défauts de fabrication qui pourraient potentiellement causer des blessures au porteur. Un échantillon de 200 casques a révélé que 24 casques contenaient de tels défauts.