Introduction à l'estimation des paramètres

Les statistiques inférentielles nous permettent de tirer des conclusions sur une population en fonction des données d'un échantillon. Contrairement aux statistiques descriptives, qui résument les données, les techniques inférentielles utilisent la théorie des probabilités pour faire des prédictions, tester des hypothèses et estimer les paramètres de population.

Les méthodes clés des techniques inférentielles comprennent:

  • Estimation: Détermination des paramètres de population (comme la moyenne ou la proportion) à l'aide d'intervalles de confiance.
  • Test d'hypothèse: Évaluation des revendications sur les paramètres de population en utilisant des données d'échantillon.
  • Analyse de régression: Exploration des relations entre les variables et prédictions.
  • Ces techniques reposent sur des principes tels que les distributions d'échantillonnage et le théorème central limite pour généraliser les conclusions d'un échantillon représentatif à la population plus large. En incorporant l'incertitude et la variabilité, les statistiques inférentielles fournissent une base pour la prise de décision et la découverte scientifique.

    Estimation des paramètres et intervalles de confiance

    En statistique, l'estimation des paramètres fait référence à un processus par lequel les informations obtenues à partir d'un échantillon sont utilisées pour faire des inférences sur une population. Il existe deux types d'estimateurs qui peuvent être utilisés pour estimer la valeur d'un paramètre de population: ponctuel et intervalle.

    Définition:

    Estimation ponctuelle

    Une estimation ponctuelle utilise une seule valeur d'une statistique pour approximer la valeur d'un paramètre de population.
    Par exemple, la moyenne de l'échantillon, $\bar{x}$, est souvent utilisée comme estimation ponctuelle de la moyenne de la population, $\mu$; la variance de l'échantillon, $s^2$, sert d'estimation ponctuelle de la variance de la population, $\sigma^2$, et ainsi de suite.

    Remarque

    Utiliser un seul point pour estimer la valeur d'un paramètre de population n'est ni idéal ni pratique; la probabilité que la valeur de notre statistique calculée soit proche (ou égale) de la valeur du paramètre de population, est extrêmement faible.
    Un autre inconvénient de l'utilisation des estimations ponctuelles est qu'elles ne reflètent pas les effets de l'échantillonnage à partir d'une grande population. Une moyenne d'échantillon, par exemple, est aléatoire dans la mesure où l'échantillon lui-même est aléatoire. Chaque fois qu'un nouvel échantillon est prélevé dans la population, une nouvelle moyenne d'échantillon différente en résultera lorsqu'elle est calculée. Pour ces raisons, les estimations par intervalles sont préférées.

    Définition:

    Estimation par intervalle

    Une estimation par intervalle fournit une plage ou un intervalle de valeurs dans lequel le paramètre peut être trouvé.

    Cet intervalle de valeurs est appelé un intervalle de confiance.
    Par exemple, $ a<\bar{x} < b$ est une estimation par intervalle pour $\mu$, et indique que la moyenne de la population se situe quelque part entre $a$ et $b$.

    Remarque

    Une question naturelle qui se pose est ce que nous devrions ajouter ou soustraire à l'estimation ponctuelle afin de générer les bornes inférieure et supérieure de l'intervalle? La réponse dépend de deux considérations:

  • 1. l'erreur standard de la statistique, et
  • 2. le niveau de confiance qui doit être attaché à l'intervalle.
  • Définition:

    Erreur standard

    L'erreur standard quantifie la précision de la statistique d'échantillon en tant qu'estimation du paramètre de population.
    Une erreur standard plus petite indique que la statistique d'échantillon est une estimation plus précise du paramètre de population, et une erreur standard plus grande suggère que la statistique d'échantillon est moins précise.

    Exemple

    Supposons qu'un échantillon aléatoire de 100 étudiants ait une moyenne de 85, et que l'écart type de la population soit de 10. L'erreur standard de la moyenne est: $$SE_{\bar{X}}=\frac{\sigma}{\sqrt{n}}=\frac{10}{\sqrt{100}}=1$$

    Solution

    L'erreur standard de la moyenne est de $1$. Cela implique que la moyenne de l'échantillon est censée varier d'environ 1 unité de la vraie moyenne de la population en moyenne $95\%$ du temps.

    Exemple

    Supposons que vous meniez une enquête auprès de 200 personnes pour déterminer la proportion de personnes préférant le thé au café. Sur les 200 personnes, 120 disent préférer le thé. La proportion d'échantillon $p$ est: $$ p=\frac{\text { Nombre de personnes préférant le thé }}{\text { Nombre total de personnes interrogées }}=\frac{120}{200}=0.6 $$ La formule pour l'erreur standard de la proportion d'échantillon est: $$SE_p=\sqrt{\frac{p(1-p)}{n}}=\sqrt{\frac{(0.6)(1-0.6)}{200}}=0.0346$$

    Solution

    L'erreur standard de la proportion est d'environ 0.0346 . Cela signifie que si vous répétiez l'enquête de nombreuses fois, la proportion d'échantillon varierait généralement d'environ 0.0346 (ou 3.46 points de pourcentage) de la vraie proportion de population.

    Intervalles de confiance

    Un intervalle de confiance est un outil statistique utilisé pour estimer la plage dans laquelle un paramètre de population est susceptible de se situer, sur la base des données d'échantillon. Il fournit une mesure d'incertitude autour de l'estimation, permettant aux chercheurs de tirer des inférences sur la population avec un niveau de confiance spécifié, tel que 95% ou 99%.

    L'intervalle est construit en utilisant la statistique d'échantillon (par exemple, la moyenne ou la proportion), l'erreur standard et une valeur critique déterminée par le niveau de confiance souhaité.

    Les intervalles de confiance sont largement utilisés dans la recherche et la prise de décision pour quantifier la précision d'une estimation et communiquer la fiabilité des conclusions tirées des données.

    Définition:

    Niveau de confiance

    Le niveau de confiance est la probabilité que la valeur du paramètre se situe dans une plage de valeurs spécifiée. Le niveau de confiance est noté $(1-\alpha) 100 \%$, où $\alpha$ désigne le niveau de signification.
    Puisque les intervalles de confiance sont construits à partir de données obtenues à partir d'échantillons aléatoires, ils sont également aléatoires. Par conséquent, nous ne pouvons jamais être certains que l'intervalle contient la valeur du paramètre que nous essayons d'estimer. Cependant, ils sont construits de telle manière que nous avons un degré élevé de confiance qu'il contient la valeur réelle du paramètre qui nous intéresse.
    Dans l'estimation par intervalle, le niveau de signification ($\alpha$) fonctionne aux côtés du niveau de confiance pour indiquer la probabilité que le vrai paramètre de population se situe en dehors de l'intervalle de confiance, tenant compte de l'erreur d'échantillonnage aléatoire. Pendant ce temps, la marge d'erreur (ME) représente la différence maximale attendue entre une statistique d'échantillon, telle que la moyenne ou la proportion, et le vrai paramètre de population. Elle capture l'incertitude dans une estimation causée par la variabilité de l'échantillonnage et est essentielle pour construire des intervalles de confiance.

    Définition:

    Marge d'erreur

    La marge d'erreur (ME) est la différence maximale attendue entre une statistique d'échantillon et le vrai paramètre de population. Elle quantifie l'incertitude dans une estimation due à la variabilité de l'échantillonnage.
    La marge d'erreur est le produit de deux nombres: l'erreur standard et une valeur critique. Les valeurs critiques sont essentiellement des valeurs de coupure qui définissent des régions où la statistique de test est peu susceptible de se situer, et sont obtenues en consultant des tables qui décrivent comment la statistique est distribuée.

    Remarque

    Les facteurs qui peuvent influencer la taille de la marge d'erreur:
  • Taille de l'échantillon ($n$): Les échantillons plus grands réduisent l'erreur standard, conduisant à une plus petite marge d'erreur.
  • Niveau de confiance: Des niveaux de confiance plus élevés nécessitent une valeur critique plus grande $\left(Z^*\right)$, augmentant la marge d'erreur.
  • Variabilité: Une plus grande variabilité dans la population (plus élevée $\sigma$ ou $p(1-p)$ ) conduit à une plus grande marge d'erreur.
  • Définition:

    Intervalle de confiance

    Un intervalle de confiance est une plage de valeurs qui est susceptible de contenir la vraie valeur d'un paramètre de population. Il est construit en utilisant une statistique d'échantillon, l'erreur standard et une valeur critique basée sur le niveau de confiance souhaité. La formule pour un intervalle de confiance est: $$\text{CI} = \text{estimation ponctuelle} \pm \text{marge d'erreur}$$

    Remarque

    Les informations sur la précision de l'estimation sont transmises par la longueur de l'intervalle. Un intervalle court implique une estimation précise; et un intervalle long implique une estimation imprécise.

    Remarque

    À mesure que la confiance augmente, la précision diminue, et vice versa.
    En mettant tous ces éléments ensemble, nous pouvons maintenant considérer la définition complète d'un intervalle de confiance.

    Définition:

    Intervalle de confiance

    Un intervalle de confiance est une plage de valeurs qui est susceptible de contenir la vraie valeur d'un paramètre de population. Il est construit en utilisant une statistique d'échantillon, l'erreur standard et une valeur critique basée sur le niveau de confiance souhaité. La formule pour un intervalle de confiance est: $$\text{CI} = \text{estimation ponctuelle} \pm \text{marge d'erreur}$$

    Règle générale

    Tous les intervalles de confiance doivent être accompagnés d'une déclaration probabiliste qui est interprétée dans le contexte du problème. La forme générale de certaines interprétations acceptables est:

  • ``Nous sommes _____ $\% confiants que le vrai ______ se situe entre ______ et _____ .``
  • ``Avec un échantillonnage répété, nous sommes _____ $\% confiants que la vraie valeur de la population ______ se situe entre ______ et ______ .``
  • Estimation de la moyenne d'une population (Variance connue)

    Dans de nombreuses situations, nous aimerions estimer la moyenne d'une population, $\mu$. L'estimation de la moyenne de la population, $\mu$, implique souvent deux scénarios: lorsque la variance de la population, $\sigma^2$, est connue et lorsqu'elle est inconnue. Pour un échantillon aléatoire $X_1, X_2, \dots, X_n $ de taille $ n $ d'une population avec une moyenne $ \mu $ et une variance $\sigma^2$, la moyenne de l'échantillon, $\bar{X}, suit une distribution normale dans certaines conditions: $$\overline{X}\sim N\left(\mu, \frac{\sigma}{\sqrt{n}}\right)$$
    Lorsque la variance de la population est connue, l'erreur standard de la moyenne de l'échantillon est $\frac{\sigma}{\sqrt{n}}$, et la moyenne de l'échantillon $\bar{X}$ sert d'estimation ponctuelle pour $\mu$. En utilisant cette erreur standard et une valeur Z critique, nous pouvons construire un intervalle de confiance qui fournit une plage où la vraie moyenne de la population est susceptible de se situer, offrant une méthode d'estimation précise et fiable.

    Remarque

    La distribution d'échantillonnage de la moyenne lorsque la variance de la population est connue est la distribution normale .

    Formule:

    Intervalle de confiance pour la moyenne; $\sigma$ connue

    Soit $\overline{X}$ la moyenne de l'échantillon obtenue à partir d'un échantillon aléatoire de taille $n$ d'une population normale avec variance connue, $\sigma$. Alors l'intervalle de confiance $(1-\alpha) \,100 \%$ pour $\mu$ est $$ \bar{x}_{ \pm} Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}$$ où $Z_{\alpha / 2}$ est la valeur critique associée au niveau de confiance.
    La valeur critique, $Z_{\alpha / 2}$, est trouvée en bloquant le milieu $(1-\alpha)\, 100 \%$ de la zone sous la distribution normale standard, et en déterminant la valeur de $k$ qui satisfait $P(-k

    La marge d'erreur est $Z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}$ et représente la différence maximale probable entre la moyenne de l'échantillon et la vraie moyenne de la population.

    Exemple

    Un échantillon aléatoire de 25 étudiants est prélevé dans une population d'étudiants avec une variance connue de 100. La moyenne de l'échantillon est de 75. Trouvez l'intervalle de confiance à 95% pour la moyenne de la population.

    Solution

    Données: $n=25$, $\sigma=10$, $\bar{x}=75$, $\alpha=0.05$. La valeur critique pour un intervalle de confiance de 95% est $Z_{0.025}=1.96$. La marge d'erreur est $1.96 \times \frac{10}{\sqrt{25}}=3.92$. L'intervalle de confiance à 95% pour la moyenne de la population est $75 \pm 3.92 = (71.08, 78.92)$. Interprétation: Nous sommes confiants à 95% que la vraie moyenne de la population se situe entre 71.08 et 78.92.

    Exemple

    Un biologiste étudie le poids moyen d'une espèce spécifique de grenouilles dans une population. D'après des recherches antérieures, la variance de la population ( $\sigma^2$ ) est connue pour être de $4 g^2$ (donc $\sigma=2 g$ ). Le biologiste collecte un échantillon aléatoire de $n=25$ grenouilles et trouve que le poids moyen de l'échantillon est de $\bar{x}=12.5g$. Construisez un intervalle de confiance de $98 \%$ pour le vrai poids moyen des grenouilles $(\mu)$.

    Solution

    Données: $n=25$, $\sigma=2$, $\bar{x}=12.5$, $\alpha=0.02$. La valeur critique pour un intervalle de confiance de 98% est $Z_{0.01}=2.33$. La marge d'erreur est $2.33 \times \frac{2}{\sqrt{25}}=0.932$. L'intervalle de confiance de 98% pour la moyenne de la population est $12.5 \pm 0.932 = (11.568, 13.432)$. Interprétation: Nous sommes confiants à 98% que la vraie moyenne de la population des grenouilles se situe entre $11.568$ et $13.432$ grammes.

    Exemple

    Un physicien mesure la vitesse du son dans un milieu différent sur $n=25$ essais, trouvant une moyenne d'échantillon $\bar{x}=343 m/s$. L'écart type de la population est connu pour être $\sigma=3 m/s$.

    Tailles d'échantillons

    Il existe deux façons d'augmenter la précision de nos estimations. Nous pouvons soit: réduire le niveau de confiance, soit augmenter la taille de l'échantillon.

    Réduire le niveau de confiance n'est pas conseillé car cela peut produire des résultats moins fiables. Par conséquent, l'option préférable est d'augmenter toujours nos tailles d'échantillons.
    Pour déterminer la taille de l'échantillon nécessaire pour répondre à certaines conditions, nous utilisons la partie de la marge d'erreur de l'intervalle de confiance ou la limite pour la calculer.

    Formule:

    Taille de l'échantillon pour estimer la moyenne; $\sigma$ connue

    Pour estimer la taille de l'échantillon nécessaire pour estimer la moyenne de la population avec une marge d'erreur spécifiée, nous utilisons la formule: $$n=\left(\frac{Z_{\alpha / 2} \sigma}{ME}\right)^2$$ où $n$ est la taille de l'échantillon, $Z_{\alpha / 2}$ est la valeur critique, $\sigma$ est l'écart type de la population, et $ME$ est la marge d'erreur.

    Exemple

    Un chercheur souhaite estimer le poids moyen d'une population de grenouilles avec une marge d'erreur de $0.5g$. L'écart type de la population est connu pour être de $2g$. Quelle taille d'échantillon est nécessaire pour atteindre cette marge d'erreur avec un niveau de confiance de $95 \%$?

    Solution

    Données: $ME=0.5$, $\sigma=2$, $\alpha=0.05$. La valeur critique pour un intervalle de confiance de 95% est $Z_{0.025}=1.96$. La taille de l'échantillon nécessaire est $n=\left(\frac{1.96 \times 2}{0.5}\right)^2=61.4656$. Par conséquent, le chercheur devrait prendre une taille d'échantillon de $n=62$ pour estimer le poids moyen de la population avec une marge d'erreur de $0.5g$ et un niveau de confiance de $95 \%$.

    Exemple

    Un scientifique souhaite estimer la vitesse du son moyenne dans un milieu avec une marge d'erreur de $0.5 m/s$. L'écart type de la population est connu pour être de $3 m/s$. Quelle taille d'échantillon est nécessaire pour atteindre cette marge d'erreur avec un niveau de confiance de $99 \%$?

    Solution

    Données: $ME=0.5$, $\sigma=3$, $\alpha=0.01$. La valeur critique pour un intervalle de confiance de 99% est $Z_{0.005}=2.58$. La taille de l'échantillon nécessaire est $n=\left(\frac{2.58 \times 3}{0.5}\right)^2=595.584$. Par conséquent, le scientifique devrait prendre une taille d'échantillon de $n=596$ pour estimer la vitesse moyenne du son dans le milieu avec une marge d'erreur de $0.5 m/s$ et un niveau de confiance de $99 \%$.

    Exemple

    Un fabricant affirme que ses ampoules ont une durée de vie moyenne de $\mu=1200$ heures. Une équipe de contrôle qualité teste un échantillon aléatoire de $n=40$ ampoules et trouve une durée de vie moyenne de l'échantillon de $\bar{x}=$ 1185 heures. L'écart type de la population est connu pour être $\sigma=100$ heures.

    Limites de confiance unilatérales pour la moyenne; $\sigma$ connue

    En général, les intervalles de confiance à deux côtés sont utilisés pour effectuer une estimation par intervalle. Mais, des limites de confiance unilatérales existent également; celles-ci sont souvent utilisées en conjonction avec des tests d'hypothèses.
    Le mécanisme de recherche d'une limite de confiance unilatérale est exactement le même que celui de la recherche d'un intervalle de confiance à deux côtés; la seule différence est que la valeur critique $Z_{\alpha / 2}$ est remplacée par $Z_\alpha$ pour refléter le chargement de tout le $\alpha$ sur l'une des queues de la distribution.

    Formule:

    Limite de confiance unilatérale pour la moyenne; $\sigma$ connue

    Soit $\overline{X}$ la moyenne de l'échantillon obtenue à partir d'un échantillon aléatoire de taille $n$ d'une population normale avec variance connue, $\sigma$. Alors une
  • $(1-\alpha) 100 \%$ limite de confiance inférieure pour $\mu$ est
  • $$\bar{x}-Z_\alpha \frac{\sigma}{\sqrt{n}} \leq \mu $$
  • $(1-\alpha) 100 \%$ limite de confiance supérieure pour $\mu$ est
  • $$\mu \leq \bar{x}+Z_\alpha \frac{\sigma}{\sqrt{n}} $$

    Exemple

    Une équipe d'ingénierie teste la résistance à la traction d'un nouveau type d'alliage d'acier. À partir d'un échantillon de $n=50$ pièces de test, ils mesurent une résistance à la traction moyenne de $850 MPa$. L'écart type de la population est connu pour être de $\sigma=40 MPa$. Construisez et interprétez une limite de confiance inférieure de $98 \%$ pour la vraie résistance à la traction moyenne de l'alliage d'acier $(\mu)$.

    Solution

    Données: $n=50$, $\sigma=40$, $\bar{x}=850$, $\alpha=0.02$. La valeur critique pour un intervalle de confiance de 98% est $Z_{0.02}=2.33$. La marge d'erreur est $2.33 \times \frac{40}{\sqrt{50}}=13.12$. La limite de confiance inférieure de 98% pour la moyenne de la population est $850-13.12 = 836.88$. Interprétation: Avec des échantillonnages répétés, nous sommes confiants à 98% que la vraie moyenne de la population de résistance à la traction de l'alliage d'acier est d'au moins 836.88 MPa. Cette limite inférieure garantit que la vraie résistance moyenne est peu susceptible de tomber en dessous de cette valeur, fournissant aux ingénieurs une estimation conservatrice pour les garanties de performance.

    Exemple

    Un vétérinaire étudie le poids d'une nouvelle race de chiots à l'âge de 3 mois. A partir d'un échantillon de $n=30$ chiots, le poids moyen est de $ar{x}=12.5 kg$, avec un écart-type de $\sigma=2 kg$. Construisez et interprétez une limite supérieure de confiance de $95 \%$ pour le véritable poids moyen des chiots $(\mu)$.

    Solution

    Etant donné : $n=30$, $\sigma=2$, $\bar{x}=12,5$, $\alpha=0,05$. La valeur critique pour un intervalle de confiance de 95% est $Z_{0.05}=1.645$. La marge d'erreur est de $1.645$ \times \frac{2}{\sqrt{30}}=0.599$. La limite supérieure de confiance à $95\%$ pour la moyenne de la population est $12.5+0.599 = 13.099$. Interprétation : Grâce à l'échantillonnage répété, nous sommes sûrs à 95 % que le poids moyen réel de la population de chiots est au maximum de 13,099 kg. Cette limite supérieure garantit qu'il est peu probable que le poids moyen réel dépasse cette valeur, ce qui permet aux vétérinaires de disposer d'une estimation prudente pour les recommandations en matière d'alimentation.

    Estimation de la Moyenne d'une Population; Variance Inconnue

    Dans la plupart des situations, la variance de la population est inconnue. Lorsque la variance n'est pas fournie, l'écart-type de l'échantillon est utilisé comme estimation, ce qui introduit une variabilité supplémentaire. Par conséquent, la distribution d'échantillonnage de la moyenne de l'échantillon suit une distribution t plutôt qu'une distribution normale.

    La distribution t ajuste cette incertitude supplémentaire et dépend de la taille de l'échantillon à travers ses degrés de liberté $(n-1)$. Cette méthode permet aux chercheurs de construire des intervalles de confiance et d'effectuer des tests d'hypothèses pour la moyenne de la population, même en l'absence de connaissance précise de la variance de la population, ce qui en fait une approche statistique largement applicable et robuste.

    Remarque

    La distribution d'échantillonnage de la moyenne lorsque la variance de la population est inconnue est une distribution t . La distribution t est similaire à la distribution normale mais a des queues plus lourdes, qui tiennent compte de la variabilité supplémentaire introduite par l'utilisation de l'écart-type de l'échantillon comme estimation de la variance de la population.

    La Distribution $t-$

    La distribution t est une famille de distributions qui dépend des degrés de liberté $(n-1)$, qui ajustent la variabilité supplémentaire introduite par l'utilisation de l'écart-type de l'échantillon comme estimation de la variance de la population. La distribution t est symétrique et en forme de cloche, similaire à la distribution normale, mais a des queues plus lourdes. À mesure que la taille de l'échantillon augmente, la distribution t se rapproche de la distribution normale. La distribution t est utilisée pour construire des intervalles de confiance et effectuer des tests d'hypothèses pour la moyenne de la population lorsque la variance de la population est inconnue.

    Remarque

    Si les degrés de liberté souhaités se situent entre deux valeurs, la plus petite valeur doit être utilisée (c'est-à-dire arrondie vers le bas).

    Exemple

    Trouvez la valeur $t$ d'une distribution $t$ avec $12$ degrés de liberté et $5\%$ dans la queue droite.

    $t_{0.05,11}=1.782$

    Solution

    Exemple

    Trouvez la valeur $t$ d'une distribution $t$ avec $58$ degrés de liberté avec $12.5%$ de la zone dans la queue droite.

    $t_{0.125,57}=1.67$

    Solution

    Exemple

    Trouvez la valeur $t$ d'une distribution $t$ avec $20$ degrés de liberté et $0.005$ dans la queue gauche.

    $t_{0.005,19}=-2.845$

    Solution

    Exemple

    Trouvez la valeur $t$ d'une distribution $t$ avec $1500$ degrés de liberté avec $1%$ de la zone dans la queue gauche.

    $t_{0.01,\infty}=-2.326$

    Solution

    Intervalle de Confiance pour la Moyenne de la Population; $\sigma$ Inconnu

    Les mécanismes de construction des estimations par intervalles pour la moyenne, $\mu$, lorsque la variance de la population est inconnue sont exactement les mêmes que lorsque nous connaissons la valeur de $\sigma^2$. La seule différence est que:
  • 1. L'écart-type de l'échantillon, $s$, est utilisé à la place de l'écart-type de la population, $\sigma$.
  • 2. La distribution t est utilisée à la place de la distribution normale pour tenir compte de la variabilité supplémentaire introduite par l'utilisation de $s$ comme estimation de $\sigma$.
  • Formule:

    Intervalle de Confiance pour la Moyenne de la Population; $\sigma$ Inconnu

    Soit $\bar{x}$ la moyenne de l'échantillon obtenue à partir d'un échantillon aléatoire de taille $n$ avec une variance de population inconnue $\sigma^2$. Alors l'intervalle de confiance $(1-\alpha) 100 \%$ pour $\mu$ est $$\bar{x} \pm t_{\alpha/2, n-1} \left(\frac{s}{\sqrt{n}}\right)$$ où $t_{\alpha/2, n-1}$ est la valeur $t$ qui correspond au niveau de confiance souhaité et aux degrés de liberté $(n-1)$.
    L'erreur standard de la moyenne est calculée comme $SE(\bar{x})=\frac{s}{\sqrt{n}}$ et la marge d'erreur est $MR=t_{\alpha/2, n-1} \left(\frac{s}{\sqrt{n}}\right)$.

    Remarque

    Les mêmes hypothèses de normalité s'appliquent que dans le cas où la variance de la population est connue.
  • La population sous-jacente à partir de laquelle l'échantillon est tiré doit suivre une distribution normale.
  • Si la taille de l'échantillon est petite (typiquement $n<30$), cette hypothèse est critique, et la normalité doit être évaluée à l'aide de graphiques (par exemple, des histogrammes, des graphiques Q-Q) ou des tests (par exemple, le test de Shapiro-Wilk).
  • Si la taille de l'échantillon est grande ($n \geq 30$), le Théorème Central Limite assure que la distribution d'échantillonnage de la moyenne est approximativement normale, même si la population n'est pas parfaitement normale.
  • Exemple

    Un biologiste étudie la longueur des ailes d'une espèce spécifique de papillon. À partir d'un échantillon aléatoire de $n=$ 15 papillons, la longueur moyenne des ailes est de $\bar{x}=12.4 cm$, avec un écart-type de l'échantillon de $s=0.8 cm$. Construisez et interprétez un intervalle de confiance de $90\%$ pour la vraie longueur moyenne des ailes de cette espèce de papillon.

    Solution

    L'intervalle de confiance de $90\%$ pour la vraie longueur moyenne des ailes de cette espèce de papillon est de $12.4 \pm 1.761 \left(\frac{0.8}{\sqrt{15}}\right) = 12.4 \pm 0.363$ cm. Nous sommes $90\%$ confiants que la vraie longueur moyenne des ailes de cette espèce de papillon se situe entre $12.037$ et $12.763$ cm.

    Exemple

    Un échantillon aléatoire de $n=$ 25 étudiants est pris pour estimer le nombre moyen d'heures que les étudiants passent à étudier par semaine. La moyenne de l'échantillon est de $\bar{x}=10.5$ heures, et l'écart-type de l'échantillon est de $s=2.3$ heures. Construisez un intervalle de confiance de $95\%$ pour le vrai nombre moyen d'heures que les étudiants passent à étudier par semaine.

    Solution

    L'intervalle de confiance de $95\%$ pour le vrai nombre moyen d'heures que les étudiants passent à étudier par semaine est de $10.5 \pm 2.064 \left(\frac{2.3}{\sqrt{25}}\right) = 10.5 \pm 0.924$ heures. Nous sommes $95\%$ confiants que le vrai nombre moyen d'heures que les étudiants passent à étudier par semaine se situe entre $9.576$ et $11.424$ heures.

    Bornes de Confiance Unilatérales pour la Moyenne de la Population; $\sigma$ Inconnu

    Comme vu précédemment, les bornes de confiance unilatérales sont utilisées lorsque le chercheur s'intéresse uniquement à la limite inférieure ou supérieure de l'intervalle de confiance. Les bornes de confiance unilatérales pour la moyenne de la population lorsque la variance de la population est inconnue sont construites de manière similaire à l'intervalle de confiance bilatéral, mais la valeur critique est ajustée en conséquence.

    Formule:

    Borne de Confiance Unilatérale pour la Moyenne de la Population; $\sigma$ Inconnu

    Soit $\bar{x}$ la moyenne de l'échantillon obtenue à partir d'un échantillon aléatoire de taille $n$ avec une variance de population inconnue $\sigma^2$. La A
  • borne de confiance inférieure $(1-\alpha) 100 \%$ pour $\mu$ est$$ \bar{x}-t_{\alpha, n-1} \frac{s}{\sqrt{n}} \leq \mu $$
  • et une borne de confiance supérieure $(1-\alpha) 100 \%$ pour $\mu$ est $$ \mu \leq \bar{x}+t_{\alpha, n-1} \frac{s}{\sqrt{n}}$$
  • où $t_{\alpha, n-1}$ est la valeur $t$ qui correspond au niveau de confiance souhaité et aux degrés de liberté $(n-1)$.

    Exemple

    Un chimiste étudie le pourcentage de pureté d'un composé chimique nouvellement synthétisé. À partir d'un échantillon aléatoire de $n=12$ lots, la pureté moyenne de l'échantillon est de $\bar{x}=98.6 \%$, avec un écart-type de l'échantillon de $s=0.5 \%$. Calculez et interprétez une limite inférieure de $95 \%$ pour la vraie pureté moyenne ( $\mu$ ) du composé.

    Solution

    La limite inférieure de $95 \%$ pour la vraie pureté moyenne du composé est de $98.6 - 1.796 \left(\frac{0.5}{\sqrt{12}}\right) = 98.6 - 0.259 \%$. Avec 95% de confiance, la vraie pureté moyenne du composé chimique est d'au moins 98.34%. Cette limite inférieure fournit une estimation conservatrice de la pureté du composé, garantissant que le chimiste dispose d'une valeur minimale fiable pour l'assurance qualité.

    Exemple

    Un échantillon aléatoire de $n=20$ patients est pris pour estimer le temps moyen nécessaire à un nouveau médicament pour agir. La moyenne de l'échantillon est de $\bar{x}=3.5$ heures, et l'écart-type de l'échantillon est de $s=0.8$ heures. Calculez et interprétez une limite supérieure de $90 \%$ pour le vrai temps moyen nécessaire pour que le médicament agisse.

    Solution

    La limite supérieure de $90 \%$ pour le vrai temps moyen nécessaire pour que le médicament agisse est de $3.5 + 1.725 \left(\frac{0.8}{\sqrt{20}}\right) = 3.5 + 0.305$ heures. Nous sommes $90 \%$ confiants que le vrai temps moyen nécessaire pour que le médicament agisse est au plus de $3.805$ heures.

    Quand Utiliser la Distribution t

    La distribution t doit être utilisée lorsque

  • La variance de la population est inconnue. Si la variance de la population $\left(\sigma^2\right)$ ou l'écart-type $(\sigma)$ est inconnu, et que vous devez l'estimer en utilisant l'écart-type de l'échantillon $(s)$, l'incertitude supplémentaire nécessite l'utilisation de la distribution t.
  • La taille de l'échantillon est petite (typiquement $n<30$). Si la taille de l'échantillon est petite $(n<30)$, la distribution t est mieux adaptée car elle tient compte de la variabilité supplémentaire introduite par l'estimation de l'écart-type de la population.

    Pour des échantillons plus importants ( $n \geq 30$ ), le Théorème Central Limite assure que la distribution d'échantillonnage de la moyenne de l'échantillon est approximativement normale, de sorte que la distribution $t$ et la distribution normale donnent des résultats presque identiques.
  • Quand Utiliser la Distribution Normale

    La distribution normale doit être utilisée lorsque

  • La variance de la population est connue. Si la variance de la population $\left(\sigma^2\right)$ ou l'écart-type $(\sigma)$ est connu, vous pouvez utiliser la distribution normale, quelle que soit la taille de l'échantillon.
  • La taille de l'échantillon est grande $(n \geq 30)$. Si la taille de l'échantillon est grande $(n \geq 30)$, la distribution $t$ se rapproche de la distribution normale, et l'une ou l'autre peut être utilisée. Cependant, en pratique, la distribution t est souvent utilisée quelle que soit la taille de l'échantillon si la variance de la population est inconnue, car c'est un choix plus conservateur.
  • Règle Générale

  • Utilisez la distribution $t$ lorsque la variance de la population est inconnue et lorsque la taille de l'échantillon est petite $(n<30)$.
  • Utilisez la distribution normale lorsque la variance de la population est connue ou lorsque la taille de l'échantillon est grande $(n \geq 30)$.
  • Intervalle de confiance pour une proportion de population

    Un autre paramètre que nous voulons souvent estimer est la proportion ou le pourcentage de la population. Une proportion de population peut être vue comme une variable aléatoire binomiale; soit un élément de la population a une certaine caractéristique, soit il ne l'a pas.

    Rappelons qu'une distribution binomiale peut être complètement décrite par le nombre d'essais indépendants dans l'expérience, $n$, et par la probabilité de succès à chaque essai, $p$. De plus, si $n p>5$ et $n(1-p)>5$, alors la distribution normale peut être utilisée pour approximer la distribution binomiale.

    Estimateur ponctuel pour une proportion de population

    L'estimateur ponctuel pour une proportion de population est la proportion d'échantillon, $\hat{p}$. La proportion d'échantillon est calculée comme le nombre d'éléments dans l'échantillon qui ont la caractéristique d'intérêt divisé par la taille de l'échantillon. La proportion d'échantillon est un estimateur sans biais de la proportion de population, $p$. La proportion d'échantillon est également un estimateur du maximum de vraisemblance de la proportion de population.

    Définition:

    Estimation ponctuelle pour une proportion de population

    Soit la proportion de population est désignée par $p$. Alors l'estimateur pour la proportion de population, $\hat{p}$, est défini comme $$\hat{p}=\frac{x}{n} $$ où $x$ est le nombre d'éléments dans l'échantillon qui ont la caractéristique d'intérêt et $n$ est la taille de l'échantillon.

    Distribution d'échantillonnage pour la statistique de proportion de population, $\hat{p}$

    Puisque $\hat{p}$ est obtenu à partir de statistiques d'échantillonnage, il a une distribution d'échantillonnage. Pour un échantillon suffisamment grand (c'est-à-dire $n p>5$ et $n(1-p)>5$), la distribution de la proportion d'échantillon est approximativement normale et a les propriétés suivantes:

  • La moyenne de la proportion d'échantillon est égale à la proportion de population, $p$.
  • L'erreur standard de la proportion d'échantillon est donnée par $$\sqrt{\frac{p(1-p)}{n}}$$
  • Comme pour les distributions d'échantillonnage de la moyenne, si nous prenons des échantillons de plus en plus grands et calculons la proportion d'éléments dans ces échantillons qui ont une caractéristique particulière, alors les valeurs de ces proportions formeront leur propre distribution normale. C'est-à-dire, $$\hat{p}\sim N\left(\mu_{\hat{p}}, \sigma_{\hat{p}}\right)=N\left(p, \sqrt{\frac{p(1-p)}{n}}\right)$

    Intervalles de confiance pour une proportion de population

    Un intervalle de confiance pour une proportion de population est une estimation par intervalle de la proportion de population.

    Formule:

    Intervalle de confiance pour une proportion de population

    Soit $\hat{p}=\frac{x}{n}$ est l'estimation ponctuelle pour la proportion de population, $p$. Alors l'intervalle de confiance $(1-\alpha) 100 \%$ pour $p$ est $$ \hat{p} \pm Z_{\alpha / 2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$$ où $Z_{\alpha / 2}$ est la valeur critique associée au niveau de confiance.

    Remarque

    La distribution d'échantillonnage pour la proportion est la distribution normale. Par conséquent, l'intervalle de confiance pour la proportion de population est basé sur la distribution normale.

    Règle de base

    L'intervalle est valide à condition que la taille de l'échantillon soit suffisamment grande. En général, lorsque $np>5$ et $n(1-p)>5$. C'est la même condition qui nous permet d'utiliser la distribution normale pour approximer la distribution binomiale.

    Exemple

    Un physicien teste un lot d'ampoules LED pour déterminer la proportion qui répond aux normes d'efficacité énergétique requises. Sur un échantillon aléatoire de $n=200$ ampoules, $x=170$ ampoules sont trouvées pour être économes en énergie. Construisez et interprétez un intervalle de confiance de $90\%$ pour la vraie proportion d'ampoules LED économes en énergie dans le lot.

    Solution

    L'estimation ponctuelle pour la proportion de population est $\hat{p}=\frac{x}{n}=\frac{170}{200}=0.85$. La valeur critique pour un intervalle de confiance de $90\%$ est $Z_{\alpha / 2}=1.645$. La marge d'erreur est $Z_{\alpha / 2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}=1.645 \sqrt{\frac{0.85(1-0.85)}{200}}=0.045$. Par conséquent, l'intervalle de confiance de $90\%$ pour la vraie proportion d'ampoules LED économes en énergie dans le lot est $0.85 \pm 0.045$ ou $(0.805, 0.895)$. Cela signifie que nous sommes $90\%$ confiants que la vraie proportion d'ampoules LED économes en énergie dans le lot est entre $80.5\%$ et $89.5\%$.

    Exemple

    Une entreprise de logiciels teste un nouvel algorithme pour détecter les logiciels malveillants. Dans un échantillon aléatoire de $n=$ 500 fichiers, l'algorithme identifie correctement $x=460$ fichiers infectés par des logiciels malveillants. Construisez et interprétez un intervalle de confiance de $96\%$ pour la vraie proportion de fichiers infectés par des logiciels malveillants que l'algorithme peut détecter.

    Solution

    L'estimation ponctuelle pour la proportion de population est $\hat{p}=\frac{x}{n}=\frac{460}{500}=0.92$. La valeur critique pour un intervalle de confiance de $96\%$ est $Z_{\alpha / 2}=2.05$. La marge d'erreur est $Z_{\alpha / 2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}=2.05 \sqrt{\frac{0.92(1-0.92)}{500}}=0.034$. Par conséquent, l'intervalle de confiance de $96\%$ pour la vraie proportion de fichiers infectés par des logiciels malveillants que l'algorithme peut détecter est $0.92 \pm 0.034$ ou $(0.886, 0.954)$. Cela signifie que nous sommes $96\%$ confiants que la vraie proportion de fichiers infectés par des logiciels malveillants que l'algorithme peut détecter est entre $88.6\%$ et $95.4\%$.

    Exemple

    Un biologiste étudie une population de grenouilles dans une zone humide pour déterminer la proportion qui sont porteuses d'une mutation génétique spécifique. Sur un échantillon aléatoire de $n=400$ grenouilles, $x=72$ sont trouvées pour porter la mutation.

    Dans certains cas, la taille d'échantillon requise pour estimer une proportion de population avec une marge d'erreur spécifiée est d'intérêt. La taille d'échantillon requise pour estimer une proportion de population avec une marge d'erreur spécifiée peut être divisée en deux cas: lorsque nous avons une estimation préliminaire de la proportion de population et lorsque nous n'avons pas d'estimation préliminaire de la proportion de population.

    Formule:

    Taille d'échantillon pour estimer une proportion de population

    Soit $p$ la proportion de population, $\alpha$ le niveau de confiance, $Z_{\alpha / 2}$ la valeur critique associée au niveau de confiance, et $E$ la marge d'erreur. Alors la taille d'échantillon requise pour estimer la proportion de population avec une marge d'erreur spécifiée est donnée par $$n=\frac{Z_{\alpha / 2}^{2} p(1-p)}{E^{2}}$$

    Remarque

    En l'absence d'une estimation préliminaire de la proportion de population, nous faisons $p=0.5$ pour générer l'estimation de taille d'échantillon la plus conservatrice qui satisfait les contraintes données.

    Exemple

    Un conservateur de la faune veut estimer la proportion d'oiseaux dans une région qui sont affectés par un parasite particulier. Pour garantir que l'estimation est précise, le conservateur veut que la marge d'erreur ne dépasse pas 5 points de pourcentage ( 0.05 ) avec $95 \%$ de confiance. Sur la base d'études antérieures, la proportion estimée ( $\hat{p}$ ) d'oiseaux affectés est d'environ $0.3$. Quelle est la taille d'échantillon minimale nécessaire pour atteindre ce niveau de précision?

    Solution

    La proportion de population est $p=0.3$, le niveau de confiance est $95\%$, la marge d'erreur est $E=0.05$, et la valeur critique pour un intervalle de confiance de $95\%$ est $Z_{\alpha / 2}=1.96$. La taille d'échantillon requise pour estimer la proportion de population avec une marge d'erreur spécifiée est donnée par $$n=\frac{Z_{\alpha / 2}^{2} p(1-p)}{E^{2}}=\frac{1.96^{2} 0.3(1-0.3)}{0.05^{2}}=331.776$$ Par conséquent, la taille d'échantillon minimale nécessaire pour atteindre ce niveau de précision est 332.

    Exemple

    Un biologiste veut estimer la proportion d'une espèce de poisson spécifique dans un lac qui est infectée par un parasite particulier. Le biologiste a besoin d'une marge d'erreur de pas plus de 4 points de pourcentage ( 0.04 ) avec $99\%$ de confiance. Quelle est la taille d'échantillon minimale nécessaire pour atteindre ce niveau de précision?

    Solution

    La proportion de population est inconnue, donc nous forçons $p=0.5$, le niveau de confiance est $99\%$, la marge d'erreur est $E=0.04$, et la valeur critique pour un intervalle de confiance de $99\%$ est $Z_{\alpha / 2}=2.58$. La taille d'échantillon requise pour estimer la proportion de population avec une marge d'erreur spécifiée est donnée par $$n=\frac{Z_{\alpha / 2}^{2} p(1-p)}{E^{2}}=\frac{2.58^{2} 0.5(1-0.5)}{0.04^{2}}=841.5$$ Par conséquent, la taille d'échantillon minimale nécessaire pour atteindre ce niveau de précision est 842.

    Bornes de confiance unilatérales pour la proportion de population

    Dans certains cas, nous pouvons être intéressés à estimer la proportion d'une population qui a une certaine caractéristique, mais nous ne sommes intéressés que par la borne inférieure ou supérieure de la proportion. Dans de tels cas, nous pouvons utiliser un intervalle de confiance unilatéral pour estimer la borne inférieure ou supérieure de la proportion de population.

    Formule:

    Intervalle de confiance unilatéral pour une proportion de population

    Soit $\hat{p}=\frac{x}{n}$ l'estimation ponctuelle pour la proportion de population, $p$. Alors l'intervalle de confiance unilatéral $100(1-\alpha)\%$ pour $p$ est donné par $$\hat{p} + Z_{\alpha} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$$ pour la borne supérieure et $$\hat{p} - Z_{\alpha} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$$ pour la borne inférieure, où $Z_{\alpha}$ est la valeur critique associée au niveau de confiance.

    Exemple

    Un astrophysicien étudie un échantillon d'étoiles lointaines pour déterminer la proportion qui présente des fluctuations inhabituelles de luminosité, ce qui pourrait indiquer la présence d'exoplanètes. Sur un échantillon de $n=120$ étoiles, $x=18$ étoiles montrent de telles fluctuations. Construisez et interprétez une borne de confiance unilatérale de $95\%$ pour la vraie proportion d'étoiles qui présentent des fluctuations inhabituelles de luminosité.

    Solution

    L'estimation ponctuelle pour la proportion de population est $\hat{p}=\frac{x}{n}=\frac{18}{120}=0.15$. La valeur critique pour un intervalle de confiance unilatéral de $95\%$ est $Z_{\alpha}=1.645$. La marge d'erreur est $Z_{\alpha} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}=1.645 \sqrt{\frac{0.15(1-0.15)}{120}}=0.045$. Par conséquent, l'intervalle de confiance unilatéral de $95\%$ pour la vraie proportion d'étoiles qui présentent des fluctuations inhabituelles de luminosité est $0.15 + 0.045$ ou $(0.15, 1)$. Cela signifie que nous sommes $95\%$ confiants que la vraie proportion d'étoiles qui présentent des fluctuations inhabituelles de luminosité est d'au moins $15\%.

    Exemple

    Un informaticien évalue un nouvel algorithme pour détecter les courriels indésirables. Dans un échantillon aléatoire de $n=250$ courriels, l'algorithme identifie correctement $x=200$ comme des courriels indésirables. Construisez et interprétez une borne de confiance unilatérale de $80\%$ pour la vraie proportion de courriels indésirables que l'algorithme peut détecter.

    Solution

    L'estimation ponctuelle pour la proportion de population est $\hat{p}=\frac{x}{n}=\frac{200}{250}=0.8$. La valeur critique pour un intervalle de confiance unilatéral de $80\%$ est $Z_{\alpha}=1.282$. La marge d'erreur est $Z_{\alpha} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}=1.282 \sqrt{\frac{0.8(1-0.8)}{250}}=0.034$. Par conséquent, l'intervalle de confiance unilatéral de $80\%$ pour la vraie proportion de courriels indésirables que l'algorithme peut détecter est $0.8 + 0.034$ ou $(83.4\%)$. Cela signifie que nous sommes $80\%$ confiants que la vraie proportion de courriels indésirables que l'algorithme peut détecter est au plus $83.4\%.