Introduction à l'estimation des paramètres
Les méthodes clés des techniques inférentielles comprennent:
Estimation des paramètres et intervalles de confiance
Définition:
Estimation ponctuelle
Remarque
Définition:
Estimation par intervalle
Cet intervalle de valeurs est appelé un intervalle de confiance.
Remarque
Définition:
Erreur standard
Exemple
Supposons qu'un échantillon aléatoire de 100 étudiants ait une moyenne de 85, et que l'écart type de la population soit de 10. L'erreur standard de la moyenne est: $$SE_{\bar{X}}=\frac{\sigma}{\sqrt{n}}=\frac{10}{\sqrt{100}}=1$$
Solution
L'erreur standard de la moyenne est de $1$. Cela implique que la moyenne de l'échantillon est censée varier d'environ 1 unité de la vraie moyenne de la population en moyenne $95\%$ du temps.
Exemple
Supposons que vous meniez une enquête auprès de 200 personnes pour déterminer la proportion de personnes préférant le thé au café. Sur les 200 personnes, 120 disent préférer le thé. La proportion d'échantillon $p$ est: $$ p=\frac{\text { Nombre de personnes préférant le thé }}{\text { Nombre total de personnes interrogées }}=\frac{120}{200}=0.6 $$ La formule pour l'erreur standard de la proportion d'échantillon est: $$SE_p=\sqrt{\frac{p(1-p)}{n}}=\sqrt{\frac{(0.6)(1-0.6)}{200}}=0.0346$$
Solution
L'erreur standard de la proportion est d'environ 0.0346 . Cela signifie que si vous répétiez l'enquête de nombreuses fois, la proportion d'échantillon varierait généralement d'environ 0.0346 (ou 3.46 points de pourcentage) de la vraie proportion de population.
Intervalles de confiance
L'intervalle est construit en utilisant la statistique d'échantillon (par exemple, la moyenne ou la proportion), l'erreur standard et une valeur critique déterminée par le niveau de confiance souhaité.
Les intervalles de confiance sont largement utilisés dans la recherche et la prise de décision pour quantifier la précision d'une estimation et communiquer la fiabilité des conclusions tirées des données.
Définition:
Niveau de confiance
Définition:
Marge d'erreur
Remarque
Définition:
Intervalle de confiance
Remarque
Remarque
Définition:
Intervalle de confiance
Règle générale
Estimation de la moyenne d'une population (Variance connue)
Remarque
Formule:
Intervalle de confiance pour la moyenne; $\sigma$ connue
Exemple
Un échantillon aléatoire de 25 étudiants est prélevé dans une population d'étudiants avec une variance connue de 100. La moyenne de l'échantillon est de 75. Trouvez l'intervalle de confiance à 95% pour la moyenne de la population.
Solution
Données: $n=25$, $\sigma=10$, $\bar{x}=75$, $\alpha=0.05$. La valeur critique pour un intervalle de confiance de 95% est $Z_{0.025}=1.96$. La marge d'erreur est $1.96 \times \frac{10}{\sqrt{25}}=3.92$. L'intervalle de confiance à 95% pour la moyenne de la population est $75 \pm 3.92 = (71.08, 78.92)$. Interprétation: Nous sommes confiants à 95% que la vraie moyenne de la population se situe entre 71.08 et 78.92.
Exemple
Un biologiste étudie le poids moyen d'une espèce spécifique de grenouilles dans une population. D'après des recherches antérieures, la variance de la population ( $\sigma^2$ ) est connue pour être de $4 g^2$ (donc $\sigma=2 g$ ). Le biologiste collecte un échantillon aléatoire de $n=25$ grenouilles et trouve que le poids moyen de l'échantillon est de $\bar{x}=12.5g$. Construisez un intervalle de confiance de $98 \%$ pour le vrai poids moyen des grenouilles $(\mu)$.
Solution
Données: $n=25$, $\sigma=2$, $\bar{x}=12.5$, $\alpha=0.02$. La valeur critique pour un intervalle de confiance de 98% est $Z_{0.01}=2.33$. La marge d'erreur est $2.33 \times \frac{2}{\sqrt{25}}=0.932$. L'intervalle de confiance de 98% pour la moyenne de la population est $12.5 \pm 0.932 = (11.568, 13.432)$. Interprétation: Nous sommes confiants à 98% que la vraie moyenne de la population des grenouilles se situe entre $11.568$ et $13.432$ grammes.
Exemple
Un physicien mesure la vitesse du son dans un milieu différent sur $n=25$ essais, trouvant une moyenne d'échantillon $\bar{x}=343 m/s$. L'écart type de la population est connu pour être $\sigma=3 m/s$.
Tailles d'échantillons
Réduire le niveau de confiance n'est pas conseillé car cela peut produire des résultats moins fiables. Par conséquent, l'option préférable est d'augmenter toujours nos tailles d'échantillons.
Formule:
Taille de l'échantillon pour estimer la moyenne; $\sigma$ connue
Exemple
Un chercheur souhaite estimer le poids moyen d'une population de grenouilles avec une marge d'erreur de $0.5g$. L'écart type de la population est connu pour être de $2g$. Quelle taille d'échantillon est nécessaire pour atteindre cette marge d'erreur avec un niveau de confiance de $95 \%$?
Solution
Données: $ME=0.5$, $\sigma=2$, $\alpha=0.05$. La valeur critique pour un intervalle de confiance de 95% est $Z_{0.025}=1.96$. La taille de l'échantillon nécessaire est $n=\left(\frac{1.96 \times 2}{0.5}\right)^2=61.4656$. Par conséquent, le chercheur devrait prendre une taille d'échantillon de $n=62$ pour estimer le poids moyen de la population avec une marge d'erreur de $0.5g$ et un niveau de confiance de $95 \%$.
Exemple
Un scientifique souhaite estimer la vitesse du son moyenne dans un milieu avec une marge d'erreur de $0.5 m/s$. L'écart type de la population est connu pour être de $3 m/s$. Quelle taille d'échantillon est nécessaire pour atteindre cette marge d'erreur avec un niveau de confiance de $99 \%$?
Solution
Données: $ME=0.5$, $\sigma=3$, $\alpha=0.01$. La valeur critique pour un intervalle de confiance de 99% est $Z_{0.005}=2.58$. La taille de l'échantillon nécessaire est $n=\left(\frac{2.58 \times 3}{0.5}\right)^2=595.584$. Par conséquent, le scientifique devrait prendre une taille d'échantillon de $n=596$ pour estimer la vitesse moyenne du son dans le milieu avec une marge d'erreur de $0.5 m/s$ et un niveau de confiance de $99 \%$.
Exemple
Un fabricant affirme que ses ampoules ont une durée de vie moyenne de $\mu=1200$ heures. Une équipe de contrôle qualité teste un échantillon aléatoire de $n=40$ ampoules et trouve une durée de vie moyenne de l'échantillon de $\bar{x}=$ 1185 heures. L'écart type de la population est connu pour être $\sigma=100$ heures.
Limites de confiance unilatérales pour la moyenne; $\sigma$ connue
Formule:
Limite de confiance unilatérale pour la moyenne; $\sigma$ connue
Exemple
Une équipe d'ingénierie teste la résistance à la traction d'un nouveau type d'alliage d'acier. À partir d'un échantillon de $n=50$ pièces de test, ils mesurent une résistance à la traction moyenne de $850 MPa$. L'écart type de la population est connu pour être de $\sigma=40 MPa$. Construisez et interprétez une limite de confiance inférieure de $98 \%$ pour la vraie résistance à la traction moyenne de l'alliage d'acier $(\mu)$.
Solution
Données: $n=50$, $\sigma=40$, $\bar{x}=850$, $\alpha=0.02$. La valeur critique pour un intervalle de confiance de 98% est $Z_{0.02}=2.33$. La marge d'erreur est $2.33 \times \frac{40}{\sqrt{50}}=13.12$. La limite de confiance inférieure de 98% pour la moyenne de la population est $850-13.12 = 836.88$. Interprétation: Avec des échantillonnages répétés, nous sommes confiants à 98% que la vraie moyenne de la population de résistance à la traction de l'alliage d'acier est d'au moins 836.88 MPa. Cette limite inférieure garantit que la vraie résistance moyenne est peu susceptible de tomber en dessous de cette valeur, fournissant aux ingénieurs une estimation conservatrice pour les garanties de performance.
Exemple
Un vétérinaire étudie le poids d'une nouvelle race de chiots à l'âge de 3 mois. A partir d'un échantillon de $n=30$ chiots, le poids moyen est de $ar{x}=12.5 kg$, avec un écart-type de $\sigma=2 kg$. Construisez et interprétez une limite supérieure de confiance de $95 \%$ pour le véritable poids moyen des chiots $(\mu)$.
Solution
Etant donné : $n=30$, $\sigma=2$, $\bar{x}=12,5$, $\alpha=0,05$. La valeur critique pour un intervalle de confiance de 95% est $Z_{0.05}=1.645$. La marge d'erreur est de $1.645$ \times \frac{2}{\sqrt{30}}=0.599$. La limite supérieure de confiance à $95\%$ pour la moyenne de la population est $12.5+0.599 = 13.099$. Interprétation : Grâce à l'échantillonnage répété, nous sommes sûrs à 95 % que le poids moyen réel de la population de chiots est au maximum de 13,099 kg. Cette limite supérieure garantit qu'il est peu probable que le poids moyen réel dépasse cette valeur, ce qui permet aux vétérinaires de disposer d'une estimation prudente pour les recommandations en matière d'alimentation.
Estimation de la Moyenne d'une Population; Variance Inconnue
La distribution t ajuste cette incertitude supplémentaire et dépend de la taille de l'échantillon à travers ses degrés de liberté $(n-1)$. Cette méthode permet aux chercheurs de construire des intervalles de confiance et d'effectuer des tests d'hypothèses pour la moyenne de la population, même en l'absence de connaissance précise de la variance de la population, ce qui en fait une approche statistique largement applicable et robuste.
Remarque
La Distribution $t-$
Remarque
Exemple
Trouvez la valeur $t$ d'une distribution $t$ avec $12$ degrés de liberté et $5\%$ dans la queue droite.
$t_{0.05,11}=1.782$
Solution
Exemple
Trouvez la valeur $t$ d'une distribution $t$ avec $58$ degrés de liberté avec $12.5%$ de la zone dans la queue droite.
$t_{0.125,57}=1.67$
Solution
Exemple
Trouvez la valeur $t$ d'une distribution $t$ avec $20$ degrés de liberté et $0.005$ dans la queue gauche.
$t_{0.005,19}=-2.845$
Solution
Exemple
Trouvez la valeur $t$ d'une distribution $t$ avec $1500$ degrés de liberté avec $1%$ de la zone dans la queue gauche.
$t_{0.01,\infty}=-2.326$
Solution
Intervalle de Confiance pour la Moyenne de la Population; $\sigma$ Inconnu
Formule:
Intervalle de Confiance pour la Moyenne de la Population; $\sigma$ Inconnu
Remarque
Exemple
Un biologiste étudie la longueur des ailes d'une espèce spécifique de papillon. À partir d'un échantillon aléatoire de $n=$ 15 papillons, la longueur moyenne des ailes est de $\bar{x}=12.4 cm$, avec un écart-type de l'échantillon de $s=0.8 cm$. Construisez et interprétez un intervalle de confiance de $90\%$ pour la vraie longueur moyenne des ailes de cette espèce de papillon.
Solution
L'intervalle de confiance de $90\%$ pour la vraie longueur moyenne des ailes de cette espèce de papillon est de $12.4 \pm 1.761 \left(\frac{0.8}{\sqrt{15}}\right) = 12.4 \pm 0.363$ cm. Nous sommes $90\%$ confiants que la vraie longueur moyenne des ailes de cette espèce de papillon se situe entre $12.037$ et $12.763$ cm.
Exemple
Un échantillon aléatoire de $n=$ 25 étudiants est pris pour estimer le nombre moyen d'heures que les étudiants passent à étudier par semaine. La moyenne de l'échantillon est de $\bar{x}=10.5$ heures, et l'écart-type de l'échantillon est de $s=2.3$ heures. Construisez un intervalle de confiance de $95\%$ pour le vrai nombre moyen d'heures que les étudiants passent à étudier par semaine.
Solution
L'intervalle de confiance de $95\%$ pour le vrai nombre moyen d'heures que les étudiants passent à étudier par semaine est de $10.5 \pm 2.064 \left(\frac{2.3}{\sqrt{25}}\right) = 10.5 \pm 0.924$ heures. Nous sommes $95\%$ confiants que le vrai nombre moyen d'heures que les étudiants passent à étudier par semaine se situe entre $9.576$ et $11.424$ heures.
Bornes de Confiance Unilatérales pour la Moyenne de la Population; $\sigma$ Inconnu
Formule:
Borne de Confiance Unilatérale pour la Moyenne de la Population; $\sigma$ Inconnu
Exemple
Un chimiste étudie le pourcentage de pureté d'un composé chimique nouvellement synthétisé. À partir d'un échantillon aléatoire de $n=12$ lots, la pureté moyenne de l'échantillon est de $\bar{x}=98.6 \%$, avec un écart-type de l'échantillon de $s=0.5 \%$. Calculez et interprétez une limite inférieure de $95 \%$ pour la vraie pureté moyenne ( $\mu$ ) du composé.
Solution
La limite inférieure de $95 \%$ pour la vraie pureté moyenne du composé est de $98.6 - 1.796 \left(\frac{0.5}{\sqrt{12}}\right) = 98.6 - 0.259 \%$. Avec 95% de confiance, la vraie pureté moyenne du composé chimique est d'au moins 98.34%. Cette limite inférieure fournit une estimation conservatrice de la pureté du composé, garantissant que le chimiste dispose d'une valeur minimale fiable pour l'assurance qualité.
Exemple
Un échantillon aléatoire de $n=20$ patients est pris pour estimer le temps moyen nécessaire à un nouveau médicament pour agir. La moyenne de l'échantillon est de $\bar{x}=3.5$ heures, et l'écart-type de l'échantillon est de $s=0.8$ heures. Calculez et interprétez une limite supérieure de $90 \%$ pour le vrai temps moyen nécessaire pour que le médicament agisse.
Solution
La limite supérieure de $90 \%$ pour le vrai temps moyen nécessaire pour que le médicament agisse est de $3.5 + 1.725 \left(\frac{0.8}{\sqrt{20}}\right) = 3.5 + 0.305$ heures. Nous sommes $90 \%$ confiants que le vrai temps moyen nécessaire pour que le médicament agisse est au plus de $3.805$ heures.
Quand Utiliser la Distribution t
Pour des échantillons plus importants ( $n \geq 30$ ), le Théorème Central Limite assure que la distribution d'échantillonnage de la moyenne de l'échantillon est approximativement normale, de sorte que la distribution $t$ et la distribution normale donnent des résultats presque identiques.
Quand Utiliser la Distribution Normale
Règle Générale
Intervalle de confiance pour une proportion de population
Rappelons qu'une distribution binomiale peut être complètement décrite par le nombre d'essais indépendants dans l'expérience, $n$, et par la probabilité de succès à chaque essai, $p$. De plus, si $n p>5$ et $n(1-p)>5$, alors la distribution normale peut être utilisée pour approximer la distribution binomiale.
Estimateur ponctuel pour une proportion de population
Définition:
Estimation ponctuelle pour une proportion de population
Distribution d'échantillonnage pour la statistique de proportion de population, $\hat{p}$
Intervalles de confiance pour une proportion de population
Formule:
Intervalle de confiance pour une proportion de population
Remarque
Règle de base
Exemple
Un physicien teste un lot d'ampoules LED pour déterminer la proportion qui répond aux normes d'efficacité énergétique requises. Sur un échantillon aléatoire de $n=200$ ampoules, $x=170$ ampoules sont trouvées pour être économes en énergie. Construisez et interprétez un intervalle de confiance de $90\%$ pour la vraie proportion d'ampoules LED économes en énergie dans le lot.
Solution
L'estimation ponctuelle pour la proportion de population est $\hat{p}=\frac{x}{n}=\frac{170}{200}=0.85$. La valeur critique pour un intervalle de confiance de $90\%$ est $Z_{\alpha / 2}=1.645$. La marge d'erreur est $Z_{\alpha / 2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}=1.645 \sqrt{\frac{0.85(1-0.85)}{200}}=0.045$. Par conséquent, l'intervalle de confiance de $90\%$ pour la vraie proportion d'ampoules LED économes en énergie dans le lot est $0.85 \pm 0.045$ ou $(0.805, 0.895)$. Cela signifie que nous sommes $90\%$ confiants que la vraie proportion d'ampoules LED économes en énergie dans le lot est entre $80.5\%$ et $89.5\%$.
Exemple
Une entreprise de logiciels teste un nouvel algorithme pour détecter les logiciels malveillants. Dans un échantillon aléatoire de $n=$ 500 fichiers, l'algorithme identifie correctement $x=460$ fichiers infectés par des logiciels malveillants. Construisez et interprétez un intervalle de confiance de $96\%$ pour la vraie proportion de fichiers infectés par des logiciels malveillants que l'algorithme peut détecter.
Solution
L'estimation ponctuelle pour la proportion de population est $\hat{p}=\frac{x}{n}=\frac{460}{500}=0.92$. La valeur critique pour un intervalle de confiance de $96\%$ est $Z_{\alpha / 2}=2.05$. La marge d'erreur est $Z_{\alpha / 2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}=2.05 \sqrt{\frac{0.92(1-0.92)}{500}}=0.034$. Par conséquent, l'intervalle de confiance de $96\%$ pour la vraie proportion de fichiers infectés par des logiciels malveillants que l'algorithme peut détecter est $0.92 \pm 0.034$ ou $(0.886, 0.954)$. Cela signifie que nous sommes $96\%$ confiants que la vraie proportion de fichiers infectés par des logiciels malveillants que l'algorithme peut détecter est entre $88.6\%$ et $95.4\%$.
Exemple
Un biologiste étudie une population de grenouilles dans une zone humide pour déterminer la proportion qui sont porteuses d'une mutation génétique spécifique. Sur un échantillon aléatoire de $n=400$ grenouilles, $x=72$ sont trouvées pour porter la mutation.