La distribution normale

La distribution normale, également connue sous le nom de distribution gaussienne, est l'une des distributions de probabilité continues les plus largement utilisées en statistique. Son importance réside dans son rôle central en théorie des probabilités et en statistique, en particulier dans le Théorème Central Limite (TCL), que nous explorerons dans la section sur les distributions d'échantillonnage.
La distribution normale est étroitement liée au TCL, car elle sert de distribution limite pour la somme d'un grand nombre de variables aléatoires indépendantes et identiquement distribuées. Le TCL stipule que, dans certaines conditions, la somme de ces variables approximera une distribution normale, indépendamment de leurs distributions d'origine. Ce résultat est fondamental car de nombreux phénomènes du monde réel peuvent être modélisés comme la somme de nombreuses variables aléatoires. En vertu du TCL, nous pouvons souvent supposer que ces sommes suivront une distribution normale.
Dans les sciences, la distribution normale est indispensable pour analyser les données et faire des prédictions. En physique, par exemple, les erreurs de mesure suivent fréquemment une distribution normale, permettant aux scientifiques de quantifier l'incertitude et d'améliorer la précision. En biologie, des traits tels que la taille humaine, la pression artérielle et les scores de test présentent souvent une normalité, permettant aux chercheurs d'étudier les populations et de tirer des conclusions significatives. De plus, la distribution normale sous-tend des méthodes statistiques clés telles que les tests d'hypothèses et l'analyse de régression, largement utilisées dans divers domaines - de la recherche environnementale à la médecine - pour découvrir des informations et faire des découvertes.

Définition:

La distribution normale

Une variable aléatoire, $X$, est dite gaussienne/normalement distribuée si elle a une densité de probabilité $$f(x)=\frac{1}{\sqrt{2 \pi \sigma}} e^{-(x-\mu)^2 / 2 \sigma^2} \quad-\infty < x < \infty $$


$\mu =$ la moyenne
$\sigma=$ l'écart-type de la distribution.

Remarque

Si $X$ est une variable aléatoire normalement distribuée, elle est souvent abrégée en $X \sim N(\mu, \sigma^2)$, où $N$ désigne la distribution normale.
Théorème:
Valeur Attendue et Variance de la Distribution Normale
Pour une variable aléatoire normalement distribuée $X \sim N(\mu, \sigma^2)$, la valeur attendue (moyenne) et la variance sont données par: $$E(X) = \mu $$ et la variance est donnée par $$Var(X) = \sigma^2$$

Propriétés de la distribution normale

La distribution normale est définie par deux paramètres clés: la moyenne, $\mu$, et l'écart-type, $\sigma$,. La moyenne détermine le centre de la distribution, où la fonction atteint son maximum absolu à $x = \mu$. L'écart-type contrôle la dispersion de la courbe: un écart-type plus grand donne une courbe plus plate et plus étalée, tandis qu'un écart-type plus petit produit une courbe plus étroite et plus concentrée. Notamment, la distribution normale est continue et non bornée, s'étendant à l'infini dans les deux directions, de moins l'infini à plus l'infini.
La zone sous la courbe correspond à la probabilité que la variable aléatoire $X$ tombe dans cette plage. Comme la distribution est symétrique, $50\%$ de la zone se trouvera à gauche de la moyenne, et $50\%$ se trouvera à droite.

La règle empirique et le théorème de Tchebychev

L'écart-type peut être considéré comme une règle de mesure pour déterminer dans quelle mesure les données ou les valeurs de $X$ s'écartent de la moyenne. Ainsi, la règle empirique et le théorème de Tchebychev décrivent la proportion minimale des mesures qui doivent se situer à une, deux ou plusieurs écarts-types de la moyenne.
La Règle empirique stipule que pour une distribution normale,

  • environ $68\%$ des données se situent dans un écart-type de la moyenne
  • $95\%$ dans deux écarts-types
  • $99.7\%$ dans trois écarts-types
La règle empirique ne s'applique qu'aux ensembles de données/distributions en forme de cloche, et même alors est formulée en termes d'approximations. Un résultat plus fort qui s'applique à chaque ensemble de données est connu sous le nom de Théorème de Tchebychev.
Théorème:
Théorème de Tchebychev
Pour toute distribution, la proportion de mesures à l'intérieur de $k$ écarts-types de la moyenne est au moins $$1-\frac{1}{k^2}$$ pour $k>1$.

Standardisation

Souvent, nous sommes intéressés à calculer la probabilité d'événements qui ne sont pas seulement un, deux ou trois écarts-types de la moyenne, donc la règle empirique est d'une faible utilité dans des situations comme celles-ci.
De plus, si nous voulions calculer la probabilité que la valeur de $X$ prenne un intervalle de valeurs, alors nous serions forcés d'intégrer $$ f(x)=\frac{1}{\sqrt{2 \pi \sigma}} e^{-(x-\mu)^2 / 2 \sigma^2} $$ sur cet intervalle. Cela peut être une tâche fastidieuse, surtout si l'intervalle n'est pas symétrique par rapport à la moyenne.
Un autre défi courant survient lors de la comparaison de deux ou plusieurs variables aléatoires normalement distribuées. Comme la moyenne $\mu$ de chaque variable peut être située n'importe où le long de l'axe des $x$ et l'écart-type $\sigma$ peut prendre n'importe quelle valeur positive, chaque variable aléatoire peut avoir un centre et une dispersion distincts. Ces différences de moyennes et d'écart-types rendent les comparaisons directes entre les distributions difficiles.
Pour relever ces défis, nous pouvons standardiser la variable aléatoire $X$ en la transformant en une nouvelle variable $Z$, connue sous le nom de variable normale standard.

Définition:

Variable Normale Standard

Soit $X$ une variable aléatoire normalement distribuée avec une moyenne $\mu$ et un écart-type $\sigma$. Alors la valeur standard plus communément appelée le score $Z$ ou la valeur $Z$ de $X$ est $$Z = \frac{X-\mu}{\sigma}\quad \Rightarrow \quad X=Z\sigma + \mu $$ où

$X=$ la valeur de la variable aléatoire
$\mu =$ la moyenne
$\sigma=$ l'écart-type de la distribution.

Remarque

La standardisation fait ce qui suit:
  • Re-localise la moyenne, $\mu$, à 0 .
  • Ré-échelle l'écart-type, $\sigma$, à 1 .
  • Prend toutes les valeurs de $X$, et les reconfigure en valeurs de $Z$. Les z-scores positifs indiquent des valeurs au-dessus de la moyenne, tandis que les z-scores négatifs représentent des valeurs en dessous de la moyenne.

Exemple

Pour chacune des questions suivantes, utilisez la table $Z$ pour trouver la probabilité de l'événement donné.

Exemple

Pour chacune des questions suivantes, utilisez la table $Z$ pour trouver la probabilité de l'événement donné.

Example

Pour chacune des questions suivantes, utilisez la table $Z$ pour trouver la probabilité de l'événement donné.

Exemple

Pour chacune des questions suivantes, trouvez la valeur de $Z$ qui satisfait les inégalités suivantes.

Exemple

Pour chacune des questions suivantes, trouvez la valeur de $Z$ qui satisfait les inégalités suivantes.

Exemple

Pour chacune des questions suivantes, trouvez la valeur de $Z$ qui satisfait les inégalités suivantes.

Example

Supposons que les scores d'un test standardisé suivent une distribution normale avec une moyenne de $\mu=5$ et un écart-type de $\sigma=4$. Pour chacune des questions suivantes, trouvez la probabilité de l'événement donné.

Exemple

Dans un centre de données, les temps de réponse des serveurs suivent une distribution normale avec une moyenne de $120 ms$ et un écart-type de $15 ms$.

Exemple

Dans un laboratoire de physique, les chercheurs étudient les vitesses des particules qui se déplacent dans un milieu. La vitesse des particules, $X$, est normalement distribuée avec une moyenne de $2500\, m/s$ et un écart-type de $200\, m/s$.

Exemple

Dans un laboratoire de biologie, les scientifiques étudient les longueurs d'un type spécifique de feuille sur une plante. Les longueurs, $X$, sont normalement distribuées avec une moyenne de $15 cm$ et un écart-type de $2.5cm$.

Exemple

Une entreprise spécialisée dans l'IA mesure le temps nécessaire à son modèle d'apprentissage automatique pour traiter une image. Le temps de traitement, $X$, est normalement distribué avec une moyenne de $0,8$ seconde et un écart type de $0,1$ seconde.

L'approximation normale à la distribution binomiale

L'approximation normale à la distribution binomiale est une technique qui simplifie le calcul des probabilités pour les grandes distributions binomiales. Rappelons que la distribution binomiale, qui modélise le nombre de $X$ succès dans $n$ essais indépendants d'un événement binaire, peut devenir de plus en plus difficile à calculer directement à mesure que $n$ augmente.

Cependant, dans certaines conditions, la distribution binomiale ressemble étroitement à une distribution normale. Cette similitude nous permet d'exploiter les propriétés de la distribution normale pour estimer plus efficacement les probabilités binomiales.

Conditions pour l'approximation normale

L'approximation normale à la distribution binomiale est la plus précise lorsque le nombre d'essais, $n$, est suffisamment grand et la probabilité de succès, $p$, n'est pas trop proche de $0$ ou $1$. Plus précisément, les conditions suivantes doivent être remplies:

1. $\quad n \cdot p \geq 5$
2. $\quad n \cdot (1-p) \geq 5$

Ces conditions garantissent que la distribution binomiale est approximativement symétrique et en forme de cloche, ce qui est une caractéristique de la distribution normale.

Facteurs de correction et calcul des probabilités avec l'approximation normale

Puisque la distribution binomiale est discrète et la distribution normale est continue, une correction de continuité est nécessaire pour améliorer la précision. Cela implique d'ajuster les limites de la plage binomiale en ajoutant ou en soustrayant 0.5 avant de convertir $X$ en une valeur $Z$.

Le tableau ci-dessous décrit les facteurs de correction appropriés en fonction du type de probabilité binomiale calculée. $$\begin{array}{|c|c|} \hline \text { Condition } & \text { Facteur de correction } \\ \hline P(X=a) & P(a-0.5 < X < a+0.5) \\ P(X > a) & P(X > a+0.5) \\ P(X \geq a) & P(X > a-0.5) \\ P(X < a) & P(X < a-0.5) \\ P(X \leq a) & P(X < a+0.5) \\ \hline \end{array}$$

Exemple

Supposons qu'un biologiste étudie une population de coléoptères, où la probabilité qu'un coléoptère ait un trait génétique particulier est de $p=0.3$. Dans un échantillon de $n=200$ coléoptères, le biologiste souhaite estimer la probabilité qu'au moins 70 coléoptères aient ce trait.

Exemple

Un physicien teste un lot de 1 000 diodes électroluminescentes (DEL). Chaque DEL a une probabilité $p=$ 0,98 de fonctionner correctement.

Exemple

Un informaticien teste un grand lot de 2 000 processeurs pour la fiabilité. Chaque processeur a une probabilité $p=0.995$ de réussir un test de fiabilité. Le scientifique souhaite déterminer:

Exemple

Une entreprise de Al teste un nouvel algorithme de reconnaissance vocale à l'aide d'un ensemble de données de clips audio. Chaque clip est classé comme étant soit ``reconnu correctement`` soit ``non reconnu.`` Sur la base de tests antérieurs, l'algorithme a une chance de $95 \%$ ( $p=0.95$ ) de reconnaître correctement un clip.