Introduction aux Probabilités et aux Statistiques
Les probabilités et les statistiques sont deux disciplines étroitement liées qui jouent un rôle fondamental dans la compréhension et l'analyse des données, de l'incertitude et de la variabilité. Alors que les probabilités fournissent le cadre théorique pour traiter l'incertitude, les statistiques appliquent ce cadre pour donner du sens aux données et en tirer des conclusions significatives.
Qu'est-ce que les Probabilités ?
Les probabilités sont une branche des mathématiques qui s'intéressent à la quantification de l'incertitude. Elles fournissent une mesure numérique (comprise entre $0$ et $1$) de la probabilité qu'un événement se produise.
Ces principes servent de base pour comprendre l' aléatoire dans les mondes naturels et sociaux.
- Une probabilité de $0$ signifie qu'un événement est impossible
- Une probabilité de $1$ signifie que l'événement est certain
Ces principes servent de base pour comprendre l' aléatoire dans les mondes naturels et sociaux.
Définition:
Aléatoire
Aléatoire se réfère à l'absence de motif ou de prévisibilité dans une séquence d'événements. En théorie des probabilités, l'aléatoire décrit un résultat ou un processus qui ne peut être déterminé à l'avance mais qui suit une distribution probabiliste spécifique à long terme.
Exemple 1
Exemple d'événements aléatoires
Variables Aléatoires
De nombreuses expériences peuvent être modélisées par des distributions de probabilités, et le choix de la distribution dépend du type de variable qui nous intéresse.
Définition:
Variable
Une variable est une caractéristique ou un attribut qui peut prendre différentes valeurs. Les variables peuvent être classées comme quantitatives ou qualitatives.
Les variables qualitatives utilisent des noms ou des étiquettes. Les variables quantitatives sont numériques.
Les variables qualitatives utilisent des noms ou des étiquettes. Les variables quantitatives sont numériques.
Exemple 2
En 2021, quelqu'un a mordu dans une Pop-Tart à la fraise de Kellogg et a crié à la tromperie - non pas parce qu'elles n'étaient pas savoureuses, mais parce qu'elles ne contenaient pas assez de vraies fraises. La plainte a affirmé que la garniture contenait plus de pommes et de poires que de baies, accusant Kellogg de tromperie fruitée. La défense de Kellogg ? « Personne n'achète des Pop-Tarts en s'attendant à un marché fermier dans la garniture. » Le juge a donné raison à Kellogg et l'affaire a été rejetée.
100 personnes ont été interrogées sur leurs préférences en matière de Pop-Tarts. Classez chacune des variables suivantes comme qualitative ou quantitative :
- Le goût des Pop-Tarts
- Le nombre de Pop-Tarts consommées en une semaine
- Leur raison d'acheter des Pop-Tarts (praticité, nostalgie, etc.)
- La température à laquelle les Pop-Tarts sont toastées
Solution
- Le goût des Pop-Tarts - Qualitative (car il utilise des noms comme Fraise, Myrtille, etc.)
- Nombre de Pop-Tarts consommées - Quantitative (car il implique des valeurs numériques comme 1, 2, 3, ...)
- Raison d'achat - Qualitative (car il utilise des catégories ou des étiquettes)
- Température toastée - Quantitative (car il implique des valeurs numériques comme 175°C, 180°C, ...)
Les variables quantitatives ou numériques peuvent être divisées en deux groupes : discrètes et continues.
Définition:
Variable Aléatoire Discrète
Une variable aléatoire discrète est une variable qui peut prendre un nombre dénombrable de valeurs distinctes.
Définition:
Variable Aléatoire Continue
Une variable aléatoire continue est une variable qui peut prendre un nombre infini de valeurs dans une plage donnée.
Exemple 3
En 2021, Molson Coors a été servi - non pas un verre, mais une action collective - les accusant d'avoir suggéré que leurs Vizzy Hard Seltzers aromatisés à l'ananas et à la mangue étaient des sources de vitamine C ``nutritionnellement équivalentes à des ananas et des mangues réels``. Les plaignants ont soutenu que fortifier les boissons alcoolisées avec des vitamines pourrait induire les consommateurs en erreur en les faisant passer pour des options saines. Molson Coors a payé 9,5 millions de dollars pour régler l'affaire.
Après l'affaire, l'équipe marketing a décidé d'analyser le comportement des clients et les données produit pour mieux comprendre leur public. Ils ont collecté les variables suivantes :
- Le volume de liquide (en millilitres) contenu dans chaque canette
- Nombre de Vizzy Hard Seltzers achetés le mois dernier
- La note (sur 5 étoiles) attribuée par les clients au Vizzy ananas-mangue
- Le volume d'alcool dans la boisson
Classez chaque variable comme discrète ou continue.
Solution
- Volume dans chaque canette - Continue (car le volume peut prendre une gamme de valeurs par exemple 355 ml, 350,84 ml, ...)
- Nombre de Seltzers achetés - Discrète (car il implique des nombres entiers et dénombrables)
- Note en étoiles - Discrète (car les clients sélectionnent des valeurs entières en étoiles comme 1, 2, 3, 4 ou 5, même si des fractions comme 4,5 sont possibles.)
- Teneur en alcool - Continue (car la teneur en alcool peut varier avec précision, par exemple 5,0 %, 5,02 % ou 4,98 %.)
Qu'est-ce que les Statistiques ?
Les statistiques sont la science de la collecte, de l'analyse, de l'interprétation et de la présentation des données. Elles impliquent l'étude de la variabilité des données, de l'incertitude et des relations entre les variables. Les statistiques peuvent être largement divisées en deux catégories :
- Les statistiques descriptives concernent l'organisation, la présentation et les mesures numériques des données. Son objectif est de structurer et de résumer les données de manière compacte.
- Les statistiques inférentielles , en revanche, concernent les méthodes et les procédures utilisées pour tirer des conclusions sur les données. L'objectif ici est de faire une déclaration sur une population basée sur les informations collectées à partir d'un échantillon.
Définition:
Population
Une population est l'ensemble de tous les objets qui intéressent le statisticien.
Définition:
Échantillon
Un échantillon est un sous-ensemble de la population qui est sélectionné pour l'étude.
Exemple 4
En 2021, certains amateurs de chips se sont sentis dupés par les chips Tostitos Hint of Lime et ont poursuivi Frito-Lay, affirmant que la seule chose liée à la lime dans les chips était l'image d'une lime sur le sac. Il s'est avéré que les chips tiraient leur saveur citronnée de mystérieux ``arômes naturels`` au lieu de vraie lime - pourquoi utiliser une lime quand on peut simplement y faire allusion ? Frito-Lay s'est défendu en disant : ``Nous n'avons jamais promis un jus, juste une pincée d'imagination.`` L'affaire est toujours en suspens, nous laissant réfléchir à la fine ligne entre une collation et un mensonge aromatisé aux agrumes.
Une société d'études de marché a interrogé 1000 amateurs de chips pour comprendre leurs préférences. Classez chacun des éléments suivants comme une population ou un échantillon :
- Les 1000 amateurs de chips interrogés
- Tous les amateurs de chips dans le monde
Solution
- Les 1000 amateurs de chips interrogés - Échantillon (car il s'agit d'un sous-ensemble du groupe plus large de tous les amateurs de chips dans le monde)
- Tous les amateurs de chips dans le monde - Population (car il s'agit de l'ensemble entier d'intérêt)
Comment les Probabilités et les Statistiques sont-elles Connectées ?
Les probabilités et les statistiques sont interconnect ées de nombreuses manières. Les probabilités fournissent les bases théoriques de l'inférence statistique. En d'autres termes, les probabilités permettent aux statisticiens de modéliser l'incertitude et la variabilité des données, tandis que les statistiques appliquent ces modèles aux données du monde réel pour en tirer des conclusions. Par exemple :
- Dans le test d'hypothèse , nous utilisons la probabilité pour déterminer la probabilité qu'un résultat observé se produise, en supposant qu'une hypothèse spécifique est vraie.
- Dans l' estimation , nous utilisons la probabilité pour quantifier l'incertitude de nos estimations et construire des intervalles de confiance.
Relier les Probabilités et les Statistiques aux Techniques Inférentielles
Les statistiques inférentielles reposent fortement sur la probabilité pour tirer des conclusions sur une population basée sur un échantillon. Voici comment les deux concepts se connectent aux techniques inférentielles :
- Intervalle de Confiance : La probabilité aide à quantifier l'incertitude d'une estimation, permettant aux statisticiens de créer des intervalles qui contiennent probablement un paramètre de population.
- Test d'Hypothèse : La probabilité aide à déterminer la probabilité d'observer un résultat aussi extrême que celui obtenu, en supposant que l'hypothèse nulle est vraie.
Grâce aux techniques inférentielles, les probabilités et les statistiques nous permettent de prendre des décisions éclairées en présence d'incertitude, que ce soit pour prédire les résultats des élections, comprendre la propagation des maladies ou optimiser les stratégies commerciales. Ensemble, ces disciplines sont des outils essentiels dans un monde axé sur les données, nous permettant d'extraire du sens et des idées de l'aléatoire et de la variabilité.