Corrélation et régression
Données appariées et graphiques de dispersion
Définition:
Variables explicatives et réponses
Définition:
Graphique de dispersion
Remarque
- La force de la relation entre les deux variables en évaluant à quel point les points de données suivent de près ou de loin une ligne.
- Si la relation entre les variables est positive, négative ou n'existe pas, en examinant le flux global de direction des points de données
Mesures de force et de direction
Covariance
Définition:
Covariance
Formule:
Covariance de population
$x_i=$ les points de données pour la variable explicative, $x$
$y_i=$ les points de données pour la variable de réponse, $y$
$\mu_x=$ la moyenne pour $x$
$\mu_y=$ la moyenne pour $y$
$N=$ le nombre de points de données.
Formule:
Covariance d'échantillon
$x_i=$ les points de données pour la variable explicative, $x$
$y_i=$ les points de données pour la variable de réponse, $y$
$\bar{x}=$ la moyenne d'échantillon pour $x$
$\bar{y}=$ la moyenne d'échantillon pour $y$
$n=$ le nombre de points de données.
- Lorsque deux variables se déplacent dans la même direction, la covariance sera un grand nombre positif.
- Lorsque deux variables se déplacent dans la direction opposée, la covariance sera un grand nombre négatif.
- Lorsque deux variables n'ont pas de motifs particuliers, la covariance sera un petit nombre.
Corrélation
Définition:
Coefficient de corrélation
Formule:
Coefficient de corrélation (Population)
$\sigma_{xy}=$ la covariance de population
$\sigma_x=$ l'écart-type de population pour $x$
$\sigma_y=$ l'écart-type de population pour $y$
Formule:
Coefficient de corrélation (Échantillon)
$s_{xy}=$ la covariance d'échantillon
$s_x=$ l'écart-type d'échantillon pour $x$
$s_y=$ l'écart-type d'échantillon pour $y$
Formula:
Coefficient de corrélation alternatif (échantillon)
$\sum x=$ la somme des points de données pour la variable explicative, $x$
$\sum y=$ la somme des points de données pour la variable de réponse, $y$
$\sum x^2=$ la somme des carrés des points de données pour la variable explicative, $x$
$\sum y^2=$ la somme des carrés des points de données pour la variable de réponse, $y$
$n=$ le nombre de points de données.
- Si $r=1$, alors il y a une relation linéaire positive parfaite entre les deux variables.
- Si $r=-1$, alors il y a une relation linéaire négative parfaite entre les deux variables.
- Si $r=0$, alors il n'y a pas de relation linéaire entre les deux variables.
- Les valeurs positives de $r$ et $\rho$ impliquent que lorsque $x$ augmente, $y$ tend à augmenter.
- Les valeurs négatives de $r$ et $\rho$ indiquent que lorsque $x$ augmente, $y$ tend à diminuer.
- Les valeurs de $r$ et $\rho$ restent les mêmes, peu importe laquelle des variables a été désignée comme explicative et laquelle est étiquetée comme réponse.
- Les valeurs de $r$ et $\rho$ restent les mêmes, même si les variables sont converties en différentes unités.
Remarque
- Comme il n'est pas possible d'obtenir ou de représenter graphiquement tous les points de données d'une population, un graphique de dispersion ne fournit qu'un instantané des données capturées à partir d'un échantillon aléatoire. En raison de cela, la valeur de $r$ peut changer d'échantillon en échantillon; même si les échantillons sont tirés de la même population.
- La valeur de $r$ est sensible à l'omission de petites ou grandes valeurs de données dans un échantillon aléatoire; ce qui signifie que l'exclusion de ces points de données peut avoir un impact sur la valeur finale de $r$
- La corrélation n'implique pas la causalité. Le coefficient de corrélation mesure uniquement la force de la relation entre deux variables et ne fait aucune implication sur la cause et l'effet. Le fait que deux variables augmentent ou diminuent ensemble ne signifie pas que le changement de l'une entraîne des changements dans l'autre.
Exemple
Après des années de stagnation, le marché immobilier aux États-Unis commence à montrer des signes de reprise. L'année dernière, le prix médian d'une maison à Chicago était de $\$ 230000$, en hausse de $8.5 \%$. Ci-dessous, l'âge et les prix de vente de six maisons dans la banlieue de West Englewood.
$$\begin{array} {c|c} \text { Âge de la propriété } & \text { Prix de vente de la maison } \\ \text { (années) } & \text { (centaines de milliers) } \\ \hline 5 & 321 \\ 7 & 315 \\ 15 & 267 \\ 25 & 266 \\ 34 & 242 \\ 37 & 208 \\ \hline \end{array}$$
Le coefficient de détermination
Définition:
Le coefficient de détermination
Formule:
Le coefficient de détermination
Formule:
Pourcentage de la variance expliquée
Remarque
- Une grande valeur de $R^2$ ne doit pas toujours être interprétée comme signifiant que la ligne de régression estimée s'ajuste bien aux données. Il est tout à fait possible qu'une autre fonction pourrait mieux décrire la tendance des données.
- Le coefficient de détermination, $r^2$, et le coefficient de corrélation, $r$, peuvent tous deux être grandement affectés par un seul point de données (ou quelques points de données). L'ajout ou la suppression de points de données peut changer la pente de la ligne, ce qui entraîne des changements dans les valeurs de $r$ et $R^2$.
- Le $R^2$ ne peut pas déterminer si les estimations des coefficients et les prédictions offertes par le modèle sont biaisées; pour cela, nous devons consulter les graphiques des résidus.
- La source de la variation non expliquée peut être due au hasard ou à la présence d'une variable cachée; une qui n'est ni une variable explicative ni une variable de réponse, mais peut être responsable des changements dans les deux $x$ et $y$.
Exemple
En janvier dernier, deux hommes du Cambridgeshire ont été arrêtés pour culture de cannabis et ont tenté de convaincre un tribunal sceptique qu'ils avaient confondu leur culture avec des bonsaïs. Une affirmation audacieuse, étant donné que leurs ``bonsaïs`` prospéraient à tel point que lorsque la police a perquisitionné leur maison, les suspects ont réussi à se cacher parmi eux.
À l'Université de Cambridge, des chercheurs étudient comment la lumière du soleil influence les émissions de dioxyde de carbone d'une espèce de bonsaï nouvellement découverte. Le tableau ci-dessous affiche les heures d'exposition à la lumière du soleil et le volume de dioxyde de carbone, mesuré en centimètres cubes, produit par un seul arbre à travers cinq observations différentes. $$\begin{array}{cc} \text { Exposition au soleil } & \text { Quantité de dioxyde de carbone } \\ \text { (heures) } & \left(\mathrm{cm}^3\right) \\ \hline 1 & 3 \\ 3 & 6 \\ 5 & 8 \\ 7 & 9 \\ 8 & 10 \\ \hline \end{array}$$
Exemple
La Chine adopte la reconnaissance faciale à une échelle épique. Aux carrefours, les piétons non autorisés sont humiliés en projetant leur visage sur des écrans géants, et dans les temples de la dynastie Ming, ils l'utilisent pour empêcher le vol de papier toilette - c'est tellement efficace qu'il peut dire si vous avez subi une chirurgie esthétique. Dans les écoles, la surveillance est renforcée : un lycée scanne les élèves toutes les 30 secondes pour repérer les bâillements ou les rêveurs, tandis que les universités l'utilisent pour contrôler l'accès aux dortoirs, bloquant les ``étrangers`` et, de manière gênante, les petits amis.
Dans un collège, la reconnaissance faciale suit la présence et l'absentéisme. Le tableau ci-dessous montre le nombre de cours manqués par cinq étudiants en analyse de données et leurs notes finales. $$\begin{align} \begin{array}{cc} \text { Cours manqués } & \text { Note finale (sur 100) } \\ \hline 10 & 75 \\ 15 & 65 \\ 20 & 50 \\ 25 & 40 \\ 30 & 30 \end{array} \end{align}$$
Régression
La méthode des moindres carrés
Définition:
La ligne des moindres carrés
- La pente est un nombre qui décrit le taux de changement entre les deux variables. Il nous dit comment un changement d'une unité de la variable explicative affecte la valeur de la variable de réponse. La taille du changement (grand/petit) est reflétée dans la valeur numérique de la pente, et la direction du changement (croissant/décroissant) par son signe.
- L'ordonnée à l'origine est l'endroit où le graphique de la ligne et de l'axe des $y$ s'intersectent.
Formule:
La pente de la ligne des moindres carrés
$n=$ le nombre de points de données
$x_i=$ chaque valeur de la variable explicative,$x$
$y_i=$ chaque valeur de la variable de réponse
Formule:
L'ordonnée à l'origine de la ligne des moindres carrés
$n=$ le nombre de points de données
$x_i=$ chaque valeur de la variable explicative,$x$
$y_i=$ chaque valeur de la variable de réponse
$b=$ est la pente de la ligne des moindres carrés
Formule:
L'équation de la ligne des moindres carrés
$\hat{y}=$ la variable de réponse
$x=$ la variable explicative
$a=$ l'ordonnée à l'origine de la ligne des moindres carrés
$b=$ la pente de la ligne des moindres carrés
Exemple
McDonald's, la plus grande chaîne de restauration rapide au monde, a travaillé pour redorer son image en publiant des guides nutritionnels pour ses articles de menu. Alors que des salades et des fruits ont été ajoutés pour attirer les clients soucieux de leur santé, la plupart préfèrent toujours leurs hamburgers emblématiques. Voici quelques-uns des hamburgers les plus populaires de McDonald's, ainsi que leur teneur en matières grasses et leur valeur calorique.
$$\begin{array}{lcc} \text { Sandwich } & \text { Matières grasses }(g) & \text { Calories } \\ \hline \text { Big Mac } & 28 & 520 \\ \text { Cheeseburger } & 11 & 290 \\ \text { Double Cheeseburger } & 20 & 420 \\ \text { Double Quarter Pounder } & 43 & 740 \\ \text { Hamburger } & 8 & 240 \\ \text { McDouble } & 17 & 370 \\ \text { Quarter Pounder With Cheese } & 26 & 520 \end{array}$$
Définition:
Erreur résiduelle
Formule:
Erreur résiduelle
$e =$ l'erreur résiduelle
$y=$ la valeur réelle de la variable de réponse
$\hat{y}=$ la valeur prédite de la variable de réponse.
Définition:
Interpolation et extrapolation
Exemple
En utilisant les données de l'exemple de McDonald's, nous avons généré la ligne des moindres carrés suivante: $$ \begin{align} \hat{y} & =a+b x \\ & =131.6777+14.237 x\end{align}$$
Exercices
Question 1
Que signifie un coefficient de corrélation de 0 concernant la relation entre deux variables?
Cela indique qu'il n'y a pas de relation linéaire entre les deux variables.
Solution
Question 2
Si le coefficient de corrélation entre deux variables est -0,85, que pouvez-vous dire de leur relation?
Les deux variables ont une forte relation linéaire négative.
Solution
Question 3
Vrai ou faux: Un coefficient de corrélation élevé implique une causalité entre deux variables.
Faux. La corrélation n'implique pas la causalité.
Solution
Question 4
Que signifie une covariance positive entre deux variables?
Cela indique que lorsque une variable augmente, l'autre variable a tendance à augmenter également.
Solution
Question 5
En quoi la covariance est-elle différente de la corrélation?
La covariance mesure la direction de la relation entre deux variables, tandis que la corrélation standardise cette mesure sur une échelle de -1 à +1, montrant à la fois la force et la direction.
Solution
Question 6
Vrai ou faux: La covariance n'est pas affectée par les changements d'échelle de mesure des variables.
Faux. La covariance dépend des unités de mesure.
Solution
Question 7
Quel est le but principal de l'analyse de régression?
Le but principal est de modéliser la relation entre une variable dépendante et une ou plusieurs variables indépendantes, et de faire des prédictions.
Solution
Question 8
Que signifie un $R^2=0,85$?
Cela indique que 85% de la variation de la variable dépendante est expliquée par la ou les variables indépendantes dans le modèle. Les 15% restants sont dus à d'autres facteurs.
Solution
Question 9
Que signifie une covariance négative entre deux variables?
Cela indique que lorsque une variable augmente, l'autre variable a tendance à diminuer.
Solution
Question 10
Si une erreur résiduelle est négative, que cela indique-t-il?
Cela indique que le modèle sous-estime la valeur réelle de la variable dépendante.
Solution
Question 11
Un cours d'étiquette en Turquie a suscité la controverse sur les réseaux sociaux en conseillant aux femmes de ne pas lécher des cornets de crème glacée, le jugeant ``peu élégant.`` Apparemment, les organisateurs n'ont pas encore clarifié ce qui rend exactement le fait de lécher un cornet de crème glacée si scandaleux - ou suggéré une manière plus distinguée de savourer l'indulgence glacée. Le cours, une école de finition pour les bonnes manières, donne également des conseils sur l'habillement, la conversation et la marche en public.
Pendant ce temps, chez Häagen-Dazs à Istanbul, ils suivent les ventes de crème glacée par rapport aux températures quotidiennes, prouvant que, étiquette ou non, les gens crient toujours pour la crème glacée. Voici un aperçu de leurs données de la première semaine:
$$\begin{array} {l|ccccccc} \text{Température} (°C) & 25 & 27 & 30 & 32& 35& 37 & 40 \\ \hline \text{Ventes de crème glacée (unités)} & 200& 220 & 250 & 280 & 300 & 320 & 350 \end{array}$$
Question 12
Thor et Captain America pourraient être en mesure de sauver le monde, mais peut-être devraient-ils aussi réserver de la place pour une salade. Des chercheurs de l'Université de Binghamton ont analysé les index de masse corporelle (IMC) de plus de 3 700 personnages de bandes dessinées et ont découvert que de nombreux super-héros masculins frôlent l'obésité, tandis que leurs homologues féminins sont souvent étonnamment sous-poids. L'étude a également révélé qu'un tiers des héros de Marvel devraient reconsidérer leurs choix alimentaires, et la plupart présentent des proportions corporelles qui défient la réalité. En fait, certaines super-héroïnes affichent des mensurations plus extrêmes que celles observées dans l'industrie du film pour adultes.
Ci-dessous, vous trouverez des données sur l'IMC et les pourcentages de graisse corporelle de neuf super-héros masculins, ainsi que quelques autres informations stupéfiantes de l'étude:
\begin{array}{l|ccccccccc} x: \text { Pourcentage de graisse corporelle (%) } & 5,8 & 6,5 & 7,1 & 7,4 & 8,2 & 8,5 & 9,2 & 9,4 & 9,6 \\ \hline y: \text { IMC }(\mathrm{kg} / \mathrm{m}^2) & 29,7 & 31,4 & 31,7 & 32,0 & 32,2 & 33,0 & 33,2 & 33,6 & 33,8 \end{array}
Question 13
Le CrossFit n'est pas seulement un programme de fitness, c'est une identité. Comme tout passionné vous le dira (au moins trois fois dans une conversation), « ce c'est pas un entraînement, mon pote. C'est un style de vie ». Cela pourrait expliquer pourquoi le CrossFit se lance dans le jeu des kits repas aux côtés de PX90 et Weight Watchers. Mais contrairement à leurs concurrents, les kits CrossFit abandonnent les légumes et les assaisonnements au profit de… la viande. Beaucoup de viande. Chaque kit comprend 1,7 kg de poulet bio, 1,4 kg de bœuf haché, 280 g de filet mignon, deux faux-filet de 280 g, deux steaks de 280 g et deux surlonges de 170 g. Cela représente 4,5 kg de protéines ! De quoi faire tourner des pneus et trimballer des sacs de sable comme un pro !
Les données ci-dessous montrent le nombre de calories brûlées lors de cinq séances de CrossFit pour une femme de 40 ans pesant 54 kg. $$\begin{array}{c|ccccc} x: \text { Nombre de minutes: } & 20 & 30 & 40 & 50 & 60 \\ \hline y \text { : Nombre de calories: } & 255 & 420 & 485 & 663 & 675 \end{array}$$