Corrélation et régression

Nous cherchons souvent à déterminer si une relation existe entre deux ou plusieurs variables. Si une telle relation est présente, la prochaine étape consiste à évaluer sa force et, si possible, à construire un modèle qui capture les tendances des données. Cette section vise à introduire des méthodes pour évaluer la force et la direction des relations dans les données, ainsi qu'un aperçu de la régression linéaire.

Données appariées et graphiques de dispersion

L'investigation sur la nature de deux variables commence par un graphique de dispersion des données appariées.

Définition:

Variables explicatives et réponses

Pour chaque paire de données $(x,y)$,

  • $x$ est appelée la variable explicative et
  • $y$ est appelée la variable de réponse
  • Définition:

    Graphique de dispersion

    Un graphique de dispersion est une représentation graphique qui montre la relation entre deux ensembles de données.
    Un graphique de dispersion peut révéler la relation qui existe entre deux variables.
    No Relationship Linear Relationship
    Quadratic Relationship Polynomial Relationship

    Remarque

    Pour les besoins de ce cours, nous nous intéressons uniquement aux relations linéaires; des graphiques avec des données qui ressemblent à une ligne droite. Mais les données peuvent également présenter des relations non linéaires, telles que quadratiques, exponentielles ou logarithmiques.
    Une fois qu'un graphique de dispersion des données a été réalisé, nous pouvons évaluer visuellement:

    • La force de la relation entre les deux variables en évaluant à quel point les points de données suivent de près ou de loin une ligne.
    • Si la relation entre les variables est positive, négative ou n'existe pas, en examinant le flux global de direction des points de données
    No Linear Relationship
    Weak Postive Linear Relationship Strong Positive Linear Relationship
    Weak Negative Linear Relationship Strong Negative Linear Relationship
    Les graphiques de dispersion peuvent révéler la relation sous-jacente entre deux variables, mais ils ne fournissent aucune information quantitative sur la force de la relation ni sur la manière dont les variables explicatives et de réponse se déplacent ensemble ou l'une contre l'autre. Pour surmonter ces problèmes, nous avons besoin de mesures numériques de force et de direction.

    Mesures de force et de direction

    Lorsque deux variables sont linéairement liées, nous voulons exprimer la force et la direction de la relation avec une valeur numérique. Les mesures statistiques qui quantifient le degré de relation entre les données appariées sont : la covariance et la corrélation.

    Covariance

    Définition:

    Covariance

    La covariance mesure la variabilité conjointe de deux variables.
    En d'autres termes, la covariance mesure comment deux variables se déplacent ensemble. Si les grandes valeurs d'une variable correspondent aux grandes valeurs de l'autre, et il en va de même pour les petites valeurs, alors la covariance est positive en raison du comportement similaire. En revanche, si les grandes valeurs d'une variable correspondent aux petites valeurs de l'autre, alors la covariance serait négative; pour refléter la nature de l'antipathie.

    Formule:

    Covariance de population

    La covariance de population, $\sigma_{xy}$, est définie comme suit $$\sigma_{x_iy_i}=\frac{\sum(x_i-\mu_x)(y_i-\mu_y)}{N}$$ où

    $x_i=$ les points de données pour la variable explicative, $x$
    $y_i=$ les points de données pour la variable de réponse, $y$
    $\mu_x=$ la moyenne pour $x$
    $\mu_y=$ la moyenne pour $y$
    $N=$ le nombre de points de données.
    Dans la grande majorité des cas, nous travaillerons avec des données d'échantillon. Par conséquent, deux versions de la formule pour la covariance d'échantillon sont présentées. Celle de droite est une version abrégée, et peut être préférable pour une utilisation lorsque les valeurs des données sont difficiles à manipuler.

    Formule:

    Covariance d'échantillon

    La covariance d'échantillon, $s_{xy}$, est définie comme suit $$s_{xy}=\frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{n-1}= \frac{1}{n-1} \left[ \sum x_iy_i-\frac{\sum x_i\sum y_i}{n} \right]$$ où

    $x_i=$ les points de données pour la variable explicative, $x$
    $y_i=$ les points de données pour la variable de réponse, $y$
    $\bar{x}=$ la moyenne d'échantillon pour $x$
    $\bar{y}=$ la moyenne d'échantillon pour $y$
    $n=$ le nombre de points de données.
    Indépendamment de la mesure de covariance qui nous intéresse, les deux informations que nous voulons en extraire sont son signe, qui nous indique la nature de la relation, et sa magnitude, qui nous indique la force de l'association. Ainsi,

    • Lorsque deux variables se déplacent dans la même direction, la covariance sera un grand nombre positif.
    • Lorsque deux variables se déplacent dans la direction opposée, la covariance sera un grand nombre négatif.
    • Lorsque deux variables n'ont pas de motifs particuliers, la covariance sera un petit nombre.

    Corrélation

    La raison pour laquelle la covariance est difficile à interpréter, c'est qu'elle peut varier de $-\infty$ à $+\infty$. Et n'ayant pas de valeurs maximales ou minimales absolues pour contenir la covariance signifie que nous n'avons aucun moyen d'utiliser le nombre pour faire une déclaration significative sur la force de la relation. Pour surmonter les complications associées aux grands nombres, nous devons redimensionner les mesures numériques de force et de direction pour les faire tenir entre deux valeurs gérables. La mesure résultante est le coefficient de corrélation.

    Définition:

    Coefficient de corrélation

    Le coefficient de corrélation est une mesure numérique de la force et de la direction de la relation linéaire entre deux variables. Ses valeurs se trouvent entre $-1$ et $+1$.
    Essentiellement, ce que fait le coefficient de corrélation, c'est qu'il redimensionne les valeurs de la covariance pour les faire tenir entre $-1$ et $+1$. Cela améliore considérablement la gérabilité et la lisibilité de la mesure en utilisant une échelle que nous pouvons interpréter facilement; un mouvement similaire à la conversion des comptages de données brutes en fréquences relatives. Ainsi, si nous apprenons que le coefficient de corrélation entre deux variables était de $-0,91$, nous pourrions conclure qu'il s'agissait d'une relation négative forte.
    Le coefficient de corrélation est calculé en divisant la covariance des deux variables par le produit obtenu en multipliant les écarts-types de chacun ensemble.

    Formule:

    Coefficient de corrélation (Population)

    Le coefficient de corrélation pour les données de population, noté $\rho$, est défini comme suit $$\rho=\frac{\sigma_{xy}}{\sigma_x\sigma_y}$$ où

    $\sigma_{xy}=$ la covariance de population
    $\sigma_x=$ l'écart-type de population pour $x$
    $\sigma_y=$ l'écart-type de population pour $y$
    Le plus souvent, nous travaillerons avec des données d'échantillon, et donc, deux versions de la formule pour calculer le coefficient de corrélation pour des données d'échantillon sont présentées. Celle de droite est une version abrégée, et peut être préférable pour une utilisation lorsque les valeurs des données sont difficiles à manipuler.

    Formule:

    Coefficient de corrélation (Échantillon)

    Le coefficient de corrélation pour les données d'échantillon, noté $r$, est défini comme suit $$r=\frac{s_{xy}}{s_x s_y} = \frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum(x_i-\bar{x})^2\sum(y_i-\bar{y})^2}}$$ où

    $s_{xy}=$ la covariance d'échantillon
    $s_x=$ l'écart-type d'échantillon pour $x$
    $s_y=$ l'écart-type d'échantillon pour $y$

    Formula:

    Coefficient de corrélation alternatif (échantillon)

    Le coefficient de corrélation pour les données d'échantillon, noté $r$, est défini comme étant $$r=\frac{s_{xy}}{s_x s_y} = \frac{n \sum x y-\left(\sum x\right)\left(\sum y\right)}{\sqrt{n \sum x^2-\left(\sum x\right)^2} \sqrt{n \sum y^2-\left(\sum y\right)^2}}$$ où

    $\sum x=$ la somme des points de données pour la variable explicative, $x$
    $\sum y=$ la somme des points de données pour la variable de réponse, $y$
    $\sum x^2=$ la somme des carrés des points de données pour la variable explicative, $x$
    $\sum y^2=$ la somme des carrés des points de données pour la variable de réponse, $y$
    $n=$ le nombre de points de données.
    Le coefficient de corrélation est une mesure sans unité, et est toujours une valeur entre $-1$ et $+1$. Le signe du coefficient de corrélation nous indique la direction de la relation, tandis que la magnitude nous indique la force de la relation. Plus le coefficient de corrélation est proche de $+1$, plus la relation positive est forte. Plus le coefficient de corrélation est proche de $-1$, plus la relation négative est forte. Plus le coefficient de corrélation est proche de $0$, plus la relation est faible.
    Weak Positive Correlation Moderate Positive Correlation Strong Positive Correlation
    Moderate Negative Correlation Strong Negative Correlation No Correlation
    Comment interpréter le coefficient de corrélation:

    • Si $r=1$, alors il y a une relation linéaire positive parfaite entre les deux variables.
    • Si $r=-1$, alors il y a une relation linéaire négative parfaite entre les deux variables.
    • Si $r=0$, alors il n'y a pas de relation linéaire entre les deux variables.
    La même chose peut être dite à propos de $\rho$. Il convient de noter que

    • Les valeurs positives de $r$ et $\rho$ impliquent que lorsque $x$ augmente, $y$ tend à augmenter.
    • Les valeurs négatives de $r$ et $\rho$ indiquent que lorsque $x$ augmente, $y$ tend à diminuer.
    • Les valeurs de $r$ et $\rho$ restent les mêmes, peu importe laquelle des variables a été désignée comme explicative et laquelle est étiquetée comme réponse.
    • Les valeurs de $r$ et $\rho$ restent les mêmes, même si les variables sont converties en différentes unités.

    Remarque

    Lors de l'examen d'un graphique de dispersion et de l'interprétation d'un coefficient de corrélation, il y a plusieurs choses importantes à garder à l'esprit.

    • Comme il n'est pas possible d'obtenir ou de représenter graphiquement tous les points de données d'une population, un graphique de dispersion ne fournit qu'un instantané des données capturées à partir d'un échantillon aléatoire. En raison de cela, la valeur de $r$ peut changer d'échantillon en échantillon; même si les échantillons sont tirés de la même population.
    • La valeur de $r$ est sensible à l'omission de petites ou grandes valeurs de données dans un échantillon aléatoire; ce qui signifie que l'exclusion de ces points de données peut avoir un impact sur la valeur finale de $r$
    • La corrélation n'implique pas la causalité. Le coefficient de corrélation mesure uniquement la force de la relation entre deux variables et ne fait aucune implication sur la cause et l'effet. Le fait que deux variables augmentent ou diminuent ensemble ne signifie pas que le changement de l'une entraîne des changements dans l'autre.

    Exemple

    Après des années de stagnation, le marché immobilier aux États-Unis commence à montrer des signes de reprise. L'année dernière, le prix médian d'une maison à Chicago était de $\$ 230000$, en hausse de $8.5 \%$. Ci-dessous, l'âge et les prix de vente de six maisons dans la banlieue de West Englewood.

    $$\begin{array} {c|c} \text { Âge de la propriété } & \text { Prix de vente de la maison } \\ \text { (années) } & \text { (centaines de milliers) } \\ \hline 5 & 321 \\ 7 & 315 \\ 15 & 267 \\ 25 & 266 \\ 34 & 242 \\ 37 & 208 \\ \hline \end{array}$$

    Le coefficient de détermination

    Rappelez-vous, que le coefficient de corrélation, $r$, est une mesure de la force et de la direction de la relation qui existe entre deux variables. Les valeurs de $r$ sont contraintes de s'inscrire entre $-1$ et $+1$; et la force de la relation est déduite de la valeur de $r$ par rapport à cette échelle. En utilisant ces informations, le coefficient de corrélation peut être transformé en une autre mesure; une qui fournit un aperçu de la qualité du modèle.
    Le coefficient de détermination, noté $R^2$, est une mesure de la façon dont la ligne des moindres carrés s'ajuste aux données. C'est un nombre entre 0 et 1, et est interprété comme la proportion de la variation totale de la variable de réponse qui est expliquée par la variable explicative.

    Définition:

    Le coefficient de détermination

    Le coefficient de détermination est le carré du coefficient de corrélation, et est une mesure de la façon dont la ligne des moindres carrés s'ajuste aux données.

    Formule:

    Le coefficient de détermination

    $$R^2 = r^2$$ où $R^2$ est le coefficient de détermination, et $r$ est le coefficient de corrélation.
    Le coefficient de détermination peut être interprété comme la proportion de la variation totale de la variable de réponse qui est expliquée par la variable explicative. La proportion restante de la variation est attribuée à l'erreur aléatoire.

    Formule:

    Pourcentage de la variance expliquée

    Le pourcentage de la variance dans la variable de réponse qui peut être expliqué et non expliqué par la variable explicative est calculé comme suit:
  • Expliqué: $R^2$
  • Non expliqué: $1-R^2$
  • Le coefficient de détermination peut être utilisé pour évaluer la qualité du modèle. Plus la valeur de $R^2$ est proche de 1, meilleur est le modèle pour s'ajuster aux données. Inversement, plus la valeur de $R^2$ est proche de 0, moins bon est le modèle pour s'ajuster aux données.

    Remarque

    Bien que le coefficient de détermination soit une métrique utile pour évaluer le niveau d'association linéaire entre deux variables appariées, il ne doit jamais être utilisé isolément pour évaluer la capacité du modèle à prédire l'avenir ou à s'ajuster aux données. Voici quelques points à garder à l'esprit lors de l'interprétation de la valeur de $R^2$:
    • Une grande valeur de $R^2$ ne doit pas toujours être interprétée comme signifiant que la ligne de régression estimée s'ajuste bien aux données. Il est tout à fait possible qu'une autre fonction pourrait mieux décrire la tendance des données.
    • Le coefficient de détermination, $r^2$, et le coefficient de corrélation, $r$, peuvent tous deux être grandement affectés par un seul point de données (ou quelques points de données). L'ajout ou la suppression de points de données peut changer la pente de la ligne, ce qui entraîne des changements dans les valeurs de $r$ et $R^2$.
    • Le $R^2$ ne peut pas déterminer si les estimations des coefficients et les prédictions offertes par le modèle sont biaisées; pour cela, nous devons consulter les graphiques des résidus.
    • La source de la variation non expliquée peut être due au hasard ou à la présence d'une variable cachée; une qui n'est ni une variable explicative ni une variable de réponse, mais peut être responsable des changements dans les deux $x$ et $y$.

    Exemple

    En janvier dernier, deux hommes du Cambridgeshire ont été arrêtés pour culture de cannabis et ont tenté de convaincre un tribunal sceptique qu'ils avaient confondu leur culture avec des bonsaïs. Une affirmation audacieuse, étant donné que leurs ``bonsaïs`` prospéraient à tel point que lorsque la police a perquisitionné leur maison, les suspects ont réussi à se cacher parmi eux.

    À l'Université de Cambridge, des chercheurs étudient comment la lumière du soleil influence les émissions de dioxyde de carbone d'une espèce de bonsaï nouvellement découverte. Le tableau ci-dessous affiche les heures d'exposition à la lumière du soleil et le volume de dioxyde de carbone, mesuré en centimètres cubes, produit par un seul arbre à travers cinq observations différentes. $$\begin{array}{cc} \text { Exposition au soleil } & \text { Quantité de dioxyde de carbone } \\ \text { (heures) } & \left(\mathrm{cm}^3\right) \\ \hline 1 & 3 \\ 3 & 6 \\ 5 & 8 \\ 7 & 9 \\ 8 & 10 \\ \hline \end{array}$$

    Exemple

    La Chine adopte la reconnaissance faciale à une échelle épique. Aux carrefours, les piétons non autorisés sont humiliés en projetant leur visage sur des écrans géants, et dans les temples de la dynastie Ming, ils l'utilisent pour empêcher le vol de papier toilette - c'est tellement efficace qu'il peut dire si vous avez subi une chirurgie esthétique. Dans les écoles, la surveillance est renforcée : un lycée scanne les élèves toutes les 30 secondes pour repérer les bâillements ou les rêveurs, tandis que les universités l'utilisent pour contrôler l'accès aux dortoirs, bloquant les ``étrangers`` et, de manière gênante, les petits amis.

    Dans un collège, la reconnaissance faciale suit la présence et l'absentéisme. Le tableau ci-dessous montre le nombre de cours manqués par cinq étudiants en analyse de données et leurs notes finales. $$\begin{align} \begin{array}{cc} \text { Cours manqués } & \text { Note finale (sur 100) } \\ \hline 10 & 75 \\ 15 & 65 \\ 20 & 50 \\ 25 & 40 \\ 30 & 30 \end{array} \end{align}$$

    Régression

    Après avoir établi que deux variables sont liées, la prochaine étape consiste à construire un modèle qui décrit la relation entre elles. La procédure commence souvent par la création d'un nuage de points des données, puis par l'ajustement d'une courbe à travers celui-ci. Les propriétés de la courbe sont ensuite extraites pour générer une équation mathématique, qui peut être utilisée pour faire des prédictions sur les variables et prévoir les valeurs futures.
    Pour des données appariées qui sont linéairement liées, les données sont ajustées avec une droite, et la relation est modélisée avec une équation linéaire. En effet, il existe de nombreuses lignes à choisir; mais si l'objectif est de maximiser la puissance prédictive du modèle, et minimiser l'erreur globale produite par celui-ci, alors ce n'est pas n'importe quelle ligne qui fera l'affaire.

    La méthode des moindres carrés

    La méthode des moindres carrés est une technique utilisée pour trouver la meilleure ligne d'ajustement à travers un ensemble de points de données. La méthode minimise la somme des carrés des distances verticales entre les points de données et la ligne. La ligne qui minimise cette somme est la meilleure ligne d'ajustement, et est la ligne qui est utilisée pour modéliser la relation entre les variables.

    Définition:

    La ligne des moindres carrés

    La ligne des moindres carrés est la ligne qui représente le mieux les données sur un nuage de points; en minimisant la somme des carrés des erreurs résiduelles.
    Le diagramme ci-dessous montre une ligne des moindres carrés passant à travers un ensemble de points de données. Les décalages verticaux (erreurs résiduelles) se produisent chaque fois que la ligne des moindres carrés et les points de données ne s'alignent pas précisément.
    Axe des $x$Axe des $y$
    Pour utiliser la ligne des moindres carrés pour faire des prédictions sur les données, nous devons être en mesure de trouver l'équation qui décrit la ligne elle-même. Cela appelle à deux calculs à effectuer; un pour la pente, et un pour l'ordonnée à l'origine.
    • La pente est un nombre qui décrit le taux de changement entre les deux variables. Il nous dit comment un changement d'une unité de la variable explicative affecte la valeur de la variable de réponse. La taille du changement (grand/petit) est reflétée dans la valeur numérique de la pente, et la direction du changement (croissant/décroissant) par son signe.
    • L'ordonnée à l'origine est l'endroit où le graphique de la ligne et de l'axe des $y$ s'intersectent.

    Formule:

    La pente de la ligne des moindres carrés

    $$b = \frac{n\sum x_iy_i - \sum x_i \sum y_i}{n\sum x_i^2 - (\sum x_i)^2}$$ où

    $n=$ le nombre de points de données
    $x_i=$ chaque valeur de la variable explicative,$x$
    $y_i=$ chaque valeur de la variable de réponse

    Formule:

    L'ordonnée à l'origine de la ligne des moindres carrés

    $$a = \frac{\sum y_i - b\sum x_i}{n}$$ où

    $n=$ le nombre de points de données
    $x_i=$ chaque valeur de la variable explicative,$x$
    $y_i=$ chaque valeur de la variable de réponse
    $b=$ est la pente de la ligne des moindres carrés

    Formule:

    L'équation de la ligne des moindres carrés

    $$\hat{y} = a + bx$$ où

    $\hat{y}=$ la variable de réponse
    $x=$ la variable explicative
    $a=$ l'ordonnée à l'origine de la ligne des moindres carrés
    $b=$ la pente de la ligne des moindres carrés

    Exemple

    McDonald's, la plus grande chaîne de restauration rapide au monde, a travaillé pour redorer son image en publiant des guides nutritionnels pour ses articles de menu. Alors que des salades et des fruits ont été ajoutés pour attirer les clients soucieux de leur santé, la plupart préfèrent toujours leurs hamburgers emblématiques. Voici quelques-uns des hamburgers les plus populaires de McDonald's, ainsi que leur teneur en matières grasses et leur valeur calorique.

    $$\begin{array}{lcc} \text { Sandwich } & \text { Matières grasses }(g) & \text { Calories } \\ \hline \text { Big Mac } & 28 & 520 \\ \text { Cheeseburger } & 11 & 290 \\ \text { Double Cheeseburger } & 20 & 420 \\ \text { Double Quarter Pounder } & 43 & 740 \\ \text { Hamburger } & 8 & 240 \\ \text { McDouble } & 17 & 370 \\ \text { Quarter Pounder With Cheese } & 26 & 520 \end{array}$$

    Même si la ligne des moindres carrés fait un travail respectable pour minimiser les distances, des différences entre la valeur prédite de $y$ et la valeur réelle de $y$ se produisent inévitablement.

    Définition:

    Erreur résiduelle

    L'erreur résiduelle est la différence entre la valeur prédite de $y$ et la valeur réelle de $y$. Géométriquement, le résidu est la distance verticale entre le point de données et la ligne des moindres carrés.

    Formule:

    Erreur résiduelle

    Soit $(x,y)$ un couple de valeurs de données. Alors, $$e = y - \hat{y}$$ où

    $e =$ l'erreur résiduelle
    $y=$ la valeur réelle de la variable de réponse
    $\hat{y}=$ la valeur prédite de la variable de réponse.
    Axe des $x$ Axe des $y$ e e
    La ligne des moindres carrés peut également être utilisée pour faire des prédictions sur les valeurs des variables explicatives trouvées à l'intérieur et à l'extérieur de l'ensemble de données.

    Définition:

    Interpolation et extrapolation

    Prédire $\hat{y}$ pour des valeurs de $x$ qui se trouvent entre les valeurs observées de $x$ est appelée interpolation, et prédire des valeurs de $x$ qui sont en dehors de l'ensemble de données est appelée extrapolation.
    Il convient de noter que l'extrapolation des valeurs de données peut conduire à des résultats irréalistes; donc la prudence doit être exercée lors de l'utilisation de cette méthode pour prévoir les tendances ou prédire les comportements futurs.
    Un graphique d'un nuage de points avec la ligne des moindres carrés esquissée à travers n'est pas suffisant pour évaluer la qualité du modèle. Par conséquent, une mesure de l'ajustement est nécessaire.

    Exemple

    En utilisant les données de l'exemple de McDonald's, nous avons généré la ligne des moindres carrés suivante: $$ \begin{align} \hat{y} & =a+b x \\ & =131.6777+14.237 x\end{align}$$

    Exercices

    Question 1

    Que signifie un coefficient de corrélation de 0 concernant la relation entre deux variables?

    Cela indique qu'il n'y a pas de relation linéaire entre les deux variables.

    Solution

    Question 2

    Si le coefficient de corrélation entre deux variables est -0,85, que pouvez-vous dire de leur relation?

    Les deux variables ont une forte relation linéaire négative.

    Solution

    Question 3

    Vrai ou faux: Un coefficient de corrélation élevé implique une causalité entre deux variables.

    Faux. La corrélation n'implique pas la causalité.

    Solution

    Question 4

    Que signifie une covariance positive entre deux variables?

    Cela indique que lorsque une variable augmente, l'autre variable a tendance à augmenter également.

    Solution

    Question 5

    En quoi la covariance est-elle différente de la corrélation?

    La covariance mesure la direction de la relation entre deux variables, tandis que la corrélation standardise cette mesure sur une échelle de -1 à +1, montrant à la fois la force et la direction.

    Solution

    Question 6

    Vrai ou faux: La covariance n'est pas affectée par les changements d'échelle de mesure des variables.

    Faux. La covariance dépend des unités de mesure.

    Solution

    Question 7

    Quel est le but principal de l'analyse de régression?

    Le but principal est de modéliser la relation entre une variable dépendante et une ou plusieurs variables indépendantes, et de faire des prédictions.

    Solution

    Question 8

    Que signifie un $R^2=0,85$?

    Cela indique que 85% de la variation de la variable dépendante est expliquée par la ou les variables indépendantes dans le modèle. Les 15% restants sont dus à d'autres facteurs.

    Solution

    Question 9

    Que signifie une covariance négative entre deux variables?

    Cela indique que lorsque une variable augmente, l'autre variable a tendance à diminuer.

    Solution

    Question 10

    Si une erreur résiduelle est négative, que cela indique-t-il?

    Cela indique que le modèle sous-estime la valeur réelle de la variable dépendante.

    Solution

    Question 11

    Un cours d'étiquette en Turquie a suscité la controverse sur les réseaux sociaux en conseillant aux femmes de ne pas lécher des cornets de crème glacée, le jugeant ``peu élégant.`` Apparemment, les organisateurs n'ont pas encore clarifié ce qui rend exactement le fait de lécher un cornet de crème glacée si scandaleux - ou suggéré une manière plus distinguée de savourer l'indulgence glacée. Le cours, une école de finition pour les bonnes manières, donne également des conseils sur l'habillement, la conversation et la marche en public.

    Pendant ce temps, chez Häagen-Dazs à Istanbul, ils suivent les ventes de crème glacée par rapport aux températures quotidiennes, prouvant que, étiquette ou non, les gens crient toujours pour la crème glacée. Voici un aperçu de leurs données de la première semaine:

    $$\begin{array} {l|ccccccc} \text{Température} (°C) & 25 & 27 & 30 & 32& 35& 37 & 40 \\ \hline \text{Ventes de crème glacée (unités)} & 200& 220 & 250 & 280 & 300 & 320 & 350 \end{array}$$

    Question 12

    Thor et Captain America pourraient être en mesure de sauver le monde, mais peut-être devraient-ils aussi réserver de la place pour une salade. Des chercheurs de l'Université de Binghamton ont analysé les index de masse corporelle (IMC) de plus de 3 700 personnages de bandes dessinées et ont découvert que de nombreux super-héros masculins frôlent l'obésité, tandis que leurs homologues féminins sont souvent étonnamment sous-poids. L'étude a également révélé qu'un tiers des héros de Marvel devraient reconsidérer leurs choix alimentaires, et la plupart présentent des proportions corporelles qui défient la réalité. En fait, certaines super-héroïnes affichent des mensurations plus extrêmes que celles observées dans l'industrie du film pour adultes.

    Ci-dessous, vous trouverez des données sur l'IMC et les pourcentages de graisse corporelle de neuf super-héros masculins, ainsi que quelques autres informations stupéfiantes de l'étude:

    \begin{array}{l|ccccccccc} x: \text { Pourcentage de graisse corporelle (%) } & 5,8 & 6,5 & 7,1 & 7,4 & 8,2 & 8,5 & 9,2 & 9,4 & 9,6 \\ \hline y: \text { IMC }(\mathrm{kg} / \mathrm{m}^2) & 29,7 & 31,4 & 31,7 & 32,0 & 32,2 & 33,0 & 33,2 & 33,6 & 33,8 \end{array}

    Question 13

    Le CrossFit n'est pas seulement un programme de fitness, c'est une identité. Comme tout passionné vous le dira (au moins trois fois dans une conversation), « ce c'est pas un entraînement, mon pote. C'est un style de vie ». Cela pourrait expliquer pourquoi le CrossFit se lance dans le jeu des kits repas aux côtés de PX90 et Weight Watchers. Mais contrairement à leurs concurrents, les kits CrossFit abandonnent les légumes et les assaisonnements au profit de… la viande. Beaucoup de viande. Chaque kit comprend 1,7 kg de poulet bio, 1,4 kg de bœuf haché, 280 g de filet mignon, deux faux-filet de 280 g, deux steaks de 280 g et deux surlonges de 170 g. Cela représente 4,5 kg de protéines ! De quoi faire tourner des pneus et trimballer des sacs de sable comme un pro !

    Les données ci-dessous montrent le nombre de calories brûlées lors de cinq séances de CrossFit pour une femme de 40 ans pesant 54 kg. $$\begin{array}{c|ccccc} x: \text { Nombre de minutes: } & 20 & 30 & 40 & 50 & 60 \\ \hline y \text { : Nombre de calories: } & 255 & 420 & 485 & 663 & 675 \end{array}$$