0% ont trouvé ce document utile (0 vote)
4 vues22 pages

Statistique Bivariée : Analyse de Variables

Ce document traite de l'analyse statistique de deux variables quantitatives, en se concentrant sur la régression linéaire et le coefficient de corrélation. Il présente des concepts clés tels que la représentation graphique des données, l'ajustement linéaire, et la décomposition de la variance. Des exemples concrets illustrent l'application de ces concepts dans l'analyse des relations entre les variables.

Transféré par

yacoub
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
4 vues22 pages

Statistique Bivariée : Analyse de Variables

Ce document traite de l'analyse statistique de deux variables quantitatives, en se concentrant sur la régression linéaire et le coefficient de corrélation. Il présente des concepts clés tels que la représentation graphique des données, l'ajustement linéaire, et la décomposition de la variance. Des exemples concrets illustrent l'application de ces concepts dans l'analyse des relations entre les variables.

Transféré par

yacoub
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 2: Statistique bivariée

Partie 1: Étude de deux variables quantitatives

Khalil EL WALED
Résumé de cours pour la spécialité : PCEM2
Sous la base d’un cours élaboré par mon collègue Anas KNEFATI,
ancien ATER à l’Université Rennes 2

K. EL WALED () Deux variables quantitatives 1 / 22


Plan

1 Données et objectif

2 Représentation graphique : Nuage de points

3 Ajustement linéaire (Régression linéaire)

4 Coefficient de corrélation linéaire

5 Analyse de la variance de Y

6 Coefficient de détermination R 2

K. EL WALED () Deux variables quantitatives 2 / 22


Plan

1 Données et objectif

2 Représentation graphique : Nuage de points

3 Ajustement linéaire (Régression linéaire)

4 Coefficient de corrélation linéaire

5 Analyse de la variance de Y

6 Coefficient de détermination R 2

K. EL WALED () Deux variables quantitatives 3 / 22


Données et objectif

Données
X : Variable quantitative d’observations : x1 , ..., xn
Y : Variable quantitative d’observations : y1 , ..., yn

Objectif
Expliquer Y en fonction de X .
Établir un indicateur de liaison entre X et Y

X : C’est la variable explicative


Y : C’est la variable à expliquer

K. EL WALED () Deux variables quantitatives 4 / 22


Exemple

Année Prix moyen annuel Prix moyen annuel


du gazole (1 Litre) de la ”baguette de pains” (1 kg)
X Y
1992 0.54 2.15
1993 0.56 2.23
1994 0.60 2.30
1995 0.59 2.34
1996 0.66 2.39
1997 0.68 2.42
1998 0.64 2.45
1999 0.69 2.50
2000 0.85 2.56
2001 0.80 2.63
2002 0.77 2.73
2003 0.80 2.84
2004 0.89 2.95
2005 1.03 3.00
2006 1.08 3.07
2007 1.10 3.18
2008 1.28 3.32
2009 1.01 3.35
2010 1.16 3.35
2011 1.34 3.42
2012 1.41 3.46
2013 1.36 3.47
2014 1.30 3.48
2015 1.17 3.46

K. EL WALED () Deux variables quantitatives 5 / 22


Plan

1 Données et objectif

2 Représentation graphique : Nuage de points

3 Ajustement linéaire (Régression linéaire)

4 Coefficient de corrélation linéaire

5 Analyse de la variance de Y

6 Coefficient de détermination R 2

K. EL WALED () Deux variables quantitatives 6 / 22


Représentation graphique : Nuage de points
On représente les données dans un repère du plan en positionnant les
points de coordonnées (xi , yi ).
L’ensemble de ces points donne, en général, une idée assez bonne de
la variation conjointe des deux variables
I Si le nuage est nettement allongé → Les évolutions de X et Y sont
très liées → Les variables sont très liées
I Lorsque le nuage est assez arrondi → Pas de relation nette entre les
évolutions de X et Y → les variables sont peu liées.

K. EL WALED () Deux variables quantitatives 7 / 22


Exemple

K. EL WALED () Deux variables quantitatives 8 / 22


Plan

1 Données et objectif

2 Représentation graphique : Nuage de points

3 Ajustement linéaire (Régression linéaire)

4 Coefficient de corrélation linéaire

5 Analyse de la variance de Y

6 Coefficient de détermination R 2

K. EL WALED () Deux variables quantitatives 9 / 22


Ajustement linéaire (Régression linéaire)
Fonction d’ajustement
On cherche une fonction réelle f tq f (xi ) ≈ yi
Graphiquement, cela revient à chercher la courbe d’une fonction qui passe
au plus près des points du nuage.
Le choix le plus simple : f (x) = ax + b
a et b sont à estimer (Paramètres de la régression linéaire)

Critères des moindres carrés


Afin d’estimer les paramètres de la régression linéaire on cherche à minimiser
le résidu global : Pn
E (a, b) = i=1 ρ (yi − f (xi ))
ρ est une fonction positive, elle s’appelle la fonction perte et en générale, on
utilise soit la fonction carrée soit la fonction de la valeur absolue.
ICI, on étudie le cas de la fonction carrée.
Pn Donc en minimise en a et b :
E (a, b) = i=1 (yi − (axi + b))2
K. EL WALED () Deux variables quantitatives 10 / 22
Estimateur

La minimisation de E (a, b) en a et b fournit la solution unique suivante :

Cov(X , Y )
â =
Var(X )
b̂ = ȳ − âx̄

où
n
1X
Cov(X , Y ) = (xi − x̄)(yi − ȳ )
n i=1
n
1X
= xi yi − x̄ ȳ
n i=1

s’appelle la covariance entre X et Y .

K. EL WALED () Deux variables quantitatives 11 / 22


Exemple

22.31 69.05
X Y XY X2 Y2 x̄ = ≈ 0.93 et ȳ = ≈ 2.88
1992 0.54 2.15 1.16 0.29 4.62 24 24
1993 0.56 2.23 1.25 0.31 4.97 n
1
1994 0.60 2.30 1.38 0.36 5.29
X
1995 0.59 2.34 1.38 0.35 5.48 Cov(X , Y ) = xi yi − x̄ ȳ
n
1996 0.66 2.39 1.58 0.44 5.71 i=1
1997 0.68 2.42 1.65 0.46 5.86
1998 0.64 2.45 1.57 0.41 6.00 67.15
= − 0.93 ∗ 2.88 ≈ 0.12
1999 0.69 2.50 1.72 0.48 6.25 24
2000 0.85 2.56 2.18 0.72 6.55 n
2001 0.80 2.63 2.10 0.64 6.92 1
X
2 2
2002 0.77 2.73 2.10 0.59 7.45 Var(X ) = xi − x̄
n
2003 0.80 2.84 2.27 0.64 8.07
i=1
2004 0.89 2.95 2.63 0.79 8.70
2005 1.03 3.00 3.09 1.06 9.00 22.63 2
= − 0.93 ≈ 0.08
2006 1.08 3.07 3.32 1.17 9.42 24
2007 1.10 3.18 3.50 1.21 10.11
Cov(X , Y )
2008 1.28 3.32 4.25 1.64 11.02 â =
2009 1.01 3.35 3.38 1.02 11.22 Var(X )
2010 1.16 3.35 3.89 1.35 11.22 0.12
2011 1.34 3.42 4.58 1.80 11.70 = = 1.5
2012 1.41 3.46 4.88 1.99 11.97 0.08
2013 1.36 3.47 4.72 1.85 12.04 b̂ = ȳ − âx̄
2014 1.30 3.48 4.52 1.69 12.11
= 2.88 − 1.5 × 0.93 = 1.485
2015 1.17 3.46 4.05 1.37 11.97
Total 22.31 69.05 67.15 22.63 203.65
Alors : ŷ = 1.5x + 1.485

K. EL WALED () Deux variables quantitatives 12 / 22


Remarques

ŷ = âx + b̂ est l’équation de la droite de régression de Y sur X .


Le point (x̄, ȳ ) est appelé le centre de gravité ou le point moyen.
La droite de régression passe par le point moyen
Le signe de â est celui de Cov(X , Y )
Valeurs prédites : ŷi = âxi + b̂
Résidus : êi = yi − ŷi . Ils sont de moyenne nulle et de variance
n
1 1X
E (â, b̂) = e2
n n i=1 i

K. EL WALED () Deux variables quantitatives 13 / 22


Exemple

K. EL WALED () Deux variables quantitatives 14 / 22


Plan

1 Données et objectif

2 Représentation graphique : Nuage de points

3 Ajustement linéaire (Régression linéaire)

4 Coefficient de corrélation linéaire

5 Analyse de la variance de Y

6 Coefficient de détermination R 2

K. EL WALED () Deux variables quantitatives 15 / 22


Coefficient de corrélation linéaire
Formule
Ce coefficient, noté rXY ou r , sert à mesurer l’alignement des points
C’est le rapport entre la covariance et le produit des écarts-types :

Cov(X , Y )
r=
σX σY

Interprétation
r > 0 : Les deux variables ont tendance à varier dans le même sens
r < 0 : Les deux variables ont tendance à varier en sens opposé
r = 0 : Il n’y a pas de relation linéaire entre X et Y
plus |r | est proche de 1, plus la liaison linéaire est forte
plus |r | est proche de 0, plus la liaison linéaire est faible
|r | = 1 correspond à une liaison linéaire parfaite entre X et Y
K. EL WALED () Deux variables quantitatives 16 / 22
Coefficient de corrélation linéaire - Propriétés

rXY est indépendant des unités de mesure de X et Y


rXY est symétrique : rXY = rYX
−1 ≤ rXY ≤ 1

K. EL WALED () Deux variables quantitatives 17 / 22


Plan

1 Données et objectif

2 Représentation graphique : Nuage de points

3 Ajustement linéaire (Régression linéaire)

4 Coefficient de corrélation linéaire

5 Analyse de la variance de Y

6 Coefficient de détermination R 2

K. EL WALED () Deux variables quantitatives 18 / 22


Décomposition de la variance de Y (Analyse de la variance)

On peut décomposer la variance de Y comme :


n n n
1X 1X 1X
(yi − ȳ )2 = (ŷi − ȳ )2 + (yi − ŷi )2
n i=1 n i=1 n i=1
Variance totale deY = Variance expliquée + Variance résiduelle

K. EL WALED () Deux variables quantitatives 19 / 22


Plan

1 Données et objectif

2 Représentation graphique : Nuage de points

3 Ajustement linéaire (Régression linéaire)

4 Coefficient de corrélation linéaire

5 Analyse de la variance de Y

6 Coefficient de détermination R 2

K. EL WALED () Deux variables quantitatives 20 / 22


Coefficient de détermination R 2
Formule
Ce coefficient, noté R 2 , sert à mesurer l’adéquation entre le modèle
(ŷ = âx + b̂) et les observations
Variance expliquée
R2 = Variance totale
Cov2 (X ,Y )
On peut montrer que R 2 = σX2 σY2
= r2

Interprétation
0 ≤ R2 ≤ 1
Plus R 2 tend vers 1, plus le nuage de points se rapproche de la droite
de régression
Au contraire, plus R 2 se rapproche de 0, plus le nuage de points est
diffus autour de la droite de régression.
R 2 = 1 : Le modèle est capable de déterminer 100% de la distribution
de points
K. EL WALED () Deux variables quantitatives 21 / 22
Exemple

Var(Y ) = n1 ni=1 yi2 − ȳ 2 = 203.65


− (2.88)2 ≈ 0.19
P
24

σX = 0.08 ≈ 0.28

σY = 0.19 ≈ 0.44
Cov(X ,Y ) 0.12
r= σX σY = 0.28×0.44 ≈ 0.97
Cov2 (X ,Y )
R2 = σX2 σY2
= r 2 = (0.97)2 ≈ 0.94

K. EL WALED () Deux variables quantitatives 22 / 22

Vous aimerez peut-être aussi