0% ont trouvé ce document utile (0 vote)
6 vues8 pages

Statistiques descriptives à deux dimensions

Transféré par

wissemamrani123
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
6 vues8 pages

Statistiques descriptives à deux dimensions

Transféré par

wissemamrani123
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 1

Statistique descriptive à une dimension

1
Chapitre 2

Statistique descriptive à deux


dimensions

Elle consiste à étudier deux séries de données observées sur deux variables en même temps afin
de mettre en évidence un certain lien existant entre ces variables. Une étude, assez semblable à
celle en dimension 1, peut être menée dans le sens qu’on dresse un tableau de fréquences, qu’on
propose des graphes et qu’on introduit des paramètres caractérisant la relation existant entre ces
deux variables.

2.1 Distribution de fréquences


Elle est représentée par un tableau à double entrée. Les variables X et Y peuvent être de même
nature ou pas, continues ou discrètes. Sur la première colonne (resp. ligne) sont données les valeurs
de X (resp. Y ), ou l’inverse selon ce qui est spécifié. À l’intérieur du tableau sont représentés les
effectifs nij , nij étant le nombre de fois que X prend la valeur xi et Y prend la valeur yj en même
temps. Illustrons cela à travers un exemple

Exemple 2.1 Durant la semaine de prévention routière des inspecteurs examinent les pneus et les
phares de 100 voitures. Soit X le nombre de phares défectueux et Y le nombre de pneux défectueux.
Les statistiques recueillies sont portées dans le tableau suivant.

X\Y 0 1 2 3 4 Totaux
0 24 18 12 4 1 59
1 13 10 6 3 1 33
2 3 2 2 1 0 8
Totaux 40 30 20 8 2 n = 100
xi ni.
0 59
La distribution de fréquences de X est
1 33
2 8

2
yj n.j
0 40
1 30
et la distribution de fréquences de Y est .
2 20
3 8
4 2

En général, nous obtenons un tableau comme suit :

X\Y y1 . . . yj . . . yq Totaux
x1 n11 . . . n1j . . . n1q n1.
. .
. .
. .
xi ni1 . . . nij . . . niq ni.
. .
. .
. .
xp np1 . . . npj . . . npq np.
Totaux n.1 . . . n.j . . . . n.q n
où :
q
X
ni. = nij
j=1

est la distribution de fréquences de X et


p
X
n.j = nij
i=1

est la distribution de fréquences de Y .


Ces deux lois sont appelées les lois marginales et peuvent être déduites des effectifss du couple
(X, Y ) en sommant sur les colonnes pour X et sur les lignes pour Y .
n est la taille totale de l’échantillon. Les relations suivantes sont alors vérifiées :
p q p q
X X X X
ni. = n.j = nij = n.
i=1 j=1 i=1 j=1

La notion de fréquence garde son sens ici et on obtient :


q p
n n
fij = nij , fi. = nni. =
P P
fij , f.j = n.j = fij .
j=1 i=1
Ces fréquences vérifient :
Pp q
P Pp P q
fi. = f.j = fij = 1.
i=1 j=1 i=1 j=1
Si on note par x (resp. y) la moyenne de (xi ) (resp. (yj )) et par s2X (resp. s2Y ) la variance de (xi )
(resp. (yj )), il vient :

3
p q p p
1 1 1 1
s2X = ni. (xi − x)2 = ni. x2i − x̄2
P P P P
x= n
ni. xi , y= n
n.j yj , n n
i=1 j=1 i=1 i=1
q q
1 1 2
et s2Y = n.j (yj − y)2 = n.j yj2 − y .
P P
n n
j=1 j=1

2.2 Fréquences conditionnelles


Pour chaque X = xi et Y = yj , on définit
• la fréquence conditionnelle de Y = yj sachant X = xi , notée fYX=x
=yj , par
i

nij
fYX=x
=yj =
i
.
ni.
C’est à dire que la fréquence de yj est calculée seulement parmi les “individus” pour lesquels X
vaut xi . De même, on introduit
Y =y
• la fréquence conditionnelle de X = xi sachant Y = yj , notée fX=xji , par

Y =y nij
fX=xji = .
n.j

Ici la fréquence de xi est calculée seulement parmi les “individus” pour lesquels Y vaut yj .

Exemple 2.2 Pour l’exemple 2.1, nous obtenons


24 6 24 10
fYX=0 X=1 Y =0 Y =1
=0 = 59 ' 0.41, fY =2 = 33 ' 0.18, fX=0 = 40 = 0.6 et fX=1 = 30
' 0.33.

Les autres fréquences se calculent de la même manière.

2.3 Représentation graphique


Une série statistique double peut être représentée par un nuage de points, qui est formé par
l’ensemble des points dont les abscisses sont données par les différentes valeurs observées de X et
dont les ordonnées sont les valeurs correspondantes observées pour Y .

Exemple 2.3 La longueur du corps X et la profondeur de poitrine Y de 22 vaches laitières sont


consignées ci dessous.
X 168 169 150 148 154 145 165 163 148 161 151
Y 71 68 65 67 67 66 69 69 68 69 70
X 176 159 159 151 155 169 158 157 161 146 150
.
Y 74 70 73 69 71 74 70 71 73 71 65

Le nuage de points représentant cette série est l’ensemble des points rouges du graphique suivant.

4
.

Remarque 2.1 Les distributions de fréquences sont représentées graphiquement par des dia-
grammes en bâtons ou des stéréogrammes (pour les données groupées) en dimension 3.

2.4 Les moments et la covariance


La généralisation, à deux dimensions, de la notion de moment centré conduit à la définition
suivante.

Définition 2.1 Le moment centré, d’ordre k pour X et d’ordre l pour Y , noté mkl , est défini par
p q
1 XX
mkl = nij (xi − x)k (yj − y)l .
n i=1 j=1

Pour k = l = 1, on obtient la covariance de X et Y , notée Cov(X, Y ), et donnée par

p q
1 XX
Cov(X, Y ) = m11 = nij (xi − x)(yj − y),
n i=1 j=1

qui s’écrit aussi


p q
1 XX
Cov(X, Y ) = nij xi yj − xy.
n i=1 j=1

Cov(X, Y ) est positive (resp. négative) si les valeurs élevées d’une série correspondent dans
l’ensemble aux valeurs élevées (resp. peu élevées) de l’autre série, i.e. (xi − x) et (yj − y) sont dans
l’ensemble de même signe (resp. de signe contraire).

5
2.4.1 Propriétés de la covariance
1. Cov(X, X) = V arX

2. Comme la variance, la covariance est influencée par les homothéties mais pas par les trans-
lations, ce qui s’écrit

Cov(a + bX, c + dY ) = bdCov(X, Y ).

3. La relation suivante (qui est l’inégalité de Shwartz) est toujours vérifiée

| Cov(X, Y ) |≤ sX sY ,

où sX (resp sY ) est l’écart type de X (resp Y ).

Le signe de Cov(X, Y ) nous renseigne, même grossièrement, sur un éventuel lien entre X et Y ,
nous allons ci dessous chercher à mieux cerner ce lien.

2.4.2 Droite de régression au sens des moindres carrés


Le but est de donner une idée sur la façon dont varie une variable dépendante (ou expliquée)
Y en fonction d’une variable indépendante (ou explicative) X. Un modèle largement utilisé est le
modèle linéaire, c’est à dire qu’on observe un ensemble de couples (xi , yi )1≤i≤n ,, provenant de la
réalisation du couple (X, Y ), et qu’on cherche une droite d’équation y = a + bx qui passe le plus
proche possible (au sens des moindres carrés) de notre nuage de points. Autrement dit on cherche
deux réels a et b tels que
X n
X
= (yi − a − bxi )2
i=1

soit minimum. C’est la minimisation d’une fonction à deux variables (a et b), on doit chercher a
et b tels
P que : P P
∂ ∂ ∂
∂a
= 0 et ∂b
= 0 ( ∂a
voulant
P
dire qu’on dérive par rapport à a en considérant b comme

constante et inversement pour ∂b ).
On obtient les équations suivantes, appelées équations normales
n
P
1) (yi − a − bxi ) = 0
i=1
et n
P
2) xi (yi − a − bxi ) = 0.,
i=1
La résolution de ce système d’équations conduit à
b = Cov(X,Y
s2X
)
et a = y − bx. De plus la vérification portant sur les dérivées secondes montrent que
(a, b) est bien un minimum.
La droite de régression est donc d’équation

6
Cov(X, Y )
y= (x − x) + y
s2X

et elle passe par le point moyen (x, y).

Exemple 2.4 L’observation du couple (X, Y ) a donné les résultats suivants :


xi y i
0 3
1 3
1 4 .
3 4
3 5
4 5
Trouver la droite de régression de Y en X.

On a
x = 12/6 = 2, y = 24/6 = 4, Cov(X, Y ) = 54/6 − 8 = 1 et s2X = 36/6 − 4 = 2.
L’équation de la droite de régression de Y en X est :
y = 1/2(x − 2) + 4 = x/2 + 3.

Le nuage de points et la droite de régression sont représentés ci dessous.

Remarque 2.2 1. La droite de régression sert à faire de la prévision et de l’estimation mais


à l’intérieur des limites des valeurs d’observation
2. L’existence d’une relation linéaire entre deux variables n’est pas nécessairement une relation
de cause à effet. Par exemple, à l’époque où les femmes accouchaient beaucoup plus chez
elles, une étude a montré qu’il y avait une corrélation entre le nombre de femmes qui

7
mourraient en couches et la présence d’un médecin. Doit on conclure que la présence d’un
médecin est la cause du décès ? Bien sûr que non, une étude plus fine a montré qu’on ne
faisait appel au médecin que lorque l’accouchement se compliquait, et souvent c’etait déja
trop tard !
3. S’il y a une possibilité d’existence d’une relation logique entre deux variables (en prenant
bien le soin de distinguer la variable expliquée de l’explicative) on trace le nuage de points et
si ce tracé suggère la possibilité de l’existence d’une relation linéaire, on cherche l’équation
de la droite de régression. D’autres types de relation (curviligne, exponentielle etc...) peuvent
exister et le graphe sert déja à se faire une idée sur ce type.

2.4.3 Le coefficient de corrélation et le coefficient de détermination


Posons
Cov(X, Y )2
r2 = ,
s2X s2Y

c’ est le coefficient de détermination et s’interprète comme suit :


100r2 est le pourcentage de la variation de Y expliquée par la variation de X.
D’après l’inégalité de Schwartz, la relation suivante est toujours vérifiée

0 ≤ r2 ≤ 1.

La racine carrée de r2 , notée r, est appelée coefficient de corrélation entre X et Y et vérifie donc

−1 ≤ r ≤ 1.

Nous avons
- Plus r s’approche de 0 plus faible est la relation linéaire entre X et Y (si r = 0 alors inexistence
d’une relation linéaire entre X et Y mais possibilité d’existence d’un autre type de relation),
- Plus r s’approche de +1 ou −1, plus forte est la relation linéaire entre X et Y (si r = 1 (resp
r = −1) alors existence d’une relation linéaire positive (resp négative) parfaite entre X et Y ).
En revenant à l’exemple 2.4, nous avons
)2
s2Y = 100/6 − 16 = 0.67 et r2 = Cov(X,Y
2 2
sX sY
1
= 2(0.67) = 0.75. On peut dire que 75% de la variation de
Y est expliquée par la variation de X.
Le coefficient
√ de corrélation vaut :
r = 0.75 = 0.86 (on prend +0.86 car Cov(X, Y ) ≥ 0).

Vous aimerez peut-être aussi