0% ont trouvé ce document utile (0 vote)
6 vues10 pages

Statistiques Bivariées et Corrélations

Le chapitre 4 traite de la statistique descriptive d'une série bivariée, mettant en évidence les relations entre deux séries d'observations. Il aborde les types de variables, l'élaboration de tableaux et graphiques, ainsi que les distributions marginales et conditionnelles. Enfin, il introduit des concepts tels que la covariance et le coefficient de corrélation, tout en soulignant que la corrélation n'implique pas nécessairement la causalité.

Transféré par

ftbvrjm8pf
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
6 vues10 pages

Statistiques Bivariées et Corrélations

Le chapitre 4 traite de la statistique descriptive d'une série bivariée, mettant en évidence les relations entre deux séries d'observations. Il aborde les types de variables, l'élaboration de tableaux et graphiques, ainsi que les distributions marginales et conditionnelles. Enfin, il introduit des concepts tels que la covariance et le coefficient de corrélation, tout en soulignant que la corrélation n'implique pas nécessairement la causalité.

Transféré par

ftbvrjm8pf
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 4 :

Statistique descriptive d'une série bivarie.

But : mettre en évidence les relations existant entre 2 séries d'observations.

[(Xi
·

série statistique bivariée : la mesure de 2 variables X et y ,


sur n individus donne lieu à une série bivariée .
, Yil ; i =
1 2
, , ...

tableau
·

individus X Caractères

s x Y

1 xn y.

… … …

i Xi Y;

n Xn Yn

on a
plusieurs type de variable :

X/y quanti- ordinal nominal


tatif

IV IV


IV

^

elaboration de tableaux et graphiques
X
Si on veut étudier deux ensembles
>
- réduction des données /Statistiques

tableau /TCI
de
contingence


ai
rijk-effectig associé au couple (xj ; 41)

réécriture :
[(Xji yf ; njk) , j
= 1
, ...
J h
,
=
,
,..., bY

distributions
·

marginales
étude d'une série observée /abstraction de l'autrel étude univariée.

b Ex ;;
Série
marginale en X : i
=
1 2
, , ..., n] au [/xj nj) ; j ,
=
1
, ..., 53

avec
nj =j les
effectifs marginau

Fréquence marginale en X :
fj .

= auj ...

ce
qui permet le calcul des statistiques suivantes :
J

告崎 5 . 5 et
*
Ʃ=
気= 吉 品

( ti -* R = 予 nj- (
xj
-
xR
·
série
marginale en
y
: [yi ; i
=
1
,
2
, ..., n) ou (142 ,
n .
2)ik =
1
,..., k]

avec n
=jk les effectifs marginaux
>
-

fréquence marginale en
y
:
F .

ch
vi = .

ce qui va nous permettre le calcul du Statistiques Suivantes :

∞y =路 y
.

= 吉 “
表 Y%

L

sy 告 “

( yo -
5

R:

選 " h
[ y %- y ?

distributions
·

conditionnelles

but étude d'une série observée / connaissant la valeur de l'autre série


: en
fixant observée

b
distribution conditionnelle de
y en X : il
faut supposer que l'on connaisse la valeur de x : x =

xj
:
[(42 njk)
, ,
k =
1
,..., k]
=>
étude d'un échantillon de tailler nj.

fréquence Fhjhjfixé ;
·
conditionnelle
/profil-lignes) :
F42 =

avec cela or
peut calculer les variances, conditionnelles :
moyennes ,
-

π 1 xj
哥爱
-
=
^
jb 性

rgE yf lxjk

1
y ) = -5
× 前 (

distribution conditionnelle de x en
y
: il
faut supposer que l'on connaissance la valus de
yiy
=

42 :
[(Xj njk) j
, ,
=
, ..., 5)

=> taille
étude sur un échantillar de n . L

avec cela an peut calculer les


moyennes , variances , ... conditionnelles :

.
* lµ
% =^ }0 xj

§ § 14 =

njh xj
[ -5 lyh 12
·

les moments :
généralisation à 2 dimensions de la notion de moment.

moments centrés :
Mrs(yi Crise

D cas
particuliers :
mco
= -=

☆=

最签 { yi ⑤} sy
=
mOz
-

ตา
น:
/ -1 yi

Sxy est
appelé covariance.

moments par rapport à


l'origine
:
misi

A mío
cas particuliers : =y

m'on =
T

propriétés de Mrs Soient Xo E IR et dx dy EIR


:
, yo ,

Liss etmrs 吉
“ loi )' lrii 1 s
·

=
… n) o
-
posons
Xo ns
:
vi
=
, vi e . "

,
=3
= @'
g

A particulier
Sur
Sy
cas :

Covariance

moment centré d'order ( 11 ,


:
mn
=
Sxy
=
coV(X , y) =

zk -
llyi
A la covariance sera
positive s'il existe une relation croissante entre 2 variables.

décroissante
négative
·

Propriétés :

influencée d'unités d'origine. Soient EIR etx


dy CIRI
·

par les changements mais


pas Xo , yo ,

et L 1
Ui
#ixo Vi
e
= =^ …
.

cou loivl に

ody
a

1 cou lxigl 1 ≤
5
xbg 超吉Ib lti - 5
) - Cyi 5 }-
E

expression biant mer et mi :


M
=

Sxyyyimmo me

à mettre en parallèle avec : S'x =

1
กิ
·

coefficient corrélation
de /Bravais -
Pearson

= S * ,
r où 0

"

Remarques : => r mesure l'intensité de la "dépendance linéaire entre x et


y

pente
·

r= 1
quand tous les points observés se trouvent sur une même droite de

tous les observés trouvent proximité telle droite.


r21
quand points se à d'une

quand le est parallèlement à l'un


de point allongé des de coordonnées,
forme
=
r 0 axes ou arrondie.
nuage
·

r =
-1 quand tous les points observés se trouvent sur une mime droite de pente négative .

tous les sont situés à telle


r2-1
quand points observés proximité d'une droite

Propriétés :

Ne être utilisé
·

peut pas avec de variables qualitatives.


·

Signer (M) =

Signe /Cou IX , 41
·
-
1xr 1 car(cov/x , y1/ * sxsy
·

r est indépendant des unités de mesures


/origine et unité des echelles de mesure

est indépendant tote


r de
transformation linéaire

rxy quand et l,
= Vig
on a =
ru Vi xo

A uniquement avec dx et
dy strictement positifs .

A D corrélation n'implique par toujours causalité !''

Ceci peut simplement être du au


fait que les 2 variables sont sourmises a des
inferences communes .

:g /
·

vecteur =
moyenne
définit le centre des données
gravité
=
de

Is
·

matrice variance-covariance : Q=

matrice
symétrique
·
Soit X la matrice de observations :

= et X, la matrice des valeurs

antées
c = * )( 感

→ v = ミピ 告(
Régression
·

linéaire simple

But : definir une relation de dépendance statistique entre 2 variables .


La variable à expliquer sera noté y et variable explicative

X .

droite de : bxi 1a , b EIR)


regression a +
=
:

les résidess : li
·
=

y;
-

Y; =

y;
-
a -

bxi

= creur commise entre l a


Vrai valus et l a valeur

ajustée par la droite


appelée "résider"

l'idée c'est les entre l'observation prévision basée la variable


y , et
de minimiser erreurs commises la vraie valeur de la sur

explicative yi .

minimiser :Ee? arei ar médianr(e a r

Critère de moindres carrés /MCOI :

But : minimiser :
Qlaibl =

ie lyi
:
'=
,
-
a
- bxik

pour minimiser : (il a y-bx


=

lii) b =
Exy
gx

Remarques : en calculant les dérivées secondes ,


on peut montrer
que la Solution est bien un minimum.

developpement pour minimiser :

① pour avoir un minimum il


faut que Qa ,
'

lw , tsl =
o

② on va dériver la somme des résidus carrés par rapport à a


. (a , b =yi-a-b

i )
nsyi -
a
- bxil
=
o, s
g i- na -b
ixi -∞ 0
ngi= na to x. ③
y
=
atby

c le centre
qui implique que de
gravité est sur la droite de régression.

③ dériver la somme des résidus carrés


par rapport à b
: Pla , e
=yi-a-bili
lillgi - @ -
bxil { xil = 0
: xig - @
Ʃ xn 的 ☆=
0
☆ 吉品 ☆}
-
线b ∞
靠器
。 - b 吾與 ☆: 0 =③
告器 xiyi- yx + bx ^
-
b 哈 ☆=
x 0


吉点 xigi - := xi
吾☆ (

bl * } ☆
尽然 1
y *
= b *
… *

Resltat : (i) a=
y
-
bx

1b
Ii
=
régression
·

Variance résiduelle et de :

o
la variable à 2 A régression /Va
on décompose l a variance de expliques/y) en
parties :
partie expliqués par la droite de .
de reg

② (variance résiduelle
partie non expliquée

formulr Sy :
=

z(yii-y =

démonstration -
on va décomposer la variance en une variance résiduelle et une variance de
régression.
5
y
=

告品 Iyi - 吉超 ' yi y -
ら: +
y
.- 5 で

Iyo 学 + 吉 1 i yigillgi -y

吉 に悟 ( )
5

- ! -

>
-
ensuite on montre que le double produit est nul .


Ʃ

gi- :} 1 ji
g

- 1= 弄念 lyi -g b
-
(
xi - xlHltblai -
x |

(
「 YigIlxi -i ) /i - *
) b しxi - *J

[ x =と b[ ☆}
=
aる
Sxy -bs
:
]
ω
?
sxy

corrélation/r) et coefficient détermination /R


·

coefficient de de

lien entre le signe de r et la pente de la droite de régression peut prover que: - r


=
on

dans cette relation on voit que : ro =


pente

ro =
pente O

Se Sy/1-r()
peut =
r
·

pourcentage de de la variables expliqué par la variable On montrer =


variance x

re
y . :

interprétation : '
qui sera étendu dans le a s de régression multiple à mesure le % de variance de la variable (y/ expliqué

par la variable explicative (x)

démonstration : Se =
sy(1-r2
ε
=

8 - -
s;R = 告 Syi -
g

- bixi
-
5 」R

吉品 1 、 5
超品 (* - *
路 i - g) i * i - * )
=

y -

-
i

§
y
5 α
線 Sxy
= 響

5
} 1

= 5
=
y


y

Sy11 -

i'




·

Relation entre une variable quantitative et variable qualitative.

moyenne conditionnelles :
/x; =3
ex : quel salaire
moyen
pour un travailleur
^

ayant un
diplome
de bachelier.

.
a r va
effectuer décomposition de l a variance marginale
-
une

mesure de l'intensité de l a dépendance non linéaire de en X


y .

* }
= 愛 { yig ) =


の tye
β - yk

露袋篇成 5
ysj 51
-
n

告超超 es gp
=

gly %- 51551 吉 , : s ixj .

Pour rapper Rj :
.j et
n

Rapport 1x
=
·

corrélation 2y est défini carré


de le
rapport son
:
. X
par

interprétation :
pourcentage de la variance expliqués par la connaissance de la variable x.

A
Remarques :
·

expression à
comparer avec R

2
·

. x
est indépendant des origines et des unités

o2'y *
·

. x

tj =>

si j 1λ
j
=
g r
y . x
=0

Si S'ylxj =
0
Vj )1
=

g . x
=

Indice de non linéarité : 2 x-r


y .

l'indice
·

indice : (i) est appelé rang de l'observation correspondante. Notons R(Xi) le


rang de l'observation: et
R/y; / le
rang

de l'observation
Y:

Rs
·

Corrilation de (Ms)
Spearman corr/R/X) RIy
=
: ,

Pearson
de la Corritation de
par définition ,

My -gi

corrélation du quadrant basée 4


parties des médianes
: sur la division de
l'espace en au
moyen
·

Corrélation de Kendall : basée sur la notion de


pair d'observations concordantes et discordantes.
·
Relation entre 2 variables qualitatives nominales

画 X et modalités : An
2 variables
qualitatives/nominales) Y : X
prend J , ..., Aj et Y prend K modalités : Bs
..., BK

et y sont observés
·

X sur un ichantillon de taillen

} tableau de contingence IN

rjk nombre d'individus


ayant i temps Aj et
-
BL
·

en

"

nj

nj .
=

mj&et n . h = mjk

tableau
·

des
fréquences relatives F
.

proportion d'individus possédant en meme temps les modalités


Aj et BK
filj =...., 5 % 27 ,..,

roljan 51
r(k k)
.
= 1
,...,
.

Fj=
·

fréquences relatives marginales : et


8 .
%
=

Remarques :

est P(xAj Bal


·

fif estimation de
Tjh YC
=
une
,

est estimation
fj P(XEAj)
·

de =

.
une
j .

est estimation
FL de
Th P(YEBR)
=
une
.

tableaux fréquences
·
des conditionnelles

opvas
presentant e modalite
De poum en individue aant e
maand

tableau des profils colonnes :


Proportion des individus présentant la modalité Aj parti les individus qui a BL

851 == の “ る β= gixel
h
^ … :

>
-
estimation de probabilité conditionnelle :
P(XAjlYEBL)
Si 2 variables aléatoires et sont indépendantes FjE51 54 et V E(1 ...., k}
·
X alors
y , ...,

al P(X( Aj, y( Bh)


=
p(X( Aj)P(yEBh)

b) p(Y EBL(XE Aj) P(YE BL


=

E) PLH E AJIYE BE 1
=
BLXEA5 I

l'échantillon
·

de taille d'estimer quantités devrait


n va nous
permettre ces ,
dis lors sous
l'hypothèse d'indépendance on avoir :

fj (1, 5} VhE(1 , k]

}
al firIj . fl
.
=

,
. .
., ...,

lot
fhlj = -th = =3. # Vj ,
Fh

Pfjlz
=hfj .

Fj ,

ffj etfran
·

fréquences relatives théoriques sous


l'hypothèse d'indépendance :

rjf-rh
·

écarts à l'indépendance Ijh


=
:

interprétations : ·
Si
ejh(o) niffizfrIj f. .
alors on dit que les modalités
Aj et BL "s'attirent"

<n SjhL SJ BL "Se repoussent"


·

Si alors dit les modalités et


rijk (0)
jh fL on
Aj
=

. . que

·
mesures d'association du chi-carré :

D
l @
interprétation : la valur est grande ⑦ .
on s'écarte de l'indépendance donc association.

Vous aimerez peut-être aussi