0% ont trouvé ce document utile (0 vote)
9 vues7 pages

Estimation de la fonction de répartition

Transféré par

a89440491
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
9 vues7 pages

Estimation de la fonction de répartition

Transféré par

a89440491
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Estimation

Il arrive fréquemment qu’un phénomène aléatoire soit régi par des paramètres inconnus. Il peut arriver que
ces paramètres ne puissent être déterminés avec précision : par exemple, on peut savoir qu’une pièce n’est pas
équilibrée et ne pas connaître avec précision la probabilité qu’elle donne « pile », on peut savoir que le nombre
de clients se présentant à un guichet de la poste dans un intervalle de temps donné suit une loi de Poisson mais
ne pas connaître son paramètre.
Il peut aussi arriver qu’il soit envisageable de les déterminer avec précision mais que le coût soit prohibitif : par
exemple, un institut de sondage ne peut prévoir le résultat d’un référendum avec exactitude à moins d’interroger
tous les individus de la population. Cet institut préférera donc interroger un échantillon de la population et
extrapoler le résultat de ce sondage à la population entière.
Le phénomène aléatoire étudié conduit donc à définir une variable aléatoire X dont la loi µθ dépend d’un para-
mètre θ inconnu (réel ou vectoriel). On cherche alors à estimer la valeur de θ ou bien une valeur caractéristique
g(θ) (g étant une fonction définie sur l’ensemble Θ des valeurs possibles de θ) de la loi µθ (par exemple son
espérance, sa variance,. . . ).
Le problème de l’estimation consiste alors à estimer la vraie valeur de g(θ) à partir d’un échantillon de données
x1 , . . . , xn obtenues en observant n fois le phénomène.
Dans tout le cours, X est une variable aléatoire sur un espace probabilisable (Ω, A). On suppose que la loi de
X n’est pas entièrement déterminée et appartient à une famille de lois dépendant d’un paramètre θ décrivant
un sous-ensemble Θ de R (ou éventuellement de R2 ). (Ω, A) est muni d’une famille de probabilités (Pθ )θ∈Θ .
Lorsqu’elles existent, l’espérance et la variance de X pour la probabilité Pθ devraient être notées Eθ (X) et Vθ (X),
mais, pour simplifier les notations, la probabilité sera plus simplement notée P, l’espérance et la variance seront
notées E(X) et V(X), mais on se souviendra qu’elles dépendent de la probabilité Pθ .

A. Estimation ponctuelle

A.1. Échantillonage
Dans ce paragraphe, n désigne un entier naturel n non nul.

Définition 38.1

On appelle n-échantillon de la loi µθ de X (ou plus simplement de X) toute famille (Xi )1⩽i⩽n de
variables aléatoires définies sur (Ω, A, P) et de même loi que X.
On dit que (Xi )1⩽i⩽n est un n-échantillon indépendant et identiquement distribué (en abrégé i.i.d.) de
X lorsque (Xi )1⩽i⩽n est un n-échantillon de X constitué de variables aléatoires mutuellement indépen-
dantes.
Si (Xi )1⩽i⩽n est un n-échantillon de X, un échantillon observé est un n-uplet (xi )1⩽i⩽n = (Xi (ω))1⩽i⩽n
de valeurs prises par X1 , . . . , Xn .

Exemple 38.1 On dispose d’une pièce, non forcément équilibrée et l’on cherche à évaluer la probabilité p que
cette pièce donne « pile ». On note X une variable aléatoire suivant la loi de Bernoulli de
paramètre p. Si l’on effectue n (n ∈ N∗ ) lancers successifs et indépendants de la pièce et si l’on
note, pour tout entier i ∈ [[1, n]], Xi la variable aléatoire prenant la valeur 1 si le ième lancer
donne « pile » et 0 sinon, alors la famille (Xi )1⩽i⩽n est un n-échantillon i.i.d. de X.
2

A.2. Estimateur
Définition 38.2

On appelle estimateur de g(θ) toute variable aléatoire réelle de la forme φ(X1 , . . . , Xn ) où (Xi )1⩽i⩽n est
un n-échantillon i.i.d. de X et φ est une fonction de Rn dans R, au moins définie sur X1 (Ω)×· · ·×Xn (Ω),
éventuellement dépendante de n, mais indépendante de θ.
Si φ(X1 , . . . , Xn ) est un estimateur de g(θ), la réalisation de φ(X1 (ω), . . . , Xn (ω)) (où ω est le relevé
effectué dans la population) est appelée estimation de g(θ).

A.3. Exemple d'estimateur : la moyenne empirique


Si l’on dispose d’une pièce et que l’on souhaite estimer la probabilité qu’elle donne « pile », une première
méthode consiste intuitivement à effectuer un certain nombre n de lancers puis à calculer le rapport du nombre
de « piles » obtenus au nombre de lancers effectués. Ce rapport est appelé « moyenne empirique » et cette
méthode est applicable dans la plupart des situations.

Définition 38.3
Soit X une variable aléatoire admettant une espérance m inconnue, n un entier naturel non nul et
(Xi )1⩽i⩽n un n-échantillon i.i.d. de X. On note :

1X
n
Xn = Xi
n i=1

X n est appelé moyenne empirique associée à (Xi )1⩽i⩽n .

Proposition 38.4

Soit X une variable aléatoire admettant une espérance m inconnue, n un entier naturel non nul et
(Xi )1⩽i⩽n un n-échantillon i.i.d. de X. On note :

1X
n
Xn = Xi
n i=1

X n est un estimateur de m. De plus, X n admet une espérance et :

E(X n ) = m

Si de plus X admet une variance σ 2 , alors X n admet une variance et :

σ2
V(X n ) =
n

Exercice 38.1 Démontrer la proposition 38.4.

B. Estimation par intervalle de confiance


On a vu que l’on pouvait estimer ponctuellement une grandeur g(θ) à l’aide d’estimateurs et même que l’on
pouvait juger, sous certaines conditions, la qualité de cet estimateur. Cependant, aucune information n’était
donnée sur la probabilité que la grandeur estimée soit effectivement proche de l’estimation fournie.
Le but de cette partie est de donner comme estimation un intervalle contenant g(θ) à estimer avec une certaine
probabilité.
Dans tout ce paragraphe, (Un )n∈N∗ et (Vn )n∈N∗ désigneront deux suites d’estimateurs de g(θ) telles que :

∀n ∈ N∗ , P(Un ⩽ Vn ) = 1
3

B.1. Définition
Définition 38.5

Soit α ∈ [0, 1]. [Un , Vn ] est appelé intervalle de confiance de g(θ) au niveau de confiance 1 − α (ou au
risque α) si :
P(Un ⩽ g(θ) ⩽ Vn ) ⩾ 1 − α
Sa réalisation est l’estimation de cet intervalle de confiance.

Remarque En pratique, si l’on connaît un estimateur Tn de g(θ), on cherchera le plus souvent un intervalle
de confiance de la forme [Tn − ε, Tn + ε] où ε est un réel strictement positif. Il s’agira alors de
déterminer un réel ε strictement positif tel que :

P(Tn − ε ⩽ g(θ) ⩽ Tn + ε) ⩾ 1 − α

ou encore tel que :


P(|Tn − g(θ)| > ε) ⩽ α
Dès lors, on voit que l’on pourra, dans le cas où Tn admet une espérance et/ou un moment
d’ordre 2, utiliser l’inégalité de Markov et/ou de Bienaymé-Tchebychev pour déterminer un tel
réel ε.

Définition 38.6

Soit α ∈ [0, 1]. On appelle intervalle de confiance asymptotique de g(θ) au niveau de confiance 1 − α
(ou au risque α) toute suite ([Un , Vn ])n∈N∗ telle qu’il existe une suite (αn )n∈N∗ telle que :

∀n ∈ N∗ , P(Un ⩽ g(θ) ⩽ Vn ) ⩾ 1 − αn et lim αn = α


n→+∞

Par abus de langage, on dira aussi que [Un , Vn ] est un intervalle de confiance asymptotique de g(θ).

B.2. Estimation par intervalle de confiance d'une proportion


On suppose, dans cette partie, que X suit la loi de Bernoulli de paramètre p, inconnu, que l’on cherche à
estimer. On considère également un réel α appartenant à ]0, 1[ et une suite (Xn )n∈N∗ de variables aléatoires
indépendantes et toutes de même loi que X.
Enfin, on note :
1X
n
∀n ∈ N∗ , X n = Xi
n i=1

Une première approche


Soit n ∈ N∗ . On a vu que la moyenne empirique X n est un estimateur sans biais de p et que :

p(1 − p)
V(X n ) =
n
De l’inégalité de Bienaymé-Tchebychev, on déduit que :

p(1 − p)
∀ε ∈ R∗+ , P( X n − p > ε) ⩽
nε2
De plus, on peut remarquer que, comme p est réel :

p(1 − p) = p − p2
 2
1 1
= − −p
4 2
1
⩽ (38.1)
4
4

On en déduit donc que :


1
∀ε ∈ R∗+ , P( X n − p > ε) ⩽
4nε2
Par conséquent, pour que [X n − ε, X n + ε] soit un intervalle de confiance de p au niveau de confiance 1 − α, il
suffit que ε vérifie :
1
⩽α
4nε2
soit encore :
1
ε⩾ √
2 nα
On en déduit le résultat suivant :

Proposition 38.7
 
1 1
Soit α ∈ ]0, 1[ et n ∈ N∗ . Si X suit la loi de Bernoulli de paramètre p, alors X n − √ , X n + √
2 nα 2 nα
est un intervalle de confiance de p au niveau de confiance 1 − α.

Une seconde approche


Soit ε ∈ R∗+ . On peut aussi remarquer que, grâce à la majoration (38.1) :
" √ #
  √
Xn − p n
∀n ∈ N∗ , Xn − p > ε = np >ε
p(1 − p) p(1 − p)
" #
√ Xn − p √
⊂ np > 2ε n
p(1 − p)

et donc :
 ∗ √ 
∀n ∈ N∗ , P( X n − p > ε) ⩽ P X n > 2ε n (38.2)

où l’on a posé :
∗ √ Xn − p
∀n ∈ N∗ , X n = np
p(1 − p)
D’après le théorème de la limite centrée, comme la suite (Xn )n∈N∗ est une suite de variables aléatoires indépen-

dantes, de même loi et admettant une variance non nulle, la suite (X n )n∈N∗ converge en loi vers une variable
aléatoire N suivant la loi normale centrée réduite, et donc que, pour x ∈ R∗+ :
 ∗ 
lim P X n > x = P(|N | > x) (38.3)
n→+∞

Par ailleurs, en notant Φ la fonction de répartition de la loi normale centrée réduite, on a :

P(|N | > x) = 1 − P(−x ⩽ N ⩽ x)


= 1 − Φ(x) + Φ(−x)
= 2 [1 − Φ(x)]

et donc :
α
P(|N | > x) = α ⇐⇒ Φ(x) = 1 −
2
Par ailleurs, comme Φ est strictement croissante et continue sur R avec :

lim Φ(x) = 0 et lim Φ(x) = 1


x→−∞ x→+∞

Φ réalise une bijection de R sur ]0, 1[, donc il existe un unique réel tα tel que :
α
Φ(tα ) = 1 −
2
5

On peut alors considérer les suites (ε)n∈N∗ et (αn )n∈N∗ définies par :

tα  ∗ 
∀n ∈ N∗ , εn = √ et αn = P X n > t α
2 n

On a alors, d’après (38.2) :


∀n ∈ N∗ , P( X n − p > εn ) ⩽ αn
d’où : 
∀n ∈ N∗ , P X n − εn ⩽ p ⩽ X n + εn ⩾ 1 − αn
et d’après (38.3) :
lim αn = P (|N | > tα ) = α
n→+∞

ce qui prouve le résultat suivant :

Proposition 38.8

Soit α ∈ ]0, 1[ et tα l’unique réel tel que :


α
Φ(tα ) = 1 −
2
 
tα tα
Si X suit la loi de Bernoulli de paramètre p, alors X n − √ , X n + √ est un intervalle de confiance
2 n 2 n
asymptotique de p au niveau de confiance 1 − α.

Remarques a. Pour α = 0, 05, on a : tα ' 1, 96 et on a alors :

1 2, 24 t 0, 98
√ = √ et √α ' √
2 nα n 2 n n

b. Pour α = 0, 01, on a : tα ' 2, 58 et on a alors :

1 5 t 1, 29
√ =√ et √α ' √
2 nα n 2 n n

c. On constate dans les deux exemples précédents que l’intervalle de confiance asymptotique
obtenu par la seconde approche est plus intéressant que l’intervalle de confiance obtenu par la
première approche. C’est le cas le plus souvent, mais il est important de bien comprendre que,
la seconde approche étant obtenue par approximation, elle ne donnera de résultat vraiment
fiable ou intéressant que pour des tailles d’échantillons suffisamment grandes.

C. Correction des exercices


Correction de l’exercice 38-1
▶ (X1 , . . . , Xn ) est un n-échantillon i.i.d. de X et la fonction

1X
n
φ : (x1 , . . . , xn ) 7→ xi
n i=1

est définie sur Rn et indépendante de m, donc X n = φ(X1 , . . . , Xn ) est un estimateur de m.

▶ Comme les variables aléatoires de la suite (Xn )n∈N∗ admettent une même espérance m on a, par linéarité
de l’espérance :
!
1 Xn
1X
n

∀n ∈ N , E Xk = E(Xk )
n n
k=1 k=1
=m
6

▶ De plus, comme les variables aléatoires de la suite (Xn )n∈N∗ sont mutuellement indépendantes, si elles
admettent une même variance σ 2 , alors on a :
!
1X 1 X
n n

∀n ∈ N , V Xk = 2 V(Xk )
n n
k=1 k=1
2
σ
=
n
Sommaire

Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
A. Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
A.1. Échantillonage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
A.2. Estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
A.3. Exemple d’estimateur : la moyenne empirique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
B. Estimation par intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
B.1. Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
B.2. Estimation par intervalle de confiance d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
C. Correction des exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

Vous aimerez peut-être aussi