Estimation non paramétrique en statistique
Estimation non paramétrique en statistique
UNIVERSITE CONSTANTINE 1
FACULTE DES SCIENCES EXACTES
DEPARTEMENT DE MATHEMATIQUES
MASTER
EN
MATHEMATIQUES
OPTION
Probabilités et Statistique
INTITULE
Etude des estimateurs de la fonction de répartition et de
la densité dans un modèle de censure
PAR
Boukeloua Mohamed
Devant le jury :
Président : M. Bousseboua Professeur Université Constantine 1
Encadreur : F. Messaci Professeur Université Constantine 1
Examinateur : D. Boudaa Maître de Conférences Université Constantine 1
Examinateur : S. Belaloui Maître de Conférences Université Constantine 1
Introduction 2
1 Estimation non paramétrique pour des données complètes 4
1.1 Dénitions et résultats préliminaires . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Estimation de la fonction de répartition . . . . . . . . . . . . . . . . . . . . . 5
1.3 Estimation de la densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4 Simulation et applications 34
4.1 Etude de simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.2 Application de l'estimation de la densité au lissage des cartes démographiques 37
4.3 Application de l'estimateur de Kaplan-Meier à l'évaluation de l'endurance des
établissements économiques sur les marchés d'exportation . . . . . . . . . . . 42
1
Introduction
La statistique non paramétrique s'occupe des phénomènes dont la loi de probabilité nous
est totalement inconnue, et nous ne supposons pas qu'elle appartient à une des familles de
modèles théoriques. Pour approcher cette loi inconnue, il faut donc estimer ses caractéris-
tiques fonctionnelles, comme la fonction de répartition et la densité de probabilité lorsque
nous supposons son existence. Pour le faire, nous nous basons sur un échantillon de donneés
qui peuvent être complètes, censurées à droite ou censurées à gauche. A chacun de ces cas
correspondent des estimateurs spéciques, et l'objet de ce mémoire est d'étudier quelques
propriétés asymptotiques de ces estimateurs.
Dans le premier chapitre, nous nous intéressons au cas des données complètes ce qui veut
dire qu'elles représentent de vraies réalisations de la variable d'intérêt. Dans ce cas, la fonction
de répartition est estimée par sa contrepartie empirique, estimateur très répandu dans la
littérature et dont il existe plusieurs résultats de convergence, citons à titre d'exemples, le
théorème de Glivenko-Cantelli (1933) qui donne sa convergence presque sûre uniforme, et la
loi du logarithme itéré de Kiefer (1961) qui précise le taux de cette convergence. Pour notre
part, nous montrons et nous précisons le taux de la convergence presque complète uniforme.
Quant à la densité, après un rappel de son estimateur à noyau, nous présentons un résultat
concernant la convergence en moyenne quadratique de ce dernier.
Mais dans la pratique, il arrive qu'un phénomène de censure empêche l'observation com-
plète de la variable d'intérêt. Par exemple quand on s'intéresse au temps de survie à une
maladie grave, la xation du temps de l'étude va introduire une censure à droite. En eet,
à la n de l'étude, il est possible que certains malades soient encore vivants (heureusement
pour eux !). Mais le statisticien ne disposera que de l'information partielle que leurs temps de
survie dépassent les valeurs observées. Les estimateurs précédents ne sont plus valables dans
un tel modèle, à cet eet, Kaplan et Meier ont proposé en 1958, un estimateur de la fonction
de survie. Cet estimateur a été beaucoup étudié par la suite, Breslow et Crowley ont montré
sa normalité asymptotique en 1974. Sa loi du logarithme itéré a été montrée en 1981 par
Földes et Rejtö, et elles ont également précisé le taux de sa convergence presque complète
uniforme sous la condition de continuité des fonctions de survies de la variable d'intérêt et de
la variable de censure. En fait, nous montrons dans ce mémoire que nous pouvons omettre
cette condition de continuité. Par analogie avec le cas des données complètes, Földes, Rejtö
et Winter ont proposé en 1981, un estimateur à noyau de la densité dans un modèle de
censure à droite, et ils ont montré des résultats ponctuels et uniformes concernant sa conver-
gence presque sûre. Le taux de ces convergences a été précisé par Diehl et Stute en 1988, qui
2
ont donné une loi ponctuelle du logarithme itéré, et qui ont également montré la normalité
asymptotique. Pour notre part, nous précisons les taux de la convergence presque complète
ponctuelle et uniforme. Nous rappelons aussi l'estimateur à noyau du taux de hasard qui en
découle, et nous montrons pour cet estimateur des résultats similaires à ceux que nous avons
montré pour l'estimateur de la densité. Ceci est l'objet du deuxième chapitre.
Il est souvent mentionné dans la littérature, qu'en inversant le temps, nous pouvons dé-
duire des résultats connus dans le cas de la censure à droite, ceux valables pour un modèle
de censure à gauche. Dans le troisième chapitre, nous explicitons ceci, en introduisant l'es-
timateur produit limite de la fonction de répartition, et ceci en s'inspirant de l'approche
suivie par Kaplan et Meier dans le cas de la censure à droite. Nous montrons également la
convergence presque sûre uniforme et la loi du logarithme itéré pour cet estimateur.
Finalement, nous commençons au dernier chapitre par une étude de simulation dans le
but d'évaluer les qualités des estimateurs étudiés. Ensuite, nous exposons un exemple de l'ap-
plication de l'estimateur à noyau de la densité en géographie, et un exemple de l'application
de l'estimateur de Kaplan-Meier au commerce international.
3
Chapitre 1
Estimation non paramétrique pour des
données complètes
Dénition 1. On dit que (Xn )n∈N converge presque complètement vers X si pour tout ε > 0
[Link].
P (|Xn − X| > ε) < ∞, et on note Xn −→ X.
P
n∈N
Dénition 3. Soit K (resp. L) une fonction dénie sur R croissante, continue à droite (resp.
à gauche) et à valeurs dans [0, 1], l'inverse généralisée de K (resp. de L) est dénie pour
tout t ∈ [0, 1] par : K −1 (t) = inf{x ∈ R/K(x) ≥ t}. (resp. L−1 (t) = sup{x ∈ R/L(x) ≤ t}).
K −1 et L−1 possèdent les propriétés suivantes :
i) K −1 et L−1 sont croissantes.
ii) ∀t ∈ [0, 1], K(K −1 (t)) ≥ t et L(L−1 (t)) ≤ t, et on a égalités si K et L sont continues.
4
iii) ∀x ∈ R, K −1 (K(x)) ≤ x et L−1 (L(x)) ≥ x.
iv) ∀x ∈ R, ∀t ∈ [0, 1], (K(x) ≥ t ⇔ x ≥ K −1 (t)) et (L(x) ≤ t ⇔ x ≤ L−1 (t)).
Si K est une fonction de répartition, K −1 est dite la fonction quantile.
Dans toute la suite, si L est une fonction de R dans R, on note, lorsqu'elles existent,
L(t ) = lim L(x), L(t+ ) = lim L(x) et L(+∞) = lim L(x). Si L est à variation bornée et
−
<
x→t
>
x→t x→+∞
continue à droite, on note ∆L(t) = L(t) − L(t− ) le saut de L en t et Lc (t) = L(t) − ∆L(x)
P
x≤t
la partie continue de L. Si de plus, L est la fonction de répartition d'une variable aléatoire
réelle U , on dénit le point initial du support de L, noté indiéremment IL ou IU , par :
IL = inf{t ∈ R/L(t) > 0}, et le point terminal du support de L, noté indiéremment TL ou
TU par : TL = sup{t ∈ R/L(t) < 1}. IU et TU possèdent les propriétés suivantes :
i) IU ≤ U ≤ TU p.s.
ii) Si V est une v.a.r. indépendante de U , on a : IU ∧V = IU ∧ IV , IU ∨V = IU ∨ IV ,
TU ∧V = TU ∧ TV et TU ∨V = TU ∨ TV .
5
Démonstration. voir [Kiefer 1961] Théorème 2.
Pour notre part, nous allons montrer la convergence presque complète ponctuelle, et
uniforme de Fn , en précisant à chaque fois le taux de la convergence, et ceci en utiliseant
une inégalité exponentielle de type Bernstein donnée dans le lemme suivant.
Lemme 1. Soient (Zi )1≤i≤n n v.a.r. i. i. d. et centrées, si ∃ M < ∞/ |Z1 | ≤ M , on a en
notant σ 2 = E(Z12 ) :
n
! ( )
X ε2 n
∀ε > 0, P Zi > εn ≤ 2 exp − .
1 + ε σM2
i=1
2σ 2
Démonstration. voir [Ferraty et Vieu 2006] corollaire A.9. page 235.
Théorème 3. Pour tout x ∈ R, on a :
r !
[Link]. log n
Fn (x) −→ F (x), et Fn (x) − F (x) = [Link]. .
n
Démonstration. Soient x ∈ R et n ∈ N / n ≥ 2 :
Si x < IF (resp. x ≥ TF ) alors Fn (x) = F (x) = 0 (resp. Fn (x) = F (x) = 1 ), dans ce cas les
deux résultats du théorème sont immédiats.
Si x ∈]IF , TF [ alors F (x)(1 − F (x)) 6= 0.
On pose Zi = 1{Xi ≤x} − F (x) et σ 2 = E(Z12 ) = F (x)(1 − F (x)), les (Zi )1≤i≤n sont centrées
et elles sont indépendantes
q car les (Xi )1≤i≤n le sont, et comme |Z1 | ≤ 2, on a selon le lemme
1 et pour ε = 2 log n
n
,
!
n log n
r
1X log n 4 n
×
n
P Zi > 2 ≤ 2 exp − q .
n i=1 n
2σ 2 + 8 logn n
q q
Puisque lim log n
n
= 0 , il existe n0 ∈ N / ∀n ≥ n0 , logn n < 161
n→∞
n
r !
1X log n 8
⇒P Zi > 2 ≤ 2 exp − log n = 2 n−8/5 (1.1)
n i=1 n 5
n
r !
X 1X log n
⇒ P Zi > 2 < ∞,
n≥2
n i=1
n
d'où r !
X log n
P |Fn (x) − F (x)| > 2 < ∞. (1.2)
n≥2
n
q
[Link].
Ce qui montre que Fn (x) − F (x) = [Link]. log n
n
et à fortiori Fn (x) −→ F (x).
6
Remarques :- si F (IF ) = 0 on traite IF comme pour x < IF , sinon on le traite comme
pour x ∈]IF , TF [.
n
-Ce théorème est applicable à Fn (x− ) = n1 1{Xi <x} et F (x− )=P (X <x) en prenant Zi =
P
i=1
1{Xi <x} − F (x− ).
Passons maintenant à la convergence presque complète uniforme de Fn .
Théorème 4. On a
r !
[Link]. log n
sup|Fn (x) − F (x)| −→ 0 et sup|Fn (x) − F (x)| = [Link]. .
x∈R x∈R n
1
F (x−
N,k+1 ) − F (xN,k ) ≤ . (1.3)
N
Par ailleurs Fn et F étant croissantes, nous avons :
Fn (xN,k ) − F (x− −
N,k+1 ) ≤ Fn (x) − F (x) ≤ Fn (xN,k+1 ) − F (xN,k ).
1
Fn (xN,k ) − F (xN,k ) − ≤ Fn (x) − F (x)
N
≤ Fn (x− − −
N,k+1 ) − F (xN,k+1 ) + F (xN,k+1 ) − F (xN,k )
1
≤ Fn (x− −
N,k+1 ) − F (xN,k+1 ) +
N
7
1 1
⇒ |Fn (x) − F (x)| ≤ max {|Fn (xN,k ) − F (xN,k )| + , |Fn (x− −
N,k+1 ) − F (xN,k+1 )| + }
N N
1
= max {|Fn (xN,k ) − F (xN,k )|, |Fn (x− −
N,k+1 ) − F (xN,k+1 )|} +
N
1
≤ |Fn (xN,k ) − F (xN,k )| + |Fn (x− −
N,k+1 ) − F (xN,k+1 )| +
N r
log n
≤ max |Fn (xN,k ) − F (xN,k )| + max |Fn (x−
N,k+1 ) − F (x−
N,k+1 )| +
0≤k≤N −1 0≤k≤N −1 n
r
log n
⇒ sup |Fn (x)−F (x)| ≤ max |Fn (xN,k )−F (xN,k )|+ max |Fn (x− −
N,k+1 )−F (xN,k+1 )|+
x∈R 0≤k≤N −1 0≤k≤N −1 n
q N −1 q
log n S log n S
⇒ sup|Fn (x) − F (x)| > 5 n
⊆ |F n (x N,k ) − F (x N,k )| > 2 n
−1
NS
x∈R q
k=0
|Fn (x− −
N,j+1 ) − F (xN,j+1 )| > 2
log n
n
j=0
r ! N −1
! r
log n X log n
⇒P sup|Fn (x) − F (x)| > 5 ≤ P |Fn (xN,k ) − F (xN,k )| > 2
x∈R n k=0
n
−1
N
r !
X
− − log n
+ P |Fn (xN,j+1 ) − F (xN,j+1 )| > 2
j=0
n
(1.4)
≤ 4N n −8/5
(selon (1.1))
r
4 n
≤ 11/10 √ + 4 n−8/5 car N = +1
n log n log n
et ceci ∀ n ≥ n0 , donc
r !
X log n
P sup|Fn (x) − F (x)| > 5 < ∞. (1.5)
n≥2
x∈R n
Remarquons, là aussi, que ce théorème est applicable à Fn (x− ) et F (x− ), du fait que les
fonctions Fn (x− ) et G(x) = F (x− ) sont croissantes et continues à gauche ; donc on peut leur
appliquer la même démonstration en considérant xN,k = G−1 ( Nk ) et en utilisant les intervalles
de la forme ]xN,k , xN,k+1 ] et les limites à droite au lieu des limites à gauche. Par conséquent,
n
ce théorème est également applicable à Yn (x) = n1 1{Xi ≥x} et S(x− ) où S est la fonction
P
i=1
de survie de X , complément à 1 de la fonction de répartition (i.e. : S(x) = P (X > x) ), car
Yn (x) − S(x− ) = F (x− ) − Fn (x− ).
8
1.3 Estimation de la densité
Dans cette section, nous supposons que X admet une densité de probabilité f , estimée
par l'estimateur de Parzen-Rozenblatt (dit aussi l'estimateur à noyau) suivant
n
1 X x − Xi
fn (x) = K ,
nhn i=1 hn
où K est une fonction positive et intégrable, appelée le noyau et (hn )n∈N est une suite de
nombres réels strictement positifs et tendant vers 0, (hn ) est dite la fenêtre.
Nous allons reprendre ici un résultat classique de la convergence en moyenne quadratique
de fn , qui découle du théorème de Bochner suivant.
Théorème 5. Soient g et K deux fonctions intégrables, avec K bornée et |z|K(z) −→ 0, et
|z|→∞
posons : gn (x) = 1
, où (hn )n∈N est une suite de nombres réels strictement
K( hzn )g(x−z) dz
R
hn
positifs qui converge vers 0.
Si g est continue au point x ∈ R, alors gn (x) −→ g(x) K(z) dz. Si g est uniformément
R
n→∞
continue, alors la convergence de gn est uniforme.
Démonstration. Soit ε > 0, on a :
Z +∞ Z +∞ Z +∞
1 z
gn (x) − g(x) K(z) dz = K g(x − z) dz − g(x)K(z) dz
−∞ hn −∞ hn −∞
Z +∞ Z +∞
= K(y)g(x − hn y) dy − g(x)K(y) dy .
−∞ −∞
9
Le résultat que nous visons s'énonce comme suit :
m.q.
fn (x) −→ f (x).
par application, encore une fois, du théorème de Bochner et du fait que nhn −→ ∞.
n→∞
10
Chapitre 2
Estimation non paramétrique dans un
modèle de censure à droite
11
l'ordre croissant. L'estimateur de Kaplan-Meier de S est donné pour tout t ∈ R par :
Y M (Zj )
Sn (t) = 1− ,
R(Zj )
j/Zj ≤t
n
où M (Zj ) = δi 1{Xi =Zj } c'est le nombre de morts exactes au jème instant et R(Zj ) =
P
i=1
n
1{Xi ≥Zj } est le nombre d'individus à risque juste avant le jème instant.
P
i=1
Földes A. et [Link] trouvé
√ en 1980 un taux de convergence presque complète uniforme
de Sn de l'ordre de log n/ n, mais la convergence n'a lieu qu'avant le plus petit des temps
terminaux des supports de F et de G (voir [Földes et al. 1980] Théorème 2.2. page 237).
Puis en imposant que F et G sont continues, Földes A. et Rejtö L. ont amélioré le taux
de convergence qui est passé à l'ordre de log n/n (voir [Földes et Rejtö 1981 a] preuve du
p
théorème 3.2.). Pour notre part, nous allons retrouver ce même taux sans exiger la continuité
de F ni celle de G, et pour cela, nous avons besoin du lemme suivant dont la preuve est
donnée dans [Shorack et Wellner 1986] (lemme 1 page 302).
Lemme 2. Si A et B sont deux fonctions croissantes et continues à droite sur [0, +∞[ avec
A(t) = B(t) pour t < 0 et ∆A ≤ 1 et ∆B ≤ 1 sur [0, +∞[ et si θB = inf{t ∈ R/B(t) = +∞},
alors la seule solution locale bornée Z de l'équation
Z(x− )
Z
Z(t) = Z(0) − d(A(x) − B(x))
1 − ∆B(x)
]0,t]
Démonstration. Soit θ ∈ ]0, TH [, pour tout t < 0, on a : Sn (t) = S(t) = 1 ⇒ Sn (t) − S(t) = 0
donc sup|Sn (t) − S(t)| = sup |Sn (t) − S(t)|.
t≤θ 0≤t≤θ
n n
Soit alors t ∈ [0, θ] : on pose Nn (t) = 1
1{Xi ≤t,δi =1} et Yn (t) = 1
1{Xi ≥t} . Nn (t) et Yn (t)
P P
n n
i=1 i=1
sont les lois empiriques associées respectivement à H1 (t) = P (X ≤ t, δ = 1) et à H(t− ).
R dF (x) R dH1 (x)
Par ailleurs, la fonction de hasard cumulé de T est donnée par Λ(t) = −
S(x )
= H(x− )
,
]0,t] ]0,t]
12
R dNn (x)
qui est classiquement estimée par l'estimateur de Nelson Aalen suivant : Λn (t) = Yn (x)
.
]0,t]
De plus, nous avons : S(t) = 1 − P (T ≤ t) = 1 − ]0,t] dF (x) = 1 − ]0,t] S(x− ) dΛ(x), donc le
R R
lemme 2 donne : Y
S(t) = (1 − ∆Λ(x)) exp(−Λc (t)). (2.1)
x≤t
Sn (t)
Les relations (2.1) et (2.2) montrent, d'après le lemme 2, que S(t)
vérie :
Z
Sn (t) Sn (x)
|Sn (t) − S(t)| ≤ |Kn (t)| + Kn (x)d
S(t) S(x)
]0,t]
Z Z
1 − 1 Kn (x)
≤ sup |Kn (u)| + Kn (x)Sn (x )d + dSn (x)
S(θ) 0≤u≤θ S(x) S(x)
]0,t] ]0,t]
1 1 1
≤ sup |Kn (u)| + sup |Kn (u)| −1 + sup |Kn (u)||Sn (t) − 1|
S(θ) 0≤u≤θ 0≤u≤θ S(t) S(θ) 0≤u≤θ
3
≤ − 1 sup |Kn (u)|
S(θ) 0≤u≤θ
S(x− ) ∆S(x)
or S(x) = S(x− )(1 − ∆Λ(x)) ⇒ 1
1−∆Λ(x)
= S(x)
=1− S(x)
13
Z
∆S(x)
⇒ Kn (u) = (1 − )d(Λn (x) − Λ(x))
S(x)
]0,u]
Z Z
∆S(x)
⇒ |Kn (u)| ≤ d(Λn (x) − Λ(x)) + d(Λn (x) − Λ(x))
S(x)
]0,u] ]0,u]
X ∆S(x)
≤ sup |Λn (u) − Λ(u)| + |∆Λn (x) − ∆Λ(x)|
0≤u≤θ S(x)
x∈]0,u]
∆S(x)>0
1 X
≤ sup |Λn (u) − Λ(u)| + sup |∆Λn (u) − ∆Λ(u)| |∆S(x)|
0≤u≤θ S(θ) 0≤u≤θ
x∈]0,u]
∆S(x)>0
1 1
≤ 1+ sup |Λn (u) − Λ(u)| + sup |Λn (u− ) − Λ(u− )|
S(θ) 0≤u≤θ S(θ) 0≤u≤θ
Z Z
dNn (x) dH1 (x)
|Λn (t) − Λ(t)| = −
Yn (x) H(x− )
]0,t] ]0,t]
Z Z Z Z
dNn (x) dH1 (x) dNn (x) dNn (x)
= − + −
Yn (x) H(x− ) H(x− ) H(x− )
]0,t] ]0,t] ]0,t] ]0,t]
Z Z
1 1 1
≤ − dNn (x) + d(Nn (x) − H1 (x))
Yn (x) H(x− ) H(x− )
]0,t] ]0,t]
14
H(x− ) − Yn (x)
Z Z
1
= dNn (x) + d(Nn (x) − H1 (x))
Yn (x) × H(x− ) H(x− )
]0,t] ]0,t]
H(u− ) − Yn (u)
Nn (t) − H1 (t)
Z
1
≤ sup −
Nn (t) + + (Nn (x) − H1 (x))d
0≤u≤θ Yn (u) × H(u ) H(t) H(x)
]0,t]
1 1
≤ −
sup |Yn (u) − H(u− )| + sup |Nn (u) − H1 (u)|+
Yn (θ) × H(θ ) 0≤u≤θ H(θ) 0≤u≤θ
1
sup |Nn (u) − H1 (u)| −1
0≤u≤θ H(t)
1 − 2
≤ sup |Yn (u) − H(u )| + − 1 sup |Nn (u) − H1 (u)|
Yn (θ) × H(θ− ) 0≤u≤θ H(θ) 0≤u≤θ
donc
1 − 2
sup |Λn (t) − Λ(t)| ≤ sup |Yn (t) − H(t )| + − 1 sup |Nn (t) − H1 (t)|
0≤t≤θ Yn (θ) × H(θ− ) 0≤t≤θ H(θ) 0≤t≤θ
α(θ)
sup |Sn (t)−S(t)| ≤ sup |Yn (t)−H(t− )|+β(θ) sup |Nn (t)−H1 (t)|+γ(θ) sup |Nn (t− )−H1 (t− )|.
0≤t≤θ Yn (θ) 0≤t≤θ 0≤t≤θ 0≤t≤θ
(2.4)
[Link].
La relation (1.5), la remarque la suivant et le fait que Yn (θ) −→ H(θ ) 6= 0 et que
−
sup |Sn (t) − S(t)| = sup|Sn (t) − S(t)| entraînent les résultats visés.
0≤t≤θ t≤θ
15
fn (x) vers f (x) (voir [Földes et al. 1981] Théorème 3.2. page 22). Quant à nous, nous allons
montrer la convergence presque complète ponctuelle (plus forte que la presque sûre) de fn (x)
vers f (x) en un point x < TH , sous des conditions un peu plus fortes sur le noyau et la fenêtre
(ce qui n'est pas très contraignant) ; de plus nous précisons le taux de convergence. Pour cela
considérons les hypothèses suivantes :
H1 f est continue au point x.
H2 f est de classe C 2 au voisinage de x.
H3 ∃k, p, ε0 ∈ R∗+ , ∀y ∈]x − ε0 , x + ε0 [, |f (x) − f (y)| ≤ k|x − y|p .
H4 hn → 0 et nh2n / log n → ∞.
H5 K est une densité continue à droite, à variation bornée sur R et telle que :
∃M > 0, ∀u ∈ R, |u| ≥ M ⇒ K(u) = 0 (i.e. K est à support compact).
H6 K R est bornée.
uK(u) du = 0 et u2 K(u) du < ∞.
R
H7
Théorème 8. Soit x < TH ,
Démonstration. La démonstration de ce lemme s'inspire de celle du théorème 3.2. de [Földes et al. 1981].
Soient θ < TH et x ≤ θ, nous avons :
x−y
Z
1
|fn (x) − Efn (x)| = K d(Fn (y) − F (y))
hn hn
16
En posant u = x−y
hn
, nous obtenons :
Z
1
|fn (x)−Efn (x)| = K(u)d(Fen (u) − Fe(u)) avec Fen (u) = Fn (x−uhn ) et Fe(u) = F (x−uhn ), donc
hn
Z M Z M
1 1
|fn (x) − Efn (x)| = K(u)d(Fen (u) − Fe(u)) ≤ (Fen (u) − Fe(u))dK(u)
hn −M hn −M
en vertu du théorème 7.
17
Démonstration.
i) En utilisant le changement de variable z = x − y , nous pouvons écrire :
x−y
Z Z
1 1 z
Efn (x) = K f (y)dy = K f (x − z)dz −→ f (x),
hn hn hn hn n→∞
18
Remarquons que Földes A. et al. ont montré en 1981 la convergence presque sûre uniforme
de fn sous l'hypothèse de bornitude de la dérivée de f . En ce qui nous concerne, nous allons
d'abord donner la convergence presque complète uniforme sur un compact C sous l'hypothèse
de continuité de f sur C . Puis, en imposant des conditions de régularité sur f , nous arrivons
à préciser les taux de convergence. Pour cela, soit C un compact inclus dans ] − ∞, TH [ et
considérons les hypothèses suivantes.
H8 f est continue sur C .
H9 f est de classe C 2 sur C .
H10 ∃k, p, ε0 ∈ R∗+ , ∀x ∈ C, ∀y ∈]x − ε0 , x + ε0 [, |f (x) − f (y)| ≤ k|x − y|p .
Théorème 9.
i) Sous (H8),(H4),(H5) et (H6), nous avons :
[Link].
sup|fn (x) − f (x)| −→ 0,
x∈C
Lemme 5.
i) Sous (H8),(H4),(H5) et (H6), nous avons :
Démonstration.
19
i) Comme pour le point i) du lemme (4), ce point découle du théorème de Bochner du
fait que f est uniformément continue, car elle est continue sur le compact C .
ii) D'après la relation (2.7), nous avons pour tout x ∈ C :
ε + |f 00 (x)| M 2
Z
|Efn (x) − f (x)| ≤ u K(u)du h2n ,
2 −M
ε+A M 2
Z
sup|Efn (x) − f (x)| ≤ u K(u)du h2n = O(h2n ).
x∈C 2 −M
20
q
ii) Sous (H2),(H4),(H5) et (H7), et pour un choix de un = O h2n + 1
hn
log n
n
nous
avons : ! r
log n 1
λn (x) − λ(x) = [Link]. h2n + ,
n hn
q
iii) Sous (H3),(H4) et (H5), et pour un choix de un = O hn + hn
p 1 log n
n
nous avons :
r !
1 log n
λn (x) − λ(x) = [Link]. hpn + .
hn n
21
et comme f est continue sur le compact C (ce qui est vrai dans chacun des trois points du
théorème), ∃A > 0/∀x ∈ C : f (x) ≤ A, nous en déduisons alors, en notant θ = max(C),
que :
Les résultats visés découlent de (2.9), en tenant compte de (2.11) et des théorèmes (7) et
(9).
Remarque : La comparaison des résultats que nous venons de montrer pour λn avec ceux
de Földes A. et al., est identique à la comparaison que nous avons faite pour fn .
22
Chapitre 3
Estimation de la fonction de répartition
dans un modèle de censure à gauche
Il est vrai que la censure à droite est la plus fréquente dans la pratique, mais un phénomène
de censure à gauche peut aussi intervenir dans certains cas. Les données censurées à gauche
correspondent au cas où nous observons la censure C , et nous savons que T < C . Donc
dans un modèle de censure à gauche, nous n'observons la variable d'intérêt que lorsqu'elle
est supérieure à la variable de censure, et les observations sont des répliques du couple
(T ∨ C, δ = 1{T ≥C} ). Ce modèle est par exemple adapté au cas où l'on s'intéresse à l'âge
auquel un individu commence à accomplir une tâche. Tout ce qu'on sait chez l'individu
censuré est que le véritable âge est inférieur à la valeur observée (l'âge au moment de l'étude,
par exemple).
An d'estimer la loi d'une variable aléatoire positive T , censurée à gauche par une variable
aléatoire C , positive et indépendante de T , nous observons l'échantillon (Xi = Ti ∨ Ci , δi =
1{Ti ≥Ci } )1≤i≤n de n couples de variables aléatoires i.i.d. et de même loi que (X = T ∨ C, δ =
1{T ≥C} ). On note F, G et H les fonctions de répartition respectives de T, C et X.
23
n n
où dj = δi 1{Xi =Zj } et Uj = 1{Xi ≤Zj } . De plus, on peut, pour m grand, approcher F (Zm )
P P
i=1 i=1
par 1, et l'estimateur Fn de F est alors donné par :
Y dj
Fn (t) = 1− .
Uj
j/Zj >t
Lemme 6. Si A et B sont deux fonctions décroissantes et continues à droite sur [0, +∞[
avec A(t) = B(t) pour t < 0 et si θB = sup{t R∈ R/B(t) = +∞}, alors la seule solution
locale bornée Z de l'équation Z(t) = Z(+∞) + ]t,+∞[ 1+∆B(x)
Z(x)
d(A(x) − B(x)) sur ]θB , +∞[
Q
(1+∆A(x))
est donnée par : Z(t) = Z(+∞) exp(B c (t) − Ac (t)) x>t
Q
(1+∆B(x))
.
x>t
le lemme 6 donne : Y
F (t) = (1 + ∆Γ(x)) exp(−Γc (t)). (3.1)
x>t
dNn (x) ∆Nn (Zj ) dj
D'autre part, nous avons : Γn (t) =
R P P
]t,+∞[ Yn (x)
= Yn (Zj )
= Uj
⇒
j/Zj >t j/Zj >t
d
∆Γn (Zj ) = − Ujj , d'où :
Y
Fn (t) = (1 + ∆Γn (Zj )). (3.2)
j/Zj >t
24
Fn (t)
Les relations (3.1) et (3.2) montrent, d'après le lemme 6, que F (t)
vérie :
Z
Fn (t) Fn (x)
=1+ d(Γn (x) − Γ(x))
F (t) ]t,+∞[ F (x)(1 + ∆Γ(x))
Z
Fn (x)
⇒ Fn (t) − F (t) = F (t) d(Γn (x) − Γ(x))
]t,+∞[ F (x)(1 + ∆Γ(x))
d(Γn (x) − Γ(x))
Z Z
Fn (x)
⇒ |Fn (t) − F (t)| ≤ dKn (x) , où Kn (t) = .
]t,+∞[ F (x) ]t,+∞[ 1 + ∆Γ(x)
Z
Fn (t) Fn (x)
|Fn (t) − F (t)| ≤ Kn (t) + Kn (x− )d( )
F (t) ]t,+∞[ F (x)
Kn (x− )
Z Z
1 − − 1
≤ sup|Kn (u)| + Kn (x )Fn (x )d( ) + dFn (x)
F (θ) u≥θ ]t,+∞[ F (x) ]t,+∞[ F (x)
1 1 1
≤ sup|Kn (u)| + sup|Kn (u− )||1 − |+ sup|Kn (u− )|(1 − Fn (t))
F (θ) u≥θ u≥θ F (t) F (θ) u≥θ
1 2
≤ sup|Kn (u)| + − 1 sup|Kn (u− )|
F (θ) u≥θ F (θ) u≥θ
F (x) ∆F (x)
or F (x− ) = F (x)(1 + ∆Γ(x)) ⇒ 1
1+∆Γ(x)
= F (x− )
=1+ F (x− )
Z
∆F (x)
⇒ Kn (u) = 1+ d(Γn (x) − Γ(x))
]u,+∞[ F (x− )
Z Z
∆F (x)
⇒ |Kn (u)| ≤ d(Γn (x) − Γ(x)) + −
d(Γn (x) − Γ(x))
]u,+∞[ ]u,+∞[ F (x )
X ∆F (x)
≤ sup|Γn (u) − Γ(u)| + |∆Γn (x) − ∆Γ(x)|
u≥θ x>u
F (x− )
∆F (x)>0
1 X
≤ sup|Γn (u) − Γ(u)| + sup |∆Γn (u) − ∆Γ(u)| |∆F (x)|
u≥θ F (θ− ) u≥θ x>u
∆F (x)>0
1 1
≤ 1+ sup|Γn (u) − Γ(u)| + sup|Γn (u− ) − Γ(u− )|
F (θ− ) u≥θ F (θ− ) u≥θ
et ceci ∀u ≥ θ,d'où :
sup|Kn (u)| ≤ 1 + F (θ1− ) sup|Γn (u) − Γ(u)| + 1
F (θ− )
sup|Γn (u− ) − Γ(u− )|,
u≥θ u≥θ u≥θ
25
et on peut montrer
de la même façon que :
sup|Kn (u− )| ≤ 1 + F (θ1− ) sup|Γn (u) − Γ(u)| + 1
F (θ− )
sup|Γn (u− ) − Γ(u− )|
u≥θ u≥θ u≥θ
(3−F (θ))(1+F (θ− ))
⇒ |Fn (t) − F (t)| ≤ F (θ)F (θ− )
sup|Γn (u) − Γ(u)| + F 3−F (θ)
(θ)F (θ− )
sup|Γn (u− ) − Γ(u− )| ∀t ≥ θ,
u≥θ u≥θ
donc :
(3 − F (θ))(1 + F (θ− )) 3 − F (θ)
sup|Fn (t)−F (t)| ≤ −
sup |Γn (t)−Γ(t)|+ −
sup|Γn (t− )−Γ(t− )|.
t≥θ F (θ)F (θ ) t≥θ F (θ)F (θ ) t≥θ
(3.3)
De plus, nous avons :
Z Z
dNn (x) dH1 (x)
|Γn (t) − Γ(t)| = −
]t,+∞[ Yn (x) ]t,+∞[ H(x)
Z Z Z Z
dNn (x) dH1 (x) dNn (x) dNn (x)
= − + −
]t,+∞[ Yn (x) ]t,+∞[ H(x) ]t,+∞[ H(x) ]t,+∞[ H(x)
Z Z
1 1 1
≤ − dNn (x) + d(Nn (x) − H1 (x))
]t,+∞[ Yn (x) H(x) ]t,+∞[ H(x)
H(x) − Yn (x)
Z Z
1
= dNn (x) + d(Nn (x) − H1 (x))
]t,+∞[ Yn (x)H(x) ]t,+∞[ H(x)
1
≤ sup|H(u) − Yn (u)|(Nn (+∞) − Nn (t)) + |Nn (+∞) − H1 (+∞)|+
Yn (θ)H(θ) u≥θ
Nn (t) − H1 (t)
Z
1
+ (Nn (x− ) − H1 (x− ))d( )
H(t) ]t,+∞[ H(x)
1 1
≤ sup|Yn (u) − H(u)| + |Nn (+∞) − H1 (+∞)| + sup|Nn (u) − H1 (u)|
Yn (θ)H(θ) u≥θ H(θ) u≥θ
1
+ sup|Nn (u− ) − H1 (u− )||1 − |
u≥θ H(t)
1 1
≤ sup|Yn (u) − H(u)| + |Nn (+∞) − H1 (+∞)| + sup|Nn (u) − H1 (u)|
Yn (θ)H(θ) u≥θ H(θ) u≥θ
1
+ − 1 sup|Nn (u− ) − H1 (u− )|
H(θ) u≥θ
p.s. p.s.
et comme Yn (θ) −→ H(θ) 6= 0, on a 1 1
⇒ ∃ C(θ) > 0/ Yn1(θ) ≤ C(θ) p.s.
Yn (θ)
−→ H(θ)
C(θ)
⇒ |Γn (t)−Γ(t)| ≤ H(θ) sup|Yn (u)−H(u)|+ H(θ) sup|Nn (u)−H1 (u)|+ H(θ) − 1 sup|Nn (u− )−
1 1
u≥θ u≥θ u≥θ
H1 (u− )| + |Nn (+∞) − H1 (+∞)| p.s., et ceci ∀t ≥ θ
C(θ)
⇒ sup|Γn (t)−Γ(t)| ≤ H(θ) sup|Yn (t)−H(t)|+ H(θ) sup|Nn (t)−H1 (t)|+ H(θ) − 1 sup|Nn (t− )−
1 1
t≥θ t≥θ t≥θ t≥θ
H1 (t− )| + |Nn (+∞) − H1 (+∞)| p.s.
et de la même façon, on peut montrer que :
26
C(θ) 2−H(θ− )
sup|Γn (t− ) − Γ(t− )| ≤ H(θ)
sup|Yn (t) − H(t)| + H(θ− )
sup|Nn (t− ) − H1 (t− )| + |Nn (+∞) −
t≥θ t≥θ t≥θ
H1 (+∞)| p.s.
il s'ensuit alors, en tenant compte de (3.3), que :
sup|Fn (t) − F (t)| ≤ α(θ)sup|Yn (t) − H(t)| + β(θ)sup|Nn (t) − H1 (t)| + γ(θ)sup|Nn (t− ) −
t≥θ t≥θ t≥θ t≥θ
H1 (t− )| + λ(θ)|Nn (+∞) − H1 (+∞)| p.s.
(θ))(2+F (θ− )) (3−F (θ))(1+F (θ− )) (3−F (θ))(1+F (θ− ))(1−H(θ))
où : α(θ) = C(θ)(3−F
F (θ)F (θ− )H(θ)
, β(θ) = F (θ)F (θ− )H(θ)
, γ(θ) = F (θ)F (θ− )H(θ)
+
(3−F (θ))(2−H(θ− )) (3−F (θ))(2+F (θ− ))
et λ(θ) =
F (θ)F (θ− )H(θ− ) F (θ)F (θ− )
.
Ce qui montre, en vertu du théorème de Glivenko-Cantelli et du fait que |Nn (+∞) −
n
p.s.
H1 (+∞)| = | n1 1{δi =1} − P (δ = 1)| −→ 0 (d'après la loi forte des grands nombres), que :
P
i=1
p.s.
sup|Fn (t) − F (t)| −→ 0.
t≥θ
Nous avons :
|Fn (x) − F (x)| ≤ |Fn (x) − F n (x)| + |F n (x) − F (x)|, (3.4)
et :
|F n (x) − F (x)| ≤ |elog F n (x) − eTn (x) | + |eTn (x) − eT (x) |. (3.5)
27
De plus, le développement de Taylor de la fonction exponentielle donne :
∗
elog F n (x) − eTn (x) = (log F n (x) − Tn (x))eTn (x) , où Tn∗ (x) est entre log F n (x) et Tn (x) (3.6)
1 ∗∗
et eTn (x) − eT (x) = (Tn (x) − T (x))eT (x) + (Tn (x) − T (x))2 eTn (x) , où Tn∗∗ (x) est entre Tn (x) et T (x)
2
(3.7)
Le résultat visé découle des lemmes suivants, qui traitent chacun des termes des décomposi-
tions (3.4) et (3.5) :
Lemme 7. Pour presque tout ω, il existe n0 (ω) ∈ N tel que si n ≥ n0 (ω), alors pour tout
x ≥ xn , k1 > 0 et k2 ≥ 0/k = k1 + k2 > 1, on a :
2k1
Z
dS̃n (u) 2 1
a) k1
≤ k−1 + ,
]x,+∞[ Hn (u)H 2 (u)
k F (x)Gk−1 (IF ) A k − 1
Z k−1
dS̃n (u) n 2
b) k1
= O ,
]x,+∞[ Hn (u)H 2 (u)
k log log n
q
où xn = F −1 2A
G(IF )
log log n
2n
, avec A > 0 est une constante à préciser.
r
log log n
sup|Hn (u) − H(u)| ≤ A . (3.8)
u∈R 2n
q
Et pour tout u ≥ xn , nous avons, d'après les propriétés de F −1 : F (u) ≥ 2A
G(IF )
log log n
2n
⇒
r
log log n F (u)G(IF )
A ≤ . (3.9)
2n 2
Nous déduisons de (3.8) et (3.9) que pour tous n ≥ n0 (ω) et u ≥ xn : |Hn (u) − H(u)| ≤
F (u)G(IF )
2
≤ H(u)
2
⇒ Hn (u) = H(u) + Hn (u) − H(u) ≥ H(u) − |Hn (u) − H(u)| ≥ H(u) 2
, donc pour tout x ≥ xn ,
on a :
2k1
Z Z
dS̃n (u)
k1
≤ k
dS̃n (u)
]x,+∞[ H (u)
k
]x,+∞[ Hn (u)H 2 (u)
2k1 2k1
Z Z
≤ k
d( S̃n (u) − S̃(u)) + k
dS̃(u) . (3.10)
]x,+∞[ H (u) ]x,+∞[ H (u)
28
D'une part, nous avons, en appliquant la formule d'intégration par parties et par continuité
de H :
En appliquant la LIL de Kiefer à S̃ (elle est bien applicable car S̃(t) est la fonction de
répartition du vecteur (−T, C − T ) au point (−t, 0)), et en prenant ε = 1 dans la dénition
de la limite supérieure, nous obtenons :
q
k +2 log log n
Z
2k1 2 1
2n
k
d(S̃n (u) − S̃(u)) ≤ k k
(3.11)
]x,+∞[ H (u) F (x)G (IF )
q
k1 +2 log log n
2 2n
≤ k−1
F (x)F (xn )Gk (IF )
2k1 +1
= (3.12)
AF k−1 (x)Gk−1 (IF )
par continuité de F .
D'autre part, nous avons :
29
Lemme 8. sup |Fn (x) − F n (x)| = O
1
√
n log log n
p.s.
x≥xn
n n n
Démonstration. De la relation : |aj − bj | ((aj )1≤j≤n , (bj )1≤j≤n ⊂ [0, 1]),
Q Q P
aj − bj ≤
j=1 j=1 j=1
nous déduisons que pour tout x ≥ xn , nous avons :
n βj (x) + β (x)
N + (Xj )
X N (Xj ) + 1 j
|Fn (x) − F n (x)| ≤ + (X ) + 1
−
j=1
N j N + (Xj ) + 2
n
X βj (x)
≤
j=1
(N + (Xj ) + 1)2
n
X n ∆S̃n (Xj )1{Xj >x}
=−
j=1
(N + (Xj ) + 1)2
Z
n dS̃n (u)
=
]x,+∞[ (N + (u) + 1)2
Z
n dS̃n (u)
≤
]x,+∞[ (N + (u))2
Z
dS̃n (u)
= 2
]x,+∞[ nHn (u)
12
1 n
= O p.s. (d'après le lemme 7, pour k1 = 2 et k2 = 0)
n log log n
1
=O √ p.s.
n log log n
30
Z Z
1 dS̃n (u)
⇒ | log F n (x) − Tn (x)| = n log 1 − dS̃n (u) +
]x,+∞[ nHn (u) + 2 ]x,+∞[ Hn (u)
31
(d'après la LIL de Kiefer appliquée à H , et le lemme 7 -a) pour k1 = k2 = 1).
D'autre part, en procédant comme dans (3.11), nous obtenons :
r
d(S̃n (u) − S̃(u))
Z
4 log log n
≤ p.s. (3.16)
]x,+∞[ H(u) F (x)G(IF ) 2n
Démonstration. Soit x ≥ xn , on a : |F n (x) − F (x)| ≤ |elog F n (x) − eTn (x) | + |eTn (x) − eT (x) |,
et les développements (3.6) et (3.7) entraînent :
∗ ∗∗
|F n (x) − F (x)| ≤ | log F n (x) − Tn (x)|eTn (x) + |Tn (x) − T (x)|F (x) + 12 (Tn (x) − T (x))2 eTn (x) .
De plus, en remarquant que Tn∗ (x) ≤ 0 et que Tn∗∗ (x) ≤ T (x) + |Tn (x) − T (x)|(ceci vient de
la dénition de Tn∗∗ (x), en regardant les deux cas : Tn (x) ≤ T (x) et Tn (x) > T (x)), nous
obtenons :
1
|F n (x) − F (x)| ≤ | log F n (x) − Tn (x)| + F (x)|Tn (x) − T (x)| + F (x)(Tn (x) − T (x))2 e|Tn (x)−T (x)|
2
KeK
≤ | log F n (x) − Tn (x)| + (1 + )F (x)|Tn (x) − T (x)| p.s. (selon le lemme 10)
2
32
or : sup|Fn (x) − F (x)| ≤ sup |Fn (x) − F (x)| + sup |Fn (x) − F (x)|, il ne reste donc qu'à
x<xn
x∈R q x≥xn
montrer que : sup |Fn (x) − F (x)| = O log log n
n
p.s.
x<xn
En eet, nous avons pour tout x < xn : |Fn (x) − F (x)| ≤ F (xn ) + |Fn (xn ) − F (xn )| (il sut
de regarder les deux cas : Fn (x) < F (x) et Fn (x) ≥ F (x)), d'où :
où θ∗ = max(θ, IF ).
Pour démontrer ce résultat, on considère les deux cas suivants :
- Si IF > IG , on retrouve le théorème ci-dessus.
- Si IF ≤ IG , dans ce cas on a : θ∗ = θ, et on procède d'une façon similaire
q à la démonstration
∗ ∗
du théorème sauf que la relation (3.9) sera remplacée par la relation : A log2n
log n
≤ F (θ )G(θ
2
)
,
qui est vraie à partir d'un certain rang. Notons que les autres relations seront légèrement
modiées, conformément à cette dernière relation.
33
Chapitre 4
Simulation et applications
où α > 0 et β > 0 sont les paramètres de la loi ; α est dit le paramètre d'échelle, et β est
dit le paramètre de forme. La particularité de cette loi est que son taux de hasard peut être
croissant ou décroissant, suivant les valeurs de β :
• Si β < 1 : Le taux de hasard décroit.
• Si β = 1 : Le taux de hasard est constant.
• Si β > 1 : Le taux de hasard croit.
Quant à la loi log-logistique, elle est déne par sa densité de probabilité donnée par :
(β/α)(x/α)−β−1
f (x) = 1]0,+∞[ (x),
[1 + (x/α)−β ]2
34
Figure 4.1 n=100, tc=37 % Figure 4.2 n=100, tc=23 %
35
suivante pour calculer la fenêtre :
Q3 − Q1 1
h = 0.9 × min σ, × n− 5 ,
1.34
La gure 4.3 est obtenue en simulant une v.a. de loi de Weibull de paramètres α = β = 2,
censurée à droite par une v.a. de loi de Weibull de paramètres α = 3 et β = 2. Quant à la
gure 4.4, elle est obtenue en simulant une v.a. de loi log-logistique de paramètres α = 3.7
et β = 6, censurée à droite par une v.a. de loi log-logistique de paramètres α = 5 et β = 4.
Ces graphes montrent que les méthodes du choix de la fenêtre pour les données complètes,
donnent également, des résultats satisfaisants pour les données censurées.
Passons maintenant à l'estimateur produit limite dans le cas de la censure à gauche. Nous
l'avons simulé pour une v.a. de loi de Weibull de paramètres α = 0.7 et β = 4, censurée à
gauche par une v.a. de loi de Weibull de paramètres α = 0.6 et β = 2, ce qui a conduit à la
gure 4.5. Et pour le modèle log-logistique, nous avons utilisé une v.a. de loi log-logistique de
paramètres α = 5 et β = 4, censurée à gauche par une v.a. de loi log-logistique de paramètres
α = 3.7 et β = 6, et nous avons obenu la gure 4.6 qui conrme le bon comportement de
l'estimateur étudié, pour une taille relativement peu élevée.
36
Figure 4.5 n=100, tc=28% Figure 4.6 n=100, tc=21%
37
Figure 4.7 Le découpage en îlots
d'habitants du ième îlot.
Il s'agit donc d'estimer la densité de probabilité du vecteur (X, Y ) dont l'ensemble
(Xi , Yi )1≤i≤n représente un échantillon aléatoire. L'estimateur à noyau de la densité bidi-
mensionnelle peut être écrit sous la forme générale suivante :
n
X Pi x − Xi y − Yi
fn (x, y) = 2
K , , (4.1)
i=1
ln ln ln
où K est le noyau, (ln ) est la fenêtre, et Pi est la masse attribuée au point (Xi , Yi ) .
En se basant sur cette formule, nous allons estimer la densité de la population en un
nombre ni de points du territoire d'étude. Pour cela, nous appliquons à ce dernier, une
grille composée de carrés appelés mailles, et ayant le même côté qui représente le pas de la
grille. Ensuite, nous estimons la densité de la population en chacune de ces mailles.
38
2
où K(x) = 1
2πl2
exp − x2 est le noyau gaussien, l est la fenêtre, et dij est la distance entre
la jème maille et le ième centroide.
Ensuite, pour conserver la population totale, on multiplie la valeur de chaque maille par le
coecient de normalisation suivant : n
P
Ni
i=1
m
P ,
fj
j=1
39
Figure 4.9
40
Figure 4.10
41
4.3 Application de l'estimateur de Kaplan-Meier à l'éva-
luation de l'endurance des établissements économiques
sur les marchés d'exportation
Etant principalement exploitée dans les domaines de la santé et de l'organisation in-
dustrielle, l'analyse de survie est récemment appliquée à un large évantail de domaines des
sciences sociales, pour étudier, entre autres, la durée des grèves, la durée du chômage, du
roulement de la mobilité des entreprises, de la survie des nouvelles entreprises et de la du-
rée des cycles économiques, mais elle est rarement exploitée au commerce international.
Nous allons présenter une étude qui a été menée par Sabuhoro J. B. et Gervais Y. (voir
[Sabuhoro et Gervais 2004]), et qui applique l'analyse de survie à l'étude de la capacité des
établissements canadiens à demeurer des exportateurs actifs. La variable étudiée est la pé-
riode de temps qui s'écoule du début de l'activité d'exportation à la n de celle-ci ou jusqu'au
moment de la dernière mesure, moment qui peut précéder la cessation de l'activité, produi-
sant une donnée censurée à droite. Les observations correspondent à des intervalles de durée
t1 , t2 , . . . , tn , exprimés en mois, et elles sont extraites du Registre des exportateurs de Sta-
tistique Canada couvrant la période de 1993 à 2000 (i.e. de 96 mois). La convention qui suit
a été adoptée pour dénir la variable étudiée et l'indicateur de censure : tout établissement
qui se retire des marchés d'exportation pendant 12 mois consécutifs est considéré comme
étant sorti de ces marchés. L'adoption de cette convention permet de tenir compte de la
saisonnalité des exportations, donc de ne pas considérer comme ayant quitté les marchés
d'exportation des établissements qui n'exportent qu'une ou deux fois par an. Pour respec-
ter cette convention, les observations pour lesquelles la n de la séquence d'exportation est
inférieure ou égale à 12 ou supérieure ou égale à 85 sont censurées. On a recueilli 107992
observations dont 47015 soit 43,5% sont censurées. Le calcul de l'estimateur de Kaplan-Meier
a donné le tableau de la gure 4.11, et la courbe de la gure 4.12.
Figure 4.11
42
Figure 4.12
Cette étude révèle que la probabilité de se retirer des marchés d'exportation avant 12
mois est de 42,2 %, et la durée médiane de survie est de 20 mois.
Plusieurs facteurs peuvent inuencer la réussite ou l'échec des établissements sur les
marchés étrangers, nous allons nous intéresser à deux de ces facteurs, à savoir la taille relative
de l'établissement et les sorties antérieures des marchés. Pour évaluer l'eet de la taille, nous
utilisons la valeur moyenne annualisée des exportations pour créer des catégories de taille
qui permettent de classier les données en sous-populations, ensuite nous traçons et nous
comparons les courbes de survie correspondantes à ces sous-populations. Les catégories sont
les suivantes :
10 : qui représente une moyenne inférieure à 10 000 $.
30 : qui représente une moyenne entre 10 000 $ et 30 000 $.
100 : qui représente une moyenne entre 30 000 $ et 100 000 $.
1 000 : qui représente une moyenne entre 100 000 $ et 1 000 000 $.
5 000 : qui représente une moyenne entre 1 000 000 $ et 5 000 000 $.
5 001 : qui représente une moyenne supérieure à 5 000 000 $.
Les courbes de survie selon la catégorie de taille sont présentées à la gure 4.13 page
suivante. Les résultats montrent qu'il existe une relation positive entre la taille et la durée
de survie. Cependant, pour les établissements dont la valeur des exportations est inférieure à
100 000 $, les courbes de survie sont superposées pour les périodes les plus anciennes, ce qui
donne à penser que les taux de survie ou les taux de mortalité étaient peut-être les mêmes.
43
Figure 4.13
Pour déterminer l'eet des sorties antérieures sur la durée de survie, nous utilisons le
nombre d'épisodes antérieurs comme variable de stratication lors de la production des
courbes de survie. Celles-ci sont présentées à la gure 4.14. Elles donnent à penser que les
sorties n'ont un eet négatif sur la durée de survie que dans le cas des établissements qui
se sont retirés des marchés étrangers une fois ou deux fois. Nous pouvons supposer qu'un
apprentissage est associé au retrait du marché, puisque les établissements qui se sont retirés
des marchés d'exportation plus de deux fois obtiennent de meilleurs résultats que ceux qui
ne sont entrés sur ces marchés qu'une seule fois.
Figure 4.14
44
Bibliographie
[Breslow et Crowley 1974] Breslow N. and Crowley J., 1974. A large sample study of the life
table and product limit estimates under random censorship. The Annals of Statistics.
2,437-453.
[Diehl et Stute 1988] Diehl S. and Stute W., 1988. Kernel density and hazard function esti-
mation in the presence of censoring. Journal of Multivariate Analysis. 25, 299-310.
[Ferraty et Vieu 2002] Ferraty F. et Vieu P., 2002. Statistique Fonctionnelle : Modèles Non-
Paramétriques de Régression. Notes de cours de DEA.
[Ferraty et Vieu 2006] Ferraty F. et Vieu P., 2006. Nonparametric Functional Data Analysis
Theory and Practice. Springer Series in Statistics.
[Földes et al. 1980] Földes A., Rejtö L. and Winter B.B., 1980. Strong consistency proper-
ties of nonparametric estimators for randomly censored data, I : The product-limit
estimator. Periodica Math. Hung. 11, 233-250.
[Földes et al. 1981] Földes A., Rejtö L. and Winter B.B., 1981. Strong consistency properties
of nonparametric estimators for randomly censored data, II : Estimation of density and
failure rate. Periodica Math. Hung. 12, 15-29.
[Földes et Rejtö 1981 a] Földes A. and Rejtö L., 1981. Strong uniform consistency for non-
parametric survival curve estimators from randomly censored data. The Annals of Sta-
tistics. 9, 122-129.
[Földes et Rejtö 1981 b] Földes A. and Rejtö L., 1981. A LIL type result for the product
limit estimator. Z. Wahrscheinlichkeitstheorie verw. Gebiete 56, 75-86.
[Kaplan et Meier 1958] Kaplan E. L. and Meier P. 1958. Nonparametric estimation from
incomplete observations. Jasa, 457-481.
[Kiefer 1961] Kiefer J., 1961. On large deviations of the empiric d.f. of vector chance variables
and a law of the iterated logarithm. Pacic J. Math. 11, 649-660.
[Laha et Rohatgi 1979] Laha R.G. and Rohatgi V.K., 1979. Probability Theory. University
John Wiley & Sons.
[Les dossiers techniques, Certu 2005] Les dossiers techniques du programme ACTEUR Y a-
t-il des phénomènes de densication ou dédensication ? Approche de la ques-
tion et propositions d'indicateurs, Certu, 2005.
45
[Sabuhoro et Gervais 2004] Sabuhoro J. B. et Gervais Y., Document de recherche, Détermi-
nants de la réussite ou de l'échec des établissements canadiens sur les marchés étrangers,
selon une analyse de survie, Statistique Canada, 2004.
[Shorack et Wellner 1986] Shorack G. R. and Wellner J. A.,1986. Empirical processes with
applications to statistics. University John Wiley & Sons.
46
jÊÓ
ÈAÒJkB@ é¯AJ» ð ©K PñJË@ éË@X
ø PY®Ö Ï éJKAîECË@ @ñmÌ '@ ªK é@
. P YK. Ðñ®K , éËAQË@ è Yë ú¯
ÐAJË@ éJ H PA® JË@ áëQK , éÓA
éË@YË JË@ HAJ ¢ªÖÏ @ éËAg ú¯ . HAJ ¢ªÖÏ @ áÓ ¬AJ @ èY« úÍ@ @XAJ@
. . .
Ðñ® K AÒ» .Ñ¢JJÖÏ @ ð ù¢® JË@ áK ñJÖÏ @ úΫ ½Ë X ð ,H. PA® JË@ @ Yë é«Qå YK Ym' ©Ó éJ K QjJË@ ©K PñJË@
. .
éK ñjjÖÏ @ HAJ
Q
¢ªÖÏ @ éËAg ú¯ . è@ñJË@ ð X é¯AJºË@ PY®ÖÏ ùªJK. Ë@ ÈYªÖÏ @ ¯ð H. PA®JË@ á« éj JK QªK
. . . .
è Yë ÉÒªJ ð , Kaplan-Meier PY®ÖÏ Ñ¢JJÖÏ @ ÐAJË@ éJ. H. PA®JÊË éj.JK úΫ áëQ.K , áÒJË@ áÓ
YK Ym' ©Ó , è@ñJË@ ø ð X é¯PAjÖÏ @ éJ ð é¯AJºË@ ø PY®Ö Ï ÐAJË@ éJ H PA® JË@ úΫ àAëQÊË éj
é«Qå
. . . . . . JJË@
,PAË@ áÓ éK . ñj.jÖÏ @ HAJ
¢ªÖÏ @ m' AÒJ¯ ð . é¯AJºË@ ÐA¢JKAK. é®Êª JÖÏ @ HAJ
Q®Ë@ ªK. Im ' H. PA® JË@
àñKA¯ úΫ ð Ñ¢JJÖÏ @ YJ» B@ éJ. H. PA® JË@ úΫ áëQ.K ð ,©K PñJË@ éË@YË úGAîDË@ Z@YmÌ '@ PY®Ó
.
ÐY® K
úΫ áJ®J J.¢ áËAJÖß. ð èA¿ Am× é@
P YK éËAQË@
.
è Yë Õæm' .P Y®Ö Ï @ @ YêË éJ . ËAK. PQºÖÏ @ Õç'PA«ñÊË@
HAJ
. éJ ®J ®k ¢ªÓ
ð X é¯AJºË@ PY®Ó , úGAîDË@ Z@YmÌ '@ PY®Ó
.
,PAË@ áÓ Imk , áÒJË@ áÓ Imk : éJ kAJ®ÖÏ @ HAÒʾË@
.. ..
.ÐAJË@ éJ. H. PA® JË@ , è@ñJË@ ð X é¯PAj.ÖÏ @ éJ . PY®Ó , è@ñJË@
Abstract
In this work, we study some asymptotic properties of the distribution function and den-
sity estimators based on dierent type of observations. In the case of complete data, we
prove and we specify the rate of pointwise and uniform almost complete convergence of the
empirical distribution function. We also recall a result of mean-square convergence of kernel
density estimator. In the case of right censored data, we prove a result of uniform almost
complete convergence of the Kaplan-Meier estimator, which we use to prove almost complete
convergence of density and failure rate kernel estimators. We specify the rate of the conver-
gence, under some hypotheses concerning density smoothness. In the case of left censored
data, we introduce the product limit estimator of the distribution function, and we prove
uniform almost sure convergence and a law of the iterated logarithm for this estimator. We
conclude this work by a simulation study and a presentation of two applications on real data
given in the literature.
Keywords : right censoring, left censoring, product limit estimator, kernel density esti-
mator, kernel failure rate estimator, almost complete convergence.
Résumé
Dans ce mémoire, nous étudions quelques propriétés asymptotiques des estimateurs de la
fonction de répartition et de la densité basés sur diérents types d'observations. Dans le cas
des données complètes, nous montrons et nous précisons le taux de la convergence presque
complète de la fonction de répartition empirique aussi bien ponctuellement qu'uniformément.
Nous rappelons également, un résultat de la convergence en moyenne quadratique de l'es-
timateur à noyau de la densité. Dans le cas des données censurées à droite, nous montrons
un résultat de la convergence presque complète uniforme de l'estimateur de Kaplan-Meier,
que nous utilisons pour montrer la convergence presque complète des estimateurs à noyau
de la densité et du taux de hasard. Nous précisons le taux de la convergence, sous certaines
hypothèses de régularité de la densité. Quant au cas des données censurées à gauche, nous
introduisons l'estimateur produit limite de la fonction de répartition, et nous montrons la
convergence presque sûre uniforme ainsi qu'une loi du logarithme itéré pour cet estimateur.
Nous clôturons le mémoire par une étude de simulation et une présentation de deux appli-
cations sur des données réelles trouvées dans la littérature.