0% ont trouvé ce document utile (0 vote)
30 vues51 pages

Estimation non paramétrique en statistique

Ce document présente un mémoire de master en mathématiques, axé sur l'étude des estimateurs de la fonction de répartition et de la densité dans des modèles de censure. Il aborde des concepts d'estimation non paramétrique pour des données complètes et censurées, en détaillant les propriétés asymptotiques des estimateurs. Le mémoire inclut également des simulations et des applications pratiques, notamment dans les domaines de la géographie et du commerce international.

Transféré par

Boukeloua Mohamed
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
30 vues51 pages

Estimation non paramétrique en statistique

Ce document présente un mémoire de master en mathématiques, axé sur l'étude des estimateurs de la fonction de répartition et de la densité dans des modèles de censure. Il aborde des concepts d'estimation non paramétrique pour des données complètes et censurées, en détaillant les propriétés asymptotiques des estimateurs. Le mémoire inclut également des simulations et des applications pratiques, notamment dans les domaines de la géographie et du commerce international.

Transféré par

Boukeloua Mohamed
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE

MINISTERE DE L'ENSEIGNEMENT SUPERIEURE ET DE LA RECHERCHE


SCIENTIFIQUE

UNIVERSITE CONSTANTINE 1
FACULTE DES SCIENCES EXACTES
DEPARTEMENT DE MATHEMATIQUES

MASTER
EN
MATHEMATIQUES

OPTION
Probabilités et Statistique

INTITULE
Etude des estimateurs de la fonction de répartition et de
la densité dans un modèle de censure

PAR
Boukeloua Mohamed

Devant le jury :
Président : M. Bousseboua Professeur Université Constantine 1
Encadreur : F. Messaci Professeur Université Constantine 1
Examinateur : D. Boudaa Maître de Conférences Université Constantine 1
Examinateur : S. Belaloui Maître de Conférences Université Constantine 1

Année universitaire : 2012/2013


Remerciements
La première personne que je tiens à remercier est mon encadrante Mme Fatiha Messaci, pour
l'orientation, la conance, la patience qui ont constitué un apport considérable sans lequel
ce travail n'aurait pas pu être mené au bon port. Qu'elle trouve dans ce travail un hommage
vivant à sa haute personnalité.
J'ai été très honoré que M. Moussedek Bousseboua accepte la présidence du jury, et j'aimerais
lui adresser de ce fait de vifs remerciements.
Mes remerciements s'étendent également à M. Djamel Boudaa et Mme Soheir Belaloui pour
avoir accepté de faire partie du jury, et pour le temps accordé à la lecture attentive du
mémoire.
Enn, je remercie Mme Khadidja Kebabi pour l'aide qu'elle m'a apportée dans la partie
simulation, et tous ceux qui, de près ou de loin, ont contribué à la réalisation de ce travail.
Table des matières

Introduction 2
1 Estimation non paramétrique pour des données complètes 4
1.1 Dénitions et résultats préliminaires . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Estimation de la fonction de répartition . . . . . . . . . . . . . . . . . . . . . 5
1.3 Estimation de la densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2 Estimation non paramétrique dans un modèle de censure à droite 11


2.1 Estimation de la fonction de survie . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Estimation de la densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Estimation du taux de hasard . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3 Estimation de la fonction de répartition dans un modèle de censure à


gauche 23
3.1 Introduction de l'estimateur produit limite de F . . . . . . . . . . . . . . . . 23
3.2 Convergence presque sûre uniforme de Fn . . . . . . . . . . . . . . . . . . . . 24
3.3 La loi du logarithme itéré pour Fn . . . . . . . . . . . . . . . . . . . . . . . . 27

4 Simulation et applications 34
4.1 Etude de simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.2 Application de l'estimation de la densité au lissage des cartes démographiques 37
4.3 Application de l'estimateur de Kaplan-Meier à l'évaluation de l'endurance des
établissements économiques sur les marchés d'exportation . . . . . . . . . . . 42

1
Introduction

La statistique non paramétrique s'occupe des phénomènes dont la loi de probabilité nous
est totalement inconnue, et nous ne supposons pas qu'elle appartient à une des familles de
modèles théoriques. Pour approcher cette loi inconnue, il faut donc estimer ses caractéris-
tiques fonctionnelles, comme la fonction de répartition et la densité de probabilité lorsque
nous supposons son existence. Pour le faire, nous nous basons sur un échantillon de donneés
qui peuvent être complètes, censurées à droite ou censurées à gauche. A chacun de ces cas
correspondent des estimateurs spéciques, et l'objet de ce mémoire est d'étudier quelques
propriétés asymptotiques de ces estimateurs.
Dans le premier chapitre, nous nous intéressons au cas des données complètes ce qui veut
dire qu'elles représentent de vraies réalisations de la variable d'intérêt. Dans ce cas, la fonction
de répartition est estimée par sa contrepartie empirique, estimateur très répandu dans la
littérature et dont il existe plusieurs résultats de convergence, citons à titre d'exemples, le
théorème de Glivenko-Cantelli (1933) qui donne sa convergence presque sûre uniforme, et la
loi du logarithme itéré de Kiefer (1961) qui précise le taux de cette convergence. Pour notre
part, nous montrons et nous précisons le taux de la convergence presque complète uniforme.
Quant à la densité, après un rappel de son estimateur à noyau, nous présentons un résultat
concernant la convergence en moyenne quadratique de ce dernier.
Mais dans la pratique, il arrive qu'un phénomène de censure empêche l'observation com-
plète de la variable d'intérêt. Par exemple quand on s'intéresse au temps de survie à une
maladie grave, la xation du temps de l'étude va introduire une censure à droite. En eet,
à la n de l'étude, il est possible que certains malades soient encore vivants (heureusement
pour eux !). Mais le statisticien ne disposera que de l'information partielle que leurs temps de
survie dépassent les valeurs observées. Les estimateurs précédents ne sont plus valables dans
un tel modèle, à cet eet, Kaplan et Meier ont proposé en 1958, un estimateur de la fonction
de survie. Cet estimateur a été beaucoup étudié par la suite, Breslow et Crowley ont montré
sa normalité asymptotique en 1974. Sa loi du logarithme itéré a été montrée en 1981 par
Földes et Rejtö, et elles ont également précisé le taux de sa convergence presque complète
uniforme sous la condition de continuité des fonctions de survies de la variable d'intérêt et de
la variable de censure. En fait, nous montrons dans ce mémoire que nous pouvons omettre
cette condition de continuité. Par analogie avec le cas des données complètes, Földes, Rejtö
et Winter ont proposé en 1981, un estimateur à noyau de la densité dans un modèle de
censure à droite, et ils ont montré des résultats ponctuels et uniformes concernant sa conver-
gence presque sûre. Le taux de ces convergences a été précisé par Diehl et Stute en 1988, qui

2
ont donné une loi ponctuelle du logarithme itéré, et qui ont également montré la normalité
asymptotique. Pour notre part, nous précisons les taux de la convergence presque complète
ponctuelle et uniforme. Nous rappelons aussi l'estimateur à noyau du taux de hasard qui en
découle, et nous montrons pour cet estimateur des résultats similaires à ceux que nous avons
montré pour l'estimateur de la densité. Ceci est l'objet du deuxième chapitre.
Il est souvent mentionné dans la littérature, qu'en inversant le temps, nous pouvons dé-
duire des résultats connus dans le cas de la censure à droite, ceux valables pour un modèle
de censure à gauche. Dans le troisième chapitre, nous explicitons ceci, en introduisant l'es-
timateur produit limite de la fonction de répartition, et ceci en s'inspirant de l'approche
suivie par Kaplan et Meier dans le cas de la censure à droite. Nous montrons également la
convergence presque sûre uniforme et la loi du logarithme itéré pour cet estimateur.
Finalement, nous commençons au dernier chapitre par une étude de simulation dans le
but d'évaluer les qualités des estimateurs étudiés. Ensuite, nous exposons un exemple de l'ap-
plication de l'estimateur à noyau de la densité en géographie, et un exemple de l'application
de l'estimateur de Kaplan-Meier au commerce international.

3
Chapitre 1
Estimation non paramétrique pour des
données complètes

1.1 Dénitions et résultats préliminaires


Soient (Xn )n∈N une suite de variables aléatoires réelles et X une variable aléatoire réelle
dénies sur le même espace de probabilité (Ω, A, P ).

Dénition 1. On dit que (Xn )n∈N converge presque complètement vers X si pour tout ε > 0
[Link].
P (|Xn − X| > ε) < ∞, et on note Xn −→ X.
P
n∈N

On peut montrer, en utilisant le lemme de Borel-Cantelli, que la convergence presque


complète est plus forte que la convergence presque sûre, elle entraîne donc aussi la conver-
gence en probabilité.

Dénition 2. On dit que le taux de la convergence presque complète de (XP


n )n∈N vers X est
d'ordre un (où (un )n∈N est une suite de nombres réels positifs) si ∃ ε0 > 0/ P (|Xn − X| >
n∈N
ε0 un ) < ∞, et on note Xn − X = [Link]. (un ).

Il est clair que les propriétés suivantes sont vériées :


[Link].
i) Si Xn − X = [Link]. (un ) avec un −→ 0, alors Xn −→ X.
n→∞
ii) Si Xn − X = [Link]. (un + vn ), et vn = O(un ), alors Xn − X = [Link]. (un ).

Dénition 3. Soit K (resp. L) une fonction dénie sur R croissante, continue à droite (resp.
à gauche) et à valeurs dans [0, 1], l'inverse généralisée de K (resp. de L) est dénie pour
tout t ∈ [0, 1] par : K −1 (t) = inf{x ∈ R/K(x) ≥ t}. (resp. L−1 (t) = sup{x ∈ R/L(x) ≤ t}).
K −1 et L−1 possèdent les propriétés suivantes :
i) K −1 et L−1 sont croissantes.
ii) ∀t ∈ [0, 1], K(K −1 (t)) ≥ t et L(L−1 (t)) ≤ t, et on a égalités si K et L sont continues.

4
iii) ∀x ∈ R, K −1 (K(x)) ≤ x et L−1 (L(x)) ≥ x.
iv) ∀x ∈ R, ∀t ∈ [0, 1], (K(x) ≥ t ⇔ x ≥ K −1 (t)) et (L(x) ≤ t ⇔ x ≤ L−1 (t)).
Si K est une fonction de répartition, K −1 est dite la fonction quantile.
Dans toute la suite, si L est une fonction de R dans R, on note, lorsqu'elles existent,
L(t ) = lim L(x), L(t+ ) = lim L(x) et L(+∞) = lim L(x). Si L est à variation bornée et

<
x→t
>
x→t x→+∞
continue à droite, on note ∆L(t) = L(t) − L(t− ) le saut de L en t et Lc (t) = L(t) − ∆L(x)
P
x≤t
la partie continue de L. Si de plus, L est la fonction de répartition d'une variable aléatoire
réelle U , on dénit le point initial du support de L, noté indiéremment IL ou IU , par :
IL = inf{t ∈ R/L(t) > 0}, et le point terminal du support de L, noté indiéremment TL ou
TU par : TL = sup{t ∈ R/L(t) < 1}. IU et TU possèdent les propriétés suivantes :
i) IU ≤ U ≤ TU p.s.
ii) Si V est une v.a.r. indépendante de U , on a : IU ∧V = IU ∧ IV , IU ∨V = IU ∨ IV ,
TU ∧V = TU ∧ TV et TU ∨V = TU ∨ TV .

1.2 Estimation de la fonction de répartition


Soit X une variable aléatoire réelle de fonction de répartition inconnue F que l'on estime
par la fonction de répartition empirique donnée pour tout x ∈ R par :
n
1X
Fn (x) = 1{Xi ≤x} ,
n i=1

où X1 , . . . , Xn sont n v.a.i.i.d. et de même loi que X.


Glivenko V. I. et Cantelli F.P. ont montré en 1933 que Fn converge presque sûrement
vers F , uniformément en x, comme le postule le théorème suivant :
Théorème 1. (de Glivenko-Cantelli)
Nous avons :
p.s.
sup|Fn (x) − F (x)| −→ 0.
x∈R

Démonstration. voir [Laha et Rohatgi 1979] Théorème 2.5.1. page 114.


Ensuite, Kiefer J. a précisé, en 1961, le taux de cette convergence, en donnant la loi du
logarithme itéré suivante :
Théorème 2. (LIL de Kiefer)
Pour tout entier non nul m, et pour toute fonction de répartition continue F dénie sur Rm
et de fonction de répartition empirique Fn , on a :

n sup |Fn (x) − F (x)|
x∈Rm
lim sup q = 1 p.s.
n→+∞ log log n
2

5
Démonstration. voir [Kiefer 1961] Théorème 2.
Pour notre part, nous allons montrer la convergence presque complète ponctuelle, et
uniforme de Fn , en précisant à chaque fois le taux de la convergence, et ceci en utiliseant
une inégalité exponentielle de type Bernstein donnée dans le lemme suivant.
Lemme 1. Soient (Zi )1≤i≤n n v.a.r. i. i. d. et centrées, si ∃ M < ∞/ |Z1 | ≤ M , on a en
notant σ 2 = E(Z12 ) :
n
! ( )
X ε2 n
∀ε > 0, P Zi > εn ≤ 2 exp − .
1 + ε σM2

i=1
2σ 2
Démonstration. voir [Ferraty et Vieu 2006] corollaire A.9. page 235.
Théorème 3. Pour tout x ∈ R, on a :
r !
[Link]. log n
Fn (x) −→ F (x), et Fn (x) − F (x) = [Link]. .
n
Démonstration. Soient x ∈ R et n ∈ N / n ≥ 2 :
Si x < IF (resp. x ≥ TF ) alors Fn (x) = F (x) = 0 (resp. Fn (x) = F (x) = 1 ), dans ce cas les
deux résultats du théorème sont immédiats.
Si x ∈]IF , TF [ alors F (x)(1 − F (x)) 6= 0.
On pose Zi = 1{Xi ≤x} − F (x) et σ 2 = E(Z12 ) = F (x)(1 − F (x)), les (Zi )1≤i≤n sont centrées
et elles sont indépendantes
q car les (Xi )1≤i≤n le sont, et comme |Z1 | ≤ 2, on a selon le lemme
1 et pour ε = 2 log n
n
,
!  
n log n
r
1X log n 4 n
×
 n 
P Zi > 2 ≤ 2 exp − q .
n i=1 n 
2σ 2 + 8 logn n

q q
Puisque lim log n
n
= 0 , il existe n0 ∈ N / ∀n ≥ n0 , logn n < 161
n→∞

n
r !  
1X log n 8
⇒P Zi > 2 ≤ 2 exp − log n = 2 n−8/5 (1.1)
n i=1 n 5
n
r !
X 1X log n
⇒ P Zi > 2 < ∞,
n≥2
n i=1
n

d'où r !
X log n
P |Fn (x) − F (x)| > 2 < ∞. (1.2)
n≥2
n
q 
[Link].
Ce qui montre que Fn (x) − F (x) = [Link]. log n
n
et à fortiori Fn (x) −→ F (x).

6
Remarques :- si F (IF ) = 0 on traite IF comme pour x < IF , sinon on le traite comme
pour x ∈]IF , TF [.
n
-Ce théorème est applicable à Fn (x− ) = n1 1{Xi <x} et F (x− )=P (X <x) en prenant Zi =
P
i=1
1{Xi <x} − F (x− ).
Passons maintenant à la convergence presque complète uniforme de Fn .

Théorème 4. On a
r !
[Link]. log n
sup|Fn (x) − F (x)| −→ 0 et sup|Fn (x) − F (x)| = [Link]. .
x∈R x∈R n

Démonstration. Nous reprenons largement la preuve du théorème de Glivenko-Cantelli qui


permet de seramener  à un nombre ni de points. Soit n ∈ N/ n ≥ 2.
q
Posons N = n
log n
+ 1, où [x] désigne la partie entière de x.
Pour k ∈ {1, . . . , N − 1}, posons xN,k = F −1 ( Nk ), xN,0 = −∞ et xN,N = +∞.
Soit x ∈ R, ∃ k ∈ {0, . . . , N − 1}/xN,k < xN,k+1 et x ∈ [xN,k , xN,k+1 [ (si k = 0, on ouvre
l'intervalle en −∞).
D'après les propriétés de F −1 on a F (xN,k ) = F (F −1 ( Nk )) ≥ Nk et pour tout t < xN,k
on a F (t) < Nk d'où lim F (t) ≤ Nk i.e. F (x− N,k ) ≤ N donc F (xN,k ) ≥ N ≥ F (xN,k ) ⇒
k k −
<
t→xN,k
F (xN,k ) + 1
N
≥ k+1
N
≥ F (x−
N,k+1 ) d'où :

1
F (x−
N,k+1 ) − F (xN,k ) ≤ . (1.3)
N
Par ailleurs Fn et F étant croissantes, nous avons :

Fn (xN,k ) − F (x− −
N,k+1 ) ≤ Fn (x) − F (x) ≤ Fn (xN,k+1 ) − F (xN,k ).

Nous en déduisons, en tenant compte de (1.3), que :

1
Fn (xN,k ) − F (xN,k ) − ≤ Fn (x) − F (x)
N
≤ Fn (x− − −
N,k+1 ) − F (xN,k+1 ) + F (xN,k+1 ) − F (xN,k )
1
≤ Fn (x− −
N,k+1 ) − F (xN,k+1 ) +
N

7
1 1
⇒ |Fn (x) − F (x)| ≤ max {|Fn (xN,k ) − F (xN,k )| + , |Fn (x− −
N,k+1 ) − F (xN,k+1 )| + }
N N
1
= max {|Fn (xN,k ) − F (xN,k )|, |Fn (x− −
N,k+1 ) − F (xN,k+1 )|} +
N
1
≤ |Fn (xN,k ) − F (xN,k )| + |Fn (x− −
N,k+1 ) − F (xN,k+1 )| +
N r
log n
≤ max |Fn (xN,k ) − F (xN,k )| + max |Fn (x−
N,k+1 ) − F (x−
N,k+1 )| +
0≤k≤N −1 0≤k≤N −1 n
r
log n
⇒ sup |Fn (x)−F (x)| ≤ max |Fn (xN,k )−F (xN,k )|+ max |Fn (x− −
N,k+1 )−F (xN,k+1 )|+
x∈R 0≤k≤N −1 0≤k≤N −1 n
 q  N −1  q 
log n S log n S
⇒ sup|Fn (x) − F (x)| > 5 n
⊆ |F n (x N,k ) − F (x N,k )| > 2 n
−1
NS
x∈R q
k=0 
|Fn (x− −
N,j+1 ) − F (xN,j+1 )| > 2
log n
n
j=0

r ! N −1
! r
log n X log n
⇒P sup|Fn (x) − F (x)| > 5 ≤ P |Fn (xN,k ) − F (xN,k )| > 2
x∈R n k=0
n
−1
N
r !
X
− − log n
+ P |Fn (xN,j+1 ) − F (xN,j+1 )| > 2
j=0
n
(1.4)
≤ 4N n −8/5
(selon (1.1))
 r  
4 n
≤ 11/10 √ + 4 n−8/5 car N = +1
n log n log n

et ceci ∀ n ≥ n0 , donc
r !
X log n
P sup|Fn (x) − F (x)| > 5 < ∞. (1.5)
n≥2
x∈R n

Ce qui montre les résultats visés.

Remarquons, là aussi, que ce théorème est applicable à Fn (x− ) et F (x− ), du fait que les
fonctions Fn (x− ) et G(x) = F (x− ) sont croissantes et continues à gauche ; donc on peut leur
appliquer la même démonstration en considérant xN,k = G−1 ( Nk ) et en utilisant les intervalles
de la forme ]xN,k , xN,k+1 ] et les limites à droite au lieu des limites à gauche. Par conséquent,
n
ce théorème est également applicable à Yn (x) = n1 1{Xi ≥x} et S(x− ) où S est la fonction
P
i=1
de survie de X , complément à 1 de la fonction de répartition (i.e. : S(x) = P (X > x) ), car
Yn (x) − S(x− ) = F (x− ) − Fn (x− ).

8
1.3 Estimation de la densité
Dans cette section, nous supposons que X admet une densité de probabilité f , estimée
par l'estimateur de Parzen-Rozenblatt (dit aussi l'estimateur à noyau) suivant
n  
1 X x − Xi
fn (x) = K ,
nhn i=1 hn
où K est une fonction positive et intégrable, appelée le noyau et (hn )n∈N est une suite de
nombres réels strictement positifs et tendant vers 0, (hn ) est dite la fenêtre.
Nous allons reprendre ici un résultat classique de la convergence en moyenne quadratique
de fn , qui découle du théorème de Bochner suivant.
Théorème 5. Soient g et K deux fonctions intégrables, avec K bornée et |z|K(z) −→ 0, et
|z|→∞
posons : gn (x) = 1
, où (hn )n∈N est une suite de nombres réels strictement
K( hzn )g(x−z) dz
R
hn
positifs qui converge vers 0.
Si g est continue au point x ∈ R, alors gn (x) −→ g(x) K(z) dz. Si g est uniformément
R
n→∞
continue, alors la convergence de gn est uniforme.
Démonstration. Soit ε > 0, on a :
Z +∞ Z +∞   Z +∞
1 z
gn (x) − g(x) K(z) dz = K g(x − z) dz − g(x)K(z) dz
−∞ hn −∞ hn −∞
Z +∞ Z +∞
= K(y)g(x − hn y) dy − g(x)K(y) dy .
−∞ −∞

Comme g est continue, ∃δ > 0 / |x − z| < δ ⇒ |g(x) − g(z)| ≤ ε. Donc :


Z
|(g(x − hn y) − g(x))K(y)| dy
Z Z
≤ |g(x − hn y) − g(x)|K(y) dy + |g(x − hn y) − g(x)|K(y) dy
{y : |y|< hδn } {y : |y|≥ hδn }
Z Z Z
≤ ε K(y) dy + |g(x − hn y)|K(y) dy + |g(x)| K(y) dy
{|y|< hδn } {|y|≥ hδn } {|y|≥ hδn }
Par l' absolue continuité de l'intégrale et le fait que hn −→ 0 :
n→∞
n o
∃n0 ∈ N / ∀n ≥ n0 : {|y|≥ δ } K(y) dy < ε. De plus, sur |y| ≥ hδn , on a |y| hδn ≥ 1, d'où
R
hn
hn
R R
{|y|≥ hn }
δ |g(x − hn y)|K(y) dy ≤ {|y|≥ hδn } |y| δ |g(x − hn y)|K(y) dy
≤ 1δ sup |y|K(y) g(z)dz → 0
R
|y|≥ hδ
n
par hypothèse puisque hn −→ 0.
Dans le cas où g est uniformément continue, on peut montrer grâce à son intégrabilité que sa
limite en ±∞ est nulle, et elle est donc bornée. Et la convergence uniforme de gn se démontre
de la même façon que dans le cas ponctuel en tenant compte de la bornitude de g .

9
Le résultat que nous visons s'énonce comme suit :

Théorème 6. Si f est continue au point x ∈ R, hn n→∞


−→ 0, nhn −→ ∞, et si K est une
n→∞
densité bornée et telle que : |z|K(z) −→ 0, alors :
|z|→∞

m.q.
fn (x) −→ f (x).

Démonstration. Il sut de montrer que fn (x) est un estimateur asymptotiquement sans


biais, et de variance tendant vers 0.
D'abord, en utilisant l'équidistribution des variables (Xi ) et le changement de variable z =
x − y , il vient
     
x−X x−y
Z Z
1 1 1 z
Efn (x) = EK = K f (y)dy = K f (x−z)dz −→ f (x),
hn hn hn hn hn hn n→∞

en vertu du théorème de Bochner et du fait que K est une densité.


En suite, nous avons
   
1 x−X 1 2 x−X
V arfn (x) = V arK ≤ EK
nh2n hn nh2n hn
 Z    Z
1 1 2 z
= K f (x − z)dz −→ 0 × f (x) K 2 (z)dz = 0,
nhn hn hn n→∞

par application, encore une fois, du théorème de Bochner et du fait que nhn −→ ∞.
n→∞

10
Chapitre 2
Estimation non paramétrique dans un
modèle de censure à droite

Les estimateurs étudiés précedemment sont basés sur de véritables réalisations de la


variable d'intérêt (données complètes). Mais, dans la pratique, il n'est pas toujours possible
de disposer d'un tel échantillon. Une variable de censure C peut empêcher l'observation de
la vraie variable d'interêt et ne nous fournit alors qu'une information partielle sur elle. Il
existe plusieurs types de censure, mais nous allons nous intéresser uniquement à la censure
à droite ou à gauche. Nous parlons de donnée censurée à droite lorsque nous observons la
censure C et non pas la variable d'interêt T , et que nous savons que T > C . Donc dans
un tel modèle de censure à droite, nous n'observons la variable d'interêt que lorsqu'elle est
inférieure à la variable de censure, et par conséquent, les observations sont des répliques du
couple (T ∧ C, δ = 1{T ≤C} ) où δ est l'indicateur de censure valant 1 quand l'observation
est complète et 0 quand elle est censurée. Ce modèle est le plus fréquent en pratique, il est
par exemple adapté au cas où l'événement d'intérêt est le temps de survie à une maladie et
où la date de n de l'étude est préalablement xée ; les patients vivants à la n de l'étude
fournissent des données censurées à droite. La censure n'est pas nécessairement xe, elle peut
être aléatoire, c'est le cas par exemple d'un individu perdu de vue ou mort dans un accident
au cours de l'étude.
Dans ce chapitre, nous nous intéressons à l'estimation de quelques caractéristiques fonc-
tionnelles associées à la loi d'une variable aléatoire censurée à droite.

2.1 Estimation de la fonction de survie


Soit T une variable aléatoire positive, censurée à droite par une variable aléatoire C
positive et indépendante de T . Nous observons l'échantillon (Xi = Ti ∧ Ci , δi = 1{Ti ≤Ci } )1≤i≤n
de n couples de variables aléatoires i.i.d. et de même loi que (X = T ∧ C, δ = 1{T ≤C} ), et
nous notons F , G et H les fonctions de répartition respectives de T , C et X ; S , G et H leurs
fonctions de survie respectives, et (Zj )1≤j≤m les valeurs distinctes des (Xj )1≤j≤n rangées dans

11
l'ordre croissant. L'estimateur de Kaplan-Meier de S est donné pour tout t ∈ R par :
Y  M (Zj )

Sn (t) = 1− ,
R(Zj )
j/Zj ≤t

n
où M (Zj ) = δi 1{Xi =Zj } c'est le nombre de morts exactes au jème instant et R(Zj ) =
P
i=1
n
1{Xi ≥Zj } est le nombre d'individus à risque juste avant le jème instant.
P
i=1
Földes A. et [Link] trouvé
√ en 1980 un taux de convergence presque complète uniforme
de Sn de l'ordre de log n/ n, mais la convergence n'a lieu qu'avant le plus petit des temps
terminaux des supports de F et de G (voir [Földes et al. 1980] Théorème 2.2. page 237).
Puis en imposant que F et G sont continues, Földes A. et Rejtö L. ont amélioré le taux
de convergence qui est passé à l'ordre de log n/n (voir [Földes et Rejtö 1981 a] preuve du
p

théorème 3.2.). Pour notre part, nous allons retrouver ce même taux sans exiger la continuité
de F ni celle de G, et pour cela, nous avons besoin du lemme suivant dont la preuve est
donnée dans [Shorack et Wellner 1986] (lemme 1 page 302).

Lemme 2. Si A et B sont deux fonctions croissantes et continues à droite sur [0, +∞[ avec
A(t) = B(t) pour t < 0 et ∆A ≤ 1 et ∆B ≤ 1 sur [0, +∞[ et si θB = inf{t ∈ R/B(t) = +∞},
alors la seule solution locale bornée Z de l'équation
Z(x− )
Z
Z(t) = Z(0) − d(A(x) − B(x))
1 − ∆B(x)
]0,t]

sur [0, θB [ est donnée par


Q
(1 − ∆A(x))
c c 0≤x≤t
Z(t) = Z(0) exp(B (t) − A (t)) Q .
(1 − ∆B(x))
0≤x≤t

Théorème 7. Pour tout θ ∈ ]0, TH [, on a :


r !
[Link]. log n
sup|Sn (t) − S(t)| −→ 0 et sup|Sn (t) − S(t)| = [Link]. .
t≤θ t≤θ n

Démonstration. Soit θ ∈ ]0, TH [, pour tout t < 0, on a : Sn (t) = S(t) = 1 ⇒ Sn (t) − S(t) = 0
donc sup|Sn (t) − S(t)| = sup |Sn (t) − S(t)|.
t≤θ 0≤t≤θ
n n
Soit alors t ∈ [0, θ] : on pose Nn (t) = 1
1{Xi ≤t,δi =1} et Yn (t) = 1
1{Xi ≥t} . Nn (t) et Yn (t)
P P
n n
i=1 i=1
sont les lois empiriques associées respectivement à H1 (t) = P (X ≤ t, δ = 1) et à H(t− ).
R dF (x) R dH1 (x)
Par ailleurs, la fonction de hasard cumulé de T est donnée par Λ(t) = −
S(x )
= H(x− )
,
]0,t] ]0,t]

12
R dNn (x)
qui est classiquement estimée par l'estimateur de Nelson Aalen suivant : Λn (t) = Yn (x)
.
]0,t]
De plus, nous avons : S(t) = 1 − P (T ≤ t) = 1 − ]0,t] dF (x) = 1 − ]0,t] S(x− ) dΛ(x), donc le
R R

lemme 2 donne : Y
S(t) = (1 − ∆Λ(x)) exp(−Λc (t)). (2.1)
x≤t

dNn (x) ∆Nn (Zj ) M (Zj )


D'autre part, nous avons : Λn (t) =
R P P
]0,t] Yn (x)
= Yn (Zj )
= R(Zj )

j/Zj ≤t j/Zj ≤t
M (Zj )
∆Λn (Zj ) = R(Zj )
, d'où :
Y
Sn (t) = (1 − ∆Λn (Zj )). (2.2)
j/Zj ≤t

Sn (t)
Les relations (2.1) et (2.2) montrent, d'après le lemme 2, que S(t)
vérie :

Sn (x− )d(Λn (x) − Λ(x))


Z
Sn (t)
=1−
S(t) S(x− )(1 − ∆Λ(x))
]0,t]

Sn (x− )d(Λn (x) − Λ(x))


Z
⇒ Sn (t) − S(t) = −S(t)
S(x− )(1 − ∆Λ(x))
]0,t]

Sn (x− ) d(Λn (x) − Λ(x))


Z Z
⇒ |Sn (t) − S(t)| ≤ dKn (x) où Kn (t) = .
S(x− ) 1 − ∆Λ(x)
]0,t] ]0,t]

Nous en déduisons, en appliquant la formule d'intégration par parties, que :

Z  
Sn (t) Sn (x)
|Sn (t) − S(t)| ≤ |Kn (t)| + Kn (x)d
S(t) S(x)
]0,t]

Z   Z
1 − 1 Kn (x)
≤ sup |Kn (u)| + Kn (x)Sn (x )d + dSn (x)
S(θ) 0≤u≤θ S(x) S(x)
]0,t] ]0,t]
 
1 1 1
≤ sup |Kn (u)| + sup |Kn (u)| −1 + sup |Kn (u)||Sn (t) − 1|
S(θ) 0≤u≤θ 0≤u≤θ S(t) S(θ) 0≤u≤θ
 
3
≤ − 1 sup |Kn (u)|
S(θ) 0≤u≤θ

S(x− ) ∆S(x)
or S(x) = S(x− )(1 − ∆Λ(x)) ⇒ 1
1−∆Λ(x)
= S(x)
=1− S(x)

13
Z
∆S(x)
⇒ Kn (u) = (1 − )d(Λn (x) − Λ(x))
S(x)
]0,u]

Z Z
∆S(x)
⇒ |Kn (u)| ≤ d(Λn (x) − Λ(x)) + d(Λn (x) − Λ(x))
S(x)
]0,u] ]0,u]
X ∆S(x)
≤ sup |Λn (u) − Λ(u)| + |∆Λn (x) − ∆Λ(x)|
0≤u≤θ S(x)
x∈]0,u]
∆S(x)>0
1 X
≤ sup |Λn (u) − Λ(u)| + sup |∆Λn (u) − ∆Λ(u)| |∆S(x)|
0≤u≤θ S(θ) 0≤u≤θ
x∈]0,u]
∆S(x)>0
 
1 1
≤ 1+ sup |Λn (u) − Λ(u)| + sup |Λn (u− ) − Λ(u− )|
S(θ) 0≤u≤θ S(θ) 0≤u≤θ

et ceci pour tout u ∈ [0, θ]


, d'où :
1
sup |Kn (u)| ≤ 1 + S(θ) sup |Λn (u) − Λ(u)| + 1
S(θ)
sup |Λn (u− ) − Λ(u− )|
0≤u≤θ 0≤u≤θ 0≤u≤θ
(3−S(θ))(1+S(θ))
⇒ |Sn (t)−S(t)| ≤ S(θ)2
sup |Λn (u)−Λ(u)|+ 3−S(θ)
S(θ)2
sup |Λn (u− )−Λ(u− )| ∀ t ∈ [0, θ],
0≤u≤θ 0≤u≤θ
donc :

(3 − S(θ))(1 + S(θ)) 3 − S(θ)


sup |Sn (t)−S(t)| ≤ 2
sup |Λ n (t)−Λ(t)|+ 2
sup |Λn (t− )−Λ(t− )|.
0≤t≤θ S(θ) 0≤t≤θ S(θ) 0≤t≤θ
(2.3)
De plus, nous avons pour tout t ∈ [0, θ]

Z Z
dNn (x) dH1 (x)
|Λn (t) − Λ(t)| = −
Yn (x) H(x− )
]0,t] ]0,t]

Z Z Z Z
dNn (x) dH1 (x) dNn (x) dNn (x)
= − + −
Yn (x) H(x− ) H(x− ) H(x− )
]0,t] ]0,t] ]0,t] ]0,t]

Z   Z
1 1 1
≤ − dNn (x) + d(Nn (x) − H1 (x))
Yn (x) H(x− ) H(x− )
]0,t] ]0,t]

14
H(x− ) − Yn (x)
Z Z
1
= dNn (x) + d(Nn (x) − H1 (x))
Yn (x) × H(x− ) H(x− )
]0,t] ]0,t]

H(u− ) − Yn (u)
 
Nn (t) − H1 (t)
Z
1
≤ sup −
Nn (t) + + (Nn (x) − H1 (x))d
0≤u≤θ Yn (u) × H(u ) H(t) H(x)
]0,t]
1 1
≤ −
sup |Yn (u) − H(u− )| + sup |Nn (u) − H1 (u)|+
Yn (θ) × H(θ ) 0≤u≤θ H(θ) 0≤u≤θ
 
1
sup |Nn (u) − H1 (u)| −1
0≤u≤θ H(t)
 
1 − 2
≤ sup |Yn (u) − H(u )| + − 1 sup |Nn (u) − H1 (u)|
Yn (θ) × H(θ− ) 0≤u≤θ H(θ) 0≤u≤θ

donc
 
1 − 2
sup |Λn (t) − Λ(t)| ≤ sup |Yn (t) − H(t )| + − 1 sup |Nn (t) − H1 (t)|
0≤t≤θ Yn (θ) × H(θ− ) 0≤t≤θ H(θ) 0≤t≤θ

et nous pouvons montrer, de la même façon que


sup |Λn (t− ) − Λ(t− )| ≤ Yn (θ)×H(θ
1 −
− ) sup |Yn (t) − H(t )| +
1
H(θ− )
sup |Nn (t− ) − H1 (t− )| +
0≤t≤θ 0≤t≤θ 0≤t≤θ
 
1
H(θ− )
− 1 sup |Nn (t) − H1 (t)|
0≤t≤θ
il s'ensuit alors, en tenant compte de (2.3), qu'il existe α(θ), β(θ), γ(θ) > 0 tels que

α(θ)
sup |Sn (t)−S(t)| ≤ sup |Yn (t)−H(t− )|+β(θ) sup |Nn (t)−H1 (t)|+γ(θ) sup |Nn (t− )−H1 (t− )|.
0≤t≤θ Yn (θ) 0≤t≤θ 0≤t≤θ 0≤t≤θ
(2.4)
[Link].
La relation (1.5), la remarque la suivant et le fait que Yn (θ) −→ H(θ ) 6= 0 et que

sup |Sn (t) − S(t)| = sup|Sn (t) − S(t)| entraînent les résultats visés.
0≤t≤θ t≤θ

2.2 Estimation de la densité


Nous supposons, dans la suite, que T admet une densité de probabilité f que l'on es-
time par l'estimateur à noyau proposé par Földes A., Rejtö L. et Winter B.B. en 1981(voir
[Földes et al. 1981]), comme suit :
 
x−y
Z
1
fn (x) = K dFn (y),
hn hn
où Fn = 1 − Sn , K est le noyau et (hn ) est la fenêtre.
Sous l'hypothèse de continuité de f au point x et sous des conditions assez faibles sur
le noyau et la fenêtre, Földes A. et al. ont montré en 1981 la convergence presque sûre de

15
fn (x) vers f (x) (voir [Földes et al. 1981] Théorème 3.2. page 22). Quant à nous, nous allons
montrer la convergence presque complète ponctuelle (plus forte que la presque sûre) de fn (x)
vers f (x) en un point x < TH , sous des conditions un peu plus fortes sur le noyau et la fenêtre
(ce qui n'est pas très contraignant) ; de plus nous précisons le taux de convergence. Pour cela
considérons les hypothèses suivantes :
H1 f est continue au point x.
H2 f est de classe C 2 au voisinage de x.
H3 ∃k, p, ε0 ∈ R∗+ , ∀y ∈]x − ε0 , x + ε0 [, |f (x) − f (y)| ≤ k|x − y|p .
H4 hn → 0 et nh2n / log n → ∞.
H5 K est une densité continue à droite, à variation bornée sur R et telle que :
∃M > 0, ∀u ∈ R, |u| ≥ M ⇒ K(u) = 0 (i.e. K est à support compact).
H6 K R est bornée.
uK(u) du = 0 et u2 K(u) du < ∞.
R
H7
Théorème 8. Soit x < TH ,

i) Sous (H1),(H4),(H5) et (H6), nous avons :


[Link].
fn (x) −→ f (x),

ii) Sous (H2),(H4),(H5) et (H7), nous avons :


r !
1 log n
fn (x) − f (x) = [Link]. h2n + ,
hn n

iii) Sous (H3),(H4) et (H5), nous avons :


r !
1 log n
fn (x) − f (x) = [Link]. hpn + .
hn n

Ce théorème découle des deux lemmes suivants :


Lemme 3. Sous (H4) et (H5), on a pour tout θ < TH :
r !
1 log n
sup|fn (x) − Efn (x)| = [Link]. ,
x≤θ hn n
 
où Efn (x) = 1 x−y
R
hn
K hn
dF (y).

Démonstration. La démonstration de ce lemme s'inspire de celle du théorème 3.2. de [Földes et al. 1981].
Soient θ < TH et x ≤ θ, nous avons :
 
x−y
Z
1
|fn (x) − Efn (x)| = K d(Fn (y) − F (y))
hn hn

16
En posant u = x−y
hn
, nous obtenons :
Z
1
|fn (x)−Efn (x)| = K(u)d(Fen (u) − Fe(u)) avec Fen (u) = Fn (x−uhn ) et Fe(u) = F (x−uhn ), donc
hn
Z M Z M
1 1
|fn (x) − Efn (x)| = K(u)d(Fen (u) − Fe(u)) ≤ (Fen (u) − Fe(u))dK(u)
hn −M hn −M

(Par intégration par parties).


De plus, K étant à variation bornée et continue à droite, nous avons K = K1 − K2 où K1 et
K2 sont deux fonctions croissantes et continues à droites, d'où :
Z M Z M
1 1
|fn (x) − Efn (x)| ≤ (Fn (u) − F (u))dK1 (u) +
e e (Fen (u) − Fe(u))dK2 (u)
hn −M hn −M
Z M Z M
1 1
≤ sup |Fen (u) − Fe(u)| dK1 (u) + sup |Fen (u) − Fe(u)| dK2 (u)
hn u>−M −M hn u>−M −M
VK VK
≤ sup |Fen (u) − Fe(u)| = sup |Fn (x − uhn ) − F (x − uhn )|,
hn u>−M hn u>−M
où VK est la variation totale de K sur R.
Soit θ∗ ∈]θ, TH [, puisque hn → 0, ∃n0 ∈ N/∀n ≥ n0 : M hn < θ∗ − θ , ce qui montre que
x−uhn < θ∗ du fait que u > −M et x ≤ θ. Par conséquent sup |Fn (x−uhn )−F (x−uhn )| ≤
u>−M
sup|Fn (t) − F (t)|.
t<θ∗
Donc pour tout x ≤ θ nous avons : |fn (x) − Efn (x)| ≤ VK
hn
sup|Fn (t) − F (t)|, d'où :
t<θ∗
r !
VK 1 log n
sup|fn (x) − Efn (x)| ≤ sup|Fn (t) − F (t)| = [Link]. , (2.5)
x≤θ hn t<θ∗ hn n

en vertu du théorème 7.

Lemme 4. Soit x < TH ,

i) Sous (H1),(H4),(H5) et (H6), nous avons :

Efn (x) −→ f (x),


n→∞

ii) Sous (H2),(H4),(H5) et (H7), nous avons :

Efn (x) − f (x) = O(h2n ),

iii) Sous (H3),(H4) et (H5), nous avons :

Efn (x) − f (x) = O(hpn ).

17
Démonstration.
i) En utilisant le changement de variable z = x − y , nous pouvons écrire :
   
x−y
Z Z
1 1 z
Efn (x) = K f (y)dy = K f (x − z)dz −→ f (x),
hn hn hn hn n→∞

d'après le théorème de Bochner (zK(z) −→ 0 car K est à support compact).


|z|→∞

ii) En utilisant le changement de variable ,


il s'ensuit que :
u = x−y
hn
 
x−y
Z
1
|Efn (x) − f (x)| = K f (y)dy − f (x)
hn hn
Z
= K(u)f (x − uhn )du − f (x)
Z M Z M
= K(u)f (x − uhn )du − f (x) K(u)du
−M −M
Z M
= K(u)(f (x − uhn ) − f (x))du , (2.6)
−M

comme f est de classe C 2 au voisinage de x, on peut lui appliquer le développement


de Taylor à l'ordre 2, ce qui donne :
Z M
u2 h2n 00
 
0
|Efn (x) − f (x)| = K(u) f (x) − uhn f (x) + f (ηn ) − f (x) du
−M 2
Z M
h2n
= f 00 (ηn )u2 K(u)du , où ηn est entre x et x − uhn .
2 −M
Par ailleurs, f 00 étant continue au point x, nous avons pour ε > 0 quelconque :
∃δ > 0/∀y, |y − x| < δ ⇒ |f 00 (y) − f 00 (x)| < ε,
et comme hn → 0, ∃n0 ∈ N/∀n ≥ n0 : hn < Mδ , donc pour tout n ≥ n0 nous avons :
|ηn − x| ≤ |u|hn < δ ⇒ |f 00 (ηn ) − f 00 (x)| < ε, d'où :
h2n M 00 |f 00 (x)|h2n M 2
Z Z
00 2
|Efn (x) − f (x)| ≤ |f (ηn ) − f (x)|u K(u)du + u K(u)du
2 −M 2 −M
ε + |f 00 (x)| M 2
 Z 
≤ u K(u)du h2n = O(h2n ). (2.7)
2 −M

iii) Selon (2.6), nous avons :


Z M
|Efn (x) − f (x)| ≤ K(u)|f (x − uhn ) − f (x)|du,
−M

et comme hn → 0, ∃n1 ∈ N/∀n ≥ n1 : hn < M ε0


, donc pour tout n ≥ n1 nous avons :
|x − uhn − x| = |u|hn < ε0 ⇒ |f (x − uhn ) − f (x)| ≤ k|u|p hpn ≤ kM p hpn , d'où :
Z M
p p
|Efn (x) − f (x)| ≤ kM hn K(u)du = kM p hpn = O(hpn ).
−M

18
Remarquons que Földes A. et al. ont montré en 1981 la convergence presque sûre uniforme
de fn sous l'hypothèse de bornitude de la dérivée de f . En ce qui nous concerne, nous allons
d'abord donner la convergence presque complète uniforme sur un compact C sous l'hypothèse
de continuité de f sur C . Puis, en imposant des conditions de régularité sur f , nous arrivons
à préciser les taux de convergence. Pour cela, soit C un compact inclus dans ] − ∞, TH [ et
considérons les hypothèses suivantes.
H8 f est continue sur C .
H9 f est de classe C 2 sur C .
H10 ∃k, p, ε0 ∈ R∗+ , ∀x ∈ C, ∀y ∈]x − ε0 , x + ε0 [, |f (x) − f (y)| ≤ k|x − y|p .
Théorème 9.
i) Sous (H8),(H4),(H5) et (H6), nous avons :
[Link].
sup|fn (x) − f (x)| −→ 0,
x∈C

ii) Sous (H9),(H4),(H5) et (H7), nous avons :


r !
1 log n
sup|fn (x) − f (x)| = [Link]. h2n + ,
x∈C hn n

iii) Sous (H10),(H4) et (H5), nous avons :


r !
1 log n
sup|fn (x) − f (x)| = [Link]. hpn + .
x∈C hn n

Ce théorème résulte du lemme 3 si-dessus et du lemme 5 suivant.

Lemme 5.
i) Sous (H8),(H4),(H5) et (H6), nous avons :

sup|Efn (x) − f (x)| −→ 0,


x∈C n→∞

ii) Sous (H9),(H4),(H5) et (H7), nous avons :

sup|Efn (x) − f (x)| = O(h2n ),


x∈C

iii) Sous (H10),(H4) et (H5), nous avons :

sup|Efn (x) − f (x)| = O(hpn ).


x∈C

Démonstration.

19
i) Comme pour le point i) du lemme (4), ce point découle du théorème de Bochner du
fait que f est uniformément continue, car elle est continue sur le compact C .
ii) D'après la relation (2.7), nous avons pour tout x ∈ C :

ε + |f 00 (x)| M 2
 Z 
|Efn (x) − f (x)| ≤ u K(u)du h2n ,
2 −M

et comme f 00 est continue sur le compact C , ∃A > 0/∀x ∈ C, |f 00 (x)| ≤ A, d'où :

ε+A M 2
 Z 
sup|Efn (x) − f (x)| ≤ u K(u)du h2n = O(h2n ).
x∈C 2 −M

iii) D'après la relation (2.7), nous avons pour tout x ∈ C :


Z M
|Efn (x) − f (x)| ≤ K(u)|f (x − uhn ) − f (x)|du,
−M

et comme hn → 0, ∃n0 ∈ N/∀n ≥ n0 : hn < M ε0


, donc pour tout n ≥ n0 nous avons :
|x − uhn − x| = |u|hn < ε0 ⇒ |f (x − uhn ) − f (x)| ≤ k|u|p hpn ≤ kM p hpn , d'où :
Z M
|Efn (x) − f (x)| ≤ kM p hpn K(u)du = kM p hpn
−M

⇒ sup|Efn (x) − f (x)| ≤ kM p hpn = O(hpn ).


x∈C

2.3 Estimation du taux de hasard


f (x)
Le taux de hasard de T est déni par λ(x) = S(x) si S(x) 6= 0 et 0 sinon. Il s'avère donc
naturel de l'estimer par :
fn (x)
λn (x) = ,
Sn (x) + un
où (un )n∈N est une suite de nombres réels strictement positifs, convergeant vers 0 et servant
à éviter la division par 0. (pour un = n1 , nous retrouvons l'estimateur proposé par Földes A.
et al. dans [Földes et al. 1981]).
Nous allons montrer des résultats de convergence de λn similaires à ceux donnés à la section
précédente pour fn .

Théorème 10. Soit x < TH ,


i) Sous (H1),(H4),(H5) et (H6), nous avons :
[Link].
λn (x) −→ λ(x),

20
 q 
ii) Sous (H2),(H4),(H5) et (H7), et pour un choix de un = O h2n + 1
hn
log n
n
nous
avons : ! r
log n 1
λn (x) − λ(x) = [Link]. h2n + ,
n hn
 q 
iii) Sous (H3),(H4) et (H5), et pour un choix de un = O hn + hn
p 1 log n
n
nous avons :
r !
1 log n
λn (x) − λ(x) = [Link]. hpn + .
hn n

Démonstration. La démonstration est basée sur la décomposition suivante.


fn (x) − f (x) f (x)
λn (x) − λ(x) = + (S(x) − Sn (x) − un ) .
Sn (x) + un S(x)(Sn (x) + un )
1 f (x)
D'où |λn (x) − λ(x)| ≤ |fn (x) − f (x)| + (|Sn (x) − S(x)| + un ) ,
Sn (x) + un S(x)(Sn (x) + un )
(2.8)
et les résultats visés en découlent grâce aux théorèmes
 q (7) et (8), en tenant compte, à chaque
q
fois, du choix de un et du fait que log n
n
= O hn 1 log n
n
et que S(x) 6= 0.

Théorème 11. Soit C un compact inclus dans ] − ∞, TH [,


i) Sous (H8),(H4),(H5) et (H6), nous avons
[Link].
sup|λn (x) − λ(x)| −→ 0,
x∈C
 q 
ii) Sous (H9),(H4),(H5) et (H7), et pour un choix de un = O h2n + 1
hn
log n
n
nous
avons r !
1 log n
sup|λn (x) − λ(x)| = [Link]. h2n + ,
x∈C hn n
 q 
iii) Sous (H10),(H4) et (H5), et pour un choix de un = O hpn + 1
hn
log n
n
nous avons
r !
1 log n
sup|λn (x) − λ(x)| = [Link]. hpn + .
x∈C hn n

Démonstration. D'après la relation (2.8), nous avons pour tout x ∈ C :


1 f (x)
|λn (x) − λ(x)| ≤ |fn (x) − f (x)| + (|Sn (x) − S(x)| + un ) ,
Sn (x) + un S(x)(Sn (x) + un )

21
et comme f est continue sur le compact C (ce qui est vrai dans chacun des trois points du
théorème), ∃A > 0/∀x ∈ C : f (x) ≤ A, nous en déduisons alors, en notant θ = max(C),
que :

A sup(|Sn (x) − S(x)| + un )


1 x∈C
sup|λn (x) − λ(x)| ≤ sup|fn (x) − f (x)| + . (2.9)
x∈C inf (Sn (x) + un ) x∈C S(θ) inf (Sn (x) + un )
x∈C x∈C

De plus, nous avons pour η ∈]0, S(θ)[ quelconque :


η η
inf (Sn (x) + un ) ≤ ⇒ sup(−Sn (x) − un ) ≥ −
x∈C 2 x∈C 2
η
⇒ sup|Sn (x) + un − S(x)| ≥ sup(−Sn (x) − un + S(x)) ≥ sup(−Sn (x) − un ) + S(θ) > ,
x∈C x∈C x∈C 2
donc :    
η η
P inf (Sn (x) + un ) ≤ ≤ P sup|Sn (x) + un − S(x)| > , (2.10)
x∈C 2 x∈C 2
X  η

d'où : P inf (Sn (x) + un ) ≤ < ∞. (2.11)
n≥0
x∈C 2

Les résultats visés découlent de (2.9), en tenant compte de (2.11) et des théorèmes (7) et
(9).

Remarque : La comparaison des résultats que nous venons de montrer pour λn avec ceux
de Földes A. et al., est identique à la comparaison que nous avons faite pour fn .

22
Chapitre 3
Estimation de la fonction de répartition
dans un modèle de censure à gauche

Il est vrai que la censure à droite est la plus fréquente dans la pratique, mais un phénomène
de censure à gauche peut aussi intervenir dans certains cas. Les données censurées à gauche
correspondent au cas où nous observons la censure C , et nous savons que T < C . Donc
dans un modèle de censure à gauche, nous n'observons la variable d'intérêt que lorsqu'elle
est supérieure à la variable de censure, et les observations sont des répliques du couple
(T ∨ C, δ = 1{T ≥C} ). Ce modèle est par exemple adapté au cas où l'on s'intéresse à l'âge
auquel un individu commence à accomplir une tâche. Tout ce qu'on sait chez l'individu
censuré est que le véritable âge est inférieur à la valeur observée (l'âge au moment de l'étude,
par exemple).
An d'estimer la loi d'une variable aléatoire positive T , censurée à gauche par une variable
aléatoire C , positive et indépendante de T , nous observons l'échantillon (Xi = Ti ∨ Ci , δi =
1{Ti ≥Ci } )1≤i≤n de n couples de variables aléatoires i.i.d. et de même loi que (X = T ∨ C, δ =
1{T ≥C} ). On note F, G et H les fonctions de répartition respectives de T, C et X.

3.1 Introduction de l'estimateur produit limite de F


L'estimation de F est basée sur la relation suivante :
m
Y
F (t1 ) = P (T ≤ tj−1 /T ≤ tj )F (tm ),
j=2

où (tj )1≤j≤m est une suite strictement croissante de nombres réels.


Donc si on note (Zj )1≤j≤m les valeurs distinctes des (Xj )1≤j≤n rangées dans l'ordre croissant,
m m
on obtient : F (Zk ) =
Q Q
P (T ≤ Zj−1 /T ≤ Zj )F (Zm ) = (1 − qj )F (Zm )
j=k+1 j=k+1
où qj = P (T > Zj−1 /T ≤ Zj ). Une estimation naturelle de qj est donnée par :
dj
qbj = ,
Uj

23
n n
où dj = δi 1{Xi =Zj } et Uj = 1{Xi ≤Zj } . De plus, on peut, pour m grand, approcher F (Zm )
P P
i=1 i=1
par 1, et l'estimateur Fn de F est alors donné par :
Y  dj

Fn (t) = 1− .
Uj
j/Zj >t

3.2 Convergence presque sûre uniforme de Fn


Dans cette section, nous allons montrer qu'après le plus grand des temps initiaux des
supports de F et de G, Fn converge presque sûrement vers F , uniformément en t. Pour cela,
nous avons besoin du lemme suivant dont la preuve est similaire à celle du lemme 2.

Lemme 6. Si A et B sont deux fonctions décroissantes et continues à droite sur [0, +∞[
avec A(t) = B(t) pour t < 0 et si θB = sup{t R∈ R/B(t) = +∞}, alors la seule solution
locale bornée Z de l'équation Z(t) = Z(+∞) + ]t,+∞[ 1+∆B(x)
Z(x)
d(A(x) − B(x)) sur ]θB , +∞[
Q
(1+∆A(x))
est donnée par : Z(t) = Z(+∞) exp(B c (t) − Ac (t)) x>t
Q
(1+∆B(x))
.
x>t

Nous sommes, maintenant, en mesure d'énoncer le théorème suivant :

Théorème 12. Pour tout θ > IH , on a :


p.s.
sup|Fn (t) − F (t)| −→ 0.
t≥θ

Dé[Link] θ > IHR et t ≥ θ,


dF (x) dH1 (x)
on pose Γ(t) = ]t,+∞[ F (x)
= ]t,+∞[ H(x)
, où H1 (t) = P (X ≤ t, δ = 1).
n
Les lois empiriques associées respectivement à H1 et H sont données par : Nn (t) = 1
P
n
1{Xi ≤t, δi =1}
i=1
n
et Yn (t) = 1{Xi ≤t} , il s'avère donc naturel d'estimer Γ par Γn (t) = ]t,+∞[ dN
1 n (x)
P R
n Yn (x)
.
i=1
De plus, nous avons : F (t) = 1 − P (T > t) = 1 − ]t,+∞[ dF (x) = 1 + ]t,+∞[ F (x) dΓ(x), donc
R R

le lemme 6 donne : Y
F (t) = (1 + ∆Γ(x)) exp(−Γc (t)). (3.1)
x>t
dNn (x) ∆Nn (Zj ) dj
D'autre part, nous avons : Γn (t) =
R P P
]t,+∞[ Yn (x)
= Yn (Zj )
= Uj

j/Zj >t j/Zj >t
d
∆Γn (Zj ) = − Ujj , d'où :
Y
Fn (t) = (1 + ∆Γn (Zj )). (3.2)
j/Zj >t

24
Fn (t)
Les relations (3.1) et (3.2) montrent, d'après le lemme 6, que F (t)
vérie :
Z
Fn (t) Fn (x)
=1+ d(Γn (x) − Γ(x))
F (t) ]t,+∞[ F (x)(1 + ∆Γ(x))
Z
Fn (x)
⇒ Fn (t) − F (t) = F (t) d(Γn (x) − Γ(x))
]t,+∞[ F (x)(1 + ∆Γ(x))
d(Γn (x) − Γ(x))
Z Z
Fn (x)
⇒ |Fn (t) − F (t)| ≤ dKn (x) , où Kn (t) = .
]t,+∞[ F (x) ]t,+∞[ 1 + ∆Γ(x)

En appliquant la formule d'intégration par parties, nous obtenons :

Z
Fn (t) Fn (x)
|Fn (t) − F (t)| ≤ Kn (t) + Kn (x− )d( )
F (t) ]t,+∞[ F (x)
Kn (x− )
Z Z
1 − − 1
≤ sup|Kn (u)| + Kn (x )Fn (x )d( ) + dFn (x)
F (θ) u≥θ ]t,+∞[ F (x) ]t,+∞[ F (x)
1 1 1
≤ sup|Kn (u)| + sup|Kn (u− )||1 − |+ sup|Kn (u− )|(1 − Fn (t))
F (θ) u≥θ u≥θ F (t) F (θ) u≥θ
 
1 2
≤ sup|Kn (u)| + − 1 sup|Kn (u− )|
F (θ) u≥θ F (θ) u≥θ

F (x) ∆F (x)
or F (x− ) = F (x)(1 + ∆Γ(x)) ⇒ 1
1+∆Γ(x)
= F (x− )
=1+ F (x− )

Z  
∆F (x)
⇒ Kn (u) = 1+ d(Γn (x) − Γ(x))
]u,+∞[ F (x− )
Z Z
∆F (x)
⇒ |Kn (u)| ≤ d(Γn (x) − Γ(x)) + −
d(Γn (x) − Γ(x))
]u,+∞[ ]u,+∞[ F (x )
X ∆F (x)
≤ sup|Γn (u) − Γ(u)| + |∆Γn (x) − ∆Γ(x)|
u≥θ x>u
F (x− )
∆F (x)>0
1 X
≤ sup|Γn (u) − Γ(u)| + sup |∆Γn (u) − ∆Γ(u)| |∆F (x)|
u≥θ F (θ− ) u≥θ x>u
∆F (x)>0
 
1 1
≤ 1+ sup|Γn (u) − Γ(u)| + sup|Γn (u− ) − Γ(u− )|
F (θ− ) u≥θ F (θ− ) u≥θ

et ceci ∀u ≥ θ,d'où : 
sup|Kn (u)| ≤ 1 + F (θ1− ) sup|Γn (u) − Γ(u)| + 1
F (θ− )
sup|Γn (u− ) − Γ(u− )|,
u≥θ u≥θ u≥θ

25
et on peut montrer
 de la même  façon que :
sup|Kn (u− )| ≤ 1 + F (θ1− ) sup|Γn (u) − Γ(u)| + 1
F (θ− )
sup|Γn (u− ) − Γ(u− )|
u≥θ u≥θ u≥θ
(3−F (θ))(1+F (θ− ))
⇒ |Fn (t) − F (t)| ≤ F (θ)F (θ− )
sup|Γn (u) − Γ(u)| + F 3−F (θ)
(θ)F (θ− )
sup|Γn (u− ) − Γ(u− )| ∀t ≥ θ,
u≥θ u≥θ
donc :
(3 − F (θ))(1 + F (θ− )) 3 − F (θ)
sup|Fn (t)−F (t)| ≤ −
sup |Γn (t)−Γ(t)|+ −
sup|Γn (t− )−Γ(t− )|.
t≥θ F (θ)F (θ ) t≥θ F (θ)F (θ ) t≥θ
(3.3)
De plus, nous avons :

Z Z
dNn (x) dH1 (x)
|Γn (t) − Γ(t)| = −
]t,+∞[ Yn (x) ]t,+∞[ H(x)
Z Z Z Z
dNn (x) dH1 (x) dNn (x) dNn (x)
= − + −
]t,+∞[ Yn (x) ]t,+∞[ H(x) ]t,+∞[ H(x) ]t,+∞[ H(x)
Z   Z
1 1 1
≤ − dNn (x) + d(Nn (x) − H1 (x))
]t,+∞[ Yn (x) H(x) ]t,+∞[ H(x)
H(x) − Yn (x)
Z Z
1
= dNn (x) + d(Nn (x) − H1 (x))
]t,+∞[ Yn (x)H(x) ]t,+∞[ H(x)
1
≤ sup|H(u) − Yn (u)|(Nn (+∞) − Nn (t)) + |Nn (+∞) − H1 (+∞)|+
Yn (θ)H(θ) u≥θ
Nn (t) − H1 (t)
Z
1
+ (Nn (x− ) − H1 (x− ))d( )
H(t) ]t,+∞[ H(x)
1 1
≤ sup|Yn (u) − H(u)| + |Nn (+∞) − H1 (+∞)| + sup|Nn (u) − H1 (u)|
Yn (θ)H(θ) u≥θ H(θ) u≥θ
1
+ sup|Nn (u− ) − H1 (u− )||1 − |
u≥θ H(t)
1 1
≤ sup|Yn (u) − H(u)| + |Nn (+∞) − H1 (+∞)| + sup|Nn (u) − H1 (u)|
Yn (θ)H(θ) u≥θ H(θ) u≥θ
 
1
+ − 1 sup|Nn (u− ) − H1 (u− )|
H(θ) u≥θ

p.s. p.s.
et comme Yn (θ) −→ H(θ) 6= 0, on a 1 1
⇒ ∃ C(θ) > 0/ Yn1(θ) ≤ C(θ) p.s.
Yn (θ)
−→ H(θ)
 
C(θ)
⇒ |Γn (t)−Γ(t)| ≤ H(θ) sup|Yn (u)−H(u)|+ H(θ) sup|Nn (u)−H1 (u)|+ H(θ) − 1 sup|Nn (u− )−
1 1
u≥θ u≥θ u≥θ
H1 (u− )| + |Nn (+∞) − H1 (+∞)| p.s., et ceci ∀t ≥ θ  
C(θ)
⇒ sup|Γn (t)−Γ(t)| ≤ H(θ) sup|Yn (t)−H(t)|+ H(θ) sup|Nn (t)−H1 (t)|+ H(θ) − 1 sup|Nn (t− )−
1 1
t≥θ t≥θ t≥θ t≥θ
H1 (t− )| + |Nn (+∞) − H1 (+∞)| p.s.
et de la même façon, on peut montrer que :

26
C(θ) 2−H(θ− )
sup|Γn (t− ) − Γ(t− )| ≤ H(θ)
sup|Yn (t) − H(t)| + H(θ− )
sup|Nn (t− ) − H1 (t− )| + |Nn (+∞) −
t≥θ t≥θ t≥θ
H1 (+∞)| p.s.
il s'ensuit alors, en tenant compte de (3.3), que :
sup|Fn (t) − F (t)| ≤ α(θ)sup|Yn (t) − H(t)| + β(θ)sup|Nn (t) − H1 (t)| + γ(θ)sup|Nn (t− ) −
t≥θ t≥θ t≥θ t≥θ
H1 (t− )| + λ(θ)|Nn (+∞) − H1 (+∞)| p.s.
(θ))(2+F (θ− )) (3−F (θ))(1+F (θ− )) (3−F (θ))(1+F (θ− ))(1−H(θ))
où : α(θ) = C(θ)(3−F
F (θ)F (θ− )H(θ)
, β(θ) = F (θ)F (θ− )H(θ)
, γ(θ) = F (θ)F (θ− )H(θ)
+
(3−F (θ))(2−H(θ− )) (3−F (θ))(2+F (θ− ))
et λ(θ) =
F (θ)F (θ− )H(θ− ) F (θ)F (θ− )
.
Ce qui montre, en vertu du théorème de Glivenko-Cantelli et du fait que |Nn (+∞) −
n
p.s.
H1 (+∞)| = | n1 1{δi =1} − P (δ = 1)| −→ 0 (d'après la loi forte des grands nombres), que :
P
i=1
p.s.
sup|Fn (t) − F (t)| −→ 0.
t≥θ

3.3 La loi du logarithme itéré pour Fn


Le résultat suivant précise le taux de la convergence presque sûre uniforme de Fn , sous
l'hypothèse de continuité de F et G.

Théorème 13. Si F et G sont continues, et si IF > IG , alors :


r !
log log n
sup|Fn (x) − F (x)| = O p.s.
x∈R n

Démonstration. Nous nous inspirons largement des arguments de la démonstration de la LIL


pour l'estimateur de Kaplan-Meier (voir [Földes et Rejtö 1981 b] Théorème 1.).
n
Pour tout x ∈ R, on note : N + (x) = 1{Xi <x} et βi (x) = 1{Xi >x, δi =1} ,
P
i=1
n  βj (x) n  + βj (x)
N + (Xj ) N (Xj )+1
l'estimateur Fn s'écrit : Fn (x) = , et notons :
Q Q
N + (Xj )+1
F n (x) = N + (Xj )+2
j=1 j=1
et S̃(x) = P (X > x, δ = 1) = ]x,+∞[ G(u)dF (u), la sous loi de loi empirique : S̃n (x) =
R
n
1
βi (x), et comme H est continue, on peut l'estimer par : Hn (x) = n1 N + (x).
P
n
i=1
Posons, par ailleurs : T (x) = ]x,+∞[ dH(u)
S̃(u)
= log F (x) et Tn (x) = ]x,+∞[ dHS̃nn(u)
(u)
.
R R

Nous avons :
|Fn (x) − F (x)| ≤ |Fn (x) − F n (x)| + |F n (x) − F (x)|, (3.4)
et :
|F n (x) − F (x)| ≤ |elog F n (x) − eTn (x) | + |eTn (x) − eT (x) |. (3.5)

27
De plus, le développement de Taylor de la fonction exponentielle donne :


elog F n (x) − eTn (x) = (log F n (x) − Tn (x))eTn (x) , où Tn∗ (x) est entre log F n (x) et Tn (x) (3.6)
1 ∗∗
et eTn (x) − eT (x) = (Tn (x) − T (x))eT (x) + (Tn (x) − T (x))2 eTn (x) , où Tn∗∗ (x) est entre Tn (x) et T (x)
2
(3.7)

Le résultat visé découle des lemmes suivants, qui traitent chacun des termes des décomposi-
tions (3.4) et (3.5) :
Lemme 7. Pour presque tout ω, il existe n0 (ω) ∈ N tel que si n ≥ n0 (ω), alors pour tout
x ≥ xn , k1 > 0 et k2 ≥ 0/k = k1 + k2 > 1, on a :

2k1
Z  
dS̃n (u) 2 1
a) k1
≤ k−1 + ,
]x,+∞[ Hn (u)H 2 (u)
k F (x)Gk−1 (IF ) A k − 1
Z   k−1
dS̃n (u) n 2
b) k1
= O ,
]x,+∞[ Hn (u)H 2 (u)
k log log n
 q 
où xn = F −1 2A
G(IF )
log log n
2n
, avec A > 0 est une constante à préciser.

Démonstration. Pour presque



tout ω , et pour tout ε > 0, on a selon la LIL de Kiefer :
nsup |Hn (u)−H(u)|
∃ n0 (ω) ∈ N/ ∀ n ≥ n0 (ω) : √ log log n
u∈R
≤ 1 + ε, ce qui donne, pour tout A ≥ ε + 1 :
2

r
log log n
sup|Hn (u) − H(u)| ≤ A . (3.8)
u∈R 2n
q
Et pour tout u ≥ xn , nous avons, d'après les propriétés de F −1 : F (u) ≥ 2A
G(IF )
log log n
2n

r
log log n F (u)G(IF )
A ≤ . (3.9)
2n 2
Nous déduisons de (3.8) et (3.9) que pour tous n ≥ n0 (ω) et u ≥ xn : |Hn (u) − H(u)| ≤
F (u)G(IF )
2
≤ H(u)
2
⇒ Hn (u) = H(u) + Hn (u) − H(u) ≥ H(u) − |Hn (u) − H(u)| ≥ H(u) 2
, donc pour tout x ≥ xn ,
on a :

2k1
Z Z
dS̃n (u)
k1
≤ k
dS̃n (u)
]x,+∞[ H (u)
k
]x,+∞[ Hn (u)H 2 (u)

2k1 2k1
Z Z
≤ k
d( S̃n (u) − S̃(u)) + k
dS̃(u) . (3.10)
]x,+∞[ H (u) ]x,+∞[ H (u)

28
D'une part, nous avons, en appliquant la formule d'intégration par parties et par continuité
de H :

2k1 2k1 S̃n (x) − S̃(x)


Z Z  
k1 1
k
d(S̃n (u) − S̃(u)) ≤ +2 (S̃n (u) − S̃(u)) d
]x,+∞[ H (u) H k (x) ]x,+∞[ H k (u)
2k1 sup|S̃n (t) − S̃(t)|  
t∈R k1 1
≤ + 2 sup|S̃n (t) − S̃(t)| −1
H k (x) t∈R H k (x)
k1 +1
2 sup|S̃n (t) − S̃(t)|
t∈R

H k (x)
2k1 +1 sup|S̃n (t) − S̃(t)|
t∈R
≤ .
F k (x)Gk (IF )

En appliquant la LIL de Kiefer à S̃ (elle est bien applicable car S̃(t) est la fonction de
répartition du vecteur (−T, C − T ) au point (−t, 0)), et en prenant ε = 1 dans la dénition
de la limite supérieure, nous obtenons :
q
k +2 log log n
Z
2k1 2 1
2n
k
d(S̃n (u) − S̃(u)) ≤ k k
(3.11)
]x,+∞[ H (u) F (x)G (IF )
q
k1 +2 log log n
2 2n
≤ k−1
F (x)F (xn )Gk (IF )
2k1 +1
= (3.12)
AF k−1 (x)Gk−1 (IF )

par continuité de F .
D'autre part, nous avons :

2k1 −G(u)dF (u)


Z Z
dS̃(u) = 2k1
]x,+∞[ H k (u) ]x,+∞[ F k (u)Gk (u)
k1 Z
2 dF (u)

Gk−1 (IF ) k
]x,+∞[ F (u)
2k1
 
1
= −1
(k − 1)Gk−1 (IF ) F k−1 (x)
2k1
≤ . (3.13)
(k − 1)F k−1 (x)Gk−1 (IF )

Les relations (3.10), (3.12) et (3.13) entraînent le point


q a), et le point b) en découle en
constatant que pour x ≥ xn , nous avons : F (x) ≥ G(I
2A
F)
log log n
2n
.

29
Lemme 8. sup |Fn (x) − F n (x)| = O
 
1

n log log n
p.s.
x≥xn

n n n
Démonstration. De la relation : |aj − bj | ((aj )1≤j≤n , (bj )1≤j≤n ⊂ [0, 1]),
Q Q P
aj − bj ≤
j=1 j=1 j=1
nous déduisons que pour tout x ≥ xn , nous avons :
n βj (x)  + β (x)
N + (Xj )

X N (Xj ) + 1 j
|Fn (x) − F n (x)| ≤ + (X ) + 1

j=1
N j N + (Xj ) + 2
n
X βj (x)

j=1
(N + (Xj ) + 1)2
n
X n ∆S̃n (Xj )1{Xj >x}
=−
j=1
(N + (Xj ) + 1)2
Z
n dS̃n (u)
=
]x,+∞[ (N + (u) + 1)2
Z
n dS̃n (u)

]x,+∞[ (N + (u))2
Z
dS̃n (u)
= 2
]x,+∞[ nHn (u)
  12
1 n
= O p.s. (d'après le lemme 7, pour k1 = 2 et k2 = 0)
n log log n
 
1
=O √ p.s.
n log log n

Lemme 9. sup | log F n (x) − Tn (x)| = O


 
1

n log log n
p.s.
x≥xn

Démonstration. Pour tout x ≥ xn , nous avons :


n β (x)
N + (Xj ) + 2 − 1 j
X 
log F n (x) = log
j=1
N + (Xj ) + 2
n  
X 1
= βj (x) log 1 − +
j=1
N (Xj ) + 2
Z  
1
=− n log 1 − dS̃n (u)
]x,+∞[ nHn (u) + 2

30
Z   Z
1 dS̃n (u)
⇒ | log F n (x) − Tn (x)| = n log 1 − dS̃n (u) +
]x,+∞[ nHn (u) + 2 ]x,+∞[ Hn (u)

le développement de la fonction logarithme donne :


Z " ∞ # !
X1 1
| log F n (x) − Tn (x)| = n − (nHn (u) + 2)−l + dS̃n (u)
]x,+∞[ l=1
l Hn (u)
Z   Z ∞
1 1 1 X
≤ − 2 dS̃n (u) + n (nHn (u) + 2)−l dS̃n (u)
]x,+∞[ H n (u) H n (u) + n
2 ]x,+∞[ l=2
Z Z
2 1 n(nHn (u) + 2)dS̃n (u)
= 2 dS̃n (u) +
]x,+∞[ nHn (u)(Hn (u) + n ) 2 ]x,+∞[ (nHn (u) + 2)2 (nHn (u) + 1)
Z Z
dS̃n (u) ndS̃n (u)
≤2 2
+ 2
]x,+∞[ nHn (u) ]x,+∞[ (nHn (u) + 2)
Z
dS̃n (u)
≤3 2
]x,+∞[ nHn (u)
 
1
=O √ p.s. (selon le lemme 7, pour k1 = 2 et k2 = 0)
n log log n

Lemme 10. a) ∃ K > 0/ sup |Tn (x) − T (x)| ≤ K p.s.


x≥xn
q 
log log n
b) sup F (x)|Tn (x) − T (x)| = O n
p.s.
x≥xn

Démonstration. a) Pour tout x ≥ xn , nous avons :


Z Z
dS̃n (u) dS̃(u)
|Tn (x) − T (x)| = −
]x,+∞[ Hn (u) ]x,+∞[ H(u)
 
d(S̃n (u) − S̃(u))
Z Z
1 1
≤ − dS̃n (u) + . (3.14)
]x,+∞[ Hn (u) H(u) ]x,+∞[ H(u)

D'une part, nous avons :


Z   Z
1 1 dS̃n (u)
− dS̃n (u) ≤ sup|Hn (t) − H(t)|
]x,+∞[ Hn (u) H(u) t∈R ]x,+∞[ Hn (u)H(u)
 r
4 2 log log n
≤ +1 p.s. (3.15)
F (x)G(IF ) A 2n

31
(d'après la LIL de Kiefer appliquée à H , et le lemme 7 -a) pour k1 = k2 = 1).
D'autre part, en procédant comme dans (3.11), nous obtenons :
r
d(S̃n (u) − S̃(u))
Z
4 log log n
≤ p.s. (3.16)
]x,+∞[ H(u) F (x)G(IF ) 2n

Les relations (3.14), (3.15) et (3.16) permettent d'écrire :


 r
8 1 log log n
|Tn (x) − T (x)| ≤ +1 p.s. (3.17)
F (x)G(IF ) A 2n
 r
8 1 log log n
≤ +1
F (xn )G(IF ) A 2n
 
4 1
= + 1 = K.
A A

b) Pour tout x ≥ xn , nous avons d'après (3.17) :


 r r !
8 1 log log n log log n
F (x)|Tn (x) − T (x)| ≤ +1 =O p.s.
G(IF ) A 2n n

Lemme 11. Pour tout x ≥ xn , on a :


KeK
 
|F n (x) − F (x)| ≤ | log F n (x) − Tn (x)| + 1 + F (x)|Tn (x) − T (x)| p.s.
2

Démonstration. Soit x ≥ xn , on a : |F n (x) − F (x)| ≤ |elog F n (x) − eTn (x) | + |eTn (x) − eT (x) |,
et les développements (3.6) et (3.7) entraînent :
∗ ∗∗
|F n (x) − F (x)| ≤ | log F n (x) − Tn (x)|eTn (x) + |Tn (x) − T (x)|F (x) + 12 (Tn (x) − T (x))2 eTn (x) .
De plus, en remarquant que Tn∗ (x) ≤ 0 et que Tn∗∗ (x) ≤ T (x) + |Tn (x) − T (x)|(ceci vient de
la dénition de Tn∗∗ (x), en regardant les deux cas : Tn (x) ≤ T (x) et Tn (x) > T (x)), nous
obtenons :
1
|F n (x) − F (x)| ≤ | log F n (x) − Tn (x)| + F (x)|Tn (x) − T (x)| + F (x)(Tn (x) − T (x))2 e|Tn (x)−T (x)|
2
KeK
≤ | log F n (x) − Tn (x)| + (1 + )F (x)|Tn (x) − T (x)| p.s. (selon le lemme 10)
2

La décomposition (3.4), et les lemmes 8, 9, 10 et 11 permettent d'écrire :


r !
log log n
sup |Fn (x) − F (x)| = O p.s.,
x≥xn n

32
or : sup|Fn (x) − F (x)| ≤ sup |Fn (x) − F (x)| + sup |Fn (x) − F (x)|, il ne reste donc qu'à
x<xn
x∈R q x≥xn
montrer que : sup |Fn (x) − F (x)| = O log log n
n
p.s.
x<xn
En eet, nous avons pour tout x < xn : |Fn (x) − F (x)| ≤ F (xn ) + |Fn (xn ) − F (xn )| (il sut
de regarder les deux cas : Fn (x) < F (x) et Fn (x) ≥ F (x)), d'où :

sup |Fn (x) − F (x)| ≤ F (xn ) + |Fn (xn ) − F (xn )|


x<xn
r
2A log log n
= + |Fn (xn ) − F (xn )|
G(IF ) 2n
r !
log log n
=O p.s.
n

On peut tirer de ce théorème, le corollaire suivant :

corollaire 1. On suppose que F et G sont continues, et soit θ ∈ R / G(θ) > 0, on a :


r !
log log n
sup |Fn (x) − F (x)| = O p.s.,
x≥θ∗ n

où θ∗ = max(θ, IF ).
Pour démontrer ce résultat, on considère les deux cas suivants :
- Si IF > IG , on retrouve le théorème ci-dessus.
- Si IF ≤ IG , dans ce cas on a : θ∗ = θ, et on procède d'une façon similaire
q à la démonstration
∗ ∗
du théorème sauf que la relation (3.9) sera remplacée par la relation : A log2n
log n
≤ F (θ )G(θ
2
)
,
qui est vraie à partir d'un certain rang. Notons que les autres relations seront légèrement
modiées, conformément à cette dernière relation.

33
Chapitre 4
Simulation et applications

4.1 Etude de simulation


Dans le but d'évaluer les performances des estimateurs que nous avons étudiés, nous allons
présenter une étude de simulation qui consiste à comparer les courbes de ces estimateurs,
basés sur des échantillons de lois connues, avec les courbes des fonctions théoriques connues.
L'estimateur du taux de harsard se déduisant de ceux de la densité et de la fonction de
survie, nous n'avons pas eectué de simulation pour ce dernier.
Les modèles théoriques utilisés dans cette étude sont basés sur deux lois de probabilité
très employées dans l'analyse de survie, à savoir la loi de Weibull et la loi log-logistique. La
loi de Weibull est caractérisée par la densité de probabilité suivante :
   
β  x β−1 x β
f (x) = exp − 1]0,+∞[ (x),
α α α

où α > 0 et β > 0 sont les paramètres de la loi ; α est dit le paramètre d'échelle, et β est
dit le paramètre de forme. La particularité de cette loi est que son taux de hasard peut être
croissant ou décroissant, suivant les valeurs de β :
• Si β < 1 : Le taux de hasard décroit.
• Si β = 1 : Le taux de hasard est constant.
• Si β > 1 : Le taux de hasard croit.
Quant à la loi log-logistique, elle est déne par sa densité de probabilité donnée par :

(β/α)(x/α)−β−1
f (x) = 1]0,+∞[ (x),
[1 + (x/α)−β ]2

où α > 0 est le paramètre d'échelle, et β > 0 est le paramètre de forme. La particularité de


cette loi est que son taux de hasard n'est pas monotone lorsque β > 1.
Nous allons maintenat présenter les résultats de notre étude. Dans toutes les gures
suivantes, n est la taille de l'échantillon et tc est le taux de censure, le graphe rouge représente

34
Figure 4.1  n=100, tc=37 % Figure 4.2  n=100, tc=23 %

l'estimateur et le graphe bleu représente la fonction théorique. Pour l'estimateur de Kaplan-


Meier, nous avons simulé, d'une part, une v.a. de loi de Weibull de paramètres α = 0.5 et
β = 2, censurée à droite par une une v.a. de loi de Weibull de paramètres α = 0.6 et β = 3,
ce qui a donné la gure 4.1, et d'autre part, la simulation d'une v.a. de loi log-logistique
de paramètres α = 3.7 et β = 6, censurée à droite par une une v.a. de loi log-logistique
de paramètres α = 5 et β = 4 a donné la gure 4.2. Nous remarquons que l'estimateur de
Kaplan-Meier donne une bonne estimation de la fonction de survie même avec un taux de
censure dépassant les 30%.
Pour l'estimateur de la densité dans le cas de la censure à droite, il est naturel de supposer
qu'il n'y a pas d'ex-aequo, dans ce cas l'estimateur de Kaplan-Meier s'écrit comme suit
Y  δ(j)

Sn (x) = 1− ,
n−j+1
j/X(j) ≤x

où δ(j) est l'indicateur de censure associé à X(j) .


Et par conséquent, l'estimateur fn a la forme suivante
n
x − X(i) δ(i) Sn (X(i−1) )
 
1X
fn (x) = K .
hn i=1 hn n−i+1
 2
Nous avons utilisé le noyau gaussien, K(x) = √1

exp − x2 , et la formule de Silverman

35
suivante pour calculer la fenêtre :
 
Q3 − Q1 1
h = 0.9 × min σ, × n− 5 ,
1.34

où σ, Q1 et Q3 sont respectivement l'écart-type, et les quartiles de la série statistique (Xi , n1 )1≤i≤n .

Figure 4.3  n=300, tc=32,33%,


Figure 4.4  n=300, tc=25%, h=0.273263
h=0.2194491

La gure 4.3 est obtenue en simulant une v.a. de loi de Weibull de paramètres α = β = 2,
censurée à droite par une v.a. de loi de Weibull de paramètres α = 3 et β = 2. Quant à la
gure 4.4, elle est obtenue en simulant une v.a. de loi log-logistique de paramètres α = 3.7
et β = 6, censurée à droite par une v.a. de loi log-logistique de paramètres α = 5 et β = 4.
Ces graphes montrent que les méthodes du choix de la fenêtre pour les données complètes,
donnent également, des résultats satisfaisants pour les données censurées.
Passons maintenant à l'estimateur produit limite dans le cas de la censure à gauche. Nous
l'avons simulé pour une v.a. de loi de Weibull de paramètres α = 0.7 et β = 4, censurée à
gauche par une v.a. de loi de Weibull de paramètres α = 0.6 et β = 2, ce qui a conduit à la
gure 4.5. Et pour le modèle log-logistique, nous avons utilisé une v.a. de loi log-logistique de
paramètres α = 5 et β = 4, censurée à gauche par une v.a. de loi log-logistique de paramètres
α = 3.7 et β = 6, et nous avons obenu la gure 4.6 qui conrme le bon comportement de
l'estimateur étudié, pour une taille relativement peu élevée.

36
Figure 4.5  n=100, tc=28% Figure 4.6  n=100, tc=21%

4.2 Application de l'estimation de la densité au lissage


des cartes démographiques
Le travail que nous allons présenter a été mené dans le cadre du programme Acteur (voir
[Les dossiers techniques, Certu 2005]) pour déterminer s'il existe des phénomènes de densi-
cation ou dédensication sur un territoire d'étude. Les indicateurs les plus classiques, basés
sur l'étude des densités communales brutes, n'apportent pas de réponse directe et satisfai-
sante à cette question, du fait que les cartes traditionnelles selon un découpage administratif
sont souvent diciles à analyser pour plusieurs raisons. Si l'on travaille par exemple, sur un
découpage à l'îlot :
• Elles sont tributaires du découpage, qui crée des ruptures articielles des phénomènes
bien souvent plus continues.
• Elles mettent en évidence des épiphénomènes, en faisant apparaître des îlots qui
peuvent ne pas constituer une zone importante de densité de par leur surface.
Pour pallier à ces inconvénients, il est possible d'eectuer un lissage des données, en
utilisant l'estimation de la densité par la méthode du noyau. Pour cela, on commence par
découper le territoire d'étude en îlots, où chaque îlot est un polygone portant une population,
et qui peut être modélisé par un point placé au centre appelé barycentre ou centroide. Nous
obtenons ainsi, un ensemble de données (Xi , Yi )1≤i≤n qui représentent les coordonnées des
centroides dans un repère orthonormé, et à chaque couple (Xi , Yi ) est associé le nombre Ni

37
Figure 4.7  Le découpage en îlots
d'habitants du ième îlot.
Il s'agit donc d'estimer la densité de probabilité du vecteur (X, Y ) dont l'ensemble
(Xi , Yi )1≤i≤n représente un échantillon aléatoire. L'estimateur à noyau de la densité bidi-
mensionnelle peut être écrit sous la forme générale suivante :
n  
X Pi x − Xi y − Yi
fn (x, y) = 2
K , , (4.1)
i=1
ln ln ln

où K est le noyau, (ln ) est la fenêtre, et Pi est la masse attribuée au point (Xi , Yi ) .
En se basant sur cette formule, nous allons estimer la densité de la population en un
nombre ni de points du territoire d'étude. Pour cela, nous appliquons à ce dernier, une
grille composée de carrés appelés mailles, et ayant le même côté qui représente le pas de la
grille. Ensuite, nous estimons la densité de la population en chacune de ces mailles.

Figure 4.8  Le maillage de la commune d'Angers


La formule (4.1) suggère de calculer la densité de la population à la jème maille par :
n  
X dij
fj = Ni K ,
i=1
l

38
 2
où K(x) = 1
2πl2
exp − x2 est le noyau gaussien, l est la fenêtre, et dij est la distance entre
la jème maille et le ième centroide.
Ensuite, pour conserver la population totale, on multiplie la valeur de chaque maille par le
coecient de normalisation suivant : n
P
Ni
i=1
m
P ,
fj
j=1

où m est le nombre total des mailles.


La formule que nous venons de présenter est celle utilisée dans le logiciel CrimeStat, il existe
bien d'autres formules assez proches, et plus ou moins performantes.
Nous remarquons que le calcul de la densité de la population en chaque maille prend
en compte l'entourage de cette maille, du fait que fj dépend des distances dij de la jème
maille aux centroides des îlots du découpage, et des nombres Ni d'habitants de ces îlots.
Ainsi, une zone entourée de zones de forte densité, verra sa densité renforcée par ce calcul
(remplissage des vides), et à l'inverse, une zone isolée à forte densité, ne sera maintenue
que si cette densité est beaucoup plus importante que celles de ses voisins (élimination des
épiphénomènes). Ce mode de calcul permet alors de faire des continuités de tendance dans
l'espace, mais il est faussé aux bords de la zone étudiée. En limite du périmètre d'étude, les
valeurs lissées sont faussées par l'absence de données à l'extérieur du périmètre : les données
sont "moins lissées", la densité est articielement augmentée. Il conviendra donc de signaler
ce phénomène, ou de réduire le périmètre visualisé lors de la cartographie pour exclure ces
zones de l'achage.
Les résultats de l'application de cette méthode aux villes de Toulouse, Bordeaux et Angers
sont représentés dans la gure 4.9 page suivante, où nous remarquons que la lecture sur la
carte lissée est bien plus claire que la lecture sur la carte brute.
Nous pouvons également appliquer cette approche, pour l'étude de l'évolution de la po-
pulation dans un intervalle de temps, et pour cela, il faut calculer la densité de population
aux bornes de cet intervalle et étudier les diérences des estimations obtenues pour repérer
les zones qui ont connu un gain ou une perte d'habitants. Par exemple, pour étudier l'évo-
lution de la population dans les trois villes précédentes, entre 1990 et 1999, on a représenté
les rapports
fj (1999) − fj (1990)
, j = 1, m,
9
où fj (t) est fj calculée à l'année t.
Ce qui a donné les cartes de la gure 4.10 page 41, qui montrent que le lissage cartographique
permet de repérer plus facilement les zones ayant connu des variations signicatives de
population. Ces zones n'apparaissent pas de manière claire sur les cartes représentant les
variables brutes, car souvent des îlots contigus présentent des évolutions diérenciées, et de
ce fait ne constituent pas des zones susamment homogènes pour être aisément identiables.

39
Figure 4.9 
40
Figure 4.10 
41
4.3 Application de l'estimateur de Kaplan-Meier à l'éva-
luation de l'endurance des établissements économiques
sur les marchés d'exportation
Etant principalement exploitée dans les domaines de la santé et de l'organisation in-
dustrielle, l'analyse de survie est récemment appliquée à un large évantail de domaines des
sciences sociales, pour étudier, entre autres, la durée des grèves, la durée du chômage, du
roulement de la mobilité des entreprises, de la survie des nouvelles entreprises et de la du-
rée des cycles économiques, mais elle est rarement exploitée au commerce international.
Nous allons présenter une étude qui a été menée par Sabuhoro J. B. et Gervais Y. (voir
[Sabuhoro et Gervais 2004]), et qui applique l'analyse de survie à l'étude de la capacité des
établissements canadiens à demeurer des exportateurs actifs. La variable étudiée est la pé-
riode de temps qui s'écoule du début de l'activité d'exportation à la n de celle-ci ou jusqu'au
moment de la dernière mesure, moment qui peut précéder la cessation de l'activité, produi-
sant une donnée censurée à droite. Les observations correspondent à des intervalles de durée
t1 , t2 , . . . , tn , exprimés en mois, et elles sont extraites du Registre des exportateurs de Sta-
tistique Canada couvrant la période de 1993 à 2000 (i.e. de 96 mois). La convention qui suit
a été adoptée pour dénir la variable étudiée et l'indicateur de censure : tout établissement
qui se retire des marchés d'exportation pendant 12 mois consécutifs est considéré comme
étant sorti de ces marchés. L'adoption de cette convention permet de tenir compte de la
saisonnalité des exportations, donc de ne pas considérer comme ayant quitté les marchés
d'exportation des établissements qui n'exportent qu'une ou deux fois par an. Pour respec-
ter cette convention, les observations pour lesquelles la n de la séquence d'exportation est
inférieure ou égale à 12 ou supérieure ou égale à 85 sont censurées. On a recueilli 107992
observations dont 47015 soit 43,5% sont censurées. Le calcul de l'estimateur de Kaplan-Meier
a donné le tableau de la gure 4.11, et la courbe de la gure 4.12.

Figure 4.11 

42
Figure 4.12 
Cette étude révèle que la probabilité de se retirer des marchés d'exportation avant 12
mois est de 42,2 %, et la durée médiane de survie est de 20 mois.
Plusieurs facteurs peuvent inuencer la réussite ou l'échec des établissements sur les
marchés étrangers, nous allons nous intéresser à deux de ces facteurs, à savoir la taille relative
de l'établissement et les sorties antérieures des marchés. Pour évaluer l'eet de la taille, nous
utilisons la valeur moyenne annualisée des exportations pour créer des catégories de taille
qui permettent de classier les données en sous-populations, ensuite nous traçons et nous
comparons les courbes de survie correspondantes à ces sous-populations. Les catégories sont
les suivantes :
10 : qui représente une moyenne inférieure à 10 000 $.
30 : qui représente une moyenne entre 10 000 $ et 30 000 $.
100 : qui représente une moyenne entre 30 000 $ et 100 000 $.
1 000 : qui représente une moyenne entre 100 000 $ et 1 000 000 $.
5 000 : qui représente une moyenne entre 1 000 000 $ et 5 000 000 $.
5 001 : qui représente une moyenne supérieure à 5 000 000 $.
Les courbes de survie selon la catégorie de taille sont présentées à la gure 4.13 page
suivante. Les résultats montrent qu'il existe une relation positive entre la taille et la durée
de survie. Cependant, pour les établissements dont la valeur des exportations est inférieure à
100 000 $, les courbes de survie sont superposées pour les périodes les plus anciennes, ce qui
donne à penser que les taux de survie ou les taux de mortalité étaient peut-être les mêmes.

43
Figure 4.13 
Pour déterminer l'eet des sorties antérieures sur la durée de survie, nous utilisons le
nombre d'épisodes antérieurs comme variable de stratication lors de la production des
courbes de survie. Celles-ci sont présentées à la gure 4.14. Elles donnent à penser que les
sorties n'ont un eet négatif sur la durée de survie que dans le cas des établissements qui
se sont retirés des marchés étrangers une fois ou deux fois. Nous pouvons supposer qu'un
apprentissage est associé au retrait du marché, puisque les établissements qui se sont retirés
des marchés d'exportation plus de deux fois obtiennent de meilleurs résultats que ceux qui
ne sont entrés sur ces marchés qu'une seule fois.

Figure 4.14 
44
Bibliographie

[Breslow et Crowley 1974] Breslow N. and Crowley J., 1974. A large sample study of the life
table and product limit estimates under random censorship. The Annals of Statistics.
2,437-453.
[Diehl et Stute 1988] Diehl S. and Stute W., 1988. Kernel density and hazard function esti-
mation in the presence of censoring. Journal of Multivariate Analysis. 25, 299-310.
[Ferraty et Vieu 2002] Ferraty F. et Vieu P., 2002. Statistique Fonctionnelle : Modèles Non-
Paramétriques de Régression. Notes de cours de DEA.
[Ferraty et Vieu 2006] Ferraty F. et Vieu P., 2006. Nonparametric Functional Data Analysis
Theory and Practice. Springer Series in Statistics.
[Földes et al. 1980] Földes A., Rejtö L. and Winter B.B., 1980. Strong consistency proper-
ties of nonparametric estimators for randomly censored data, I : The product-limit
estimator. Periodica Math. Hung. 11, 233-250.
[Földes et al. 1981] Földes A., Rejtö L. and Winter B.B., 1981. Strong consistency properties
of nonparametric estimators for randomly censored data, II : Estimation of density and
failure rate. Periodica Math. Hung. 12, 15-29.
[Földes et Rejtö 1981 a] Földes A. and Rejtö L., 1981. Strong uniform consistency for non-
parametric survival curve estimators from randomly censored data. The Annals of Sta-
tistics. 9, 122-129.
[Földes et Rejtö 1981 b] Földes A. and Rejtö L., 1981. A LIL type result for the product
limit estimator. Z. Wahrscheinlichkeitstheorie verw. Gebiete 56, 75-86.
[Kaplan et Meier 1958] Kaplan E. L. and Meier P. 1958. Nonparametric estimation from
incomplete observations. Jasa, 457-481.
[Kiefer 1961] Kiefer J., 1961. On large deviations of the empiric d.f. of vector chance variables
and a law of the iterated logarithm. Pacic J. Math. 11, 649-660.
[Laha et Rohatgi 1979] Laha R.G. and Rohatgi V.K., 1979. Probability Theory. University
John Wiley & Sons.
[Les dossiers techniques, Certu 2005] Les dossiers techniques du programme ACTEUR Y a-
t-il des phénomènes de densication ou dédensication ? Approche de la ques-
tion et propositions d'indicateurs, Certu, 2005.

45
[Sabuhoro et Gervais 2004] Sabuhoro J. B. et Gervais Y., Document de recherche, Détermi-
nants de la réussite ou de l'échec des établissements canadiens sur les marchés étrangers,
selon une analyse de survie, Statistique Canada, 2004.
[Shorack et Wellner 1986] Shorack G. R. and Wellner J. A.,1986. Empirical processes with
applications to statistics. University John Wiley & Sons.

46
‘jÊÓ
ÈAÒJkB@ é¯AJ» ð ©K PñJË@ éË@X
 ø PY®Ö Ï éJKAîECË@ @ñmÌ '@ ‘ªK éƒ@   
. P YK. Ðñ®K , éËAƒQË@ è Yë ú¯
 ÐAJË@ éJƒ H PA® JË@ áëQK , éÓA
éË@YË  JË@ HAJ ¢ªÖÏ @ éËAg ú¯ . HAJ  ¢ªÖÏ @ áÓ ¬AJ“ @ èY« úÍ@ @XAJƒ@ 
. . .
Ðñ® K AÒ» .Ñ¢JJÖÏ @ ð ù¢® JË@ áK ñJ‚ÖÏ @ úΫ ½Ë X ð ,H. PA® JË@ @ Yë é«Qå  YK Ym' ©Ó éJ K QjJË@ ©K PñJË@
. .
éK ñjjÖÏ @ HAJ
      Q  
¢ªÖÏ @ éËAg ú¯ . è@ñJË@ ð X é¯AJºË@ PY®ÖÏ ùªJK. Ë@ ÈYªÖÏ @ ‡¯ð H. PA®JË@ á« éj    JK QªK
. . . .
      
è Yë ÉÒªJ‚ ð , Kaplan-Meier PY®ÖÏ Ñ¢JJÖÏ @ ÐAJË@ éJ.ƒ H. PA®JÊË éj.JK úΫ áëQ.K , áÒJË@ áÓ
 
 YK Ym' ©Ó , è@ñJË@ ø ð X é¯PAjÖÏ @ éJ ‚ ð é¯AJºË@ ø PY®Ö Ï ÐAJË@ éJƒ H PA® JË@ úΫ àAëQÊË éj
é«Qå  
. . . . . . JJË@
,PA‚Ë@ áÓ éK . ñj.jÖÏ @ HAJ
 ¢ªÖÏ @ ‘m' AÒJ¯ ð . é¯AJºË@ ÐA¢JKAK. é®Êª  JÖÏ @ HAJ
 “Q®Ë@ ‘ªK. Im  ' H. PA® JË@
àñKA¯ úΫ ð Ñ¢JJÖÏ @ YJ» B@ éJ.ƒ H. PA® JË@ úΫ áëQ.K ð ,©K PñJË@ éË@YË  úGAîDË@ Z@YmÌ '@ PY®Ó
.
 ÐY® K
úΫ áJ®J J.¢ áËAJÖß. ð èA¿ Am× éƒ@
 P YK éËAƒQË@
.
 è Yë Õæm' .P Y®Ö Ï @ @ YêË éJ . ‚ËAK. PQºÖÏ @ Õç'PA«ñÊË@
 HAJ
. éJ ®J ®k  ¢ªÓ
ð X é¯AJºË@ PY®Ó , úGAîDË@ Z@YmÌ '@ PY®Ó
.
 ,PA‚Ë@ áÓ Imk , áÒJË@ áÓ Imk : éJ kAJ®ÖÏ @ HAÒʾË@
.. .. 
.ÐAJË@ éJ.ƒ H. PA® JË@ , è@ñJË@ ð X é¯PAj.ÖÏ @ éJ . ‚ PY®Ó  , è@ñJË@
Abstract
In this work, we study some asymptotic properties of the distribution function and den-
sity estimators based on dierent type of observations. In the case of complete data, we
prove and we specify the rate of pointwise and uniform almost complete convergence of the
empirical distribution function. We also recall a result of mean-square convergence of kernel
density estimator. In the case of right censored data, we prove a result of uniform almost
complete convergence of the Kaplan-Meier estimator, which we use to prove almost complete
convergence of density and failure rate kernel estimators. We specify the rate of the conver-
gence, under some hypotheses concerning density smoothness. In the case of left censored
data, we introduce the product limit estimator of the distribution function, and we prove
uniform almost sure convergence and a law of the iterated logarithm for this estimator. We
conclude this work by a simulation study and a presentation of two applications on real data
given in the literature.

Keywords : right censoring, left censoring, product limit estimator, kernel density esti-
mator, kernel failure rate estimator, almost complete convergence.
Résumé
Dans ce mémoire, nous étudions quelques propriétés asymptotiques des estimateurs de la
fonction de répartition et de la densité basés sur diérents types d'observations. Dans le cas
des données complètes, nous montrons et nous précisons le taux de la convergence presque
complète de la fonction de répartition empirique aussi bien ponctuellement qu'uniformément.
Nous rappelons également, un résultat de la convergence en moyenne quadratique de l'es-
timateur à noyau de la densité. Dans le cas des données censurées à droite, nous montrons
un résultat de la convergence presque complète uniforme de l'estimateur de Kaplan-Meier,
que nous utilisons pour montrer la convergence presque complète des estimateurs à noyau
de la densité et du taux de hasard. Nous précisons le taux de la convergence, sous certaines
hypothèses de régularité de la densité. Quant au cas des données censurées à gauche, nous
introduisons l'estimateur produit limite de la fonction de répartition, et nous montrons la
convergence presque sûre uniforme ainsi qu'une loi du logarithme itéré pour cet estimateur.
Nous clôturons le mémoire par une étude de simulation et une présentation de deux appli-
cations sur des données réelles trouvées dans la littérature.

Mots-clés : censure à droite, censure à gauche, estimateur produit limite, estimateur à


noyau de la densité, estimateur à noyau du taux de hasard, convergence presque complète.

Vous aimerez peut-être aussi