0% ont trouvé ce document utile (0 vote)
146 vues157 pages

Tarification Avancée en Assurance Non Vie

Ce document présente les concepts fondamentaux de la tarification en assurance non-vie, notamment la décomposition de la prime, les principes de tarification et le partage de la variance entre l'assuré et l'assureur selon le niveau d'information.

Transféré par

Youssef Jabir
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
146 vues157 pages

Tarification Avancée en Assurance Non Vie

Ce document présente les concepts fondamentaux de la tarification en assurance non-vie, notamment la décomposition de la prime, les principes de tarification et le partage de la variance entre l'assuré et l'assureur selon le niveau d'information.

Transféré par

Youssef Jabir
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

PRATIQUES AVANCEES DE TARIFICATION

ET DE PROVISIONNEMENT EN NON VIE

ISFA - Master 2 Actuariat - 2019/2020

Xavier Milhaud
[Link]@[Link]
[Link]

1 / 157
Plan du cours

1 Introduction et rappels des concepts essentiels

2 Applications classiques des GLM en assurance

3 Usage pratique des GLM : les écueils récurrents

4 Réassurance, provisionnement, franchise, recours

5 Mise en place d’un zonier

6 Provisionnement ligne à ligne

2 / 157
1 Introduction et rappels des concepts essentiels

3 / 157
Contrat d’assurance - Tarification

Une police d’assurance est un contrat entre deux parties :


→ l’assuré, détenteur du contrat ;
→ l’assureur, pourvoyeur du contrat.

En échange de la couverture d’un risque par l’assureur, l’assuré


verse une prime d’assurance.

En cas de sinistre, le bénéficiaire du contrat reçoit le montant


contractuel prévu en cas de survenance du sinistre.

4 / 157
Ainsi le risque économique initialement supporté par l’assuré est
transféré vers l’assureur.

La mutualisation induite par la souscription de nombreux contrats


au sein d’une compagnie d’assurance permet l’utilisation grossière
de la loi des grands nombres.

En effet,

→ un portefeuille d’assurance couvre un risque en particulier :


les pertes sont considérées être de même loi de probabilité ;
Tarification par garantie !
→ les contrats sont a priori indépendants les uns des autres.

5 / 157
Ces propriétés doivent permettre à l’assureur de prédire avec une
précision relative les pertes encourues pour une période donnée.

Soit un portefeuille d’assurance contenant I polices. Notons la loi


du ième contrat Si (perte), et la loi des pertes agrégées SI .

La LFGN stipule la CV presque sûre de la moyenne empirique de


pertes i.i.d., notée S̄I = 1I Ii=1 Si , vers l’espérance de la loi :
P

p .s .
S̄I −→ E[Si ] = µ.
n→∞

 
Ou encore : P lim S̄I = µ = 1.
I→∞

6 / 157
Prime technique - prime commerciale

Ce résultat est à l’origine du principe général de tarification : la


prime vaut au moins µ, aussi appelée prime pure du contrat. C’est
cette prime que nous modéliserons.

En pratique l’assureur applique des chargements à cette prime,


car mathématiquement sa ruine est certaine à horizon infini dès
lors que la tarification respecte le strict principe d’équivalence.

La prime d’assurance Πi se décompose donc en +sieurs parties :


→ la prime technique (provisions techniques dans le bilan
économique SII) : comporte la prime pure E[Si ]+
chargements techniques ; où les chargements techniques
sont issus des principes de prime.

7 / 157
→ la prime d’inventaire composée de la prime technique + frais :

d’acquisition,
d’administration et gestion du contrat,
→ la prime commerciale (prime finale) intègre à la prime
d’inventaire la rémunération d’intermédiaires (courtiers, ...).
La stratégie de la compagnie peut également jouer sur la hauteur
de ces chargements.

Objectif de l’assureur :

Mettre en place une tarification segmentée tout en conservant le


principe de mutualisation.

En effet, nous savons que


→ E [S ] = E [E [S | X ]]
1 1
π(Xi )
P P
→ ce qui se dérive empiriquement n i Si ∼ n i

Les modélisations concernent la détermination de la prime pure.


8 / 157
Chargement technique : principes de prime

principe de l’espérance
principe de la variance
principe de l’écart-type
mesure de distortion : mesure de Wang, ...
...

9 / 157
Quelques principes de base en tarification

Soit Si la somme annuelle des sinistres du contrat i. Le nb Ni de


sinistres est une v.a. considérée ⊥
⊥ des coûts Yik , eux-même i.i.d. :
Ni

0

 si Ni = 0 X
Si =  ⇔ Si = Yik
Yi1 + . . . + Yin
 si Ni = n. k =1

Ainsi, EP [Si ] = EP [Ni ] × EP [Yik ].

En réalité, Ni est souvent conditionnellement ⊥


⊥ à Yi , donc

EP [Si | Xi ] = EP [Ni | Xi ] . EP [Yik | Xi ],

où Xi est un ensemble d’informations.

10 / 157
Le principe de la tarification est d’approcher X par un proxy
(variables tarifaires).
Ce proxy correspond aux info. indiv. → variables explicatives :

⇒ c’est le contexte des modèles de régression.

Supposons que l’assureur dispose de J facteurs explicatifs du


risque, notés {X1 , . . . , XJ }, on obtient alors la formule

EP [S | X1 , . . . , XJ ] = EP [N | X1 , . . . , XJ ] . EP [Y | X1 , . . . , XJ ].

Le problème est donc d’obtenir (tarification a priori, VS a


posteriori en crédibilité)
EP [N | X1 , . . . , XJ ] : estimation de la loi de N.
EP [Y | X1 , . . . , XJ ] : idem.

11 / 157
En économétrie, on cherche à estimer EP [Z | X1 , . . . , XJ ] par une
fonction des facteurs explicatifs notée Φ(X1 , . . . , XJ ).

En économétrie linéaire, on a coutûme de supposer que

Z | X1 , . . . , XJ ∼ N(β0 + β1 X1 + . . . + βJ XJ , σ2 ).

En notant X = (1, X1 , . . . , XJ )T le vecteur des facteurs de risque


et β = (β0 , β1 , . . . , βJ )T les coefficients de régression, on peut
simplifier cette écriture sous forme matricielle :

Z |X ∼ N(XT β, σ2 ).

Problème : le modèle linéaire est rarement adapté en assurance...


Alternative : besoin de supposer relations non-linéaires ⇒ GLM.

12 / 157
Arthur CHARPENTIER - Big Data (a Personal Perspective)

Principe de partage de la variance


(source : A. Charpentier)

Aucune segmentation, aucun transfert de risque.


→ Tout la Insurance
partie risquée: du
Personalization and
risque (contenu dans Customization
la variance) est
conservée par l’assureur.
Recall basic results on ratemaking and risk pooling.
No risk classification, identical premium

Insured Insurer
Loss E[S] S ≠ E[S]
Average Loss E[S] 0
Variance 0 Var[S]

13 / 157
Arthur CHARPENTIER - Big Data (a Personal Perspective)

Segmentation et information complète sur les facteurs


de risque (source : A. Charpentier)
Insurance : Personalization and Customization
Perfect classification, (ultra) personalized premium

Insured Insurer
Loss E[S| ] S ≠ E[S| ]
Average Loss E[S] 0
Ë È Ë È
Variance Var E[S| ] Var S ≠ E[S| ]
Ë È Ë È
Var[S] = E Var[S| ] + Var E[S| ] .
¸ ˚˙ ˝ ¸ ˚˙ ˝
æinsurer æinsured

Car Var (S − E [S | Ω]) = E [Var (S | Ω)]

14 / 157
Arthur CHARPENTIER - Big Data (a Personal Perspective)
Segmentation avec information incomplète
(source : A. Charpentier)
Insurance : Personalization and Customization
Imperfect classification, personalized premium

Insured Insurer
Loss E[S|X] S ≠ E[S|X]
Average Loss E[S] 0
Ë È Ë È
Variance Var E[S|X] E Var[S|X]

Ë È Ë È
Var[S] = E Var[S|X] + Var E[S|X]
Ë È Ë Ë - ÈÈ Ë È
-
= E Var[S| ] + E Var E[S| ]-X + Var E[S|X] .
¸ ˚˙ ˝ ¸ ˚˙ ˝ ¸ ˚˙ ˝
pooling solidarity æinsured
¸ ˚˙ ˝
æinsurer

15 / 157
Dangers d’une mauvaise tarification

Se tromper dans la tarification d’un produit peut avoir plusieurs


conséquences dommageables :
comme cela est souvent lié à la segmentation, il y a un risque
de composition du portefeuille (bons et mauvais risques) ;
investir dans 1 politique de vente (marketing, ...) mal adaptée ;
impact néfaste sur la concurrence, déficit d’image ;

mauvaise évaluation de la marge de risque, et donc in fine du


P
provisionnement : (pour rappel, SI = i Si )

VaRα (SI ) = inf{s ∈ R+ : P(SI > s ) ≤ (1 − α)}

16 / 157
Des difficultés liées à la réglementation

La législation a également un impact en termes de segmentation


et de tarification. L’exemple récent le plus célèbre :

Primes unisexe : “Les compagnies d’assurances ne pourront plus,


à partir du 21 décembre 2012, prendre en considération le critère
du sexe pour calculer les primes et prestations d’assurances dans
leurs contrats.” a jugé la Cour de justice de l’UE.

Explication du tarif en assurance : directive DDA (distribution en


assurance : éclairage notamment sur les marges et les
commissions).

Remarque : ce n’est pas le cas pour le provisionnement...

17 / 157
Etapes statistiques dans la tarification

1 Statistiques descriptives univariées et bivariées ;


2 Modélisation de la fréquence par un GLM adapté (choix d’une
loi pour la réponse, intégration des covariables), cela donne

E[N | X] = f1 (Xβ)

3 Modélisation du coût par un autre GLM adapté, on obtient


0 0
E[Y | X ] = f2 (X β)

4 Synthèse pour en déduire la prime (pure) :


0 0
E[Si | X, X ] = E [N | X] × E [Y | X ]

18 / 157
La potentielle propagation des erreurs

En construisant deux modèles (1 pour la fréquence et 1 pour la


sévérité), on prend le risque de propager des erreurs...

Parfois il vaut mieux essayer de construire un unique modèle qui


rende compte à la fois de la fréquence et de la sévérité : cela
dépend de la qualité d’adéquation de la loi de fréquence
notamment.

En réalité dans cette ultime approche, on perd l’info sur le nb de


sinistres et on s’intéresse à la charge totale par contrat. La masse
en 0 (contrats non-sinistrés) induit des difficultés de calibration.

19 / 157
Gestion / utilisation des données

La sinistralité se décompose généralement en trois typologies de


sinistre :
attritionnels : haute fréquence, petite sévérité ;
graves : basse fréquence, grande sévérité ;
CAT : très basse fréquence, sévérité extrême.

Nécessité de séparer ces données en amont car les GLM ne


fonctionnent que sur les sinistres attritionnels (voire graves) à
cause des queues des distributions des lois utilisées.

Remarque : CAT ⇒ cf cours de C.-Y. Robert sur la TVE (seuil, ...).


Ou bien modeles melanges finis et algo EM

20 / 157
Gestion de l’hétérogénéité inobservable : mélanges finis

Une approche potentielle pour gérer l’hétérogénéité des données


consiste à considérer des modèles mélanges finis. Ils peuvent être
discrets (ex : ZIP, cf + loin) ou continus (ex : loi binomiale négative
= mélange Poisson-Gamma, cf crédibilité).

Admettons que l’on observe l’échantillon x = (x1 , ..., xd )T ,


réalisations iid de X = (X1 , ..., Xd )T . La densité mélange de X
s’écrit comme suit dans le cas discret :
M
X M
X
p (x ; Θ) = πj fj (x ; θj ), avec πj = 1, πj > 0.
j =1 j =1

En termes d’estimation des paramètres, on se base généralement


sur l’algorithme Espérance-Maximisation (EM).

21 / 157
Principe de l’algorithme EM

Complétion artificielle des données pas à pas (on n’observe pas le


label Y d’appartenance des indiv. aux composantes).

Soit Z = (X , Y ), données observables et non-observables.


L’algorithme se décompose en 2 étapes à chaque itération k :
E-step : calcule la log-vraisemblance espérée des données
fictives complètes, soit

Q (Θ; Θ(k ) ) = EΘ(k ) [ln Lc (Θ) | X ]

M-step : met à jour les paramètres en maximisant Q, donc

Θ(k +1) = arg max Q (Θ; Θ(k ) ).


Θ

Au final : attribution de l’observation à l’une des composantes du


mélange avec une certaine probabilité (a posteriori).
22 / 157
Vision “As-If” des coûts

En principe, la base de données répertorie les montants de


sinistre relativement à une certaine date...

Afin de tarifer pour les années à venir, il est important de ramener


ces montants au moment de la tarification en mettant ces montants
en “as-if” : cela revient en général à capitaliser les montants sur
une ou plusieurs périodes pour les ramener au jour d’aujourd’hui...

23 / 157
2 Applications classiques des GLM en assurance
Assurance non Vie
Assurance Vie

24 / 157
Quelques applications en assurance IARD

L’usage des GLM est ancré depuis longtemps dans les moeurs.
On peut citer parmi les domaines concernés :
assurance santé : remboursements soins, frais
d’hospitalisation ;
assurance auto / moto : dommages matériels, vol, ... ;
assurance Multi-Risques Habitation (MRH) : incendie, vol,
dégâts des eaux, ...
assurance Responsabilité Civile (RC) : dommages à autrui.

Les cas de la RC, de l’assurance CATNAT et de la réass. IARD


sont un peu , car font intervenir des montants CAT en général.

25 / 157
Les applications en VIE

On se sert aussi des GLM en Vie, notamment en


épargne : essentiellement du risque comportemental sur les
produits en taux garantis (euro) ou non (UC) ;

prévoyance : DC, LTC (Long-Term Care : dépendance), CI


(Critical Illness : maladies redoutées), incap/inval. ;

réassurance vie : même remarque qu’en non vie.

Remarque : de par la nature des contrats, il y a souvent une


dimension temporelle dans la modélisation en Vie qui @ en non-vie
→ modèles de durée.

26 / 157
Exemple en risque décès (DC) : Lee Carter
[Lee and Carter, 1992]

C’est le modèle le plus utilisé en mortalité (longévité) :

log (µx (t )) = αx + βx κ(t ) + x (t )

x est l’âge, t l’année ;


µx (t ) est le taux de mortalité instantané l’année t à l’âge x ;
αx : structure de la mortalité en fonction de l’âge ;
κ(t ) : vitesse d’amélioration de la mortalité (série temp.) ;
βx : la vitesse d’amélioration a des impacts , selon l’âge ;
les résidus x (t ) ∼ N(0, σ2 ).

27 / 157
Exemple 2 : modèle de Brass
[Brass, 1964], [Brass and Macrae, 1984]

C’est un modèle relationnel basé sur la régression logistique :

qexp (x , t ) qref (x , t )
! !
ln = a + b × ln
1 − qexp (x , t ) 1 − qref (x , t )


x est l’âge de la personne, t est le facteur temporel,
qref est une table de mortalité de référence,
qexp est la table de mortalité d’expérience.

Calibre les coef. (a , b ) pour établir le passage d’1 table à l’autre,


par ex. d’une population nationale à une population d’assurés.

28 / 157
3 Usage pratique des GLM : les écueils récurrents
Les GLM : brefs rappels
Quelques notions opérationnelles importantes sur les GLM
Surdispersion et masse en 0
Segmentation et modélisation : limites à garder en tête
Tenir compte de l’exposition : l’offset
Réponse catégorielle : sur-représentation d’une modalité

29 / 157
Intérêt des GLM

Les GLM permettent de


modéliser des réponses diverses ∈ R, R+ , N, [0, 1], ... ;
intégrer toute type d’information exogène susceptible
d’influer sur la variable dépendante (réponse Y ),
quantifier l’impact des facteurs de risque X (sens/intensité),
résidus hétéroscédastiques (la loi varie par profil).

Ils nécessitent d’introduire deux hypothèses fondamentales :


les individus Yi sont ⊥
⊥ entre eux (rq : si les indiv. étaient
corrélés, cela résulterait aussi à avoir − d’indiv., donc n &) ;
les variables explicatives X sont ⊥
⊥ deux à deux.

30 / 157
Attention à la notion de corrélation entre variables

∃ plusieurs mesures de dépendance, e.g. corrélation de rang


(Kendall, Spearman). La + répandu est Pearson,

Cov (X , Y ) E [(X − µX )(Y − µY )]


ρX , Y = = ,
σX σY σX σY
où µX = E [X ] et σX est l’écart-type de X .

Mesure la corrél. linéaire. En effet, considérons la v.a. X telle que


X ∼ N(0, 1). Ainsi µX = 0, et µX 3 = 0. Notons Y = X 2 , on a

E [(X − µX )(X 2 − µX 2 )] µX 3 − µX µX 2
ρX , Y = = = 0.
σX σX 2 σX σX 2

Corrélation nulle alors que X et X 2 parfaitement corrélées !

31 / 157
Composants d’un GLM (i e individu)
[McCullagh and Nelder, 1989]

1 La loi de la réponse aléatoire Yi : par hyp. elle ∈ à une


distribution de la famille exponentielle.

Le prédicteur ηi = βj Xij , linéaire et déterministe :


PJ
2
j =1
les facteurs de risque explicatifs le constituent.

3 La fonction de lien g : monotone, dérivable, inversible. En


pratique, n’importe quelle FdR, t.q.

g (E[Yi ]) = ηi .

ηi = βj Xij Yi ∼ N(ηi , σ2 ).
PJ
Ex. du modèle linéaire : g = Id j =1

32 / 157
3 Usage pratique des GLM : les écueils récurrents
Les GLM : brefs rappels
Quelques notions opérationnelles importantes sur les GLM
Surdispersion et masse en 0
Segmentation et modélisation : limites à garder en tête
Tenir compte de l’exposition : l’offset
Réponse catégorielle : sur-représentation d’une modalité

33 / 157
Choix de la loi de l’erreur et fonctions de lien en actuariat

Adapter le lien en fonction du domaine de définition de Y .

Loi Lien naturel Moyenne Utilisation

N(µ, σ2 ) Id : η = µ µ = Xβ Rég. lin.

µ exp (X β)
B(µ) logit : η = ln( 1−µ ) µ= 1+exp (X β)
Taux

P(µ) log : η = ln(µ) µ = exp (X β) Fréquence

G(α, β) inverse : η = 1
µ µ = (X β)−1 Sévérité

IN(µ, λ) inverse2 : η = − µ12 µ = (X β)−2 Sévérité

34 / 157
La gaussienne

L’utilisation d’une loi Normale est encore très répandue... Mais cela
implique des erreurs fondamentales de raisonnement, notamment
la densité de la loi est symétrique,
sa queue de distribution est fine,
support non adapté à des charges sinistres ⇒ P(Y < 0).

35 / 157
Valeur des coefficients calibrés : impact sur la réponse

En général, on interprète les résultats de la manière suivante :


βj > 0 : % du facteur de risque Xj provoque % de g (E[Y ]) ;
βj < 0 : % du facteur de risque Xj provoque & de g (E[Y ])
βj = 0 : effet nul de la variation dudit Xj .

Evidemment, cela dépend aussi du type de modélisation !


Pour des modèles à effets additifs, la valeur de réf. sera 0 ;
Pour des modèles multiplicatifs, la valeur de référence sera 1
(à une transformation près parfois, cf modèle log-Poisson).
Pour connaitre le type d’effet, on réécrit le modèle sous la forme

E[Y | X] = g −1 (XT β).

36 / 157
Comparateur en ligne et odd-ratio (OR)

En souscrivant en ligne, vous pouvez par ex. avoir une idée de la


calibration de certains assureurs pour certains facteurs de risque :
comparer le tarif en faisant évoluer 1 seule caractéristique (ex :
âge, ancienneté du permis, couleur de la voiture, ...)

Cela correspond à l’odd-ratio, un rapport sur la quantité d’intérêt :

E[Y | Xj = xj + 1]
= h (βj ),
E[Y | Xj = xj ]

avec h une fonction à déterminer.

Exemple log-poisson : Y ∼ P(λ), donc λ = e X


T
β ⇒ h (βj ) = e βj .

37 / 157
Validation d’un modèle GLM

Il faut garder en tête que la validation d’une modélisation de type


GLM passe par plusieurs étapes :
1 construction de 2 échantillons ⊥
⊥ par tirage aléatoire : un
d’apprentissage (construction) et un de validation ;

2 validation de la significat. globale du modèle (déviance, LRT) :


déviance 2(ln L (Y | Y ) − ln L (µ̂ | Y )) ∼ χ2 (n − p − 1)
3 validation de la significativité des coef. de régression un à un ;
4 allure des résidus : doit être aléatoire (test des signes ? on ne
connait pas la loi des résidus dans un cas général, à cause de
la fonction de lien...) ;

5 confrontation “modélisé / empirique” sur l’échantillon de


validation par prévisions données par le modèle

38 / 157
Effets de facteurs de risque

En tant qu’actuaire, il est inutile d’appliquer un modèle sans


réflexion préalable sur les données. En ce sens, il est essentiel de
faire des statistiques descriptives afin de déterminer l’intérêt
éventuel de
discrétiser une variable continue (l’âge par exemple) : par des
stats descriptives bivariées, par des arbres CART, par des
modèles GAM sur cette variable (optimisation faite par
méthode semi-paramétriques de lissage, par ex. les splines,
cf [Pouna Siewe, 2010]), ...
rendre continue une variable catégorielle (ordonnée) : si l’effet
est monotone en fonction des modalités.

C’est la vision "ingénieur" couplée à la vision statisticien qui doit


primer !

39 / 157
Un peu plus loin : transformations au sein du prédicteur

Il peut être utile d’introduire une transfo. dans le prédicteur sur


certaines covariables en fonction du type d’impact sur Y .

Cette transformation sera choisie en fonction de l’effet du facteur


de risque sur Y lors de la visualisation des statistiques desc.

Prenons un ex. concret : supposons que l’âge x a un impact


exponentiel sur le taux de mortalité qx , mais que la CSP joue de
manière linéaire. Ainsi on posera un modèle de la forme

ln(qx ) = a + b x + ln(c CSP ) ⇔ qx = A × exp(bx ) × c CSP

40 / 157
2. Les modèles GLM ,

Résidus ?
Validation
L’exemple d’un
ci-dessous – Résidus
modèle GLMmontre que le modèle Gamma est bien
Les graphiques
mieux adaptéci-dessous mettent par
que le modèle exemple dans
lognormal en évidence que le modèle
cet exemple...
gamma (à gauche) est mieux adapté que le modèle LN (à droite) :

Dans le cas
Tarification, d’une
méthodes loi continue (coût moyen), on peut tester ces 38
avancées

résidus grâce au test des signes.

41 / 157
Tweedie or not Tweedie ?
[Boucher and Danail, 2011]

La densité est donnée par


!
1h i
f (y ; µ, φ) = a (y , φ) exp y θ(µ) − κ(θ(µ)) ,
φ
 µ1−p  µ2−p
 si p , 1  si p , 2
θ(µ) =  κ(θ(µ)) = 

 1 −p 
 2−p
log µ

si p = 1 log µ

si p = 2

Dans cette formalisation, E[Y ] = µ et Var (Y ) = ψµp = ψE[Y ]p ,


avec ψ un parametre de dispersion > 0.

42 / 157
L’ordre p ∈ R+ (paramètre d’indice), choisi (en fonction de
l’application) avant d’estimer µ et φ, définit le type de distribution :
→ p < 0 : réalisations dans R; p = 0 : loi gaussienne,
→ 0 < p < 1 : pas de distribution (pas de modèle Tweedie),
→ p = 1 avec φ = 1 : loi de Poisson,
→ 1 < p < 2 : loi composée Poisson-Gamma (réalisations ≥ 0),
→ 2 < p < 3 ou p > 3 : positive stable distributions (x > 0),
→ p = 2 : loi Gamma, p = 3 : loi inverse gaussienne.

En pratique, 1 < p < 2 pour modéliser fréq. et coût en mm tps !


Inconvénient : mêmes var. explicatives prises en compte dans les
lois de fréq. et de coût, or les praticiens savent qu’elles sont ,.

43 / 157
3 Usage pratique des GLM : les écueils récurrents
Les GLM : brefs rappels
Quelques notions opérationnelles importantes sur les GLM
Surdispersion et masse en 0
Segmentation et modélisation : limites à garder en tête
Tenir compte de l’exposition : l’offset
Réponse catégorielle : sur-représentation d’une modalité

44 / 157
Pratique courante

Dans les compagnies d’assurance, on penche souvent pour la loi


de Poisson dans la modélisation de la fréquence des sinistres
lorsqu’on adopte une modélisation de type fréquence-coût.

En effet,
la survenance des sinistres est considérée sans mémoire„
la Poisson ne dépend que d’un paramètre donc est simple
cela simplifie le calcul global de sinistralité à l’échelle du
portefeuille : loi Poisson composée stable par addition.

Souvent on observe que la variance empirique du nombre de


sinistres est bien supérieure à sa moyenne empirique : cela va
à l’encontre de la propriété fondamentale de cette loi ⇒ cette
modélisation n’est pas adaptée !

45 / 157
Cas classique de surdispersion : la Binomiale Négative

Elle peut être construite comme un mélange de lois de Poisson :

(N | Λ = λ) ∼ P(λ) et Λ ∼ Ga (α, δ).

La densité jointe de N et Λ vaut

λn δα λα−1 e −δλ
fN ,Λ (n, λ) = fN | Λ=λ (n) fΛ (λ) = e −λ (λ, α, δ > 0, n ∈ N).
n! Γ(α)

Λ est continue et N discrète : la distribution marginale de N est



λn δα λα−1 e −δλ

Z Z
P(N = n) = fN ,Λ (n, λ) d λ = e −λ dλ
0 0 n! Γ(α)
δα δα Γ(α + n)
Z ∞
= λn+α−1 e −(δ+1)λ d λ =
n! Γ(α) 0 n! Γ(α) (δ + 1)α+n

46 / 157
δ 1
Posons ensuite p= δ+1 , et q =1−p = δ+1 . Alors

Γ(α + n) α n
P(N = n) = p q .
n! Γ(α)

La v.a. N ∼ NB(α; p ) prend ses valeurs dans {0, 1, 2, ...}.

Remarques :
La queue de distribution est plus épaisse que celle d’une loi
de Poisson.
Sa variance est plus grande qu’une loi de Poisson : loi utilisée
en cas de surdispersion des observations.

47 / 157
Les modèles de comptage Zero-Inflated (ZI)
[Frees, 2009], [Vasechko et al., 2009]

Mélange à 2 composantes, utilisé lorsque survenance des


sinistres rare...Utile en modèle de cout moyen également.
Les “0” observés viennent de loi de comptage + loi en 0 :
deux “sources” de 0, proportion du Dirac égal à fzero (0)
l’autre regroupe les obs. , 0 provenant de la loi de comptage.
P(N = k ) = fzero (0) dirac(0) + (1 − fzero (0)) fcount (k ).

π0 + (1 − π0 ) ek si k = 0,
 −λ



Ex : N ∼ ZIP(λ) : P(N = k ) =  λ
(1 − π0 ) e −λ

 si k > 0.
k!
Régression (N continue) (cf formation comportements chris à la
fin). π0 peut resulter d’une binomiale par ex.

48 / 157
Les modèles de type “hurdle-at-zero”
[Frees, 2009], [Vasechko et al., 2009]

Modèle à 2 composantes, 1 seule source de 0 :


loi de type binomiale par exemple qui génère les 0 (ne
proviennent plus du tout de la loi comptage),
à laquelle on ajoute une loi de comptage tronquée.

f (0) si k = 0,
 zero



P(N = k ) =  fcount (k )
(1 − fzero (0))


 si k > 0.
1 − fcount (0)

π0 si k = 0,



Zero-trunc. P : P(N = k ) =  e −λ λk

(1 − π0 ) si k > 0.


(1 − e −λ )k !

49 / 157
3 Usage pratique des GLM : les écueils récurrents
Les GLM : brefs rappels
Quelques notions opérationnelles importantes sur les GLM
Surdispersion et masse en 0
Segmentation et modélisation : limites à garder en tête
Tenir compte de l’exposition : l’offset
Réponse catégorielle : sur-représentation d’une modalité

50 / 157
Création de poches d’assurés

La segmentation amène à créer des poches d’assurés ayant les


mêmes caractéristiques. Il y a un arbitrage naturel entre
une segmentation “grossière” : peu de poches différentes,
donc peu de tarifs , ;
une segmentation précise : beaucoup de profils de risque
considérés ,, des tarifs très personnalisés (cf pb Big Data).

Une question essentielle liée à cette problématique de


segmentation est l’exposition... moindre dans certaines poches !
→ Remise en cause du principe de mutualisation (LFGN)...
→ Attention pour les GLM (MLE asymptotique), voire même pour
le calcul de la sinistralité globale en espérance par agrégation...
→ En pratique, segmenter à outrance ne fait pas forcément
baisser le tarif car la prime de risque (rattachée à la prime pure)
augmente du fait de l’incertitude des estimateurs...
51 / 157
Difficultés de calibration des coefficients

Il arrive souvent en pratique que des coefficients de régression


calibrés ne soient pas significatifs. Cela correspond au test :

H0 : β̂j = 0 VS H1 : β̂j , 0.

But : rejeter H0 à un certain niveau de confiance α, en se basant


sur le test de Fisher (β̂j /Var (β̂j ))2 (∼ χ2 ).

Lorsque l’exposition est faible dans une poche, la calibration des


coefficients de régression affectés à cette poche devient ardue...

Cela est dû au fait que le MLE est asymptotiquement gaussien :

β̂MLE
j ∼ N(βj , 1/I(βj )).

52 / 157
⇒ La variance de l’estimateur peut devenir grande si l’information
de Fisher est faible (quantité d’info contenue dans les données,
petite dans le cas de trop peu d’individus).

La technique consiste alors à regrouper certaines modalités de


covariables qualitatives (ou catégorielles). La démarche
statistique “propre” s’y rapportant :
1 calibration du modèle saturé (ou modèle complet),
2 pour le test de chaque coef. associé aux covariables, repérer
la pire “p-valeur” au-dessus du seuil α,
3 agréger la modalité correspondante avec une autre
“intelligemment” ;
4 recalibrer le modèle, et revenir à l’étape 2 tant que le modèle
n’est pas satisfaisant.

53 / 157
Dimension du modèle à “minimiser”

On a tjs 2 effets inverses en modélisation (cf théorie de Vapnik) :


adéquation du modèle : + la dimension du modèle est grande,
+ l’adéquation aux données est bonne ;
qualité prédictive : + la dimension du modèle est grande, + sa
capacité prédictive est mauvaise (bruit au lieu du signal).

L’idée est donc de rechercher un arbitrage dans la dimension qui


permette d’obtenir un bon compromis dans ces 2 objectifs.
 
C’est ce qu’on appelle un modèle parcimonieux.
 
Critères de sélection de modèles emboîtés : AIC, BIC, ...
Econométrie : pénalité ex-post / Machine-learning : pénalité dans
l’optimisation (LASSO, ...).

54 / 157
Pénalités ex-post

Bien que conduisant potentiellement à des estimateurs biaisés, on


peut préférer au regard d’un critère d’erreur quadratique moyenne
des estimateurs pénalisés ex-ante !

55 / 157
Distribution de sinistralité par poche

Au final, une question importante est d’identifier les poches pour


lesquelles la modélisation marche bien ou non : il vaut mieux
se tromper sur certains profils que sur d’autres...

Pour cela, on confronte la densité théo. construite par GLM à la


densité empirique du profil (poche) : dans l’idéal ça coincide
presque !

56 / 157
Discontinuité dans la distribution des coûts

On observe parfois (surtout pour les branches à développement


long) des pics de densité pour certaines valeurs de coût de sinistre
unitaire.

Cela est dû par exemple à des forfaits à l’ouverture (de sinistre),


type convention IRSA ou forfait IDA en assurance automobile.

Ces montants forfaitaires doivent être exclus de l’étude !

Remarque : fréquemment cette suppression fait baisser le coût


moyen, ce qui voudrait dire que les forfaits d’ouverture sont
prudents.

57 / 157
3 Usage pratique des GLM : les écueils récurrents
Les GLM : brefs rappels
Quelques notions opérationnelles importantes sur les GLM
Surdispersion et masse en 0
Segmentation et modélisation : limites à garder en tête
Tenir compte de l’exposition : l’offset
Réponse catégorielle : sur-représentation d’une modalité

58 / 157
Qu’est-ce que l’offset ?

L’offset représente une sorte d’exposition.

C’est une constante qui va venir modifier le risque de base, donc


le risque qui n’est pas lié au profil de l’assuré en particulier.

Exemples d’offset :
assurance auto indiv. : nb d’années d’assurance du véhicule ;
assurance collective auto : taille de la flotte assurée ;
assurance collective incapacité-invalidité : effectif de salariés,
masse salariale ;
réassurance : taille du portefeuille, ...

59 / 157
Comment intégrer un offset dans un modèle GLM ?

Tout simplement ! C’est un terme commun à tous les individus,


mais dont la valeur va changer en fonction des individus.

En terme explicite, l’équation devient

g (E[Y | X = x]) = offset + xT β.

on contraint le coefficient de l’offset à valoir 1 (c’est


pourquoi il n’apparait pas dans l’équation !) ;
pour la calibration, on régresse g (E[Y | X = x]) − offset = xT β.

60 / 157
Exemple d’offset dans le modèle log-Poisson

L’idée globale de l’offset est que la réponse y est proportionnelle.

Donc l’offset s’exprime sur la même échelle que la réponse. Dans


le cas du modèle log-Poisson de paramètre λ, on aurait donc

ln(E[Y | X = x]) = ln(exposition) + xT β.

!
E[Y | X = x]
Soit le modèle suivant à calibrer : ln = xT β.
exposition

On remplace donc la fréquence (au sens nb de sinistres) par une


fréquence standardisée !

61 / 157
Comment intégrer l’offset dans le modèle binomial ?

Cf TP

62 / 157
Contraindre des coefficients dans une régression

Si l’on veut intégrer dans le modèle des facteurs de risque dont les
coefficients ont déjà une valeur (estimée par ailleurs auparavant),
on peut donc utiliser la même idée que l’offset...

Ainsi, si l’on souhaite par exemple intégrer un zonier dans le


modèle de tarification, on introduira cette variable Z comme un
offset y correspondant.
Par exemple dans le cas de 3 zones de risque, admettons que
zone 1 : z = −5%
zone 2 : rien.
zone 3 : z = +5%
On introduira la variable offset log(z ) dans un modèle poissonien,
par exemple log(1.05) pour la zone 3.

63 / 157
3 Usage pratique des GLM : les écueils récurrents
Les GLM : brefs rappels
Quelques notions opérationnelles importantes sur les GLM
Surdispersion et masse en 0
Segmentation et modélisation : limites à garder en tête
Tenir compte de l’exposition : l’offset
Réponse catégorielle : sur-représentation d’une modalité

64 / 157
Etude d’un taux de réponse faible

On cherche parfois à modéliser un événement binaire “rare” en


utilisant des modèles GLM.
 
Quel(s) problème(s) cela pose ?
 
Difficultés énoncées précédemment sur la calibration notamment
→ +sieurs poches où on observe (très) peu ou pas l’événement...

Exemples concrets (souvent en risque comportemental) :


taux de résiliation en assurance vie et non-vie (surtout en vie
où les taux de résiliation annuels sont + faibles) ;
taux de conversion en assurance directe par exemple.

65 / 157
Seuil d’affectation et courbe ROC

Dans ce type de problématique, on a coutume d’évaluer la


performance d’un modèle grâce à la courbe ROC.

Celle-ci permet également de voir que dans un tel cas, le meilleur


seuil d’affectation de la réponse à l’une ou l’autre des modalités
possibles pour la réponse ne se situe pas à une probabilité égale à
0,5...

66 / 157
Formalisation du contexte

Plaçons nous dans le cadre de risque comportemental pour


présenter le concept (ex : taux de conversion). Cela nous amène à
considérer un modèle GLM de type logistique, à savoir
!
pi
ln = xTi β.
1 − pi

Rappelons que
XTi = (1, Xi1 , ..., XiJ ) et βT = (β0 , β1 , ..., βJ ) ;
i ∈ 1, ..., I : Yi ∈ {0, 1} ⇒ Yi ∼ B(pi ) ;
pi = P(Yi = 1).

1
1yi =1 est de l’ordre de quelques % au +.
P
En pratique, p̄ = I i

67 / 157
Un aparté sur la fonction de lien

Dans le cadre du modèle logistique, 3 fonctions de lien sont


possibles. Elles sont liées aux 3 fonctions de répartition possibles
pour la variable aléatoire Y ∗ (continue) non observable (cf TP) :
FdR loi logistique (modèle logit) :
!
1 p
F (x ) = , g (p ) = ln
1 + ex 1−p

FdR loi normale centrée réduite (modèle probit) :


Z x
2
/2
F (x ) = Φ(x ) = e −t dt , g (p ) = Φ−1 (p )
−∞

FdR loi Gumbel II (modèle complementary log-log) :

F (x ) = 1 − exp(− exp(x )), g (p ) = log (−log (1 − p )).

68 / 157
Otherwise, it is the case of overlap.
Les deux problèmes théoriques associés
For a simple example , . Complete separation means that
such that [Albert and
and Anderson, 1984]
. Quasi-complete separation means
that such that and . Otherwise it is the case
1 of overlap.
La séparabilité : en fait, l’existence d’un estimateur du
maximum de vraisemblance est conditionné par le problème
The following graph shows the case when there are only two variables in the sample.
de séparation. Il n’@ de MLE en cas de séparation complète.

Figure 2 Possible configuration of sample points in the case of two variables, and , and two
groups, , shown by circles, and , shown by crosses. Regions and define corresponding
allocation rule. (a) Complete separation. (b) Quasi-complete separation. (c) Overlap.

With this definition, we will list the results from Albert and Anderson concerning the
situation of separation in logistic regression:
69 / 157
2 La dimensionnalité (“curse of dimensionality”).
On dispose souvent de bc de covariables : la dim. de l’espace
% vite et les données peuvent rapidement devenir “sparse”.

Pour toute procédure statistique, la sparsité est un problème


important. On entend parfois parler de

“Small N large P”

Pour avoir un résultat fiable dans la plupart des modèles


statistiques, la taille des données dont nous avons besoin croit
souvent exponentiellement en fonction de la dimension du modèle.

Remarque : dans le cadre de données “sparse”, on utilise plutôt la


régression ridge, lasso, elastic net...

70 / 157
Solutions “théoriques” existantes

Pour éviter le problème de sparsité ou de non-existence du MLE


pour des données qui seraient séparées (ou quasi-séparées), il
existe deux principales méthodes :

la vraisemblance pénalisée (penalized likelihood method) ;

la régression logistique conditionnelle exacte (exact


conditional logistic regression).

Rq : la 3e alternative est le response-based sampling, artifice


pour retomber sur un problème plus facile à traiter mais qui n’est
pas applicable directement sur le problème d’origine (cf + loin).

71 / 157
Un mot sur la vraisemblance pénalisée
[Firth, 1993]

C’est une technique adaptée au problème de petit échantillon (peu


de réponses observées égales à 1 entre dans ce cadre).

L’idée est de corriger le biais des estimations MLE (biais en


o (n−1 )) dû au manque de données. Pour corriger ce biais, on
optimise la vraisemblance pénalisée de l’information de Fisher :
q
L ∗ (β) = L (β) I(β).

Cette fonction de pénalité est appelée l’a priori de Jeffrey.


Asymptotiquement, son influence est négligeable.

72 / 157
Idée de la régression logistique conditionnelle exacte
[Mehta and Patel, 1995]

Considérons un coefficient de régression βj (j = 1, ..., J).


Introduisons la statistique exhaustive (ou suffisante) de βj

I
X
Tj = yi xij ,
i =1

L’inférence est basée sur la distribution exacte sous hypothèse


nulle de Tj , conditionnellement au vecteur de statistiques
exhaustives des autres coefficients :

Tj − = (Tk )k ∈[1,J ], k ,j

73 / 157
On maximise ensuite la vraisemblance conditionnelle

exp(βj tj )
P(Tj = tj | βj , Tj − = tj − ) = P P ∗
Ωj exp(βj i yi xij )

où Ωj est l’ensemble des permutations y ∗ de y telles que pour


chaque y ∗ ∈ Ωj X 0
yi∗ xij 0 = Tj 0 ∀j ∈ j − .
i

Fonctionne bien pour des données mal séparées ;


Consommateur de ressources calcul (mal adapté si big BdD).

74 / 157
Variance de l’estimateur MLE

Rappel.
L’erreur d’estimation de β est composée de 2 termes : le biais au
carré, plus la variance de l’estimateur. Cette erreur est différente
de l’erreur de modèle.

Estimation classique.
On estime le vecteur β de paramètres par maximum de
vraisemblance, où la vraisemblance vaut

L (β; y = (y1 , ..., yI )) = f(Y1 ,...,YI ) (y1 , ..., yI ; β).

Grâce à l’indépendance, L (β; y = (y1 , ..., yI )) = i fYi (yi ; β),


Q
et donc Y
y
L (β; y ) = pi i (1 − pi )1−yi
i

où β est caché dans pi .


(pi = exp(β0 + β1 Xi1 + ... + βk XiJ )/(1 + exp(β0 + β1 Xi1 + ... + βk XiJ )))
75 / 157
Ainsi, on cherche à résoudre le problème de minimisation

(β̂0 , β̂1 , ..., β̂J ) = arg min (− log L (β; y ))


β=(β0 ,...,βJ )
 
ln 1 + exp((1 − 2yi )xTi β) .
P
avec log L (β; y ) = − i

[Greene, 2008] montre que la variance de l’estimateur est donnée


par
  −1
X
Var (β̂) =  pi (1 − pi )Xi Xi  .
T


La proportion de 1 intervient dans le terme f (pi ) = pi (1 − pi ) ;


pi = P(Yi = 1 | X) est petit pour la plupart des individus ;

76 / 157
On peut faire quelques remarques :

f (pi ) est maximale pour pi = 0.5 ;

si le modèle a un pouvoir explicatif convenable, pi sera plus


grand pour les individus dont la réponse observée yi vaut 1
que pour les autres ;

donc pi (1 − pi ) sera plus grand pour ces individus (yi = 1) ⇒


leur variance sera + faible.

Ce raisonnement explique pourquoi augmenter la proportion de


réponses égales à 1 améliore l’estimation des coefficients de
régression.

77 / 157
Biais du MLE dans le cas “unbalanced dataset”
[McCullagh and Nelder, 1989]

Après avoir vu l’expression de la variance de l’estimateur, on peut


en estimer le biais (évidemment ces 2 quantités sont à minimiser).

Rappel : pour un estimateur β̂ de β, on définit le biais comme

biais(β̂) = E[β̂ − β] = E[β̂] − β.

Dans le cadre du MLE dans le modèle logistique, il est estimé par


la quantité
XT W ξ
biais(β̂MLE ) = T .
X WX
où W et ξ sont liés aux poids des observations et aux p̂i .

78 / 157
De manière plus précise, on a
wi est le poids accordé à l’observation i ;
p̂i est l’estimation fournie par la modélisation ;
ξi = 0.5 × Qii × [(1 + wi ) p̂i − wi ] ;
W est la matrice telle que W = diag (p̂i (1 − p̂i ) wi ) ;
Q est la matrice donnée par

X XT
;
XT W X
Qii sont les éléments diagonaux de la matrice Q ;

Rq : dans le cadre de petits échantillons avec peu de “succès”


(yi = 1), c’est β̂0 qui est affecté en premier. Par propagation, tous
les β̂j sont ensuite affectés.

79 / 157
Exemple de biais du MLE dans un modèle simplifié
[King and Zeng, 2001]

exp(β0 + β1 X1 )
Considérons la modélisation suivante : pi = .
1 + exp(β0 + β1 X1 )

Dans ce cas, on peut approximer le biais de β̂0 par

p̄ − 0.5
E[β̂0 − β0 ] = .
n p̄ (1 − p̄ )

Clairement, le biais sera donc négatif car p̄ est petit dans notre cas
⇒ on aura tendance à systématiquement sous-estimer β0 !

En revanche, ce biais diminue à la vitesse n−1 ...

80 / 157
Biais dans l’estimation de la probabilité de “succès”

Le biais dans l’estimation des paramètres induit automatiquement


un biais dans l’estimation des probabilités pi . On montre que la
proba. pi est sous-estimée dans le contexte du modèle logistique
(avec peu de succès observés), et que le biais peut être estimé par

pi = P(Yi = 1 | X) = p̂i + Ci

où le facteur de correction Ci vaut

Ci = (0.5 − p̂i ) p̂i (1 − p̂i ) X Var (β̂MLE ) XT .

→ Ci > 0 car p̂i petit : on sous-estime systématiquement pi ;


→ biais & si la variance de l’estimateur diminue, ou si p̂i %...
⇒ Il y a un lien entre le biais de la proba estimée et la variance de
l’estimateur β̂.

81 / 157
Modification du jeu de données

Les 2 approches théo. de correction du biais (vraisemb. pénal. /


reg. log. cond. exacte) étant difficiles à mettre en oeuvre, on opte
en pratique pour la méthode de type “importance sampling”.

Nous avons au départ un jeu de données dont le taux de


conversion vaut τ (ex : τ = 2%).

Pour éviter les pb de calibration avec ces données, on rééquilibre


l’échantillon en termes de nb d’événements d’intérêt observés.

C’est la response-based sampling method (ou choice-based


sampling method). Notons τc le nv taux de conversion (τc > τ).

82 / 157
Rééchantillonage de type response-based sampling

Nous devons donc construire un response-based dataset.


Cette méthode soulève 2 questions sans réponse évidente :

si nous changeons la proportion des modalités observés dans


l’échantillon d’apprentissage, le modèle construit sera
différent. Comment ensuite retrouver des résultats cohérents
pour la population d’origine ?

lors du rééchantillonnage, il faut choisir un taux arbitraire de


représentation des modalités de la réponse. Par ex., on choisit
30% (τc ) de contrats souscrits. Comment fixer ce taux ?

83 / 157
Formalisation du contexte

On dispose des données et du problème suivant :


I est la taille de l’échantillon initial ;
Yi ∼ B(pi ) ⇒ yi ∈ {0, 1} ;
Xi = (Xi1 , ..., XiJ ) ∈ RJ ;
on note fX la densité de X, et fY celle de Y .

On cherche à estimer le paramètre p0 de la loi de Y , après avoir


supposé un modèle paramétrique (logistique) :

fY (y | x) = fY (y | x, p0 ).

Notons que f (y , x) = fY (y | x, p0 ) fX (x) (Bayes).

84 / 157
Un aparté sur d’autres techniques de rééchantillonnage
(autres que response-based sampling)

Simple random sampling : vraisemblance d’1 seule obs. :

L sr (p ; (y , x)) = f (y , x) = fY (y | x, p ) fX (x).

→ Propriétés estimateur identiques que sur la population


globale (maximise la même forme de vraisemblance).

Exogenous stratified sampling : stratifie l’échantillon sur x.


On a dc une nvelle densité g (x), et la vraisemblance s’écrit

L es (p ; (y , x)) = f (y , x) = fY (y | x, p ) g (x).

→ Adapté pour sur-représenter des catégories de personnes.


→ Ne modifie pas le maxim. de la vraisembl. (se fait sur p).

85 / 157
Response-based sampling et modèle logit
[Xie and Manski, 1989]

Stratification sur la réponse Y : on modifie le taux d’occurence


de l’événement de la population d’origine. I désigne la taille de
l’échantillon, fY la densité de Y dans la population d’origine.

Y ∈ {0, 1} : notons 1 − τc le taux moyen (dans le nouvel échantillon)


de non occurence de l’événement, et τc son complémentaire.
On y associe le nb d’événements (ou pas événement) I0 et I1 t.q.
1 − τc = (I0 /I ) et τc = (I1 /I ).

Rappelons que fY désigne la densité de la réponse Y . On a

Iy fY (y | x, p )fX (x) Iy
L rb (p ; (y , x)) = f (x | y ) =R
I f (y
X Y
| x, p )fX (x) dx I

86 / 157
Ici l’optimisation est modifiée, contrairement à précédemment où la
vraisemblance à optimiser était directement une fonction de p à
travers le noyau fY (y | x, p ).

Ainsi le paramètre d’intérêt p sur lequel optimiser intervient


différemment dans le noyau qui devient

f (x , y ) fY (y | x, p )fX (x)
=R .
f (y ) f (y | x, p )fX (x) dx
X Y

Ici, la densité marginale de Y (au dénominateur) dépend de p : on


va donc modifier p̂ en maximisant la vraisemblance (estimation de
p) et obtenir un estimateur qui n’est pas robuste pour la population
globale.
Comment le rendre donc robuste ?

87 / 157
Méthode 1 : the weighting method
[Manski and Lerman, 1977]

Il suffit de pondérer la vraisemblance avant de l’optimiser sur


l’échantillon response-based.

Ils définissent ainsi la weighted maximum likelihood estimation,


basée sur la log-vraisemblance

I
X
log Lw (p ; (y , x)) = w (yi ) ln(f (yi | xi , p ))
i =1

avec
fY (y )
w (y ) = .
(Iy /I)

88 / 157
On conserve au final l’estimateur

p̂ MLE = arg max log Lw (p ; (y , x)).


p

Remarque : les poids font intervenir


la quantité (Iy /I ) : proportion de 0-1 dans la popu. créée.
→ Directement observable à partir des données.

fY (y ) = X fY (y | x, p )fX (x) dx : choix crucial si proportion du


R

phénomène non-observée en pratique.


→ issu en général d’une connaissance / information
extérieure (survey, ...) si non-observée (mais prop. observée
pr nous ds la pop. globale car classif. supervisée).

Rq : méthode qui fonctionne qlq soit le lien (logit, probit, ...).

89 / 157
En pratique...

On a
fY (y )
w (y ) = .
(Iy /I)
Au numérateur, il s’agit de la proportion de 1 (respectivement 0)
dans la population d’origine.
Au dénominateur, il s’agit de la proportion de 1 (respectivement 0)
dans la population response-based.
Donc
τ
pour yi = 1 : les poids sont w (1) = τc < 1

1−τc >
1−τ
pour yi = 0 : les poids sont w (0) = 1
On surpondère donc les observations égales à 0 : ceci est logique
puisque l’échantillon response-based contient bien moins de 0 que
celui d’origine...

90 / 157
Ecart de tarif

Ce biais peut rapidement mener à une sous-estimation importante


de la sinistralité dans le cas de gros portefeuille...

Prenons par ex. le portef. avec caractéristiques suivantes :


1 000 000 d’assurés,
une fréquence moyenne de survenance des sinistres de 10%,
un coût moyen du sinistre de 2000 euros.
Admettons que le biais de la probabilité de survenance soit de 1%,
donc sous-évaluée à 10% plutôt que 11%.
Grossièrement, il faudrait donc ajouter 10 000 sinistres dans
l’année, soit une charge totale de

10000 × 2000

soit 20 000 000 d’euros à payer en plus !


91 / 157
Méthode 2 : the prior correction
[Xie and Manski, 1989]

Cette technique ne fonctionne que dans le cas du modèle logit


(lien logit et bonne spécification du modèle).
Mener la procédure MLE sur l’échantillon response-based conduit
à estimer correctement ts les coef. de régression, excepté β0 .
On “corrige” donc l’estimation β̂0 de β0 comme suit :

1−τ τc
!
β̃0 = β̂0 − ln ,
τ 1 − τc

avec τ la prop. de 1 ds la pop., et τc celle ds l’éch. response-based.

Ainsi, on estime les coefficients par maximum de vraisemblance


sur l’échantillon response-based en introduisant avant un offset
1 − τ τc
!
valant ln .
τ 1 − τc
92 / 157
4 Réassurance, provisionnement, franchise, recours

93 / 157
Franchise : pertes internes collectées avec seuillage

Franchise : impacts sur la loi de frequence et de cout, aléa moral...

La modélisation LDA est notamment basée sur l’ensemble des


pertes collectées dans les bases de données internes.

D’un point de vue statistique, cette approche doit donc être


adaptée pour tenir compte de deux contraintes liées au dispositif
de collecte des pertes internes d’un groupe classique :
seuil de collecte des pertes internes : seules les pertes > H
sont collectées (conserver une bonne qualité des données) ;

présence d’agrégats de pertes dans la BdD : une perte


individuelle de montant Xik,j peut être composée de κk events
distincts dont on ignore les montants individuels (> H).

94 / 157
Distribution de la sévérité

On observe un échantillon (X1 , ..., Xn ) de pertes i.i.d. au delà du


seuil de collecte H.

On obtient donc une distribution modifiée par rapport à la


distribution théorique sans seuillage, donnée par

fθ (x ) f (x )
f̃θ|H (x ) = 1x >H = R ∞ θ 1x >H .
P(X > H ) fθ (u) du
H

Estim. des paramètres θ : méthode des moments généralisée


(minimise l’écart entre moments théo / moments empiriques), ...

95 / 157
Application au cas où Xik,j ∼ X ∼ LN(µ, σ)

Besoin : au − autant de moments théo. que de param. à estimer...


R∞
En notant les moments mp (θ) = E[X p | X > H ] = −∞
x p f̃θ|H (x ) dx,

ln H −(µ+σ2 )
1 − Φ( σ ) µ+σ2 /2
m1 (µ, σ) = ln H −µ
e
1 − Φ( σ )
ln H −(µ+2σ2 )
1 − Φ( σ ) 2(µ+σ2 )
m2 (µ, σ) = ln H −µ
e
1 − Φ( σ )

où Φ désigne la fonction de répartition d’une loi N(0, 1).

Puis on inverse le système en remplaçant m1 et m2 par µ̃n et σ̃n


(EMM), et on trouve µ̂ et σ̂ !

96 / 157
Distribution de la fréquence

Souvent modélisée par la loi de Poisson (Ni ,j ∼ N ∼ P(λ)) :

λn
P (N = n) = e −λ
n!
Simple (EMV = moy. empirique). Attention : équidispersion !
Calibration de la fréquence après celle de la sévérité pour
prendre en compte la présence du seuil de collecte :

λ̂H λ̂H
λ̂ = =
P(X > H ) 1 − Fθ̂ (H )

En pratique donc : calculer la moyenne empirique du nb de


pertes annuel (λH ) et utiliser l’estimateur de θ pour obtenir le vrai λ.

97 / 157
Recours et réassurance

Il y a 2 solutions :
soit les recours se traitent en amont de la modélisation
soit on modélise la probabilité de recours, puis combien cela
rembourse (approche PD-LGD en crédit)

La réassurance peut également intervenir dans le tarif : elle


s’intégre après estimation des modèles et déduction de la prime
pure.

98 / 157
Prise en compte du provisionnement

Idée : il manque de l’information dans la sinistralité observée dans


la base, car certains sinistres ne sont pas déclarés/clos... Le
provisionnement peut donc jouer dans la valeur de la prime
commerciale, en l’occurence la baisser si l’activité fait des
bénéfices ou la monter pour des branches à développement long.

Une manière d’intégrer le provisionnement au tarif revient à faire


d’abord un Chain Ladder pour évaluer la charge ultime au niveau
agrégé. On peut comparer au volume de prime recu pour en
déduire un Loss-Ratio.

Ce Loss-Ratio est ensuite appliqué à la prime déterminée par


GLM, ce qui vient normalement la diminuer : l’assureur devient
plus concurrentiel.

99 / 157
Déviation par rapport au tarif existant

En réalité, la refonte du tarif amène quasi-systématiquement à un


écart de tarif significatif entre l’existant et le nouveau.

Une manière de combler cet écart en pratique est d’estimer le


modèle GLM sans en tenir compte, puis on compare la nouvelle et
l’ancienne prime. Cela nous permet de déterminer une constante
permettant de passer d’une prime à l’autre.

Cette constante est ensuite réintégrée dans la modélisation via un


nouvel offset ; puis on re-estime le modèle avec cet offset.

N.B. : les méthodes différent suivant les sociétés...

100 / 157
Résumé des étapes de création d’un tarif

Dans l’ordre,
1 importation des données et premiers traitements (données
aberrantes, valeurs manquantes, transformation de types, . . . )
2 extraction des bases par garantie assurée
3 traitement des données (nettes de franchises, recours, forfait
type IDA, mise en as-if pour l’inflation, dvp des sinistres pour
prise en compte de provision ds tarif, réass. à répercuter ?)
4 statistiques descriptives (exposition, fréquence et cout moyen
par variable explicative, tests de corrélation, . . . ) et premiers
choix de travail sur les modalités
5 extraction des seuils et isolement des extrêmes
6 détermination de l’individu de référence
7 création d’échantillons d’apprentissage et de validation

101 / 157
8 modélisation (hypothèse, adéquation aux lois choisies, . . . )
9 optimisation du modèle et travail manuel sur les variables et
les modalités
10 validation du modèle (résidus, comparaison à l’empirique sur
l’échantillon de validation)
11 détermination des primes
12 viabilité des primes segmentées définies.

102 / 157
5 Mise en place d’un zonier
Zonier : introduction
Généralités sur les zoniers
Données à disposition
Pré-modélisation : une étape commune
Zonier administratif
Etapes de l’agrégation territoriale
Agrégation territoriale : choix du seuil d’exposition minimale
Zones de risque spatial : classification
Zonier par lissage spatial
Introduction
Le modèle de Boskov et Verrall
Approche bayésienne : mise à jour des paramètres du modèle
Zonier prédictif

103 / 157
Création d’un zonier

[Boskov and Verrall, 1994]

[Taylor, 2001]

[Taylor, 1999]

[MATHIS, 2009]

[Brouhns et al., 2002]

[Mahy and Denuit, 2002]

104 / 157
Définition d’un zonier

Définition (Larousse) du mot “Zonier, zonière”. Adj, nom.


Relatif à la zone autour de Paris ; habitant de cette zone.

Il semble que ce ne soit pas très adapté... En revanche, zonaire


(adj.) est affecté à un nom et désigne un ensemble qui présente
des zones.

Remarque importante : un véhiculier peut être rapproché d’un


zonier : on explique la sinistralité spécifique par le type de
véhicule. Par exemple, un certain modèle de moto est très présent
dans les motos école. La fréquence de sinistre observée sera
alors plus grande, cela est dû à l’utilisation du véhicule.

105 / 157
Objectif principal d’un zonier

A la base, le zonier en assurance a été introduit essentiellement


pour des raisons commerciales.

Objectif : éviter des “sauts” de tarif sur deux zones géographiques


voisines, tous critères égaux par ailleurs.

⇒ Vente par les agents rendue plus facile... Moins de plaintes des
assurés.

Autre avantage : création de classes de risque géographiques.


On diminue le nombre de modalités par rapport à si l’on avait
introduit la variable comme facteur de risque dans un modèle.

106 / 157
9.5. Cartographie du zonier des territoires administratifs

A partir de ce qui vient d’être défini ci-avant, un zonier de 10 zones a été réalisé et est
présenté ci-dessous (Figure 9-7). Le risque augmente selon le numéro de zone. Ainsi, la zone verte
Trois exemples de zonier différents
foncée correspond au territoire où le risque vol est le moins élevé et à l’inverse, la zone 10, rouge
foncée, correspond au territoire où le risque vol est le plus élevé. Comme cité précédemment,
chacune des 10 zones rassemble le même niveau d’exposition.

Le zonier administratif :

Figure 9-7 – Zonier administratif

107 / 157
10.4. Cartographie du zonier lissage spatial

Trois exemples de zonier différents (2)


Les niveaux de risques ont été calculés pour chaque commune. La technique de
classification par quantile est utilisée pour regrouper les communes en zones (paragraphe 9.4). La
carte illustre le zonier obtenu (découpage en 10 zones).

Le zonier par lissage spatial :

Figure 10-5 – Zonier lissage spatial


108 / 157
Trois exemples de zonier différents (3)

Le zonier prédictif :

Figure 11-9 – Zonier prédictif


109 / 157
Caractéristique des zoniers

Les zoniers se construisent en général par garantie !

Exemples :
garantie vol,
garantie CAT NAT (zonier inondation, sécheresse),
zonier santé (prix de la santé assez différent en fonction des
régions),
...

Idée sous-jacente : le risque de vol est fortement lié au lieu


d’habitation.
Agrégation de zoniers : question délicate !

110 / 157
5 Mise en place d’un zonier
Zonier : introduction
Généralités sur les zoniers
Données à disposition
Pré-modélisation : une étape commune
Zonier administratif
Etapes de l’agrégation territoriale
Agrégation territoriale : choix du seuil d’exposition minimale
Zones de risque spatial : classification
Zonier par lissage spatial
Introduction
Le modèle de Boskov et Verrall
Approche bayésienne : mise à jour des paramètres du modèle
Zonier prédictif

111 / 157
Système d’Information Géograph. (SIG)

Ensemble de données repérées dans l’espace, ou référence.


Par exemple :
données géographiques : un code postal par exemple ;
données localisées : nb de sinistres dans ce code postal.

On a des référentiels de données géographiques :


Code Officiel Géographique (COG), géré par l’INSEE :
codification des communes, cantons, arrondissements,
départements, régions, et DOM-TOM ;
Référentiel GEOFLA : géré par Institut Géog. Natio. (IGN) ;
les référentiels postaux, gérés par la Poste : Hexaposte,
Hexavia, Hexaclé, Hexaligne3, Cedexa ;
la norme AFNOR (Association Française de Normalisation) :
pour normaliser les adresses pour l’Europe.
112 / 157
5 Mise en place d’un zonier
Zonier : introduction
Généralités sur les zoniers
Données à disposition
Pré-modélisation : une étape commune
Zonier administratif
Etapes de l’agrégation territoriale
Agrégation territoriale : choix du seuil d’exposition minimale
Zones de risque spatial : classification
Zonier par lissage spatial
Introduction
Le modèle de Boskov et Verrall
Approche bayésienne : mise à jour des paramètres du modèle
Zonier prédictif

113 / 157
Stratégie en amont de la construction

En commun de toutes les techniques de zonage, il existe une


étape préliminaire permettant d’“isoler” l’effet du risque
géographique.

Remettons nous dans le cas classique et considérons par exemple


un modèle de fréquence.
On note Ni le nombre de sinistres de l’individu i, et on connait son
exposition notée ei (ex. : proportion de l’année civile où il est
présent en portefeuille).

Supposons que Ni ∼ P(λi ).

114 / 157
En spécifiant un modèle GLM log-Poisson avec un offset pour tenir
compte de l’exposition, on a

ln(E [Ni | Xi ]) = log(offseti ) + β0 + XiT β,

avec βT = (β1 , ..., βp ), et XiT = (X1i , ..., Xpi ).

Dans une modélisation classique, les facteurs X contiennent une


information sur le lieu où se trouve le risque (ex : lieu d’habitation
en MRH garantie vol).

On constituera comme dans le cadre général


un échantillon d’apprentissage pour construire du modèle,
un échantillon de validation pour valider le modèle,
(éventuellement) un éch. test pour la perf. du modèle.

115 / 157
Pour l’échantillonnage, on peut ou non procéder par
échantillonnage stratifié (sur l’exposition par exemple : 2/3 de
l’exposition dans l’échantillon d’apprentissage et 1/3 dans celui de
validation).

L’idéal est d’avoir une exposition presque uniformément répartie


sur le territoire (mais c’est évidemment assez utopique !).

Stratégie pour construire un zonier : ne pas intégrer le facteur


de risque géographique dans la calibration du modèle, puis
travailler sur les résidus pour faire ressortir cet effet.

Les méthodes de zonage consistent à mesurer le niveau de risque


par “région” ⇒ on obtient une partition en zones de risque
homogène.

116 / 157
Point de vocabulaire : on distingue dans les méthodes de zonage
deux types de données :
les données laticielles : données observées sur une partition
du territoire (ex : exposition par commune) ;

les données ponctuelles : données géocodées (ex : ensemble


de sinistres à des lieux précis).

117 / 157
Problématique classique

Une des principales problématiques concerne le manque


d’information.
Exemple : si la “région” considérée est une commune, on peut ne
pas disposer d’information à ce niveau.

Comment mesurer alors le risque relatif à cette commune ?

Cela dépend du type de zonier que nous construisons :


dans le cas d’un zonier administratif, il faudrait considérer
une “région” plus grande, et accentuer ainsi la mutualisation.
Cela induit :
- une perte de précision dans le zonier,
+ un gain dans la robustesse de la mesure du risque car on a
plus de données ;

118 / 157
procéder par lissage spatial (on mutualise les risques
proches, ex : Boskov-Verrall (1994), Taylor (2001)). Cela induit
notamment :
+ une extraction des petites fluctuations aléatoires du risque
pour en révéler la structure spatiale sous-jacente.
- une difficulté de calibration pour les paramètres de lissage,
difficulté d’arbitrer dans le niveau de précision du zonage.

procéder par introduction de variables externes


prédictives du risque géographique (sociodémographiques,
topographiques, de population, ...). Cela induit :
+ on peut extrapoler le niveau de risque d’une région non
exposée à partir de ses caractéristiques,
- choix complexe dans la multitude des indicateurs potentiels
pour la construction du modèle.

119 / 157
5 Mise en place d’un zonier
Zonier : introduction
Généralités sur les zoniers
Données à disposition
Pré-modélisation : une étape commune
Zonier administratif
Etapes de l’agrégation territoriale
Agrégation territoriale : choix du seuil d’exposition minimale
Zones de risque spatial : classification
Zonier par lissage spatial
Introduction
Le modèle de Boskov et Verrall
Approche bayésienne : mise à jour des paramètres du modèle
Zonier prédictif

120 / 157
Contexte

Principe du zonier administratif : le zonier administratif


correspond à un zonage par agrégation territoriale.

On prendra ici l’exemple d’un zonier fréquence (mais il existe des


zoniers de coût moyen aussi !).

Evidemment, il existe d’autres facteurs de risque que la région


expliquant la fréquence ⇒ trouver une mesure du niveau de risque
d’une région qui ne dépende que du facteur spatial (isoler
l’influence du facteur géo. toutes choses égales par ailleurs).

Rappelons que

Ni = offseti × e β0 × e β1 X1 × ... × e βp Xp + i
i i

121 / 157
Facteur de risque spatial : étapes

Supposons que X1 est le critère géographique. Alors β1 est le


facteur spatial.
1 on modélise N sans X1 ⇒ on obtient β̂2 , ..., β̂p en GLM par
exemple ;
2 → lorsque l’exposition est différente de 0, on pose :

e β2 X2 e βp Xp
i i
Ni β0 β1 X1i
Ri = = e ×e × ×...× .
offseti × e β̂2 X2 × ... × e β̂p Xp e β̂2 X2 e β̂p Xp
i i i i

Sous l’hypothèse β̂2 = β2 , ..., β̂p = βp , on définit le risque


spatial par
Ri = e β0 e β1 X1 +  ;
i 0

→ lorsque l’exposition est nulle, on prend Ri = 0.

122 / 157
On appelle Ri le risque spatial résiduel.

Rq : dans la suite, k est une “région”. En pratique, on aura


donc déjà agrégé les prévisions et observations des assurés
par “région”.

Rq 2 : on aurait aussi pu considérer Ni − N̂i plutôt que Ni / N̂i .

3 Admettons que nous travaillons au niveau commune ici. On


peut déduire l’estimateur r̂i de Ri pour chaque assuré :
ni
r̂i =
β̂2 X2i
...e β̂p Xp
i
offseti e

où ni est le nombre de sinistres observés pour l’assuré i.

123 / 157
On peut maintenant définir l’estimateur du risque spatial
résiduel au niveau de la commune k par
PI k
ei r̂i
r̂kc = Pi =k1 ,
I
i =1 ei

avec ei l’exposition (offset), I k le nombre d’assurés dans la


commune k .

4 On créé une nouvelle base de données où chaque ligne est


une commune, avec :
un code commune fourni par l’INSEE par exemple,
l’exposition ek de cette commune k ,
le risque résiduel spatial r̂kc ,
le nombre de sinistres prédits, n̂kc .

124 / 157
5 Enfin, on procède à l’agrégation territoriale au besoin.
→ Si le niveau choisi est trop fin (pas d’exposition), on agrège
alors au niveau d’au-dessus (ici le département par exemple).

Idée générale : la statistique de risque spatial résiduel doit pouvoir


être considérée robuste. Elle doit donc excéder un certain seuil
d’exposition minimal, noté e dans la suite.

125 / 157
Choix du seuil d’exposition minimale

On se rend compte que le risque spatial résiduel de chaque


commune k peut correspondre :
soit à son propre risque spatial résiduel évalué comme décrit
précédemment,
soit au risque spatial résiduel du niveau d’agrégation
au-dessus (si l’exposition était trop faible),
soit au risque spatial résiduel du niveau d’agrégation encore
au-dessus si cette dernière exposition n’était pas suffisante,
et ainsi de suite...

126 / 157
On stocke donc dans un tableau pour chaque commune tous les
niveaux de risque spatiaux possibles suivant le niveau d’agrégation
considéré (commune, canton, département, région, ...).

On se sert de ce tableau pour définir le seuil d’exposition minimale,


noté e dans la suite.

En résumé donc, on procède comme suit :


1 sur la base d’apprentissage notée A , on construit le GLM et
on calcule le niveau de risque spatial résiduel par commune
r̂kA (rkc précédemment) ;
2 sur la base de validation (test), on estime également le niveau
de risque spatial résiduel r̂kT par commune ;

127 / 157
3 pour trouver le seuil d’exposition minimale e, on optimise la
fonction
n
 
 X 
min  e (r̂kT − r̂kA )2 
e
k =1

avec n le nombre de communes.


En pratique, suivant la valeur de e, r̂kA et r̂kT diffèrent.
Pour tester , valeurs de e, on se définit une grille de valeurs
possibles (par ex. de l’exposition minimale à l’exposition maximale
avec un certain pas).
Si ek > e, on conserve les risques spatiaux résiduels courants r̂kA
et r̂kT . Sinon, on prend les valeurs pour l’agrégation d’au-dessus.

128 / 157
Classification par zone risquée

Une fois e optimal déterminé, on ré-affecte le bon niveau de risque


spatial résiduel pour chaque commune (celui de la commune si
ek > e, sinon celui du niveau d’agrégation d’au-dessus et ainsi de
suite).

Cette affectation est réalisé pour l’ensemble des données


(apprentissage et validation).

Les niveaux de risque par commune ont maintenant été calculés :


il faut regrouper les communes avec niveau de risque similaire afin
d’avoir un zonier.

En fonction du nombre de zones voulu (disons Z zones), on peut


faire une classification en Z classes. En général, cette

129 / 157
classification se fait par quantile d’exposition : on veut créer Z
classes avec même niveau d’exposition.

Notons a l’exposition de chacune des classes créées, ainsi

expo totale
a= .
Z
En pratique, on veut satisfaire le critère “avoir au moins a en
termes d’exposition”.

Concrètement, la première classe contient par exemple l’ensemble


des communes avec plus faible niveau de risque spatial dont la
somme des expositions soit au moins égale à a, et ainsi de suite.

On obtient ainsi la carte du zonier avec Z couleurs...

130 / 157
5 Mise en place d’un zonier
Zonier : introduction
Généralités sur les zoniers
Données à disposition
Pré-modélisation : une étape commune
Zonier administratif
Etapes de l’agrégation territoriale
Agrégation territoriale : choix du seuil d’exposition minimale
Zones de risque spatial : classification
Zonier par lissage spatial
Introduction
Le modèle de Boskov et Verrall
Approche bayésienne : mise à jour des paramètres du modèle
Zonier prédictif

131 / 157
Différence principale de cette technique

L’approche par lissage spatial ([J. Besag and Mollie, 1991],


[Boskov and Verrall, 1994], [Taylor, 2001], ...) a toujours pour but
d’estimer le facteur de risque spatial d’une région.

Ici le zonier final ne correspond pas à une découpe administrative


du territoire.

Le principe de base est de considérer la sinistralité liée à un lieu


ainsi que celle des “régions” alentours.

Hypothèse implicite de cette approche : 2 régions proches ont


des facteurs de risque spatiaux similaires.

132 / 157
Modèle de Boskov-Verrall, [Boskov and Verrall, 1994]

Modèle issu de la théorie bayésienne.


C’est le modèle de référence sur la place pour les compagnies
voulant mettre en oeuvre une approche tenant compte de
l’expérience passée, avec mise à jour régulière des paramètres.

On introduit les notations suivantes :


N = (N1 , N2 , ..., Nr ) = (Ni )1≤i ≤r ;
Ni le nombre de sinistres de la “région” i. ni est le nombre de
sinistres observés de la région i ;
i ∈ {1, 2, ..., r } : il y a r “régions” ;
ei est l’exposition de la région i.

133 / 157
On stipule un modèle GLM log-Poisson pour expliquer le nombre
de sinistres, avec un offset :

Ni = e ln(ei ) × e ηi +µi +νi .

Signification de chacun des termes de la modélisation :


ηi représente les facteurs de risque non spatiaux (âge, ...) ;
µi est l’effet du risque spatial ;
νi sont les résidus du modèle.

Etapes de modélisation :
1 On estime un GLM log-Poisson sans µi , le facteur de risque
spatial. On obtient ainsi η̂i .

2 Il reste deux quantités aléatoires dans le modèle d’origine :

134 / 157
µi pour l’effet du risque spatial,
νi pour les résidus du modèle.
On doit maintenant spécifier des distributions de probabilités
a priori pour ces 2 quantités afin de mettre en oeuvre la
théorie bayésienne.

3 Supposons que :
l’effet spatial µi est lissé, en introduisant une dépendance
spatiale entre les régions voisines. Notons δi l’ensemble des
régions dans le voisinage de la région i.
Une loi possible peut être

avec f (µi ; τ) ∼ τ−1/2 e − 2τ


1 2
µi ∼ Ui ∼ L(τ), ,
P
j ∈δi (µi −µj )

(Ressemble à un noyau gaussien centré sur la région i)


⇒ Seuls les voisins ont donc une influence sur la densité (on
pourrait même introduire une dépendance en fonction de la
distance entre “région”).

135 / 157
Pour trouver la loi du vecteur, on tient compte de cette
dépendance. Donc

f (µ; τ) = f ((µ1 , µ2 , ..., µr ); τ)


= f (µr | µ1 , ..., µr −1 ; τ)f ((µ1 , ..., µr −1 ); τ)
= f (µr | µ1 , ..., µr −1 ; τ)f (µr −1 | µ1 , ..., µr −2 ; τ)f ((µ1 , ..., µr −2 ); τ)
= ...
= f (µr | µ1 , ..., µr −1 ; τ) ... f (µ2 |µ1 ; τ)f (µ1 ; τ)
τ−r /2 e − 2τ
1 P 2
i ∼j (µi −µj )
=

où i ∼ j désigne l’ensemble des couples (i , j ) voisins.

136 / 157
les résidus νi sont indépendants, centrés, et de type
gaussien, i.e.

avec f (νi ; λ) ∼ λ−1/2 e − 2λ νi .


1 2
νi ∼ Vi ∼ L(λ),

On obtient donc
Y
f (νi ; λ) ∼ λ−r /2 e − 2λ νi2
1 Pr
f (ν; λ) = i =1 .
i

la loi a priori des paramètres est donnée par


ξ ξ
(τ, Λ) ∼ L(ξ), avec f (τ, λ; ξ) = e − 2τ − 2λ ,

avec ξ > 0 et petit.


C’est une distribution dite “peu informative” (donne peu
d’information sur la distribution du paramètre a priori).

137 / 157
4 On sait que Ni | ηi , µi ∼ P(ei × e ηi +µi ), donc N ∼ L(Θ) avec
Θ = (U , V , τ, Λ).

5 Détermination de la loi a posteriori des paramètres.


Pour prédire le nombre de sinistres, on cherche la loi de

N | (U , V , τ, Λ).

Notons (U , V ) = ((µ1 , ν1 ), (µ2 , ν2 ), ..., (µr , νr ))

P (N , (U , V )) P ((U , V )|N )P (N ) P ((U , V )|N )P (N )


P (N |(U , V )) = = =P
P (U , V ) P (U , V ) n P ((U , V )|N )P (N )

Ce qui nous amène à devoir connaitre la loi de (U , V ) | N,


autrement dit de (U , V , τ, Λ) | N puisque (U , V ) dépend de
(τ, Λ)...
138 / 157
Problème : (U , V , τ, Λ) | N n’a pas de forme connue. En effet,

f (µ, ν, τ, λ | n) ∼ P (N1 = n1 , ..., Nr = nr | U = µ, V = ν, τ = τ, Λ = λ) f (µ, ν, τ, λ)


= P (N1 = n1 , ..., Nr = nr | µ, ν, τ, λ) f (µ, ν | τ, λ) f (τ, λ)
= P (N1 = n1 , ..., Nr = nr | µ, ν, τ, λ) f (µ | τ = τ) f (ν | Λ = λ) f (τ, λ)
r
Y
= P (Ni = ni | µi , νi , τ, λ) f (µ | τ = τ) f (ν | Λ = λ) f (τ, λ)
i =1
Y r
θini
= e −θi f (µ | τ = τ) f (ν | Λ = λ) f (τ, λ) (forme inconnue !)
i =1
ni !

⇒ On a besoin d’une méthode type Monte Carlo Markov Chain


(MCMC).

139 / 157
Résumé du raisonnement

Voici donc les étapes qui conduisent au résultat :

1 On spécifie les lois a priori :


couple de paramètres (τ, Λ) (loi peu informative) ;

la dépendance spatiale via la loi de µi ∼ Ui ∼ L(τ) ;

le bruit (résidus) via la loi de νi ∼ Vi ∼ L(λ) ;

le nombre de sinistres via la loi de N ∼ L(Θ) avec


Θ = (τ, Λ, U , V ), plus précisément

N ∼ P(E [N ]) ∼ P(exposition × e η̂+U+V )

2 On cherche la loi a posteriori des paramètres via


l’échantillonneur de Gibbs (méthode MCMC).
140 / 157
Echantillonneur de Gibbs

On utilise l’échantillonneur de Gibbs pour deux raisons


principales :
les lois ne sont pas conjuguées : la loi a posteriori est
différente de celle a priori (donc ce n’est pas seulement une
mise à jour des paramètres de la loi a priori) ;
il n’est pas possible de trouver explicitement la loi a posteriori.

L’échantillonneur de Gibbs permet de déterminer un


échantillon de la densité a posteriori.

Principe : on exploite les densités conditionnelles. La simulation


d’une fonction multivariée peut se décomposer en plusieurs
simulations de fonctions univariées.

141 / 157
Donnons nous un vecteur pour nos variables aléatoires :

X = (τ, λ, µ1 , µ2 , ..., µr , ν1 , ν2 , ..., νr , n)

de densité conditionnelle f (τ, λ, µ, ν | n) (densité a posteriori).

On a donc observé un nombre de sinistres n, et on cherche


l’information que cela peut nous amener sur les autres paramètres.
L’échantillonneur de Gibbs permet d’obtenir des réalisations
de X .

C’est une procédure itérative où l’on va fixer tous les paramètres


sauf un : celui-ci est tiré au sort avec la distribution associée, puis
on actualise !

142 / 157
Algorithme de Gibbs en pratique

A partir de l’étape k , on tire pour l’étape (k + 1) :

1 τ(k +1) ∼ f (τ | λ(k ) , µ(k ) , ν(k ) , n)

2 λ(k +1) ∼ f (λ | τ(k +1) , µ(k ) , ν(k ) , n)

(k +1) (k ) (k )
3 µ1 ∼ f (µ1 | λ(k +1) , τ(k +1) , µ−1 , ν(k ) , n), où µ−1 =
(k ) (k )
(µ2 , ..., µr )
...
(k +1) (k +1)
µr ∼ f (µr | λ(k +1) , τ(k +1) , µ−r , ν(k ) , n)

143 / 157
(k +1) (k )
4 ν1 ∼ f (ν1 | λ(k +1) , τ(k +1) , µ(k +1) , ν−1 , n)
...
(k +1) (k +1)
νr ∼ f (νr | λ(k +1) , τ(k +1) , µ(k +1) , ν−r , n)

Il faut donc fixer des valeurs initiales en définissant un vecteur X (0) .

Après l’étape k , l’étape (k + 1) se finit quand les (2r + 2) valeurs


ont été simulées, donnant
(k +1) ( k + 1) (k +1) (k +1)
X (k +1) = (τ(k +1) , λ(k +1) , µ1 , ..., µr , ν1 , ..., νr , n).

On vient donc d’obtenir un nouvel état de la chaine de Markov.


Ce nouvel état est un nouveau jeu de paramètres, donc une
nouvelle observation de la densité a posteriori.

144 / 157
Cette chaine de Markov converge normalement vers une
distribution stationnaire f (τ, λ, µ, ν | n) après quelques centaines /
milliers d’itérations.

La valeur des états qui suivent cette convergence permettent


de construire la densité empirique conditionnelle recherchée.
La chaine simulée à K états s’écrit alors
n o
(τ(0) , λ(0) , µ(0) , ν(0) , n), ..., (τ(K ) , λ(K ) , µ(K ) , ν(K ) , n)

En supposant que cette chaine de Markov atteint son état


stationnaire après T itérations, l’estimateur de la densité sera
donné par une approximation Monte Carlo, i.e.

K
1 X
X̂ = X (k ) .
K −T
T +1

145 / 157
On remarque cependant que la simulation des densités
conditionnelles univariées nécessite de les connaitre !

Par exemple,
(k +1) (k +1)
µi ∼ f (µi | τ(k +1) , λ(k +1) , µ−i , ν(k ) , n)

Avec les choix faits ici pour les lois a priori (log-Poisson, loi peu
informative, etc...), certaines de ces densités sont fournies dans
[J. Besag and Mollie, 1991].

Par exemple, la loi qui permet de mettre à jour le paramètre τ est


explicite (loi du χ2 ).

Dans les cas où on ne peut les déterminer, elles sont alors


évaluées via l’algorithme Adaptive Rejection Sampling (ARS).

146 / 157
5 Mise en place d’un zonier
Zonier : introduction
Généralités sur les zoniers
Données à disposition
Pré-modélisation : une étape commune
Zonier administratif
Etapes de l’agrégation territoriale
Agrégation territoriale : choix du seuil d’exposition minimale
Zones de risque spatial : classification
Zonier par lissage spatial
Introduction
Le modèle de Boskov et Verrall
Approche bayésienne : mise à jour des paramètres du modèle
Zonier prédictif

147 / 157
Construction d’un zonier prédictif

Comme dans le cadre du zonier administratif, on isole l’effet du


risque géographique via la construction en amont d’un GLM ne
contenant pas de facteur de risque géographique...

Logiquement, on procède ensuite de la manière suivante :


1 on récupère les résidus du modèle,
2 on essaie de construire un modèle prédictif de ces résidus
(par ex. un autre GLM) avec des variables explicatives
pertinentes.

Question clef : choix des variables explicatives du risque


géographique.

Inconvénient : si le choix n’est pas judicieux...


Avantage : on peut effectuer des prévisions pour de nouvelles
zones non exposées et sur lesquelles on ne détient pas
d’historique de sinistralité...
148 / 157
Conclusion

Il existe 3 grandes manières de construire un zonier.

Les modèles décrits ici ne sont pas exhaustifs et certains


acteurs en utilisent des variantes (par ex. classifier
directement suivant la taille des résidus après la première
modélisation).

Certains modèles nécessitent une maitrise technique


importante (lissage spatial de Boskov et Verrall), ou une
connaissance du risque affinée pour le choix des paramètres
(lissage spatial de Wittaker).

149 / 157
CONCLUSION

150 / 157
Conclusion

Il existe de nombreux écueils pratiques à la mise en place


opérationnelle des modèles GLM en assurance. A commencer par
le travail sur les covariables (regroupement de modalités,
catégorisation) à faire en amont de la modélisation ou lors de
l’optimisation du modèle...

Principalement :
la segmentation et ce qu’elle induit (attention à ne pas trop
segmenter !) ;

le choix des lois et du lien ;

151 / 157
la calibration des modèles (convergence du MLE, bornitude
de la vraisemblance, initialisation de l’algorithme de
Newton-Raphson, etc...) ;

la validation d’un modèle ;

la gestion de la surdispersion des données ;

la potentielle (très) faible sinistralité...

Il est primordial de bien être conscient de ces limites.

Une alternative pourrait consister à adopter une approche


non-paramétrique : lien avec les algorithmes Big Data (CART, ...).
Voir par exemple [Paglia and Phelippe-Guinvarc’h, 2011],
[Aouizerate, 2012], [Leroy and Planchet, 2016]...

152 / 157
Bibliographie

Albert, A. and Anderson, J. A. (1984).


On the Existence of Maximum Likelihood Estimates in Logistic Regression Models.
Biometrika, 71(1) :1–10.
Aouizerate, J. (2012).
Alternative neuronale en tarification sante.
Bull. français d’Actuariat, 12(23).
Boskov, M. and Verrall, R. J. (1994).
Premium rating by geographical area using spatial models.
ASTIN Bull., 24(1) :131–143.
Boucher, J. P. and Danail, D. (2011).
On the Importance of Dispersion Modeling for Claims Reserving : An Application with
the Tweedie Distribution.
Variance, 5(2) :158–172.
Brass, W. (1964).
Uses of census and survey data for the estimation of vital rates.
In African Semin. Vital Stat., United Nations document E/ CN .14/CAS .4IVS/7.

153 / 157
Brass, W. and Macrae, S. (1984).
Childhood mortality estimated from reports on previous births given by mothers at the
time of a maternity : I. Preceding-births technique.
In Asian and Pacific Census Forum, volume 11.
Brouhns, N., Denuit, M., Masuy, B., and Verrall, R. (2002).
Ratemaking by geographical area in the Boskov and Verrall model : a case study
using Belgian car insurance data.
Firth, D. (1993).
Bias reduction of maximum likelihood estimates.
Biometrika, 80(1) :27–38.
Frees, E. W. (2009).
Regression Modeling with Actuarial and Financial Applications.
International Series on Actuarial Science. Cambridge University Press, New York.
Greene, W. H. (2008).
Econometric Analysis (6th Edition).
Prentice Hall, New Jersey.
J. Besag, J. Y. and Mollie, A. (1991).
Bayesian image restoration, with two applications in spatial statistics.
Ann. Inst. Stat. Math., 43(1) :1–59.

154 / 157
King, G. and Zeng, L. (2001).
Logistic Regression in Rare Events Data.
Polit. Anal., 9(2) :137–163.
Lee, R. D. and Carter, L. R. (1992).
Modeling and forecasting U.S. mortality.
J. Am. Stat. Assoc., 87(419) :659–671.
Leroy, G. and Planchet, F. (2016).
Un regard actuariel sur les evolutions de l’assurance automobile.
Risques, 105.
Mahy, S. and Denuit, M. (2002).
Decoupage geographique par zones de Voronoi en assurance automobile.
Manski, C. F. and Lerman, S. R. (1977).
Estimation of Choice Probabilities from Choice-based Samples.
Econometrica, 45(8) :1977–1988.
MATHIS, J. (2009).
Elaboration d’un zonier en assurance de vehicules par des methodes de lissage
spatial basees sur des simulations MCMC.
PhD thesis.
McCullagh, P. and Nelder, J. A. (1989).
Generalized linear models, 2nd ed.
Monographs on Statistics and Applied Probability. Chapman and Hall, London.

155 / 157
Mehta, C. R. and Patel, N. R. (1995).
Exact logistic regression : Theory and examples.
Stat. Med., 14(19) :2143–2160.
Paglia, A. and Phelippe-Guinvarc’h, M. V. (2011).
Tarification des risques en assurance non-vie, une approche par modèle
d’apprentissage statistique.
Bull. français d’Actuariat, 11(22) :49–81.
Pouna Siewe, V. (2010).
Modeles additifs generalises : Interets de ces modeles en assurance automobile.
PhD thesis, ISFA.
Taylor, G. (2001).
Geographical premium rating by Whittaker spatial smoothing.
ASTIN Bull., 31(1) :147–160.
Taylor, G. C. (1999).
Use of spline functions for premium rating by geographical area.
ASTIN Bull., 19(1) :91–122.
Vasechko, O., Grun-Rehomme, M., and Benlagha, B. (2009).
Moelisation de la frequence des sinistres en assurance automobile.
Bull. français d’Actuariat, 9(18).

156 / 157
Xie, Y. and Manski, F. (1989).
The logit model and response-based samples.
Sociol. Methods Res., 17(3) :283–302.

157 / 157

Vous aimerez peut-être aussi