Tarification Assurance Auto : GLM vs CART
Tarification Assurance Auto : GLM vs CART
Présenté par:
NONGPANGA Hervé
YELPOUGDOU Inoussa
Encadré par :
Pr. DOUGE
Résumé
L’objectif de ce projet est la mise en place de deux méthodes de tarification en assurance
automobile, selon deux approches différentes :
— la première à l’aide d’un Modèle Linéaire Généralisé (GLM) ;
— la seconde à l’aide de l’algorithme Classification and Regression Trees (CART), issu
de la théorie de l’Apprentissage Statistique.
À l’issue de ces deux mises en application, nous serons en mesure de comparer les deux
méthodes et d’en résumer les principaux intérêts et inconvénients.
Dans un premier temps, nous appliquerons plusieurs traitements sur la base de données
utilisée pour les deux modélisations. Une analyse univariée sera également réalisée afin d’ob-
server l’évolution des coûts en fonction des variables caractérisant un contrat.
Ensuite, nous appliquerons un GLM aux données, après sélection des variables explicatives
pertinentes. La Prime Pure sera modélisée à l’aide d’une décomposition Fréquence × Coût
Moyen. Nous confronterons les résultats du GLM à ceux de l’analyse univariée et validerons
notre modèle à l’aide d’une étude des résidus.
Dans une troisième partie, nous introduirons les notions d’apprentissage statistique et
d’arbre de décision binaire. La méthodologie CART sera ensuite appliquée aux données d’as-
surance. Nous utiliserons les techniques de validation croisée et d’élagage afin d’obtenir un
arbre optimal en termes de qualité et de complexité. Ce modèle sera également validé par
une analyse des résidus.
Enfin, nous comparerons les résultats obtenus afin de déterminer la méthode la plus
adaptée à notre portefeuille de données. Une application web sera aussi mise en place à l’aide
de R Shiny.
1
Table des matières
I INTRODUCTION 3
2
I. INTRODUCTION
Dans un marché fortement réglementé et concurrentiel tel que celui de l’assurance non-
vie, les problématiques de tarification sont au cœur des travaux actuariels et structurent
l’intégralité de la chaîne de valeur. Si les modèles linéaires généralisés (GLM) permettent
de prédire simplement et efficacement la fréquence et la sévérité des sinistres, donnant lieu
à une équation tarifaire multiplicative, les méthodes issues de l’apprentissage statistique
(ou Machine Learning) offrent un éclairage nouveau sur les risques sous-jacents ainsi qu’un
meilleur pouvoir prédictif. De plus en plus précis et performants, ces algorithmes permettent
de modéliser la sinistralité dans toute sa complexité, en intégrant des interactions, des effets
non linéaires, voire des relations de causalité qu’un modèle linéaire tend à moyenner ou à
négliger.
Le processus de tarification en assurance non-vie impose cependant de produire un ta-
rif maintenable, pilotable et explicable à tout moment aux tiers, contraintes opérationnelles
qu’un modèle de Machine Learning opaque et volatil peine à satisfaire. Pour le Conseil de
Stabilité Financière (CSF), « le manque d’interprétabilité et d’auditabilité des méthodes d’In-
telligence Artificielle et du Machine Learning pourrait devenir un risque macroéconomique 1
». Autrement dit, la difficulté à expliquer de manière précise et consistante la décision au-
tomatique d’un algorithme constitue un frein à l’intelligibilité et à l’explicabilité, qualités
indispensables dans les secteurs de la finance et de l’assurance. L’excès de complexité déployé
pour mieux comprendre le risque devient alors un risque en lui-même.
La nécessité d’un algorithme complexe est cependant inhérente à la complexité même du
phénomène que l’on modélise. Dans la littérature actuarielle, la construction d’un modèle
de Machine Learning s’effectue souvent en parallèle d’un modèle GLM classique, dans un
objectif de maximisation de la performance ou d’enrichissement ex post du modèle GLM
par des interactions bien choisies. Ce Projet ambitionne de proposer une vision inclusive
et collaborative des modèles linéaires généralisés et des modèles de Machine Learning, en
combinant la structure additive interprétable des premiers avec la complexité et la précision
des seconds. Après une première partie introductive sur les notions de l’assurance non-vie et
la présentation des données , nous décrirons le modèle GLM en tant que modèle de référence
du marché, puis les modèles de Machine Learning comme outils de performance accrue,
exposant ainsi les principes et les limites des deux approches . Nous insisterons notamment
sur les notions d’interprétabilité et d’explicabilité.
3
II. Étude descriptive et retraitement
II.1 Description des variables à modéliser
Nombre de sinistres
La fréquence des sinistres est définie de la manière suivante :
Nombre de sinistres
Fréquence =
Exposition
Pour modéliser la fréquence des sinistres, nous utilisons la base des contrats. Un contrat
peut avoir : 0, 1, 2,3. . .25 sinistres. Cette base est constituée de 41662 sinistres et 19646
contrats.
4
Figure 2 – Distribution du nombre de sinistre
5
II.3 Analyse univariée et retraitement des variables
Dans cette étape, nous réalisons plusieurs graphiques illustrant l’évolution du coût moyen
et la fréquence de sinistres des interventions en fonction de chaque variable potentiellement
explicative. Par ailleurs, ces mêmes graphiques représentent également le volume de données
disponibles pour chaque modalité de la variable considérée (les niveaux étant ceux définis
lors de la remise en classe), autrement dit l’exposition au risque.
Bien que l’objectif final de ce projet soit de modéliser les coûts via une approche multi-
variée, une analyse univariée présente plusieurs intérêts.
Tout d’abord, elle permet d’évaluer si une variable explicative contient suffisamment d’in-
formation pour être incluse dans le modèle. Par exemple, si 99,5% du volume de données est
concentré sur une seule modalité d’une variable, cela suggère que celle-ci pourrait ne pas être
significative statistiquement.
Ensuite, ces graphiques permettent de détecter une éventuelle insuffisance de données sur
certains niveaux d’une variable. Dans ce cas, il peut être pertinent de revenir à l’étape de
remise en classe et de réorganiser les modalités afin d’assurer une meilleure représentativité.
Enfin, l’analyse univariée offre un premier aperçu de l’effet propre de chaque variable sur
le coût moyen et la fréquence de sinistres, indépendamment des autres facteurs (effet non
dé-corrélé).
On observe que la tranche d’âge compris entre 40 et 60 ans enregistre plus de sinistres et
de coût que les autres tranches ; suivie de la tranche d’âge 60 ans et plus. Les jeunes-adultes
( ]20-40]) semblent causer moins de sinistres que les deux dernières.
Anciennété de conduite
Ce diagramme en bâton montre la distribution du nombre de sinistres annuel en fonction
de l’ancienneté du client. On remarque que les nouveaux clients ( De 0 à 10 ans d’ancienneté)
6
Figure 5 – Coût moyen et de la fréquence en fonction d’anciennété de conduite
et les très anciens clients ( plus de 20 ans d’ancienneté ) enregistrent en moyennes pratique-
ment le même nombre de sinistres (Ils ont pratiquement le même comportement). Les anciens
clients ( entre 10 et 20 ans ) enregistrent moins de sinistres que ces [Link] nouveaux
clients sont à risque plus élevé : ils provoquent en moyenne plus de sinistres et leurs sinistres
coûtent plus [Link] très anciens clients sont les plus sûrs : ils ont moins d’accidents et les
coûts associés sont moindres.
7
Zone géographique
Les deux zones géographiques indiquent : 0 ( pour les ruraux ) et 1 pour les citadins.
Très logiquement, on remarque que les citadins provoquent plus de sinistres que les ruraux.
Certainement dû au nombre importants d’automobiles en circulation en ville par rapport aux
campagnes, mais ils se diffèrent légèrement du cout moyen.
l’existence de plusieurs conducteurs déclarés noté (1) enregistre légèrement plus de si-
nistres que lorsqu’on n’a qu’un seul conducteur déclaré.
Mode de paiement
Ceux qui payent par processus administratif semestriel causent largement plus de sinistres
que ceux qui payent leurs primes annuellement et logiquement ils ont un coût moyen élevé.
8
Figure 9 – Coût moyen et de la fréquence en fonction de Mode de Paiement
Type de Carburant
Les clients qui utilisent l’essence comme carburant (1) semblent causer plus de sinistres
que ceux qui utilisent le diesel. En fait l’essence est plus consommée pour les petits trajets (
en ville. . .) alors que le diésel pour les long trajets ( autoroute. . . ) cela explique tout.
Ancienneté de conduite
On remarque que plus l’âge du permis augmente moins le nombre de sinistres causés est
faible. Illustration avec les experts ( entre 30 et 50 ) et les plus de 50ans (+50 ans) qui
enregistrent moins de sinistres que les jeunes permis et les expérimenté ( moins de 30 ans ).
9
Figure 11 – Coût moyen et de la fréquence en fonction de Ancienneté de conduite
Valeur du véhicule
Le graphique montre que les véhicules de valeur "Haute" enregistrent en moyenne le plus
grand nombre de sinistres, tandis que ceux de valeur "Bas" ont le plus faible coût moyen
des sinistres. Les véhicules de valeur "Moyen-Bas" et "Moyen-Haut" ont des fréquences et
des coûts moyens de sinistres relativement proches, légèrement inférieurs à ceux de la classe
"Haut". Les véhicules de valeur élevée sont associés à une plus grande fréquence de sinistres
et à un coût moyen plus élevé, ce qui peut refléter une plus grande exposition au risque ou
une réparation plus coûteuse. En revanche, les véhicules de valeur faible sont moins coûteux
en sinistres, même s’ils ne sont pas les moins accidentogènes.
Cylindre du Véhicule
Les véhicules de grosse cylindrée sont associés à une plus grande fréquence de sinistres et
à un coût moyen plus élevé , ce qui peut refléter une plus grande exposition au risque ou une
10
Figure 13 – Coût moyen et de la fréquence en fonction de Cylindre du Véhicule
réparation plus coû[Link] que ceux de petites cylindrées et de cylindres standards ont
des frequence de sinistres relativement proches. Les vehicules de cylindres standard ont un
coût moyen élevé.
Puissance du véhicule
Les véhicules faibles , moyens , puissants ont des fréquences de sinistres relativement
proches, légèrement inférieurs à ceux de la classe Très puissante .Quant aux coût moyens,
plus le véhicule est puissant plus le coût moyen est important.
Age du véhicule
On observe que les vieux véhicules enrégistres de nombreux sinistres et ont un coût moyen
moins cher .Ce qui est évident, car les véhicules anciens peuvent être moins fiables mécanique-
ment, ce qui augmente le risque de pannes ou d’incidents sur la route mais chaque sinistre
coûte moins cher à l’assureur. Cela peut fausser l’intuition selon laquelle plus de sinistres
implique nécessairement un coût plus élevé.
11
Figure 15 – Coût moyen et de la fréquence en fonction del’âge du véhicule
Poids du véhicule
Les véhicules lourds sont plus fréquemment impliqués dans les sinistres. Les véhicules
moyen-lourds, bien qu’un peu moins sinistrés, causent des coûts importants, peut-être en
raison de leur structure ou de l’impact plus fort lors des accidents. Les véhicules légers sont
globalement moins risqués (peu de sinistres et faibles coûts).
12
La corrélation de rang consiste à attribuer un rang à chaque observation, puis à mesurer
le degré de similarité entre les classements obtenus. Contrairement à la corrélation linéaire
de Pearson, elle est moins sensible aux valeurs aberrantes et ne nécessite pas que les va-
riables suivent une distribution normale. Elle est donc particulièrement adaptée à l’analyse
de variables ordinales.
La corrélation de rang de Spearman, notée ρ (rho), prend des valeurs comprises entre −1
et 1 :
— Une valeur proche de 1 indique une association monotone positive forte entre les rangs ;
— Une valeur proche de −1 traduit une association monotone négative forte ;
— Une valeur proche de 0 suggère l’absence de relation monotone.
La formule de la corrélation de Spearman est donnée par :
Cov(RX , RY )
ρ=
σ RX · σ RY
Exécution avec R
Matrice de corrélation
13
II.4.2 Variables catégorielles
V de Cramér
La V de Cramér est une mesure de l’association entre deux variables qualitatives. Elle est
calculée à partir de la statistique du test du χ2 et s’exprime par la formule suivante :
14
s
χ2
V =
n · min(k − 1, r − 1)
où :
— χ2 est la statistique du test du Chi-deux ;
— n est la taille de l’échantillon ;
— k et r sont le nombre de modalités des deux variables.
La valeur de V varie entre 0 et 1 :
— V = 0 : aucune association ;
— V = 1 : association parfaite.
Exécution avec R
V de Cramér
15
II.5 Partitionnement des bases de données
Nous avons construit deux bases distinctes :
— une base des contrats comprenant 19 646 contrats.
Pour la méthode CART, nous avons besoin de trois échantillons de données :
— Échantillon d’entraînement (60%) : utilisé pour construire le modèle ;
— Échantillon de validation (20%) : utilisé pour optimiser l’algorithme ;
— Échantillon de test (20%) : utilisé pour évaluer les performances du modèle.
En revanche, pour le Modèle Linéaire Généralisé, seuls deux échantillons sont
nécessaires :
— Échantillon d’apprentissage (80%) : qui regroupe les échantillons d’entraînement
et de validation ;
— Échantillon de test (20%) : servant à évaluer le modèle.
Le Modèle Linéaire Généralisé fut introduit en 1972 par les statisticiens John NELDER
et Robert WEDDERBURN. Les actuaires ont longtemps utilisé le Modèle Linéaire Gaussien
dans le monde de l’assurance. Suite à la montée en complexité des problématiques actuarielles,
le Modèle Linéaire Gaussien ne fut plus adapté à la réalité de l’assurance et les actuaires se
sont ainsi tournés vers le Modèle Linéaire Généralisé. L’une des premières utilisations de
ce modèle a eu lieu vers la fin du 20ème siècle à la City University par des actuaires londo-
niens. Le Modèle Linéaire Généralisé présente plusieurs avantages. Il permet de supprimer les
hypothèses fortes de normalité de la variable à expliquer et d’homoscédasticité des résidus.
g(E(Y )) = β0 + β1 X1 + β2 X2 + · · · + βp Xp
16
La densité f de la variable aléatoire Y appartient à la famille exponentielle, c’est-à-dire
qu’elle peut s’écrire sous la forme suivante :
yθ − b(θ)
fY (y; θ, ϕ) = exp + c(y, ϕ)
a(ϕ)
où :
— Le support S est un sous-ensemble de R ou de N ;
— θ est un paramètre réel, appelé paramètre canonique (ou paramètre de la moyenne) ;
— ϕ est un paramètre réel, appelé paramètre de dispersion ;
— a est une fonction définie sur R∗ ;
— b est une fonction définie sur R et deux fois dérivable ;
— c est une fonction définie sur R.
L’estimation des paramètres β1 , β2 , . . . , βk du Modèle Linéaire Généralisé est réalisée par
la maximisation de la log-vraisemblance du modèle.
Déviance
La déviance permet de mesurer la qualité d’ajustement d’un modèle en comparant les
observations aux valeurs estimées. Plus précisément, elle quantifie l’écart entre le modèle
estimé et le modèle saturé, c’est-à-dire le modèle qui possède autant de paramètres à estimer
qu’il y a d’observations, et qui reproduit donc parfaitement les données.
On note :
— D : la déviance ;
— L(θ̂) : la log-vraisemblance du modèle estimé ;
— Lsaturé : la log-vraisemblance du modèle saturé.
Une faible valeur de D traduit un bon ajustement du modèle, car cela signifie que la
log-vraisemblance du modèle estimé est proche de celle du modèle saturé. L’objectif est donc
de minimiser la déviance.
La statistique D suit asymptotiquement une loi du χ2 à n − p degrés de liberté, où n est
le nombre de paramètres du modèle saturé et p ceux du modèle estimé. Ce test du χ2 permet
d’évaluer la perte d’information due à la simplification du modèle. Si la p-value associée est
supérieure à 5%, on considère que le modèle est acceptable. Sinon, la simplification entraîne
une perte d’information significative, et le modèle est rejeté.
17
Critère d’information d’Akaike (AIC)
Le critère AIC est une mesure de la qualité d’un modèle statistique proposée par Hirotugu
Akaike en 1973. Lors de l’estimation d’un modèle, la vraisemblance augmente avec l’ajout
d’un paramètre. Les critères AIC et BIC vont dans le sens du principe de parcimonie, qui
traduit le fait de décrire les données avec le plus faible nombre de paramètres possibles. Les
critères AIC et BIC pénalisent ainsi les modèles en fonction du nombre de paramètres. On
note k le nombre de paramètres du modèle. Le critère AIC est défini de la manière suivante :
AIC = −2L + 2k
où k est le nombre de paramètres du modèle. Un modèle avec un AIC plus faible est
préféré.
λk e−λ
P (N = k) =
k!
et
E(N ) = Var(N ) = λ
Le modèle de Poisson repose sur l’égalité E(Ni ) = Var(Ni ) pour chaque catégorie tarifaire
i. Cette hypothèse peut être violée dans la pratique, notamment en cas de surdispersion
(c’est-à-dire E(Ni ) < Var(Ni )), due à une hétérogénéité résiduelle ou à la présence de valeurs
extrêmes et de nombreux zéros.
18
Dans notre cas, nous constatons que la variance est légèrement supérieure à l’espérance.
Nous avons donc réalisé le test de surdispersion de Cameron & Trivedi.
Hypothèses du test :
— H0 : il n’y a pas de surdispersion (le modèle de Poisson est adapté) ;
— H1 : il y a surdispersion ou sous-dispersion (le modèle de Poisson n’est pas adapté).
Test de surdispersion
Un test de surdispersion a été réalisé sur le modèle model_essai. Les résultats sont les
suivants : z = -22,988, p-valeur = 1, et une dispersion estimée à 0,7404.
L’hypothèse alternative du test est que la dispersion vraie est strictement supérieure à 1
(surdispersion). Cependant, la p-valeur très élevée ne permet pas de rejeter l’hypothèse nulle.
Il n’y a donc pas de preuve statistique de surdispersion. Au contraire, la dispersion estimée
étant inférieure à 1 suggère une possible sous-dispersion dans les données, ce qui mérite une
attention particulière lors de l’interprétation des résultats du modèle.
Fonction de lien
Nous choisissons la fonction de lien logarithmique, car elle permet de construire un
modèle multiplicatif, qui garantit des valeurs positives et est facilement interprétable.
Loi retenue
Bien que le test de surdispersion indique une dispersion estimée inférieure à 1, l’analyse
descriptive des données révèle que la variance est significativement supérieure à la moyenne,
19
ce qui est caractéristique d’une surdispersion. Par conséquent, le modèle de régression de
Poisson pourrait être inadapté.
Pour mieux capturer cette variabilité excessive, nous avons choisi d’utiliser un modèle de
régression basé sur la loi binomiale négative, qui est spécifiquement conçue pour traiter les
cas de surdispersion dans les données de type dénombrement.
Pour le modèle de fréquence des sinistres, nous reprenons les 18 variables issues de l’ana-
lyse univariée. Nous procédons en plusieurs étapes :
1. Identifier les variables fortement corrélées ;
2. Sélectionner celles ayant le plus grand pouvoir explicatif ;
3. Tester les interactions pertinentes.
Lorsque deux variables ont une V de Cramér supérieure à 0,5, nous décidons de :
— conserver uniquement l’une des deux ;
— ou créer une interaction si cela améliore significativement le modèle.
D’après la matrice de corrélation, les variables
Poids_du_véhicule, Puissance_du_véhicul, Valeur_du_véhicule et Cylindre_véhicul
sont fortement corrélées (V de Cramér entre 0.5 et 0.6). Il serait redondant de toutes les
conserver. Nous choisissons donc de retenir l’une d’elles ou une combinaison pertinente des
deux.
Nous allons comparer pour chaque variable statistiquement et graphiquement le modèle
avec et sans la variable en question.
Puissance du véhicule
20
Cylindre du véhicule
Poids du véhicule
La p-value obtenue pour la variable Poids_du_vehicule est de 0,4482, soit bien supé-
rieure au seuil de 5%. Cela signifie que l’ajout de cette variable n’améliore pas significative-
ment la qualité du modèle. Autrement dit, on ne rejette pas l’hypothèse nulle selon laquelle
cette variable n’apporte pas d’information utile à la modélisation.
Par ailleurs, l’inclusion de Poids_du_vehicule entraîne une augmentation de la com-
plexité du modèle, comme le montre la dégradation du critère BIC, sans contrepartie en
termes de performance. Il est donc raisonnable de ne pas retenir cette variable dans le mo-
dèle final de fréquence.
Valeur du véhicule
21
Par ailleurs, les critères AIC et BIC augmentent respectivement de 5,43 et 27,67, ce qui
indique une complexité accrue sans gain en performance.
Il est raisonnable de ne pas inclure cette variable dans le modèle final.
Sur la base des corrélations fortes observées entre certaines variables explicatives, nous
faisons les choix suivants dans la construction du modèle de fréquence :
— Les variables Age et Ancienneté_client sont toutes deux conservées, afin d’observer
le niveau de maturité du client ;
— De même, nous choisissons de conserver la variable Nombre_historique_sinistres,
que nous combinons avec la Fréquence_historique à travers une interaction, dans
le but de mieux représenter l’historique du comportement assurantiel du client.
Les indicateurs d’erreur obtenus pour le modèle final sont satisfaisants, avec un RMSE
de 1,48 et un MAE de 0,96, indiquant un écart raisonnable entre les valeurs observées et les
valeurs prédites.
Les critères AIC, BIC s’élèvent respectivement à 45 171,69 et 45 376,32. Ces valeurs seront
utilisées pour comparer objectivement différents modèles : plus elles sont faibles, plus le
compromis entre ajustement et complexité est bon.
22
Critères Résultats du modèle
AIC 45171.69
BIC 45376.32
RMSE 1.477
MAE 0.96
Table 2 – Indicateurs de performance du modèle final
Le modèle utilisé est une régression binomiale négative avec une fonction de lien loga-
rithmique pour modéliser la fréquence annuelle des sinistres. Le paramètre de dispersion
est estimé à 51.78, indiquant une surdispersion importante et justifiant ce choix de modèle
plutôt qu’un modèle de Poisson.
Dans ce modèle, un coefficient positif implique une augmentation exponentielle de la
fréquence des sinistres, tandis qu’un coefficient négatif indique une diminution. Les variables
les plus significatives sont :
— Nombre_de_sinistres_historique (β = 0.0634, p < 0.001) : chaque sinistre his-
torique supplémentaire augmente la fréquence attendue d’environ 6,5%.
23
— Fréquence_historique (β = 0.1550, p < 0.001) : une fréquence historique plus
élevée augmente la fréquence attendue d’environ 16,8%.
— Age [40-60] (β = −0.1499, p = 0.017) : cette tranche d’âge présente une fréquence
plus faible que la référence, soit une diminution d’environ 14%.
— Type_de_risque (β = −0.1311, p = 0.013) : certains types de véhicules génèrent
moins de sinistres que la catégorie de référence.
— Zone_géographique (β = −0.0523, p = 0.033) : certaines zones géographiques
(probablement rurales) enregistrent moins de sinistres.
— Deuxieme_conducteur (β = 0.0843, p = 0.003) : la présence d’un second conduc-
teur déclaré augmente la fréquence des sinistres d’environ 8,8%.
Plusieurs interactions (ex. Nombre_de_sinistres_historique * Fréquence_historique)
ont été testées, mais aucune n’est significative (p > 0.05). Elles n’améliorent donc pas signi-
ficativement la qualité du modèle.
Les variables comportementales et historiques apparaissent comme les plus pertinentes
pour prédire la fréquence des sinistres. Les effets liés à l’âge, au type de risque, à la zone
géographique et à la présence d’un deuxième conducteur sont également significatifs.
24
Dans l’ensemble, le nuage de résidus de Pearson ne présente pas de structure systématique,
et les résidus sont globalement centrés autour de zéro, ce qui confirme que le modèle est
correctement spécifié. Quelques points s’écartent fortement (résidus > 4), ce qui peut signaler
la présence d’observations atypiques. La légère diminution de la dispersion des résidus avec
les valeurs ajustées est typique des modèles de Poisson, et ne remet pas en cause la validité
globale du modèle.
Conclusion : le diagnostic graphique confirme que le modèle fournit des prédictions
fiables et appropriées pour les données étudiées.
25
III.2.4 Synthèse des résultats
Pour récapituler, nous avons choisi la fonction de lien logarithmique et la loi Binomiale
negative pour modéliser la fréquence des sinistres. Nous avons retenu 11 variables explicatives
dont deux interactions.
Le QQ-Plot ci-dessus permet d’évaluer l’adéquation des données de coût moyen à une
loi Gamma. On observe un bon alignement des points pour les faibles quantiles, indiquant
26
une bonne représentation des petites valeurs. Toutefois, une dispersion importante est visible
dans les grandes valeurs, ce qui suggère la présence d’observations extrêmes (outliers) que le
modèle Gamma peine à ajuster correctement.
Le QQ-Plot indique que les quantiles des données transformées en logarithme sont glo-
balement alignés avec ceux d’une distribution normale théorique, ce qui suggère une bonne
adéquation à une loi log-normale. Cependant, de légers écarts sont visibles aux extrémités,
traduisant la présence potentielle de valeurs extrêmes ou atypiques.
Fonction de distribution cumulée du coût moyen :
Pour le modèle de coût, nous reprenons les 17 variables sélectionnées dans l’analyse uni-
variée de la partie 1. Tout d’abord, nous allons étudier les variables qui sont très fortement
corrélées, puis sélectionner les variables qui ont un pouvoir explicatif le plus important pour
le modèle de coût et enfin tester les interactions qui semblent pertinentes.
27
Variables retenues
Fréquence_historique
Age_vehicule
Date_debut_contrat
Valeur_vehicule
Anciennete_client
Nombre_de_sinistres_historique
Type_de_risque
Deuxieme_conducteur
Cylindre_vehicule
Age
Donc la Methode de stepwise confirme les variabes retenues dans la methode Manuelle.
28
Critères Résultats du modèle
AIC 43498.92
BIC 43643.07
RMSE 654.607
MAE 371.150
Table 4 – Indicateurs de performance du modèle final de coût
Les résultats indiquent une bonne spécification globale du modèle, avec des résidus bien
centrés autour de zéro et une dispersion modérée.
Dans ce modèle, un coefficient positif indique une augmentation exponentielle du coût
moyen des sinistres, tandis qu’un coefficient négatif indique une diminution.
— Fréquence_historique (β = 0.1688, p < 0.001) : un effet positif et significatif ; une
fréquence historique plus élevée est associée à un coût moyen plus élevé.
— Age_vehiculeNouveau Véhicule (β = −0.3329, p < 0.001) : les véhicules neufs
génèrent un coût moyen significativement plus faible.
— Date_debut_contrat (β = 0.2619, p < 0.001) : une date de début de contrat plus
récente est associée à un coût moyen plus élevé.
29
— Valeur_vehicule : les catégories Moyen-Bas (β = 0.1091, p < 0.001) et Moyen-Haut
(β = 0.0914, p < 0.001) sont significatives, indiquant que les véhicules de valeur
intermédiaire ont des coûts moyens plus élevés que la catégorie de référence.
— Anciennete_client : la catégorie Très ancien clients (β = −0.1523, p < 0.001)
est significative ; ces clients ont des coûts moyens plus faibles.
Les variables les plus pertinentes pour expliquer le coût moyen des sinistres sont la fré-
quence historique, l’âge du véhicule, la date de début du contrat, la valeur du véhicule et
l’ancienneté du client. Ces variables ont un impact significatif et cohérent avec les attendus
du métier d’assureur.
L’analyse des résidus simples et pondérés a été réalisée afin de vérifier la qualité de
l’ajustement du modèle.
Le graphique des résidus simples en fonction de l’index montre une répartition homogène
et centrée autour de zéro, ne révélant aucune tendance particulière ni dépendance sérielle.
De même, les résidus pondérés présentent un comportement similaire, confirmant l’absence
de biais dans le modèle.
L’analyse des résidus simples et pondérés en fonction des valeurs ajustées indique une
dispersion globalement constante. Une légère tendance à l’hétéroscédasticité peut être obser-
vée pour les très grandes valeurs ajustées, mais celle-ci est atténuée grâce à la pondération
appliquée par le modèle GAMLSS.
30
Ces éléments suggèrent que le modèle de coût retenu est correctement spécifié et que les
hypothèses relatives à l’homoscédasticité et à l’absence de biais sont globalement satisfaites.
Important
Prime pure = Constante × Nombre_historique ∗ frequence_historique × Age ∗ Ancienneté_client
× valeur_du_vehicule × Date_debut_contrat × Type_de_risque × Ancienneté_conduite
× zone_geographique × Deuxième_conducteur × Cylindre_vehicule × Mode_Paiement
× Type_carburant × Age_vehicule
31
III.4.2 Conclusion et limites du Modèle Linéaire Généralisé
Nous avons réalisé la modélisation de la Prime Pure comme le produit de la Fréquence et
du Coût moyen à l’aide du Modèle Linéaire Généralisé. Nous avons choisi la loi Log-normale
pour le modèle de Coût Moyen et la loi Binomiale negative pour le modèle de Fréquence.
Nous sommes satisfait de l’adéquation du Coût Moyen avec une loi Log-normale et celle de
la fréquence.
De plus, notre portefeuille de données en Automobile est constitué d’un certain nombre
de variables continues que nous avons discrétisées. Ainsi, nous avons fait des hypothèses très
fortes concernant les lois d’adéquation et la discrétisation des variables continues.
Ces hypothèses très restrictives nous ont conduits à nous tourner vers d’autres approches
de tarification. Nous allons alors réaliser la modélisation de la Prime Pure à l’aide d’une ap-
proche alternative issue de la théorie statistique de l’apprentissage : Les arbres de decisions
(CART).
32
Quatrième Partie
33
IV. Tarification par Apprentissage Statistique (l’algorithme
CART)
IV.1 L’apprentissage statistique
Aussi appelée Machine Learning en anglais, cette technique vise à rendre le processus
d’apprentissage des données le plus autonome possible. En effet, comme son nom l’indique,
l’objectif est de permettre à l’ordinateur d’apprendre par lui-même comment analyser les
données qui lui sont fournies, et comment en extraire des informations pertinentes. En ob-
servant les données, l’ordinateur découvre progressivement, à l’aide d’algorithmes que nous
détaillerons par la suite, la manière dont les variables interagissent entre elles ainsi que leur
influence sur la variable à prédire.
Les algorithmes d’apprentissage statistique se répartissent en deux grandes familles :
— Apprentissage supervisé : Il consiste à établir des règles de comportement à par-
tir d’une base de données contenant des exemples déjà étiquetés. L’objectif est de
prédire la valeur de sortie (variable à expliquer) pour une nouvelle donnée d’entrée
(caractérisée par ses variables explicatives).
— Apprentissage non supervisé : Lorsqu’on ne dispose que d’exemples sans éti-
quettes, on parle d’apprentissage non supervisé. L’algorithme doit alors regrouper
les données selon leurs attributs disponibles afin de constituer des groupes homogènes
d’exemples. La similarité entre les observations est généralement mesurée à l’aide d’une
fonction de distance.
Il existe plusieurs algorithmes d’apprentissage statistique. Dans notre étude, nous avons
choisi de privilégier l’algorithme CART (Classification and Regression Trees), qui relève de
l’apprentissage supervisé, afin de construire des arbres de décision. Ces derniers présentent
l’avantage d’être simples d’utilisation et d’interprétation. De plus, CART est l’un des algo-
rithmes les plus répandus et les plus développés sur des logiciels tels que SAS et R. Nous
avons opté pour le logiciel R, qui propose de nombreux packages dédiés, notamment le package
rpart , que nous utiliserons, et pour lequel une documentation abondante est disponible en
ligne.
34
IV.2.1 Arbre de decision binaire
Un arbre de décision est un outil d’aide à la décision qui représente une situation sous la
forme graphique d’un arbre, de façon à faire apparaître à l’extrémité de chaque branche les
différents résultats possibles en fonction des décisions prises à chaque étape.
L’arbre de décision est un outil très apprécié pour sa lisibilité. Il est utilisé pour répartir
une population d’individus en groupes homogènes selon un ensemble de variables discrimi-
nantes. L’arbre de décision fait partie des méthodes d’apprentissage supervisé. Il s’agit de
prédire avec la plus grande précision possible les valeurs prises par la variable à expliquer
à partir d’un ensemble de descripteurs. Cela rejoint complètement l’objectif des Modèles
Linéaires Généralisés.
En partant de la racine de l’arbre, qui constitue l’ensemble des données, l’algorithme
sépare successivement les données en deux groupes appelés nœuds. C’est pourquoi l’on parle
d’arbre binaire.
Les séparations sont effectuées selon un critère de segmentation, qui peut varier selon le
type de modélisation. L’algorithme cesse de réitérer les séparations lorsqu’un critère d’arrêt
(défini au préalable par l’utilisateur) est atteint. Ce critère d’arrêt peut être, par exemple,
un nombre minimum d’individus au sein d’un groupe. Ainsi, l’algorithme s’arrête avant de
créer des groupes trop petits qui ne seraient pas vraiment significatifs.
Un nœud final où aucune séparation n’est effectuée (du fait qu’un critère d’arrêt est
atteint) s’appelle une feuille.
où :
— t représente le nœud considéré,
— K est le nombre total de classes,
— pk est la proportion d’observations appartenant à la classe k dans le nœud t.
35
Somme des carrés résiduels :
Pour une régression, c’est-à-dire pour prédire la valeur d’une variable continue, l’algorithme
CART utilise par défaut un critère de segmentation basé sur la somme des carrés résiduelle
(Residual Sum of Squares, ou RSS en anglais). La déviance pour le nœud j s’exprime alors
de la façon suivante :
X
Dj = (yi − ȳj )2
i∈nœud j
où :
— yi est la valeur de la variable à expliquer pour l’observation i,
— ȳj est la moyenne empirique de la variable à expliquer calculée sur les observations
contenues dans le nœud j.
Plus la somme des carrés résiduelle est faible, plus le nœud est considéré comme pur.
Les résultats montrent une performance parfaite sur le jeu d’apprentissage, avec des er-
reurs nulles et des scores maximaux (R2 = 1). En revanche, les performances sur les données
de test se dégradent fortement : le R2 et l’EVS sont négatifs, et les erreurs (RMSE, MAE)
sont élevées. Ces écarts révèlent un surapprentissage du modèle, qui s’ajuste trop aux
données d’apprentissage et généralise mal aux données nouvelles.
36
IV.3.2 Validation Croisée et élagage
Par défaut, la fonction rpart partitionne en interne les données d’entrée en xval = 10
portions (ce nombre est paramétrable dans les options). Elle ajuste un arbre sur les 10 9
de la
base d’entrée, et utilise la fraction restante de 10 pour estimer l’erreur en validation croisée.
1
La méthode par défaut de validation croisée à 10 plis est justifiée lorsqu’on ne dispose pas
d’un grand nombre de données. Dans notre cas, étant donné que l’on dispose d’un nombre
important d’observations, il est plus pertinent d’adapter les proportions de données dédiées
à la construction et à la validation croisée.
Nous avons précédemment exprimé le souhait de partitionner la base de données en plu-
sieurs parties . Ainsi, au sein de la base d’apprentissage, nous souhaitons dédier 32 des obser-
vations à la construction de l’arbre, et 13 à la validation croisée. Pour cela, nous fournissons
en entrée à la fonction rpart la base d’apprentissage (soit 75% des données totales), et nous
modifions la valeur par défaut de xval en la fixant à 3. Ainsi, rpart ajustera un arbre
sur les 23 de la base d’apprentissage, et effectuera une validation croisée sur le tiers restant,
conformément aux paramètres définis plus haut (xval = 3).
37
Interprétation :
La courbe présentée ci-dessus illustre l’évolution de l’erreur quadratique moyenne (RMSE)
en fonction de la profondeur maximale autorisée pour l’arbre de décision. On constate une
diminution progressive du RMSE jusqu’à une profondeur de 5, où l’erreur atteint son mini-
mum. Cette profondeur semble donc constituer un compromis optimal entre complexité du
modèle et capacité prédictive.
Au-delà de cette profondeur, le RMSE augmente de façon notable, traduisant un phé-
nomène de surapprentissage (overfitting). L’arbre devient alors trop spécifique aux données
d’apprentissage, ce qui dégrade sa performance sur des données nouvelles.
Ainsi, fixer la profondeur maximale de l’arbre à 5 permet de limiter la complexité du
modèle tout en assurant une bonne capacité de généralisation.
38
Figure 22 – Arbre de décision pour la modélisation de la prime
Interprétation :
L’arbre de décision ci-dessus présente la hiérarchie des variables explicatives sélectionnées
pour la prédiction du coût moyen des sinistres. La première variable de segmentation est
Valeur du véhicule, indiquant que cette variable possède le plus grand pouvoir discrimi-
nant dans le modèle.
Chaque embranchement de l’arbre correspond à une règle de partition des observations
en fonction d’un seuil de la variable considérée. À chaque noeud terminal (feuille), le modèle
fournit une prédiction du coût moyen ainsi que le nombre d’observations correspondant à
cette règle.
On remarque que certaines variables telles que Age du conducteur, Zone géographique,
ou encore Cylindrée du véhicule apparaissent dans les niveaux inférieurs de l’arbre, illus-
trant leur rôle secondaire par rapport à la Valeur du véhicule.
L’arbre met en évidence l’existence d’interactions complexes entre certaines variables qui
auraient été difficiles à modéliser explicitement via des modèles linéaires généralisés (GLM).
Enfin, la profondeur de l’arbre reste maîtrisée, évitant ainsi un risque de surapprentissage
(overfitting) tout en capturant des effets non-linéaires et des interactions pertinentes entre
les variables.
39
Métrique Apprentissage Test
RMSE 126.43 135.99
MAE 85.07 90.21
MedAE 58.39 61.03
R 2
0.341 0.201
EVS 0.341 0.202
Interprétation :
Les résultats du tableau 6 montrent une légère dégradation des performances entre l’ensemble
d’apprentissage et l’ensemble de test, ce qui est attendu dans un cadre de modélisation
classique. Les valeurs du RMSE et du MAE sont proches entre les deux jeux, ce qui indique
que le modèle généralise correctement sans sur-apprentissage marqué.
L’indicateur R2 sur l’ensemble de test vaut 0.201, ce qui signifie que le modèle explique
environ 20% de la variance des données non vues. Ce score reste relativement modeste, ce qui
peut s’expliquer par la complexité et la variabilité des coûts moyens en assurance automobile.
Toutefois, la cohérence entre l’apprentissage et le test suggère que le modèle est stable.
Enfin, la Similarité entre R2 et l’Explained Variance Score (EVS) confirme l’absence de
biais important dans les résidus, traduisant un modèle relativement bien calibré malgré une
marge d’amélioration possible sur sa capacité explicative.
40
Cinquième Partie
41
IV.4 Comparaison des approches GLM et Arbres de Décision (CART)
Dans cette section, nous exposons les avantages et les limites des deux principales mé-
thodes utilisées : le Modèle Linéaire Généralisé (GLM) et les Arbres de Décision (CART).
Par la suite, nous détaillerons les différences fondamentales de modélisation entre ces deux
approches, avant de comparer les résultats empiriques obtenus.
42
V. Mise en place d’une Application Web Avec R Shiny
43
Conclusion générale
Ce travail s’est inscrit dans le cadre de la modélisation et de la tarification de la prime
pure en assurance automobile, dans un contexte où la précision, l’équité et la robustesse des
modèles sont des enjeux majeurs pour les compagnies d’assurance.
Deux approches complémentaires ont été mises en œuvre : les modèles linéaires généralisés
(GLM) pour leur interprétabilité statistique, et les arbres de régression (CART) pour leur ca-
pacité à modéliser des interactions complexes et non linéaires. Les modèles GLM ont permis
d’identifier des variables explicatives significatives pour la fréquence (ex. : sinistralité histo-
rique, âge, zone géographique) et le coût moyen des sinistres (ex. : fréquence historique, âge
du véhicule, ancienneté client). L’utilisation d’une loi binomiale négative pour la fréquence
et d’une loi log-normale pour le coût s’est avérée pertinente compte tenu de la structure des
données et de la présence de surdispersion.
Les résultats obtenus ont montré que les deux approches fournissent des estimations
cohérentes, bien que le GLM reste plus facilement interprétable pour des besoins actuariels
traditionnels, tandis que l’arbre CART offre une flexibilité appréciable dans la détection
d’effets croisés.
En complément de cette analyse statistique, une application web interactive a été déve-
loppée avec R Shiny, permettant de simuler et de tarifier dynamiquement la prime pure en
fonction des caractéristiques du souscripteur et du véhicule. Cet outil constitue une passerelle
directe entre les résultats du modèle et une utilisation concrète en environnement métier.
En perspective, des améliorations pourraient être apportées par l’intégration de modèles
hybrides (GLM + Machine Learning), l’ajout de variables externes (météo, comportement
de conduite, etc.) ou encore par une évaluation continue de la performance via des données
en temps réel.
Ce projet a ainsi permis de développer une démarche rigoureuse, interprétable et appli-
cable dans la pratique de la tarification en assurance automobile.
44
Réferences
Vous pouvez accéder à la base de données utilisée via le lien suivant :
45