0% ont trouvé ce document utile (0 vote)
33 vues46 pages

Tarification Assurance Auto : GLM vs CART

Ce projet vise à établir deux méthodes de tarification pour l'assurance automobile, utilisant un Modèle Linéaire Généralisé (GLM) et l'algorithme CART, afin de comparer leur efficacité. Une analyse univariée et des validations de modèles seront réalisées pour évaluer la fréquence et le coût des sinistres en fonction de diverses variables. Enfin, une application web sera développée pour faciliter l'accès aux résultats obtenus.

Transféré par

Hervé Nongpanga
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
33 vues46 pages

Tarification Assurance Auto : GLM vs CART

Ce projet vise à établir deux méthodes de tarification pour l'assurance automobile, utilisant un Modèle Linéaire Généralisé (GLM) et l'algorithme CART, afin de comparer leur efficacité. Une analyse univariée et des validations de modèles seront réalisées pour évaluer la fréquence et le coût des sinistres en fonction de diverses variables. Enfin, une application web sera développée pour faciliter l'accès aux résultats obtenus.

Transféré par

Hervé Nongpanga
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

UNIVERSITÉ CADI AYYAD

FACULTÉ DES SCIENCES ET TECHNIQUES


INGÉNIERIE EN FINANCE ET ACTUARIAT

PROJET D’ASSURANCE NON-VIE

Tarification Assurance Auto

Présenté par:

NONGPANGA Hervé
YELPOUGDOU Inoussa

Encadré par :
Pr. DOUGE

Soutenu le 12 Juin 2025

Année universitaire 2024-2025


Mots clés : Tarification, Assurance Non-Vie, Modèle Linéaire Généralisé, Modèle Fré-
quence–Coût Moyen, Classification and Regression Trees (CART), analyse de coût, analyse
de fréquence.

Résumé
L’objectif de ce projet est la mise en place de deux méthodes de tarification en assurance
automobile, selon deux approches différentes :
— la première à l’aide d’un Modèle Linéaire Généralisé (GLM) ;
— la seconde à l’aide de l’algorithme Classification and Regression Trees (CART), issu
de la théorie de l’Apprentissage Statistique.
À l’issue de ces deux mises en application, nous serons en mesure de comparer les deux
méthodes et d’en résumer les principaux intérêts et inconvénients.
Dans un premier temps, nous appliquerons plusieurs traitements sur la base de données
utilisée pour les deux modélisations. Une analyse univariée sera également réalisée afin d’ob-
server l’évolution des coûts en fonction des variables caractérisant un contrat.
Ensuite, nous appliquerons un GLM aux données, après sélection des variables explicatives
pertinentes. La Prime Pure sera modélisée à l’aide d’une décomposition Fréquence × Coût
Moyen. Nous confronterons les résultats du GLM à ceux de l’analyse univariée et validerons
notre modèle à l’aide d’une étude des résidus.
Dans une troisième partie, nous introduirons les notions d’apprentissage statistique et
d’arbre de décision binaire. La méthodologie CART sera ensuite appliquée aux données d’as-
surance. Nous utiliserons les techniques de validation croisée et d’élagage afin d’obtenir un
arbre optimal en termes de qualité et de complexité. Ce modèle sera également validé par
une analyse des résidus.
Enfin, nous comparerons les résultats obtenus afin de déterminer la méthode la plus
adaptée à notre portefeuille de données. Une application web sera aussi mise en place à l’aide
de R Shiny.

1
Table des matières

I INTRODUCTION 3

II Étude descriptive et retraitement 4


II.1 Description des variables à modéliser . . . . . . . . . . . . . . . . . . . . . . 4
II.2 Selection des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
II.3 Analyse univariée et retraitement des variables . . . . . . . . . . . . . . . . . 6
II.4 Études des corrélations . . . . . . . . . . . . . . . . . . . . . . . . . 12
II.4.1 Variables numériques . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
II.4.2 Variables catégorielles . . . . . . . . . . . . . . . . . . . . . . . . 14
II.5 Partitionnement des bases de données . . . . . . . . . . . . . . . . . . . . . . 16

III Tarification selon le Modèle Linéaire Généralisé 16


III.1 Notions théoriques du Modèle Linéaire Généralisé . . . . . . . . . . . . . . . 16
III.1.1 Présentation du Modèle Linéaire Généraliser . . . . . . . . . . . . . . 16
III.1.2 Comparaison de modèles : les indicateurs statistiques . . . . . . . . . 17
III.2 Modélisation du nombre de sinistres . . . . . . . . . . . . . . . . . . . . . . 18
III.2.1 Distribution et fonction de lien pour le modèle de fréquence . . . . . 18
III.2.2 Sélection des variables et test des interactions . . . . . . . . . . . . . 20
III.2.3 Validation du modèle : Analyse des résidus . . . . . . . . . . . . . . . 24
III.2.4 Synthèse des résultats . . . . . . . . . . . . . . . . . . . . . . . . . . 26
III.3 Modèle de Coût . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
III.3.1 Distribution et fonction de lien pour le modèle de Coût . . . . . . . 26
III.3.2 Sélection des variables et test des interactions . . . . . . . . . . . . . 27
III.3.3 Validation du modèle : Analyse des résidus . . . . . . . . . . . . . . . 30
III.3.4 Synthèse des résultats . . . . . . . . . . . . . . . . . . . . . . . . . . 31
III.4 Prime Pure : Fréquence x Coût . . . . . . . . . . . . . . . . . . . . . . . . . 31
III.4.1 Présentation du modèle final . . . . . . . . . . . . . . . . . . . . . . 31
III.4.2 Conclusion et limites du Modèle Linéaire Généralisé . . . . . . . . . 32

IV Tarification par Apprentissage Statistique (l’algorithme CART) 34


IV.1 L’apprentissage statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
IV.2 L’algorithme CART : Classification And Regression Tree . . . . . . . . . . 34
IV.2.1 Arbre de decision binaire . . . . . . . . . . . . . . . . . . . . . . . . 35
IV.2.2 Critère de segmentation . . . . . . . . . . . . . . . . . . . . . . . . . 35
IV.3 Application aux données d’assurance . . . . . . . . . . . . . . . . . . . . . . 36
IV.3.1 Modèle de la Prime avec CART . . . . . . . . . . . . . . . . . . . . . 36
IV.3.2 Validation Croisée et élagage . . . . . . . . . . . . . . . . . . . . . . . 37
IV.4 Comparaison des approches GLM et Arbres de Décision (CART) . . . . . . . 42

V Mise en place d’une Application Web Avec R Shiny 43

2
I. INTRODUCTION
Dans un marché fortement réglementé et concurrentiel tel que celui de l’assurance non-
vie, les problématiques de tarification sont au cœur des travaux actuariels et structurent
l’intégralité de la chaîne de valeur. Si les modèles linéaires généralisés (GLM) permettent
de prédire simplement et efficacement la fréquence et la sévérité des sinistres, donnant lieu
à une équation tarifaire multiplicative, les méthodes issues de l’apprentissage statistique
(ou Machine Learning) offrent un éclairage nouveau sur les risques sous-jacents ainsi qu’un
meilleur pouvoir prédictif. De plus en plus précis et performants, ces algorithmes permettent
de modéliser la sinistralité dans toute sa complexité, en intégrant des interactions, des effets
non linéaires, voire des relations de causalité qu’un modèle linéaire tend à moyenner ou à
négliger.
Le processus de tarification en assurance non-vie impose cependant de produire un ta-
rif maintenable, pilotable et explicable à tout moment aux tiers, contraintes opérationnelles
qu’un modèle de Machine Learning opaque et volatil peine à satisfaire. Pour le Conseil de
Stabilité Financière (CSF), « le manque d’interprétabilité et d’auditabilité des méthodes d’In-
telligence Artificielle et du Machine Learning pourrait devenir un risque macroéconomique 1
». Autrement dit, la difficulté à expliquer de manière précise et consistante la décision au-
tomatique d’un algorithme constitue un frein à l’intelligibilité et à l’explicabilité, qualités
indispensables dans les secteurs de la finance et de l’assurance. L’excès de complexité déployé
pour mieux comprendre le risque devient alors un risque en lui-même.
La nécessité d’un algorithme complexe est cependant inhérente à la complexité même du
phénomène que l’on modélise. Dans la littérature actuarielle, la construction d’un modèle
de Machine Learning s’effectue souvent en parallèle d’un modèle GLM classique, dans un
objectif de maximisation de la performance ou d’enrichissement ex post du modèle GLM
par des interactions bien choisies. Ce Projet ambitionne de proposer une vision inclusive
et collaborative des modèles linéaires généralisés et des modèles de Machine Learning, en
combinant la structure additive interprétable des premiers avec la complexité et la précision
des seconds. Après une première partie introductive sur les notions de l’assurance non-vie et
la présentation des données , nous décrirons le modèle GLM en tant que modèle de référence
du marché, puis les modèles de Machine Learning comme outils de performance accrue,
exposant ainsi les principes et les limites des deux approches . Nous insisterons notamment
sur les notions d’interprétabilité et d’explicabilité.

1. CSF, 2017, Rapport sur la stabilité financière.

3
II. Étude descriptive et retraitement
II.1 Description des variables à modéliser

Nombre de sinistres
La fréquence des sinistres est définie de la manière suivante :

Nombre de sinistres
Fréquence =
Exposition
Pour modéliser la fréquence des sinistres, nous utilisons la base des contrats. Un contrat
peut avoir : 0, 1, 2,3. . .25 sinistres. Cette base est constituée de 41662 sinistres et 19646
contrats.

Figure 1 – Repartition du nombre de sinistres

4
Figure 2 – Distribution du nombre de sinistre

II.2 Selection des variables


La base de données comprend un nombre important de variables. Nous sélectionnons
donc les variables qui nous semblent intéressantes à étudier pour la structure tarifaire. Nous
retenons les variables présentes dans le tarif actuel. De plus, nous ajoutons les variables, qui
croisées avec la fréquence ou le coût moyen, ont une statistique du χ2 significative.

Figure 3 – Listes des variables retenues

5
II.3 Analyse univariée et retraitement des variables
Dans cette étape, nous réalisons plusieurs graphiques illustrant l’évolution du coût moyen
et la fréquence de sinistres des interventions en fonction de chaque variable potentiellement
explicative. Par ailleurs, ces mêmes graphiques représentent également le volume de données
disponibles pour chaque modalité de la variable considérée (les niveaux étant ceux définis
lors de la remise en classe), autrement dit l’exposition au risque.
Bien que l’objectif final de ce projet soit de modéliser les coûts via une approche multi-
variée, une analyse univariée présente plusieurs intérêts.
Tout d’abord, elle permet d’évaluer si une variable explicative contient suffisamment d’in-
formation pour être incluse dans le modèle. Par exemple, si 99,5% du volume de données est
concentré sur une seule modalité d’une variable, cela suggère que celle-ci pourrait ne pas être
significative statistiquement.
Ensuite, ces graphiques permettent de détecter une éventuelle insuffisance de données sur
certains niveaux d’une variable. Dans ce cas, il peut être pertinent de revenir à l’étape de
remise en classe et de réorganiser les modalités afin d’assurer une meilleure représentativité.
Enfin, l’analyse univariée offre un premier aperçu de l’effet propre de chaque variable sur
le coût moyen et la fréquence de sinistres, indépendamment des autres facteurs (effet non
dé-corrélé).

Les graphiques obtenus sont présentés ci-dessous :

La variable Age du client

Figure 4 – Coût moyen et de la fréquence de sinistres en fonction de l’âge du client

On observe que la tranche d’âge compris entre 40 et 60 ans enregistre plus de sinistres et
de coût que les autres tranches ; suivie de la tranche d’âge 60 ans et plus. Les jeunes-adultes
( ]20-40]) semblent causer moins de sinistres que les deux dernières.
Anciennété de conduite
Ce diagramme en bâton montre la distribution du nombre de sinistres annuel en fonction
de l’ancienneté du client. On remarque que les nouveaux clients ( De 0 à 10 ans d’ancienneté)

6
Figure 5 – Coût moyen et de la fréquence en fonction d’anciennété de conduite

et les très anciens clients ( plus de 20 ans d’ancienneté ) enregistrent en moyennes pratique-
ment le même nombre de sinistres (Ils ont pratiquement le même comportement). Les anciens
clients ( entre 10 et 20 ans ) enregistrent moins de sinistres que ces [Link] nouveaux
clients sont à risque plus élevé : ils provoquent en moyenne plus de sinistres et leurs sinistres
coûtent plus [Link] très anciens clients sont les plus sûrs : ils ont moins d’accidents et les
coûts associés sont moindres.

Type de risque que prend le client

Figure 6 – Coût moyen et de la fréquence en fonction du Type de risque

Types de risque : 1 (motos), 2(camionnettes), 3 (voitures particulières), 4(véhicules agri-


coles que les camionnettes (2) présentent le nombre moyen de sinistres le plus élevé, suivies
des voitures particulières (3), tandis que les véhicules agricoles (4) et les motos (1) causent
nettement moins de sinistres, les véhicules agricoles étant les plus sûrs en fréquence. En ce
qui concerne le coût moyen des sinistres, ce sont les voitures particulières (3) qui génèrent
les sinistres les plus coûteux, suivies des camionnettes, alors que les motos et les véhicules
agricoles présentent les coûts les plus faibles.

7
Zone géographique

Figure 7 – Coût moyen et de la fréquence en fonction du Zone géographique

Les deux zones géographiques indiquent : 0 ( pour les ruraux ) et 1 pour les citadins.
Très logiquement, on remarque que les citadins provoquent plus de sinistres que les ruraux.
Certainement dû au nombre importants d’automobiles en circulation en ville par rapport aux
campagnes, mais ils se diffèrent légèrement du cout moyen.

Existence d’autre conducteurs

Figure 8 – Coût moyen et de la fréquence en fonction de deuxième conducteur

l’existence de plusieurs conducteurs déclarés noté (1) enregistre légèrement plus de si-
nistres que lorsqu’on n’a qu’un seul conducteur déclaré.

Mode de paiement
Ceux qui payent par processus administratif semestriel causent largement plus de sinistres
que ceux qui payent leurs primes annuellement et logiquement ils ont un coût moyen élevé.

8
Figure 9 – Coût moyen et de la fréquence en fonction de Mode de Paiement

Type de Carburant

Figure 10 – Coût moyen et de la fréquence en fonction de Type de carburant

Les clients qui utilisent l’essence comme carburant (1) semblent causer plus de sinistres
que ceux qui utilisent le diesel. En fait l’essence est plus consommée pour les petits trajets (
en ville. . .) alors que le diésel pour les long trajets ( autoroute. . . ) cela explique tout.

Ancienneté de conduite
On remarque que plus l’âge du permis augmente moins le nombre de sinistres causés est
faible. Illustration avec les experts ( entre 30 et 50 ) et les plus de 50ans (+50 ans) qui
enregistrent moins de sinistres que les jeunes permis et les expérimenté ( moins de 30 ans ).

9
Figure 11 – Coût moyen et de la fréquence en fonction de Ancienneté de conduite

Valeur du véhicule

Figure 12 – Coût moyen et de la fréquence en fonction de la valeur du véhicule

Le graphique montre que les véhicules de valeur "Haute" enregistrent en moyenne le plus
grand nombre de sinistres, tandis que ceux de valeur "Bas" ont le plus faible coût moyen
des sinistres. Les véhicules de valeur "Moyen-Bas" et "Moyen-Haut" ont des fréquences et
des coûts moyens de sinistres relativement proches, légèrement inférieurs à ceux de la classe
"Haut". Les véhicules de valeur élevée sont associés à une plus grande fréquence de sinistres
et à un coût moyen plus élevé, ce qui peut refléter une plus grande exposition au risque ou
une réparation plus coûteuse. En revanche, les véhicules de valeur faible sont moins coûteux
en sinistres, même s’ils ne sont pas les moins accidentogènes.

Cylindre du Véhicule
Les véhicules de grosse cylindrée sont associés à une plus grande fréquence de sinistres et
à un coût moyen plus élevé , ce qui peut refléter une plus grande exposition au risque ou une

10
Figure 13 – Coût moyen et de la fréquence en fonction de Cylindre du Véhicule

réparation plus coû[Link] que ceux de petites cylindrées et de cylindres standards ont
des frequence de sinistres relativement proches. Les vehicules de cylindres standard ont un
coût moyen élevé.

Puissance du véhicule

Figure 14 – Coût moyen et de la fréquence en fonction de la Puissance du véhicule

Les véhicules faibles , moyens , puissants ont des fréquences de sinistres relativement
proches, légèrement inférieurs à ceux de la classe Très puissante .Quant aux coût moyens,
plus le véhicule est puissant plus le coût moyen est important.

Age du véhicule
On observe que les vieux véhicules enrégistres de nombreux sinistres et ont un coût moyen
moins cher .Ce qui est évident, car les véhicules anciens peuvent être moins fiables mécanique-
ment, ce qui augmente le risque de pannes ou d’incidents sur la route mais chaque sinistre
coûte moins cher à l’assureur. Cela peut fausser l’intuition selon laquelle plus de sinistres
implique nécessairement un coût plus élevé.

11
Figure 15 – Coût moyen et de la fréquence en fonction del’âge du véhicule

Poids du véhicule

Figure 16 – Coût moyen et de la fréquence en fonction du Poids du véhicule

Les véhicules lourds sont plus fréquemment impliqués dans les sinistres. Les véhicules
moyen-lourds, bien qu’un peu moins sinistrés, causent des coûts importants, peut-être en
raison de leur structure ou de l’impact plus fort lors des accidents. Les véhicules légers sont
globalement moins risqués (peu de sinistres et faibles coûts).

II.4 Études des corrélations


II.4.1 Variables numériques

Corrélation de rang de Spearman

12
La corrélation de rang consiste à attribuer un rang à chaque observation, puis à mesurer
le degré de similarité entre les classements obtenus. Contrairement à la corrélation linéaire
de Pearson, elle est moins sensible aux valeurs aberrantes et ne nécessite pas que les va-
riables suivent une distribution normale. Elle est donc particulièrement adaptée à l’analyse
de variables ordinales.
La corrélation de rang de Spearman, notée ρ (rho), prend des valeurs comprises entre −1
et 1 :
— Une valeur proche de 1 indique une association monotone positive forte entre les rangs ;
— Une valeur proche de −1 traduit une association monotone négative forte ;
— Une valeur proche de 0 suggère l’absence de relation monotone.
La formule de la corrélation de Spearman est donnée par :

Cov(RX , RY )
ρ=
σ RX · σ RY

où RX et RY sont les rangs associés aux variables X et Y , respectivement. Le numérateur


représente la covariance entre les rangs, tandis que le dénominateur est le produit de leurs
écarts types.
Cette approche permet de détecter des relations monotones, qu’elles soient linéaires ou
non.

Exécution avec R
Matrice de corrélation

13
II.4.2 Variables catégorielles
V de Cramér
La V de Cramér est une mesure de l’association entre deux variables qualitatives. Elle est
calculée à partir de la statistique du test du χ2 et s’exprime par la formule suivante :

14
s
χ2
V =
n · min(k − 1, r − 1)
où :
— χ2 est la statistique du test du Chi-deux ;
— n est la taille de l’échantillon ;
— k et r sont le nombre de modalités des deux variables.
La valeur de V varie entre 0 et 1 :
— V = 0 : aucune association ;
— V = 1 : association parfaite.

Exécution avec R
V de Cramér

Figure 17 – Résultat du test de V de Cramér avec R

15
II.5 Partitionnement des bases de données
Nous avons construit deux bases distinctes :
— une base des contrats comprenant 19 646 contrats.
Pour la méthode CART, nous avons besoin de trois échantillons de données :
— Échantillon d’entraînement (60%) : utilisé pour construire le modèle ;
— Échantillon de validation (20%) : utilisé pour optimiser l’algorithme ;
— Échantillon de test (20%) : utilisé pour évaluer les performances du modèle.
En revanche, pour le Modèle Linéaire Généralisé, seuls deux échantillons sont
nécessaires :
— Échantillon d’apprentissage (80%) : qui regroupe les échantillons d’entraînement
et de validation ;
— Échantillon de test (20%) : servant à évaluer le modèle.

III. Tarification selon le Modèle Linéaire Généralisé

Le Modèle Linéaire Généralisé fut introduit en 1972 par les statisticiens John NELDER
et Robert WEDDERBURN. Les actuaires ont longtemps utilisé le Modèle Linéaire Gaussien
dans le monde de l’assurance. Suite à la montée en complexité des problématiques actuarielles,
le Modèle Linéaire Gaussien ne fut plus adapté à la réalité de l’assurance et les actuaires se
sont ainsi tournés vers le Modèle Linéaire Généralisé. L’une des premières utilisations de
ce modèle a eu lieu vers la fin du 20ème siècle à la City University par des actuaires londo-
niens. Le Modèle Linéaire Généralisé présente plusieurs avantages. Il permet de supprimer les
hypothèses fortes de normalité de la variable à expliquer et d’homoscédasticité des résidus.

III.1 Notions théoriques du Modèle Linéaire Généralisé


III.1.1 Présentation du Modèle Linéaire Généraliser

Le Modèle Linéaire Généralisé (GLM) est constitué de trois composantes essentielles :


— Une composante aléatoire : la variable à expliquer Y , dont la distribution appar-
tient à la famille exponentielle.
— Une composante déterministe : on dispose de p variables explicatives X1 , . . . , Xp
décrivant le phénomène étudié. Les coefficients de régression associés sont notés β1 , . . . , βp .
— Une fonction de lien : notée g, elle relie l’espérance de la variable à expliquer,
E(Y ), aux variables explicatives. Cette fonction est supposée déterministe, strictement
monotone, et définie sur R.
Le Modèle Linéaire Généralisé s’écrit alors sous la forme suivante :

g(E(Y )) = β0 + β1 X1 + β2 X2 + · · · + βp Xp

16
La densité f de la variable aléatoire Y appartient à la famille exponentielle, c’est-à-dire
qu’elle peut s’écrire sous la forme suivante :
 
yθ − b(θ)
fY (y; θ, ϕ) = exp + c(y, ϕ)
a(ϕ)

où :
— Le support S est un sous-ensemble de R ou de N ;
— θ est un paramètre réel, appelé paramètre canonique (ou paramètre de la moyenne) ;
— ϕ est un paramètre réel, appelé paramètre de dispersion ;
— a est une fonction définie sur R∗ ;
— b est une fonction définie sur R et deux fois dérivable ;
— c est une fonction définie sur R.
L’estimation des paramètres β1 , β2 , . . . , βk du Modèle Linéaire Généralisé est réalisée par
la maximisation de la log-vraisemblance du modèle.

III.1.2 Comparaison de modèles : les indicateurs statistiques

Déviance
La déviance permet de mesurer la qualité d’ajustement d’un modèle en comparant les
observations aux valeurs estimées. Plus précisément, elle quantifie l’écart entre le modèle
estimé et le modèle saturé, c’est-à-dire le modèle qui possède autant de paramètres à estimer
qu’il y a d’observations, et qui reproduit donc parfaitement les données.
On note :
— D : la déviance ;
— L(θ̂) : la log-vraisemblance du modèle estimé ;
— Lsaturé : la log-vraisemblance du modèle saturé.

Une faible valeur de D traduit un bon ajustement du modèle, car cela signifie que la
log-vraisemblance du modèle estimé est proche de celle du modèle saturé. L’objectif est donc
de minimiser la déviance.
La statistique D suit asymptotiquement une loi du χ2 à n − p degrés de liberté, où n est
le nombre de paramètres du modèle saturé et p ceux du modèle estimé. Ce test du χ2 permet
d’évaluer la perte d’information due à la simplification du modèle. Si la p-value associée est
supérieure à 5%, on considère que le modèle est acceptable. Sinon, la simplification entraîne
une perte d’information significative, et le modèle est rejeté.

17
Critère d’information d’Akaike (AIC)
Le critère AIC est une mesure de la qualité d’un modèle statistique proposée par Hirotugu
Akaike en 1973. Lors de l’estimation d’un modèle, la vraisemblance augmente avec l’ajout
d’un paramètre. Les critères AIC et BIC vont dans le sens du principe de parcimonie, qui
traduit le fait de décrire les données avec le plus faible nombre de paramètres possibles. Les
critères AIC et BIC pénalisent ainsi les modèles en fonction du nombre de paramètres. On
note k le nombre de paramètres du modèle. Le critère AIC est défini de la manière suivante :

AIC = −2L + 2k
où k est le nombre de paramètres du modèle. Un modèle avec un AIC plus faible est
préféré.

Critère d’information bayésien (BIC)


Le critère BIC (ou SBC), proposé par Gideon Schwarz en 1978, est une version du critère
d’information qui prend en compte la taille de l’échantillon n et pénalise plus fortement la
complexité. Sa formule est :

BIC = −2L + k log(n)


On choisit le modèle qui minimise le BIC. Dans notre étude, nous cherchons à minimiser
à la fois l’AIC et le BIC. En cas de divergence entre les deux, nous privilégions généralement
l’AIC.

III.2 Modélisation du nombre de sinistres


III.2.1 Distribution et fonction de lien pour le modèle de fréquence
Le choix de la loi de Poisson est adapté lorsque la variable Y prend des valeurs discrètes,
positives ou nulles. Si N désigne le nombre de sinistres, supposé suivre une loi de Poisson de
paramètre λ, alors :

λk e−λ
P (N = k) =
k!
et

E(N ) = Var(N ) = λ
Le modèle de Poisson repose sur l’égalité E(Ni ) = Var(Ni ) pour chaque catégorie tarifaire
i. Cette hypothèse peut être violée dans la pratique, notamment en cas de surdispersion
(c’est-à-dire E(Ni ) < Var(Ni )), due à une hétérogénéité résiduelle ou à la présence de valeurs
extrêmes et de nombreux zéros.

18
Dans notre cas, nous constatons que la variance est légèrement supérieure à l’espérance.
Nous avons donc réalisé le test de surdispersion de Cameron & Trivedi.
Hypothèses du test :
— H0 : il n’y a pas de surdispersion (le modèle de Poisson est adapté) ;
— H1 : il y a surdispersion ou sous-dispersion (le modèle de Poisson n’est pas adapté).

Test de surdispersion
Un test de surdispersion a été réalisé sur le modèle model_essai. Les résultats sont les
suivants : z = -22,988, p-valeur = 1, et une dispersion estimée à 0,7404.
L’hypothèse alternative du test est que la dispersion vraie est strictement supérieure à 1
(surdispersion). Cependant, la p-valeur très élevée ne permet pas de rejeter l’hypothèse nulle.
Il n’y a donc pas de preuve statistique de surdispersion. Au contraire, la dispersion estimée
étant inférieure à 1 suggère une possible sous-dispersion dans les données, ce qui mérite une
attention particulière lors de l’interprétation des résultats du modèle.

Fonction de lien
Nous choisissons la fonction de lien logarithmique, car elle permet de construire un
modèle multiplicatif, qui garantit des valeurs positives et est facilement interprétable.

Loi retenue
Bien que le test de surdispersion indique une dispersion estimée inférieure à 1, l’analyse
descriptive des données révèle que la variance est significativement supérieure à la moyenne,

19
ce qui est caractéristique d’une surdispersion. Par conséquent, le modèle de régression de
Poisson pourrait être inadapté.
Pour mieux capturer cette variabilité excessive, nous avons choisi d’utiliser un modèle de
régression basé sur la loi binomiale négative, qui est spécifiquement conçue pour traiter les
cas de surdispersion dans les données de type dénombrement.

III.2.2 Sélection des variables et test des interactions

Pour le modèle de fréquence des sinistres, nous reprenons les 18 variables issues de l’ana-
lyse univariée. Nous procédons en plusieurs étapes :
1. Identifier les variables fortement corrélées ;
2. Sélectionner celles ayant le plus grand pouvoir explicatif ;
3. Tester les interactions pertinentes.

1) Selection par Methode manuelle :

Lorsque deux variables ont une V de Cramér supérieure à 0,5, nous décidons de :
— conserver uniquement l’une des deux ;
— ou créer une interaction si cela améliore significativement le modèle.
D’après la matrice de corrélation, les variables
Poids_du_véhicule, Puissance_du_véhicul, Valeur_du_véhicule et Cylindre_véhicul
sont fortement corrélées (V de Cramér entre 0.5 et 0.6). Il serait redondant de toutes les
conserver. Nous choisissons donc de retenir l’une d’elles ou une combinaison pertinente des
deux.
Nous allons comparer pour chaque variable statistiquement et graphiquement le modèle
avec et sans la variable en question.

Puissance du véhicule

20
Cylindre du véhicule

Poids du véhicule

La p-value obtenue pour la variable Poids_du_vehicule est de 0,4482, soit bien supé-
rieure au seuil de 5%. Cela signifie que l’ajout de cette variable n’améliore pas significative-
ment la qualité du modèle. Autrement dit, on ne rejette pas l’hypothèse nulle selon laquelle
cette variable n’apporte pas d’information utile à la modélisation.
Par ailleurs, l’inclusion de Poids_du_vehicule entraîne une augmentation de la com-
plexité du modèle, comme le montre la dégradation du critère BIC, sans contrepartie en
termes de performance. Il est donc raisonnable de ne pas retenir cette variable dans le mo-
dèle final de fréquence.

Valeur du véhicule

L’ajout de la variable Valeur_du_vehicule entraîne une légère diminution de la déviance


(∆ = −2), mais la p-value associée au test de vraisemblance est de 0,5788, soit bien au-delà
du seuil de 5%. Cette amélioration n’est donc pas statistiquement significative.

21
Par ailleurs, les critères AIC et BIC augmentent respectivement de 5,43 et 27,67, ce qui
indique une complexité accrue sans gain en performance.
Il est raisonnable de ne pas inclure cette variable dans le modèle final.

Sur la base des corrélations fortes observées entre certaines variables explicatives, nous
faisons les choix suivants dans la construction du modèle de fréquence :
— Les variables Age et Ancienneté_client sont toutes deux conservées, afin d’observer
le niveau de maturité du client ;
— De même, nous choisissons de conserver la variable Nombre_historique_sinistres,
que nous combinons avec la Fréquence_historique à travers une interaction, dans
le but de mieux représenter l’historique du comportement assurantiel du client.

2) Selection par Méthode Pas à Pas (Stepwise) :

Une alternative à la suppression manuelle de variables existe en utilisant les procédures


pas à pas (backward, forward alternative), qui suivant la méthode ne conservent que les
variables qui ont un apport significatif à l’explication de la variable modélisée. Cependant
cette méthode ne se base que sur les données, alors il faut espérer et vérifier que les résultats
convergent dans le même sens que nos idées. Suite à la Méthode Alternative (mix de la
méthode forward et backward), nous retenons les variables suivantes :

Table 1 – Variables retenues dans le modèle final de prédiction de la fréquence annuelle

Variable Description / Remarques


Nombre_de_sinistres_historique * Fréquence_historique Interaction
Age * Anciennete_client Interaction
Date_debut_contrat Date de souscription du contrat
Anciennete_conduite Expérience de conduite
Type_de_risque Catégorie de risque (profil assuré)
Zone_geographique Localisation géographique
Mode_de_paiement Mode de règlement choisi
Type_de_carburant Essence, diesel, électrique, etc.
Deuxieme_conducteur Présence d’un second conducteur
Cylindre_vehicule Cylindrée du véhicule
Age_vehicule Ancienneté du véhicule

Les indicateurs d’erreur obtenus pour le modèle final sont satisfaisants, avec un RMSE
de 1,48 et un MAE de 0,96, indiquant un écart raisonnable entre les valeurs observées et les
valeurs prédites.
Les critères AIC, BIC s’élèvent respectivement à 45 171,69 et 45 376,32. Ces valeurs seront
utilisées pour comparer objectivement différents modèles : plus elles sont faibles, plus le
compromis entre ajustement et complexité est bon.

22
Critères Résultats du modèle
AIC 45171.69
BIC 45376.32
RMSE 1.477
MAE 0.96
Table 2 – Indicateurs de performance du modèle final

Le modèle utilisé est une régression binomiale négative avec une fonction de lien loga-
rithmique pour modéliser la fréquence annuelle des sinistres. Le paramètre de dispersion
est estimé à 51.78, indiquant une surdispersion importante et justifiant ce choix de modèle
plutôt qu’un modèle de Poisson.
Dans ce modèle, un coefficient positif implique une augmentation exponentielle de la
fréquence des sinistres, tandis qu’un coefficient négatif indique une diminution. Les variables
les plus significatives sont :
— Nombre_de_sinistres_historique (β = 0.0634, p < 0.001) : chaque sinistre his-
torique supplémentaire augmente la fréquence attendue d’environ 6,5%.

23
— Fréquence_historique (β = 0.1550, p < 0.001) : une fréquence historique plus
élevée augmente la fréquence attendue d’environ 16,8%.
— Age [40-60] (β = −0.1499, p = 0.017) : cette tranche d’âge présente une fréquence
plus faible que la référence, soit une diminution d’environ 14%.
— Type_de_risque (β = −0.1311, p = 0.013) : certains types de véhicules génèrent
moins de sinistres que la catégorie de référence.
— Zone_géographique (β = −0.0523, p = 0.033) : certaines zones géographiques
(probablement rurales) enregistrent moins de sinistres.
— Deuxieme_conducteur (β = 0.0843, p = 0.003) : la présence d’un second conduc-
teur déclaré augmente la fréquence des sinistres d’environ 8,8%.
Plusieurs interactions (ex. Nombre_de_sinistres_historique * Fréquence_historique)
ont été testées, mais aucune n’est significative (p > 0.05). Elles n’améliorent donc pas signi-
ficativement la qualité du modèle.
Les variables comportementales et historiques apparaissent comme les plus pertinentes
pour prédire la fréquence des sinistres. Les effets liés à l’âge, au type de risque, à la zone
géographique et à la présence d’un deuxième conducteur sont également significatifs.

III.2.3 Validation du modèle : Analyse des résidus

24
Dans l’ensemble, le nuage de résidus de Pearson ne présente pas de structure systématique,
et les résidus sont globalement centrés autour de zéro, ce qui confirme que le modèle est
correctement spécifié. Quelques points s’écartent fortement (résidus > 4), ce qui peut signaler
la présence d’observations atypiques. La légère diminution de la dispersion des résidus avec
les valeurs ajustées est typique des modèles de Poisson, et ne remet pas en cause la validité
globale du modèle.
Conclusion : le diagnostic graphique confirme que le modèle fournit des prédictions
fiables et appropriées pour les données étudiées.

Analyse des résidus de déviance


Le graphique des résidus de déviance en fonction des valeurs ajustées montre une forte
concentration de points pour les faibles valeurs, ce qui est attendu dans un contexte de
données de type dénombrement. Les résidus sont globalement centrés autour de zéro et ne
présentent pas de tendance particulière, ce qui suggère un bon ajustement du modèle.
Quelques points s’écartent notablement, notamment vers le bas, traduisant la présence
possible d’observations atypiques. Une hétéroscédasticité modérée est visible, avec une dis-
persion plus importante des résidus pour les petites valeurs ajustées.
Conclusion : Le modèle binomial négatif semble bien adapté aux données, en tenant
compte de la sur-dispersion observée dans la modélisation initiale. L’absence de structure
systématique dans les résidus confirme la qualité globale de l’ajustement.

25
III.2.4 Synthèse des résultats

Pour récapituler, nous avons choisi la fonction de lien logarithmique et la loi Binomiale
negative pour modéliser la fréquence des sinistres. Nous avons retenu 11 variables explicatives
dont deux interactions.

III.3 Modèle de Coût


III.3.1 Distribution et fonction de lien pour le modèle de Coût

Quelle fonction de lien utilisée ?


Nous choisirons la fonction de lien logarithmique. La fonction de lien logarithmique à
l’avantage de créer un modèle multiplicatif, qui prend des valeurs positives et qui est facile-
ment compréhensible.

Quelle loi choisir pour le coût des sinistres ?


En assurance dommage, le coût moyen est généralement modélisé par la loi Gamma ou
Log-Normal. Après plusieurs tests, nous retenons la loi Log-Normal.

Le diagramme quantile-quantile (Q-Q plot) permet de vérifier la qualité de l’ajustement


d’une loi à des données empiriques. L’objectif est alors de comparer les quantiles de la loi
théorique aux quantiles des données étudiées. Les graphiques ci-dessous représentent le Q-Q
plot de la distribution des coûts moyens en fonction des lois gamma et log-normale :

(a) Diagramme Quantile-Quantile pour la Loi (b) Diagramme Quantile-Quantile pour la


Gamma Loi Log-normal

Le QQ-Plot ci-dessus permet d’évaluer l’adéquation des données de coût moyen à une
loi Gamma. On observe un bon alignement des points pour les faibles quantiles, indiquant

26
une bonne représentation des petites valeurs. Toutefois, une dispersion importante est visible
dans les grandes valeurs, ce qui suggère la présence d’observations extrêmes (outliers) que le
modèle Gamma peine à ajuster correctement.
Le QQ-Plot indique que les quantiles des données transformées en logarithme sont glo-
balement alignés avec ceux d’une distribution normale théorique, ce qui suggère une bonne
adéquation à une loi log-normale. Cependant, de légers écarts sont visibles aux extrémités,
traduisant la présence potentielle de valeurs extrêmes ou atypiques.
Fonction de distribution cumulée du coût moyen :

Donc d’après le graphe du QQ-Plot et celui de la fonction de répartition, nous pouvons


conclure que le coût moyen suit une loi Log-normale.

III.3.2 Sélection des variables et test des interactions

Pour le modèle de coût, nous reprenons les 17 variables sélectionnées dans l’analyse uni-
variée de la partie 1. Tout d’abord, nous allons étudier les variables qui sont très fortement
corrélées, puis sélectionner les variables qui ont un pouvoir explicatif le plus important pour
le modèle de coût et enfin tester les interactions qui semblent pertinentes.

1) Selection par Méthode Manuelle :


En se basant mencore une fois sur les indicateurs comme l’AIC, le BIC et la P-value nous
avons retenu 10 Variables pour notre prediction.

27
Variables retenues
Fréquence_historique
Age_vehicule
Date_debut_contrat
Valeur_vehicule
Anciennete_client
Nombre_de_sinistres_historique
Type_de_risque
Deuxieme_conducteur
Cylindre_vehicule
Age

Table 3 – Variables retenues par la methode manuelle

2) Selection par Stepwise :

Donc la Methode de stepwise confirme les variabes retenues dans la methode Manuelle.

28
Critères Résultats du modèle
AIC 43498.92
BIC 43643.07
RMSE 654.607
MAE 371.150
Table 4 – Indicateurs de performance du modèle final de coût

Les résultats indiquent une bonne spécification globale du modèle, avec des résidus bien
centrés autour de zéro et une dispersion modérée.
Dans ce modèle, un coefficient positif indique une augmentation exponentielle du coût
moyen des sinistres, tandis qu’un coefficient négatif indique une diminution.
— Fréquence_historique (β = 0.1688, p < 0.001) : un effet positif et significatif ; une
fréquence historique plus élevée est associée à un coût moyen plus élevé.
— Age_vehiculeNouveau Véhicule (β = −0.3329, p < 0.001) : les véhicules neufs
génèrent un coût moyen significativement plus faible.
— Date_debut_contrat (β = 0.2619, p < 0.001) : une date de début de contrat plus
récente est associée à un coût moyen plus élevé.

29
— Valeur_vehicule : les catégories Moyen-Bas (β = 0.1091, p < 0.001) et Moyen-Haut
(β = 0.0914, p < 0.001) sont significatives, indiquant que les véhicules de valeur
intermédiaire ont des coûts moyens plus élevés que la catégorie de référence.
— Anciennete_client : la catégorie Très ancien clients (β = −0.1523, p < 0.001)
est significative ; ces clients ont des coûts moyens plus faibles.
Les variables les plus pertinentes pour expliquer le coût moyen des sinistres sont la fré-
quence historique, l’âge du véhicule, la date de début du contrat, la valeur du véhicule et
l’ancienneté du client. Ces variables ont un impact significatif et cohérent avec les attendus
du métier d’assureur.

III.3.3 Validation du modèle : Analyse des résidus

L’analyse des résidus simples et pondérés a été réalisée afin de vérifier la qualité de
l’ajustement du modèle.
Le graphique des résidus simples en fonction de l’index montre une répartition homogène
et centrée autour de zéro, ne révélant aucune tendance particulière ni dépendance sérielle.
De même, les résidus pondérés présentent un comportement similaire, confirmant l’absence
de biais dans le modèle.
L’analyse des résidus simples et pondérés en fonction des valeurs ajustées indique une
dispersion globalement constante. Une légère tendance à l’hétéroscédasticité peut être obser-
vée pour les très grandes valeurs ajustées, mais celle-ci est atténuée grâce à la pondération
appliquée par le modèle GAMLSS.

30
Ces éléments suggèrent que le modèle de coût retenu est correctement spécifié et que les
hypothèses relatives à l’homoscédasticité et à l’absence de biais sont globalement satisfaites.

III.3.4 Synthèse des résultats


Pour récapituler, nous avons choisi la fonction de lien logarithmique et la loi Log-normale
pour modéliser le coût moyen des sinistres. Ce choix s’est avéré pertinent compte tenu de la
nature strictement positive et asymétrique des données de coût.
Suite à une sélection rigoureuse des variables, 10 variables explicatives ont été retenues
pour l’élaboration du modèle. Ces variables ont été identifiées comme significatives pour
expliquer la variabilité du coût moyen des sinistres automobiles.
L’évaluation des performances du modèle à travers l’analyse des résidus a montré des
résultats satisfaisants. Les résidus simples et pondérés se distribuent de manière homogène
autour de zéro sans tendance apparente, ce qui suggère une bonne spécification du modèle. De
plus, l’examen des résidus par rapport aux valeurs ajustées indique une variance globalement
stable, sans signe manifeste d’hétéroscédasticité marquée. Les quelques valeurs aberrantes
détectées restent limitées et n’affectent pas la validité globale du modèle.
En conclusion, le modèle construit présente une capacité d’explication adéquate des coûts
moyens des sinistres en assurance automobile, avec une bonne qualité d’ajustement et une
conformité globale aux hypothèses statistiques requises.

III.4 Prime Pure : Fréquence x Coût


III.4.1 Présentation du modèle final
Notre modèle Prime Pure est le produit du modèle de Fréquence et celui de Coût Moyen.
Nous obtenons finalement un modèle formé de 12 variables explicatives dont une interaction.
Notre modèle tarifaire pour la garantie Pertes et Avaries est le suivant :

Important
Prime pure = Constante × Nombre_historique ∗ frequence_historique × Age ∗ Ancienneté_client
× valeur_du_vehicule × Date_debut_contrat × Type_de_risque × Ancienneté_conduite
× zone_geographique × Deuxième_conducteur × Cylindre_vehicule × Mode_Paiement
× Type_carburant × Age_vehicule

31
III.4.2 Conclusion et limites du Modèle Linéaire Généralisé
Nous avons réalisé la modélisation de la Prime Pure comme le produit de la Fréquence et
du Coût moyen à l’aide du Modèle Linéaire Généralisé. Nous avons choisi la loi Log-normale
pour le modèle de Coût Moyen et la loi Binomiale negative pour le modèle de Fréquence.
Nous sommes satisfait de l’adéquation du Coût Moyen avec une loi Log-normale et celle de
la fréquence.

De plus, notre portefeuille de données en Automobile est constitué d’un certain nombre
de variables continues que nous avons discrétisées. Ainsi, nous avons fait des hypothèses très
fortes concernant les lois d’adéquation et la discrétisation des variables continues.

Ces hypothèses très restrictives nous ont conduits à nous tourner vers d’autres approches
de tarification. Nous allons alors réaliser la modélisation de la Prime Pure à l’aide d’une ap-
proche alternative issue de la théorie statistique de l’apprentissage : Les arbres de decisions
(CART).

32
Quatrième Partie

Analyse de prime pure par


Apprentissage Statistique - METHODE CART

33
IV. Tarification par Apprentissage Statistique (l’algorithme
CART)
IV.1 L’apprentissage statistique
Aussi appelée Machine Learning en anglais, cette technique vise à rendre le processus
d’apprentissage des données le plus autonome possible. En effet, comme son nom l’indique,
l’objectif est de permettre à l’ordinateur d’apprendre par lui-même comment analyser les
données qui lui sont fournies, et comment en extraire des informations pertinentes. En ob-
servant les données, l’ordinateur découvre progressivement, à l’aide d’algorithmes que nous
détaillerons par la suite, la manière dont les variables interagissent entre elles ainsi que leur
influence sur la variable à prédire.
Les algorithmes d’apprentissage statistique se répartissent en deux grandes familles :
— Apprentissage supervisé : Il consiste à établir des règles de comportement à par-
tir d’une base de données contenant des exemples déjà étiquetés. L’objectif est de
prédire la valeur de sortie (variable à expliquer) pour une nouvelle donnée d’entrée
(caractérisée par ses variables explicatives).
— Apprentissage non supervisé : Lorsqu’on ne dispose que d’exemples sans éti-
quettes, on parle d’apprentissage non supervisé. L’algorithme doit alors regrouper
les données selon leurs attributs disponibles afin de constituer des groupes homogènes
d’exemples. La similarité entre les observations est généralement mesurée à l’aide d’une
fonction de distance.
Il existe plusieurs algorithmes d’apprentissage statistique. Dans notre étude, nous avons
choisi de privilégier l’algorithme CART (Classification and Regression Trees), qui relève de
l’apprentissage supervisé, afin de construire des arbres de décision. Ces derniers présentent
l’avantage d’être simples d’utilisation et d’interprétation. De plus, CART est l’un des algo-
rithmes les plus répandus et les plus développés sur des logiciels tels que SAS et R. Nous
avons opté pour le logiciel R, qui propose de nombreux packages dédiés, notamment le package
rpart , que nous utiliserons, et pour lequel une documentation abondante est disponible en
ligne.

IV.2 L’algorithme CART : Classification And Regression Tree


L’algorithme CART a été développé et publié par Leo Breiman en 1984 . Il permet de
construire des arbres de décision binaires à partir des données fournies.
On parle d’arbre de régression lorsque la variable à prédire est continue et peut prendre
une infinité de valeurs (comme c’est le cas dans notre étude pour le coût moyen). En revanche,
il s’agit d’un arbre de classification lorsque la variable à prédire est catégorielle et prend
un nombre fini de modalités.

34
IV.2.1 Arbre de decision binaire
Un arbre de décision est un outil d’aide à la décision qui représente une situation sous la
forme graphique d’un arbre, de façon à faire apparaître à l’extrémité de chaque branche les
différents résultats possibles en fonction des décisions prises à chaque étape.
L’arbre de décision est un outil très apprécié pour sa lisibilité. Il est utilisé pour répartir
une population d’individus en groupes homogènes selon un ensemble de variables discrimi-
nantes. L’arbre de décision fait partie des méthodes d’apprentissage supervisé. Il s’agit de
prédire avec la plus grande précision possible les valeurs prises par la variable à expliquer
à partir d’un ensemble de descripteurs. Cela rejoint complètement l’objectif des Modèles
Linéaires Généralisés.
En partant de la racine de l’arbre, qui constitue l’ensemble des données, l’algorithme
sépare successivement les données en deux groupes appelés nœuds. C’est pourquoi l’on parle
d’arbre binaire.
Les séparations sont effectuées selon un critère de segmentation, qui peut varier selon le
type de modélisation. L’algorithme cesse de réitérer les séparations lorsqu’un critère d’arrêt
(défini au préalable par l’utilisateur) est atteint. Ce critère d’arrêt peut être, par exemple,
un nombre minimum d’individus au sein d’un groupe. Ainsi, l’algorithme s’arrête avant de
créer des groupes trop petits qui ne seraient pas vraiment significatifs.
Un nœud final où aucune séparation n’est effectuée (du fait qu’un critère d’arrêt est
atteint) s’appelle une feuille.

IV.2.2 Critère de segmentation


Pour choisir la variable de segmentation sur un nœud ainsi que la valeur de cette variable,
l’algorithme teste toutes les variables potentielles et choisit celle qui maximise la réduction
de déviance R :

R = Dparent − (Dfils gauche + Dfils droit )


Ainsi, il maximise le gain en pureté lors du passage du nœud parent aux nœuds fils. Plu-
sieurs fonctions de déviance D peuvent être définies. Pour les problèmes de classification, on
utilise généralement l’indice de Gini, tandis que la somme des carrés résiduelle est préconisée
pour les problèmes de régression.
Indice de Gini :
Pour une classification, c’est-à-dire pour prédire la valeur d’une variable discrète, l’algorithme
CART utilise par défaut un critère de segmentation basé sur l’indice de Gini, dont la formule
est la suivante :
K
X
Gini(t) = 1 − p2k
k=1

où :
— t représente le nœud considéré,
— K est le nombre total de classes,
— pk est la proportion d’observations appartenant à la classe k dans le nœud t.

35
Somme des carrés résiduels :
Pour une régression, c’est-à-dire pour prédire la valeur d’une variable continue, l’algorithme
CART utilise par défaut un critère de segmentation basé sur la somme des carrés résiduelle
(Residual Sum of Squares, ou RSS en anglais). La déviance pour le nœud j s’exprime alors
de la façon suivante :
X
Dj = (yi − ȳj )2
i∈nœud j

où :
— yi est la valeur de la variable à expliquer pour l’observation i,
— ȳj est la moyenne empirique de la variable à expliquer calculée sur les observations
contenues dans le nœud j.
Plus la somme des carrés résiduelle est faible, plus le nœud est considéré comme pur.

IV.3 Application aux données d’assurance


Plus le modèle est complexe, plus l’arbre le sera également. Il n’est pas souhaitable d’avoir
un arbre trop grand, au risque de perdre en simplicité d’interprétation. De plus, si le modèle
s’ajuste presque parfaitement aux données d’apprentissage, on peut craindre qu’il soit inapte
à généraliser sur de nouvelles données et à fournir des estimations fiables.
Tout l’enjeu réside donc dans la taille de l’arbre à envisager : ni trop petit (pour conserver
une précision suffisante dans les prédictions), ni trop grand (pour éviter un surajustement).
Il faut trouver l’arbre le plus petit possible, tout en conservant la performance prédictive
la plus élevée possible. Pour cela, un compromis doit être réalisé entre la performance et la
complexité de l’arbre.

IV.3.1 Modèle de la Prime avec CART

Table 5 – Évaluation du modèle sur les jeux d’apprentissage et de test

Métrique Apprentissage Test


RMSE 0.000 189.83
MAE 0.000 114.94
MedAE 0.000 57.27
R 2
1.000 -0.56
EVS 1.000 -0.54

Les résultats montrent une performance parfaite sur le jeu d’apprentissage, avec des er-
reurs nulles et des scores maximaux (R2 = 1). En revanche, les performances sur les données
de test se dégradent fortement : le R2 et l’EVS sont négatifs, et les erreurs (RMSE, MAE)
sont élevées. Ces écarts révèlent un surapprentissage du modèle, qui s’ajuste trop aux
données d’apprentissage et généralise mal aux données nouvelles.

36
IV.3.2 Validation Croisée et élagage

Principe de la validation croisée

Par défaut, la fonction rpart partitionne en interne les données d’entrée en xval = 10
portions (ce nombre est paramétrable dans les options). Elle ajuste un arbre sur les 10 9
de la
base d’entrée, et utilise la fraction restante de 10 pour estimer l’erreur en validation croisée.
1

Pour ce faire, elle prédit le 10


1
restant à l’aide de l’arbre construit sur les 10
9
, et calcule l’erreur
de prédiction. Le taux d’erreur en validation croisée est alors la moyenne des taux d’erreur
ainsi collectés sur les 10 arbres (chacun d’entre eux étant construit sur 10 9
de la base d’entrée
et testé sur le 10 restant).
1

La méthode par défaut de validation croisée à 10 plis est justifiée lorsqu’on ne dispose pas
d’un grand nombre de données. Dans notre cas, étant donné que l’on dispose d’un nombre
important d’observations, il est plus pertinent d’adapter les proportions de données dédiées
à la construction et à la validation croisée.
Nous avons précédemment exprimé le souhait de partitionner la base de données en plu-
sieurs parties . Ainsi, au sein de la base d’apprentissage, nous souhaitons dédier 32 des obser-
vations à la construction de l’arbre, et 13 à la validation croisée. Pour cela, nous fournissons
en entrée à la fonction rpart la base d’apprentissage (soit 75% des données totales), et nous
modifions la valeur par défaut de xval en la fixant à 3. Ainsi, rpart ajustera un arbre
sur les 23 de la base d’apprentissage, et effectuera une validation croisée sur le tiers restant,
conformément aux paramètres définis plus haut (xval = 3).

37
Interprétation :
La courbe présentée ci-dessus illustre l’évolution de l’erreur quadratique moyenne (RMSE)
en fonction de la profondeur maximale autorisée pour l’arbre de décision. On constate une
diminution progressive du RMSE jusqu’à une profondeur de 5, où l’erreur atteint son mini-
mum. Cette profondeur semble donc constituer un compromis optimal entre complexité du
modèle et capacité prédictive.
Au-delà de cette profondeur, le RMSE augmente de façon notable, traduisant un phé-
nomène de surapprentissage (overfitting). L’arbre devient alors trop spécifique aux données
d’apprentissage, ce qui dégrade sa performance sur des données nouvelles.
Ainsi, fixer la profondeur maximale de l’arbre à 5 permet de limiter la complexité du
modèle tout en assurant une bonne capacité de généralisation.

38
Figure 22 – Arbre de décision pour la modélisation de la prime

Interprétation :
L’arbre de décision ci-dessus présente la hiérarchie des variables explicatives sélectionnées
pour la prédiction du coût moyen des sinistres. La première variable de segmentation est
Valeur du véhicule, indiquant que cette variable possède le plus grand pouvoir discrimi-
nant dans le modèle.
Chaque embranchement de l’arbre correspond à une règle de partition des observations
en fonction d’un seuil de la variable considérée. À chaque noeud terminal (feuille), le modèle
fournit une prédiction du coût moyen ainsi que le nombre d’observations correspondant à
cette règle.
On remarque que certaines variables telles que Age du conducteur, Zone géographique,
ou encore Cylindrée du véhicule apparaissent dans les niveaux inférieurs de l’arbre, illus-
trant leur rôle secondaire par rapport à la Valeur du véhicule.
L’arbre met en évidence l’existence d’interactions complexes entre certaines variables qui
auraient été difficiles à modéliser explicitement via des modèles linéaires généralisés (GLM).
Enfin, la profondeur de l’arbre reste maîtrisée, évitant ainsi un risque de surapprentissage
(overfitting) tout en capturant des effets non-linéaires et des interactions pertinentes entre
les variables.

39
Métrique Apprentissage Test
RMSE 126.43 135.99
MAE 85.07 90.21
MedAE 58.39 61.03
R 2
0.341 0.201
EVS 0.341 0.202

Table 6 – Résultats des métriques d’évaluation pour les ensembles d’apprentissage et de


test

Interprétation :
Les résultats du tableau 6 montrent une légère dégradation des performances entre l’ensemble
d’apprentissage et l’ensemble de test, ce qui est attendu dans un cadre de modélisation
classique. Les valeurs du RMSE et du MAE sont proches entre les deux jeux, ce qui indique
que le modèle généralise correctement sans sur-apprentissage marqué.
L’indicateur R2 sur l’ensemble de test vaut 0.201, ce qui signifie que le modèle explique
environ 20% de la variance des données non vues. Ce score reste relativement modeste, ce qui
peut s’expliquer par la complexité et la variabilité des coûts moyens en assurance automobile.
Toutefois, la cohérence entre l’apprentissage et le test suggère que le modèle est stable.
Enfin, la Similarité entre R2 et l’Explained Variance Score (EVS) confirme l’absence de
biais important dans les résidus, traduisant un modèle relativement bien calibré malgré une
marge d’amélioration possible sur sa capacité explicative.

40
Cinquième Partie

Comparaison des deux méthodes de tarrification

41
IV.4 Comparaison des approches GLM et Arbres de Décision (CART)
Dans cette section, nous exposons les avantages et les limites des deux principales mé-
thodes utilisées : le Modèle Linéaire Généralisé (GLM) et les Arbres de Décision (CART).
Par la suite, nous détaillerons les différences fondamentales de modélisation entre ces deux
approches, avant de comparer les résultats empiriques obtenus.

Modèle Linéaire Généralisé (GLM) Avantages :


— Excellente interprétabilité : chaque coefficient de régression représente l’effet direct
d’une variable explicative sur la variable cible.
— Mise en œuvre simple et rapide, bien maîtrisée par la communauté actuarielle.
— Temps de calcul réduit, adapté à des jeux de données volumineux.
— Cadre théorique solide et largement utilisé dans l’industrie de l’assurance.
Inconvénients :
— Hypothèses fortes sur la distribution de la variable réponse et la forme linéaire des
effets prédictifs.
— Nécessité fréquente de discrétiser les variables continues, avec un risque de perte d’in-
formation.
— Sensibilité potentielle à la sur-dispersion dans les modèles de fréquence.

Arbres de Décision (CART) Avantages :


— Utilisation directe des variables continues ou catégorielles sans nécessiter de transfor-
mation ou de discrétisation.
— Résultats facilement interprétables sous forme d’arbre, compréhensible par des non-
spécialistes.
— Gestion automatique des valeurs manquantes et des variables non informatives.
Inconvénients :
— Moins robuste : sensibilité aux variations des données d’apprentissage (problème de
variance élevée).
— Risque de sur-apprentissage si l’arbre n’est pas correctement élagué.
— Moins performant que les méthodes ensemblistes (comme les forêts aléatoires ou le
boosting) en termes de prédiction brute.

42
V. Mise en place d’une Application Web Avec R Shiny

43
Conclusion générale
Ce travail s’est inscrit dans le cadre de la modélisation et de la tarification de la prime
pure en assurance automobile, dans un contexte où la précision, l’équité et la robustesse des
modèles sont des enjeux majeurs pour les compagnies d’assurance.
Deux approches complémentaires ont été mises en œuvre : les modèles linéaires généralisés
(GLM) pour leur interprétabilité statistique, et les arbres de régression (CART) pour leur ca-
pacité à modéliser des interactions complexes et non linéaires. Les modèles GLM ont permis
d’identifier des variables explicatives significatives pour la fréquence (ex. : sinistralité histo-
rique, âge, zone géographique) et le coût moyen des sinistres (ex. : fréquence historique, âge
du véhicule, ancienneté client). L’utilisation d’une loi binomiale négative pour la fréquence
et d’une loi log-normale pour le coût s’est avérée pertinente compte tenu de la structure des
données et de la présence de surdispersion.
Les résultats obtenus ont montré que les deux approches fournissent des estimations
cohérentes, bien que le GLM reste plus facilement interprétable pour des besoins actuariels
traditionnels, tandis que l’arbre CART offre une flexibilité appréciable dans la détection
d’effets croisés.
En complément de cette analyse statistique, une application web interactive a été déve-
loppée avec R Shiny, permettant de simuler et de tarifier dynamiquement la prime pure en
fonction des caractéristiques du souscripteur et du véhicule. Cet outil constitue une passerelle
directe entre les résultats du modèle et une utilisation concrète en environnement métier.
En perspective, des améliorations pourraient être apportées par l’intégration de modèles
hybrides (GLM + Machine Learning), l’ajout de variables externes (météo, comportement
de conduite, etc.) ou encore par une évaluation continue de la performance via des données
en temps réel.
Ce projet a ainsi permis de développer une démarche rigoureuse, interprétable et appli-
cable dans la pratique de la tarification en assurance automobile.

44
Réferences
Vous pouvez accéder à la base de données utilisée via le lien suivant :

Lien vers la base de données Mendeley

Michel Denuit et Arthur Charpentier, Mathématiques de l’assurance non-vie, Tome II : Ta-


rification et Provisionnement, Éditions Economica, 2004.

Arthur Charpentier et Christophe Dutang, L’Actuariat avec R, Version numérique, décembre


2012.

45

Vous aimerez peut-être aussi