Le principe fondamental est de détercter des critères permettant de répartir une population en 2 classes (notées classiquement 0 et 1, mais que l’on peut généraliser en davantage de classes) prédéfinies. A chaque étape, on recherche la variable qui sépare le mieux les individus en chacune des classes. Une fois la meilleure séparation trouvée (suivant un critère que l’on a choisi a priori), on l’applique, puis on répète la même opération sur chaque noeud de manière à augmenter la discrimination. A chaque noeud, on crée ce qui s’appelle des "noeuds-fils". Chaque noeud-fils donne à son tour naissance à un ou plusieurs noeuds, etc. On arrête dès que les noeuds ne contiennent qu’une unique observation (ce qui est une classification un peu extrême) ou en se fixant un critère d’arrêt.
- Un peu de théorie
- un critère de type chi-deux, lorsque les variables explicatives sont qualitatives, ou discrètes. On parle d’arbre CHAID, pour CHi-square Automatic Interaction Detection (ici par exemple)
- le critère de Gini, pour toutes sortes de variables explicatives. On parle d’arbre CART, pour Classification And Regression Tree (ici)
- l’entropie, là aussi pour toutes sortes de variables. Ce sont les arbres C4.5 ou C5, de Quinlan (ici ou là)

où
correspond à la fréquence dans chacun des
noeuds dans les classes (ici i=0,1). Aussi, si la variable est
uniformément répartie dans les deux classes, l’indice de
Gini sera élevé. On cherche alors à minimiser
l’indice de Gini. Avec deux classes, l’indice est compris entre 0 et
1/2. Notons que l’indice de Gini mesure la probabilité que deux
individus, tirés au hasard dans un noeud, appartiennent à
deux classes différentes.La séparation doit causer la plus grande baisse possible de l’indice de Gini. Dans le cas de l’entropie, on calcule

La technique CART a été inventée en 1984 par Breiman, Friedman, Olshen et Stone. Comme on le voit sur le dessin ci-dessous, un des défauts de cette technique est d’obliger une rectangularisation des classes. On dipose de deux classes (les points rouges et les points verts), que l’on souhaite discriminer à l’aide de deux variables explicatives continues.

- Application aux accidents cardiaques
> MYOCARDE=read.table("http://perso.univ-rennes1.fr/arthur.charpentier/saporta.csv",head=TRUE,sep=";")
> head(MYOCARDE)
FRCAR INCAR INSYS PRDIA PAPUL PVENT REPUL PRONO
1 90 1.71 19.0 16 19.5 16.0 912 SURVIE
2 90 1.68 18.7 24 31.0 14.0 1476 DECES
3 120 1.40 11.7 23 29.0 8.0 1657 DECES
4 82 1.79 21.8 14 17.5 10.0 782 SURVIE
5 80 1.58 19.7 21 28.0 18.5 1418 DECES
6 80 1.13 14.1 18 23.5 9.0 1664 DECES
Il s’agit de victimes d’infarctus du myocarde, qui ont été observés à leur admission aux urgences, avec la fréquence cardiaque (FRCAR), un indcex cardiaque(INCAR), index systolique (INSYS), pression diastolique (PRDIA), pression arterielle pulmonaire (PAPUL), pression venticulaire (PVENT) et resistance pulmonaire (REPUL). Bref, à partir de toutes ces variables on souhaite mieux diagnostiquer les décès. Si on fait un peu de statistique descriptive, on obtient


Dans la méthode CART, on regarde l’ensemble des séparations possibles. Par exemple sur le graphique ci-dessous, on observe l’entropie obtenue en découpant à différents niveaux,


> tree(PRONO~FRCAR+INCAR+INSYS+PRDIA+PAPUL+PVENT+REPUL,data=MYOCARDE,split="gini")
node), split, n, deviance, yval, (yprob)
* denotes terminal node
1) root 71 96.030 SURVIE ( 0.40845 0.59155 )
2) INSYS < 18.85 27 18.840 DECES ( 0.88889 0.11111 )
4) PVENT < 15.25 22 8.136 DECES ( 0.95455 0.04545 )
8) INCAR < 1.58 17 0.000 DECES ( 1.00000 0.00000 ) *
9) INCAR > 1.58 5 5.004 DECES ( 0.80000 0.20000 ) *
5) PVENT > 15.25 5 6.730 DECES ( 0.60000 0.40000 ) *
3) INSYS > 18.85 44 31.160 SURVIE ( 0.11364 0.88636 )
6) REPUL < 1094.5 37 9.195 SURVIE ( 0.02703 0.97297 )
12) PVENT < 13 32 0.000 SURVIE ( 0.00000 1.00000 ) *
13) PVENT > 13 5 5.004 SURVIE ( 0.20000 0.80000 ) *
7) REPUL > 1094.5 7 9.561 DECES ( 0.57143 0.42857 ) *
On retrouve que le premier critère est effectivement suivant l’index systolique. Si l’on étude la population des indices elevés, on trouve que le critère optimal de partition est basé sur la resistance pulmonaire
> tree(PRONO~FRCAR+INCAR+INSYS+PRDIA+PAPUL+PVENT+REPUL,data=MYOCARDE[MYOCARDE$INSYS>18.85,],split="gini")
node), split, n, deviance, yval, (yprob)
* denotes terminal node
1) root 44 31.160 SURVIE ( 0.11364 0.88636 )
2) REPUL < 1094.5 37 9.195 SURVIE ( 0.02703 0.97297 )
4) PVENT < 13 32 0.000 SURVIE ( 0.00000 1.00000 ) *
5) PVENT > 13 5 5.004 SURVIE ( 0.20000 0.80000 ) *
3) REPUL > 1094.5 7 9.561 DECES ( 0.57143 0.42857 ) *
...etc. Tout cela se résume dans l’arbre de décision suivant





du paramètre suffit à caractériser complètement la loi. Le modèle est
alors parfaitement spécifié. Parfois, on peut avoir du mal à spécifier
complètement la loi (et en fait on n’en a pas vraiment besoin... On
peut supposer que connaître le paramètre nous permet de caractériser
les premiers moments (et pas complètement la loi). Ca sera l’idée de la









. Comme nous l’avions mentionné ici (par exemple),
l’hétérogénéité non-observée
entraine de la surdispersion.
. Il
suffit de faire un simple test (ratio de vraisemblance par exemple) de
nullité d’un coefficient. Le hic est qu’on teste si un coefficient est
sur le bord des valeurs possibles, mais Moran (1971) par exemple
propose des solutions. Sur l’estimation du paramètre de surdispersion, j’en ai parlé ici (en présentant la loi quasiPoisson).


on obtient un effet multiplicatif. Et
est alors l’


le prix aujourd’hui d’un tel actif. Notons que le prix d’un actif sans
risque, rapportant 1 demain dans tous les états du monde est
. Aussi, si on note
le taux sans risque, alors 
à la date 1 est alors
.
tel que
soit une distribution de probabilité. Alors
appelée 






le maximum entre la somme investie en actif risqué à la signature du contrat,
et le niveau atteint par l’actif lors du décès,
. Autrement dit, l’assureur s’engage à verser
. De manière plus général, disons qu’il existe une
valeur plancher en dessous de laquelle on ne descendra pas, que l’on
notera K.

) et l’espace des probabilités
financières (sous lesquelles on couvre le risque financiers,
i.e. l’univers
). Autrement dit, la valeur actuelle probable s’écrit





Dans le dernier TD d’actuariat, nous avons utilisé la 


















On présente généralement la
crédibilité dans sa version dynamique, inspirée
par une lecture bayésienne de mise à jour d’information
(comme je le faisais 

,
et où respectivement,


est la variable caractérisant les groupes. Bref, pour faire des
calculs, il suffit de savoir calculer des variances intra et des
variances inter. De manière formelle, sous R, on pourra utiliser un
code de la forme suivante






, alors
et
on en déduit que






est simplement la variance de l’effet aléatoire.
contre 





















et où les coûts de sinistres (individuels) sont une loi Gamma
. Alors la variable composée 












et on suppose
, i.e.
. Aussi,
est une estimation de la charge ultime, et
est une cadence de paiements (allant de 0 à 1). On appelera estimateur de Bornhuetter-Ferguson l’estimateur
est





est généralement interprété comme la prime
acquise pour l’année i. Pour estimer le coefficient
on utilise









,
. Cette suite est sera une
, et pour tout 



et de matrice de transition P, pour tout
,

,







Notons
enfin qu’il existe des avantages pour les bons conducteurs: si un
conducteur est au bonus maximal depuis au moins trois ans, il conserve
son bonus après le premier accident responsable. Notons que c’est le
genre de disposition qui figure dans la loi et que certains assureurs
utilisent à des fins commerciales (comme le montre l’affiche ci-dessus
ou ci-dessous, qui a été analysée sur le blog de Gizmo (












