0 évaluation0% ont trouvé ce document utile (0 vote) 5 vues20 pagesReseauxdeneurones
Copyright
© © All Rights Reserved
Formats disponibles
Téléchargez aux formats PDF ou lisez en ligne sur Scribd
27 -
RESEAUX DE NEURONES ET MODELES
STATISTIQUES
Antonio Ciampi
Department of Epidemiology and Biostatistics
Me Gill University, Montreal, Quebec, Canada
Yves Lechevallier
INRIA - Rocquencourt Domaine de Voluceau
78153 Le Chesnay Cédex, France
1. Introduction
Les réseaux de neurones formels se sont imposés, dans plusieurs domaines, durant
ces demiéres années comme un outil universel. En statistique, ils sont utilisés en tant
que classificateurs (analyse discriminante), détecteurs de classes (classification
automatique), estimateurs non-paramétriques de régression non linéaire et comme
estimateurs de fonctions de densité.
Leur utilisation repose sur un théoréme d’approximation, beaucoup cité, qui, sous des
conditions de régularité relativement modestes, affirme qu’un réseau a trois couches
de neurones formels, dont une couche cachée, peut donner une approximation aussi
bonne que possible d’une fonction quelconque de plusieurs variables. La qualité de
cette approximation augmente en fonction du nombre de neurones formels utilisés.
Comme le montre, entre autres, les travaux de MacKay [McK92] et White [Whi89],
les techniques fondamentales de l'inférence statistique, telles que les tests
@hypothése et l’estimation, s’appliquent aux réseaux de neurones formels, Ceux
peuvent étre considérés comme des modéles statistiques d’une trés grande flexibilité,
cette flexibilité étant liée a l’architecture et aux poids des connexions choisis.
Toutefois, malgré leur flexibilité et leur universalité, les réseaux de neurones ne
peuvent se soustraire aux limites intrinséques de toute modélisation statistique, et
plus particuligrement a celles de estimation non-paramétrique, notamment au
dilemme “biais-variance” [Gem92]. Ceci constitue une sorte de principe~ 28 -
d’indétermination selon lequel, pour une base de données Dj, de taille N fixée on ne
peut pas diminuer le biais d’un estimateur sans augmenter sa variance, et vice-versa.
Dans le contexte neuronal, on peut toujours augmenter la qualité apparente de
Fapproximation, c’est-d-dire Ia qualité jugée sur Dy, en augmentant le nombre de
neurones et de connexions, ce qui entraine la diminution du biais. Cependant, le gain
ainsi obtenu est malheureusement compensé par une augmentation de 1a variance,
c’est a dire une diminution du pouvoir de généralisation de cette décision. On
observe, en effet, que quand on mesure les performances d’un réseau sur des données
ne faisant pas partie de la base d’apprentissageD,y, alors un réseau plus riche en
neurones et connexions peut se montrer moins performant qu’un réseau plus simple.
Cette performance décroit sensiblement pour tout Dy, a partir dun certain seuil de
complexité qui est fonction de N.
Une manidte tres générale d’augmenter la qualité réelle de cette approximation est
@augmenter la taille de la base de données. Mais malheureusement la recherche de
nouvelles données s’avére souvent, dans la pratique, cofteuse et méme impossible
Une autre approche, moins générale et dépendante du domaine et du probleme
spécifique, est d’introduire de information supplémentaire, ce qui revient, dans le
contexte neuronal, a dessiner des architectures adaptées au phénomene étudié.
La demigre démarche est analogue, dans le cas de la modélisation classique,
Pintroduction de modéles paramétriques ou semi-paramétriques Elle implique une
intervention au niveau de la “ boite noire ” qui transforme entrée en sortie, afin de
la rendre lisible en terme de structures comespondant & des modéles statistiques
classiques.
Les travaux de Sethi [Set90] et de Chabanon, Lechevallier et Milleman [Cha92]
S*inscrivent dans cette optique. Dans les deux cas, un réseau de neurones est dessin
a partir de architecture issue d’un arbre de classification. Cet arbre de classification
donne les valeurs initiales des pondérations et celles-ci sont optimisées par
Palgorithme de rétropropagation. Dans la méme optique, Irino et Kaivahara [11i90]
utilisent comme point de départ de la construction d’un classificateur neuronal, un
model de régtession logistique.
Un point de vue analogue mais dans un contexte plus abstrait, est développé par
Geva et Sitte [Gev92], qui indique comment dessiner un réseau utilisant un théoréme
approximation et certaines caractéristiques des données. Ces dernitres déterminent
des blocs a I’intérieur du réseau, de telle sorte que celui-ci prend la forme dun réseau
de réseaux. L’idée du réseau de réseaux est avancée explicitement chez Cotter
[Cot90], o& le théoréme de Stone-Weierstrass est utilisé afin de réaliser une algébre
de fonctions denses dans I’espace des fonctions que I’on désire approximer
Nous proposons une architecture qui permet d’associer les réseaux a des modéles
statistiques bien conus, tels que les arbres de classification, les modéles logistiques
et les modéles additifs généralisés. L’architecture ainsi construite, pourra étre utilisé
de fagon trés flexible, soit pour analyser le modéle suggéré directement par les~ 29 -
données en terme de structures facilement interprétables, soit comme simple point de
départ dune procédure itérative
2. Perceptrons multicouches
2.1. Principes
L’algorithme de rétropropagation du gradient tire son origine du Perceptron présenté
par Rosenblatt [Ros57]. Le perceptron est un réseau ayant une seule couche de
connexions et done deux couches de neurones; Pune des couches représente les
entrées du systéme et l'autre les sorties. Rumelhart [Rum86] et Le Cun [LeC85]
Glargissent T’architecture du perceptron aux réseaux multicouches et réglent le
probléme de la propagation des erreurs dans les couches cachées. Comme nous nous
plagons dans le cadre de Ja discrimination ces réseaux appartient A la famille des
algorithmes supervisés. Vous pouvez trouver une présentation détaillée des réseaux
dans [Cha90], [Mil94], [Gal95], [Mon94] et des discussions entre les méthodes de
discrimination et les réseaux dans [Bin94], [Rip94]
Le déroulement de cet algorithme est le suivant : on lui présente séquentiellement des
observations, il évolue pour arriver & un certain état S qui est comparé a la réponse
désirée Y. Le réseau adapte alors les pondérations W, des connexions entre les
neurones pour réaliser la correspondance soubaitée entre I’état § obtenu et la réponse
désirée Y. La base d’apprentissage est présentée plusieurs fois et de maniere
séquentielle jusqu’a l’obtention d’un minimum acceptable de la fonction de cot
Les neurones ou cellules d’une méme couche ne sont pas connectés entre eux mais
sont connectés & la couche ou aux couches suivantes. Le mécanisme d’apprentissage
repose sur la minimisation d’une fonction de cotit par un algorithme adaptatif de type
gradient. Cette fonction de coat évalue I’écart entte Ia sortie calculée et la sortie
désirée sur la demigre couche du réseau, Souvent la fonction de colt choisie est
Perreur moyenne quadratique E :
¥ (10-5)
ire)
Avec
* Ne nombre d’observations de la base d’apprentissage
J le nombre de neurones de Ja couche de sortie
« S( Ja valeur de sortie du neurone j de la demiére couche obtenue lors de la
présentation numéto i
¥/? ta valeur désirée de la présentation numéro i A Ja sortie du neurone j- 30 -
x Y s
Entrée poids ejustables poids ajustables Sortie calculée Sortie désirée
Wy
—- <<
% §
Couche Entrée Couche Cache Couche Sortie
‘Snewrones 4newones 2 newones
Figure 5. Exemple de réseau
Le réseau de la figure 5 n°utilise que des automates linéaires. Ce réseau posséde une
seule couche cachée de neurones et deux couches de connexions avec des poids
ajustables. Le réseau est dit réseau d deux couches. Il est entigrement défini par les
liaisons ,de voisinage, la fonction f de transition (en général une sigmoide) et la
fonction g de changement d’état (fig 6)
Sortie
je ii Fonction de Fonction de
Liaisons de voisinage Transition Changement
état
Figure 6. Une cellule ou un neurone
‘Avec les liaisons de voisinage X,,-,X,, Vétat interme se caractérise par
e, = LW,X, Lorsque e, est grand ( respectivement petit) alors s, = f (e, Jest grand
J
(cespectivement petit) il y a donc activation (respectivement inhibition). La fonction
de transition est la fonction sigmoide:-31-
=dce™),
f(y- 2
(ise) ae)
0 +s 5 10
°
Figure7. La fonction sigmoide
La fonction de changement d'état est ici la fonction identité. Alors les deux
caractéristiques principales d’un neurone ou d’une cellule sont :
Ia fonction de transition continue et dérivable
© larétropropagation de erreur de maniére récurrente de la couche de sortie vers la
couche d’entrée.
Le choix du nombre de couches, du nombres de neurones et de la fonction de
transition définit un modale de prédiction. Le réseau, défini par ces choix, peut
approximer toute fonction de prédiction
Le dilemme « biais-variance » mentionné dans l’introduction joue ici son réle; le
meilleur réseau n'est pas foreément celui qui minimise la fonction de coftt sur
Pensemble d’apprentissage mais plut6t celui qui offie une bonne généralisation. La
fonction de prédiction a choisir s’obtient done par un compromis entre lobjectif de
garder un cott acceptable sur ’ensemble d’apprentissage et celui d’avoir un nombre
de connexions réduit ce qui assure une meilleure généralisation. Un rapport
suffisamment grand ente le nombre d’observations ou d’exemples et le nombre de
connexions a calculer gatantit la qualité de la prédiction. On chercheta done a
éliminer les connexions surabondantes en utilisant les informations extraites de
Varbre de décision construit sur le méme échantillon ou ensemble d’apprentissage.
2.2. Algorithme de rétropropagation
A chaque élément @ de Ja population générale est associé un vecteur de
représentation 2) et les J valeurs ¥{°),.. ,y//caractérisant la sortie désirée, On
notera par
« £{° ta fonction de transition du neurone i de la couche ¢; cette fonction de
transition est continue et détivable:
+ sf (@) la valeur de la sortie du neurone i de la couche ¢ pour |’élément présenté
o- 32 -
ef (@) ta valeur de l’entrée du neurone i de la couche ¢ pour l’élément présenté
o
. Wie (@) le poids de la connexion entre Ia cellule i de la couche (c+1) et la cellule
j de la couche c pour I’élément présenté
n, le nombre de neurones de la couche c et par NC le nombre de couches de ce
réseau.
La relation entre les sorties de la couche c et l’entrée du neurone i de la couche (c+1)
est une relation linéaire égale a
a Sy se
ef "ear Sm? (o)
La relation entre la sortie et l'entrée du neurone i de Ia couche (c+1) est donnée pat la
fonction de transition f°", d’od
Sf (ea) = ff0(€f"Y (e0)) = pfor? ( $ Wf ¢e }
Si toutes les fonctions de transition sont égales alors le réseau est déterminé
uniquement par les poids W{ et par le choix de la fonction de transition f. Ces
choix étant fixés, la fonction © qui définit le réseau nous permet de calculer Jes K
valeurs de sortie S/®,...,S(@) a partir du vecteur 2°) par:
S(z)= OW, f (2)
Pour évaluer la performance de ce réseau on se donne une fonction de coat E qui
mesure I’adéquation entre la sortie S calculée par ce réseau et la sortie Ydésirée par
Putilisateur. Dans la phase rétropropagation la modification des poids du réseau se
fait de la facon suivante :
Wie =WO (1)+ qd
amie
11 faut calculer pour chaque poids W{ le gradient de E, d’ot
ae _ ae ef) Ea spaeo Sir? 9?) 2,
WET BT IED BF THD
Pour la cellule i de la couche de sortie il faut ealeuler= oF + qui ne dépend que de la
ej
fonction de cof EZ. Par contre pour les neurones des autres couches nous avons la
relation :
205 ae
AaeeO 9
ef? a aa “)
VelT Bef
x
et comme-3-
et que seul s/“’ dépend de e/°, nous avons:
sel
56 HO
dod
OE, "OE
me) peo
2 (8H om) 1
et
OE ( OF ne) fi sev
(oly fen)
am; el
Ainsi pour les couches cachées les poids de ces couches se calculent en fonction des
poids de la couche suivante. Done la modification de Ia fonction de coat n’entraine
que la modification du mode de calcul des poids de la derniére couche.
2.3. Choix de la fonction de cofit
Souvent la fonction de cot choisie est celle qui minimise l’erreur quadratique, Ainsi
les paramétres du réseau sont déterminés de fagon faire décroitre Ia fonction de cot
suivante :
7 2
YY (2-8, (2) POY 20d, Pye
fA
Nous prendrons plutét comme fonction de cotit la quantité de Kullback-Leibler
Cette fonction mesure la dissimilarité entre deux distributions:
POs ¥y52)
= foe pq st — oa, Np dh os AP yt
3. Représentation neuronale d’un modéle de discrimination
3.1. La régression logistique
Dans le cas de deux classes le modéle de régression logistique est souvent utilisé
pour construire une régle de classification. Ceci s*écrit
logit (P(c=c;|z))=B z (2.1)otc est la variable de classe prenant les valeurs ¢, etc) et oit il est entendu que le
vecteur des covariates contient une composante constante, égale A 1. Il est évident
que ce modéle peut se représenter comme un réseau de neurones sans couche cachée
(figt ). Il suffit d°identifier le vecteur 8 des coefficients de régression avec le vecteur
w des poids du réseau. Si l’on choisit comme fonction de cofit du réseau le négatif du
logarithme de la vraisemblance, Valgorithme de rétro-propagation détermine les
poids partir de Mestimateur de vraisemblance maximale des coefficients de
régression
s(z)= logit (P(e=§ 2)
Figure 1. Réseau associé a la régression logistique
Pour les phénoménes non linéaires, le modéle (2.1) est claitement inadéquat.
Plusieurs approches ont été proposées pour dépasser ces contraintes de linéarité; nous
en considérerons deux parmi les plus fréquemment employées. L’une de ces
approches teldche la contrainte de linéarité logistique en la substituant a celle, plus
souple, de ’additivité logistique :
logit (P(e = ex\2)) = 81 (a1) + 82 (22+. +8 (2p) (22)
ot les g sont des fonctions arbitraires que les données doivent déterminer. Ces
detniéres, dans la pratique, sont souvent exprimées comme combinaisons linéaires
une base de dimension finie dans un espace de fonctions, par exemple les B-splines
[DeB 1978}, de telle sorte que leur estimation se 1éduit & l’estimation des coefficients
d'un modale linéaire.
Un exemple de réseau de neurones représentant le modéle de I’équation (2.2) est
visualisé par la figure 2. Il s’agit d’un réseau a quatte couches de neurones. Cet
exemple est décrit par deux variables continues. La premiére couche cachée consiste
de deux blocs non connectés, dont chacun transforme chacune des deux variables en
un nombre de fonctions de sortie égale a la dimension de la base choisie.
En conséquence les fonctions de transition de cette couche sont les fonctions de la
base, par exemple les B-splines. En effet, au lieu d’introduire cette couche, l’on peut
tout simplement transformer préalablement les variables de description. La deuxiéme
couche cachée calcule les coefficients des combinaisons linéaires des fonctions de
base; ses fonctions de transition sont linéaires : f(x) = x. Finalement le seul neurone
de la couche de sortie (classification binaire) a la fonction logistique comme fonction
de transition.35+
£1 @,)
2%)
Bloes représentant les B-splin
Figure 2. Réseau pour le modéle additif
3.2. Larbre de régression généralisé
Bien que le modéle additif logistique de I’équation (2.2) ajoute beaucoup de
flexibilité dans le traitement pratique de phénoménes non linéaires, il demeure
néanmoins sévérement limité, car il ne peut pas prendre en compte les interactions
possibles entre variables. Le deuxiéme type de généralisation est Iarbre de
régression. Cet arbre permet de dépasser cette limite en imposant que les interactions
assument un role dominant dans cette analyse, Ce modéle [Cia91] s*écrit selon
Péquation (2 3):
logit (P(e= ¢)|2)) = (2) + Yala (2+. YT, (2) 2.3)
ou les I sont les fonctions indicatrices des L sous-ensembles de l’espace de
représentation formant une partition. Cette partition est obtenue par algorithme
récursif a partir d'un jeu de données et peut étre représentée par une structure d’arbre
(fig3).
Figure 3. Arbre de régression généralisé-36-
Les feuilles de Varbre représentent les ensembles de la partition, Le chemin
conduisant a une feuille détermine le contour de la région associée a cette feuille dans
Pespace de description. Un chemin est défini par une série de questions binaires,
chacune est construite & partir d’une seule variable. La question sélectionnée &
chaque noeud de I’arbre est celle qui est la plus informative en fonction des
probabilités des classes a prioti et du tableau de données représentant I’ensemble
aapprentissage. La partition est définie par Vintersection d’byperplans paralléles aux
axes de l’espace de description
Dans des travaux précédents [Set90], [Bre91], [Cha92] il a été remarqué qu'un arbre
de décision peut étze représenté pat un réseau. Notons qu’une autre manitre @’utiliser
la structure d’arbre dans un réseau a été proposée sous le nom de réseau hybride dans
(Dal93]. La Figure 4 montre la représentation neuronale de Parbre de décision de la
figure 3.
Figure 4, Réseau défini & partir de Varbre de la figure 3
Il s’agit d’un réseau ayant deux couches de neurones cachés. A chaque cellule de la
premiére couche cachée est associée un noeud non terminal de I’arbre. La seconde
représente les feuilles de I’arbre. Dans la figure 4, les poids des connexions internes
sont marqués. Ce réseau posséde trois couches de connexions. Chaque connexion de
la premiére couche relic la cellule contenant un nosud de Parbre a la variable utilisée
par la question associée ce neeud, les poids des connexions de cette couche sont tous
égaux a un. A chaque cellule contenant une feuille de l’arbre est associé un nombre
de connexions égal au nombre de neeuds reliant la racine a cette feuille. Chaque
connexion représente un élément du chemin associé A cette feuille. Les poids sont
positifs si la connexion représente une réponse positive et négatifs si la réponse est
négative. La deiniére couche de connexions est compléte. Les poids sont déterminés
par les données et valent le logit de la probabilité de la classe a priori sur la feuille
correspondante.
Toutefois, l’intérét du réseau de la figure 4 est dans la possibilité de permettre des
seuils ‘flous’ dans les couches cachées, o’est-d-dire des fonctions sigmoides
comprises entre -1 et 1. Ce faisant, il est utile de centrer les données autour des points
de coupures et de les réduire a I’échelle de la variance empirique. Dans ce cas, les
poids reliant le biais (neurone unité) de la couche d’entrée a ceux de la premiére
couche cachée, valent tous zéro.-37-
Les poids marqués sur la figure 4 sont les initialisations de lalgorithme de
1étropropagation, lequel détermine les poids de toutes ces connexions. Le résultat est
encore facile a interpréter, puisque il représente le méme arbre, mais avec des seuils
flous aux nocuds
3.3, Mise en ceuvre de Palgorithme de rétropropagation
Comme nous l'avons vu au paragraphe 2.2, la fonction @ d’un réseau de neurones
permet de calculer les valeurs de sortie s/®/,. 5% du réseau en fonction des
valeurs d’entrée qui sont, ici, les valeurs du vecteur de description z. Pour que les
valeurs de sortie soient interprétables en terme de probabilité d’appartenance aux K
classes a priori il faut que ces valeurs vérifient les conditions suivantes
(a) Wk=ly-,K oS p,(z)<1
K
(b) Yip. (2)
ist
Pour intégrer ces contraintes dans la définition des sorties du réseau nous proposons
ici le codage suivant :
Vk=1,,K-1 S =lo§ oe)
sone
Dans ce cas le nombre J de neurones de sortie est égal 4 K-1. Aussi les valeurs
¥,.6¥, vont étre simplement ¥,=c, Wj=1,-.,K—1. Par exemple si l’éément i
est affecté a la classe a prioti k nous avons:
YO =1 et ¥f=0 poulek
La fonction de coat que nous utiliserons sur ensemble d’apprentissage est le
logatithme de la vraisemblance I
w
E=logL = Shog( P(e 2)
a
»
=¥ (tog rca )+ ogc P(e /2))
a
Le premier terme de cette équation est indépendante du réseau donc il suffit de rendre
maximum
x
Log P(e 12)
i
et ceci s’écrit en fonction des ¥; :
we
YD tos(os (2)
ae
od p, (2 ) est la probabilité dappartenir & la classe k sachant 2(”?- 38 -
Si le réseau doit estimer ces probabilités conditionnelles, alors la maximisation de la
viaisemblance de cet échantillon correspond & minimiser une fonction de coat
calculée a partir des sorties S,(z),....Sy_(2) du réseau de la maniére suivante :
E
w i i
e300” tog (4 ce )a{i- 50} te{ t= So «)))
mi a
fel kel
Alors les probabilités p,,, py se calculent ainsi :
eSel2)
Py(t)=—G—— R= K-1
14 Ye
et py par
1
ra
14 Fh)
Comme nous l’avons piécisé au paragraphe 22 les gradients des poids des
connexions non liées a la couche de sortie ne dépendent pas de la fonction de coftt. IL
suffit de calculer la valeur pour les neurones j de la derniére couche de 1 4
ae
ee]
J
K-1, Ce calcul s’effectue de trois maniéres différentes:
1. Pour k # j nous avons
aE, Ye a)
Pe(@P) deNP
as,
er garter PRL) By AOD Srey
(+35) de! def
5; (1-S,) alors nous avons
aE,
snr? 8,19 (1-8, (2%)
i
[Link] k = j nous avons
i, ‘iy )) 98)
pee )(1- py (al) 505-39-
dou
9, 4 y i
seprerall-re 9) Sel?) (1-8, ))
3 Pour k = K et pour toutes les neurones j de la demiére couche de 1 4 K nous avons
Ss as, as,
py (2D) py (al)
} gelWOT PROBED PACES Tye
) y
22 oq 2). pj) 8,0 (1-8, (2 ))
[Link] exemple en discrimination
Les échantillons sont issus d’un probléme de reconnaissance des formes ou de
discrimination intioduit par L.. Breiman, J. H. Friedman, R. A. Olshen et C. J. Stone
[Bre&4]. Ce probleme est ts fiéquemment abordé dans la littérature [PRC94] et
consiste a reconnaitre trois formes d’ondes. Chaque forme d’onde est une courbe
modélisée pat une sétie chronologique composée de 21 instants réguliérement
espacés. Chaque exemple ou observation d’une de ces formes d’ondes est représenté
par un vecteur ayant 21 valeurs.
Les trois formes d’ondes sont définies a partir de combinaisons deux 4 deux de trois
modéles de base 1 iy et. La figure 8 présente ces modéles de bases:
Figure 8. Les trois modéles
Un exemple ou observation, représenté par le vecteur x =(x,,%).° °4%)) de la
premiere classe, est généré pat- 40 -
x)= hy()+(~w) by (J)+e,, pourf=t,.. ,21
Un exemple de la seconde classe est généré pat :
x, iy) +4) Ag ({)+e,, pow j=l, ,21
Un exemple de la demiére classe est généré par :
x) SW hy (+ (—w).hg J) +8,» pour) =1,.. 521
‘ov w est une loi uniforme sur l’intervalle unité et les ¢, sont des variables aléatoires
indépendantes de loi normale centrée et réduite. Si l’on suppose que les probabilités
des classes a priori sont égales, alors, selon Breiman et al. [Bre84] le taux d’erreur
de classement est égal 4.0.14
Le rapport final d’activité [PRC94] du projet Inter-PRCs « Méthodes Symbolique-
Numériques de Disctimination » présente les résultats obtenus sur cet ensemble de
données par un certain nombre de méthodes symboliques ou numériques de
discrimination.
Notre ensemble d'apprentissage est constitué de 300 exemples tités de fagon
indépendantes et en supposant les classes a priori équiprobables
En utilisant analyse factorielle disctiminante nous avons obtenu Je premier plan
factoriel suivant :
4
formet *
3 formed *
22 oo = [formes
= 3
7 ao Fe 3 -
° a
ou .eemB oR, SR ns
' edgetenete ge ss
avez oF 2 ay “tee as +f E 3
ot ee eT eet, -
. Ue Ree eae
wae ES
2 wiectiet
og eS
7 +
3 2 a ° 1 2 3 4
Axe 1
Figure 9. L’analyse factorielle discriminante
Pour cet ensemble des 300 exemples nous avons construit ’arbre de décision suivant:a1 -
Figure 10.L*arbre de décision
Avec cet arbre nous obtenons le tableau de confusion (fig 11) sur Pensemble
’apprentissage:
Figure 11, Tableau de confusion avec Parbre
Comme V’arbre de décision n°utilise que deux variables nous pouvons représenter
dans un plan les régions de décision obtenues par cet arbre.
8
; ormet >
forme? *
6 forme}. ©
stot
7 +
007 3 *
2 Sto 2
1 2
° 3
“1
2
1 o 1 2 3 4 5 6 7 8
poll
Figure 12. Les régions d’affectation obtenues par Parbre- 42 -
A partir de cet arbre de décision nous pouvons construire le réseau suivant:
Figure 13, Le réseau construit & partir de arbre
En optimisant ce réseau par lalgorithme de rétropropagation, et au bout de 1000
présentations de l'ensemble d’apprentissage, nous obtenons une classification, La
figure 14 indiquent les classes d’affectation des exemples déterminées par le réseau.
Sur la figure 14 nous pouvons observer la déformation des frontidres réalisée par le
réseau.
Classe *
Classe2 +
Classe3. ©
po07
poll
Figure 14. Les régions d’affectation obtenues parle réseau
Et ce tableau de confusion sur l’ensemble d’apprentissage est égal a:
forme3
13
5
7
89
Figure 15. Tableau de confusion associé au réseau~ 43 -
Le tableau de comparaison de la figure 16 a été construit sur Pensemble
@apprentissage constitué de 300 exemples. La premitre colonne de ce tableau
représente les effectifs des trois formes a priori. La seconde colonne et troisitme
colonne représentent le nombre d’exemples bien classés dans chacune de ces formes
et en fonction de la méthode utilisée Les deux demiéres colonnes représentent Ie
taux d’exemples mal classés par la méthode d’arbre de décision seule et avec le
réseau associé
Effectif
Effectif | Effectif
formel 103
forme2 108
forme3 89.
Total
Figure 16,Tableau de comparaison
Dans cet exemple nous pouvons remarquer que le taux de mauvaise classification
diminue un peu mais surtout il y a un rééquilibrage des taux de mauvaise
classification entre les formes a priori. Avec le réseau ces taux sont trés proches
30
29
28
26
24
° 200 400 600 800 1000
itérations
Figure 17. Evolution du taux apparent de mauvaise classification
La figure 17 montre que le taux de mauvaise classification sur l’ensemble
dapprentissage décroit jusqu’a l’itération 250 et puis croit et se stabilise a partir de
Litération 425.- 44 -
arly
200 © saioas
Figure 18. Evolution de la vraisemblance
0 1000
Nous pouvons remarquer que les dix premiéres itérations font décroite trés
rapidement le critére optimisé par lalgorithme de rétroprogation, puis nous avons
une décroissance jusqu’A litération 250 et ensuite cette décroissance devient trés
faible
A partir d’un échantillon-test de 5000 exemples nous avons les résultats suivants:
%
Réseau,
3134
33.59
25.31
30.06,
Nous retrouvons sur Péchantillon-test le méme phénoméne que sur ’ensemble
@apprentissage. Nous pouvons remarquer que le fait d’utiliser un réseau aprés la
méthode de classification par arbre fait décroitre sur l'ensemble test le taux de
mauvaise classification de 1,1 % et que ce résultat est trés semblable au résultat de
1% obtenu sur ensemble d’apprentissage. Ceci prouve que cette stratégie ne
diminue pas la capacité de généralisation
[Link]
Nous avons montré gue les réseaux de neurones et Ja modélisation statistiques
peuvent interagir de fagon fructueuse. La recherche d’une flexibilité dans la
modélisation et d’une prédiction optimale ne s'oppose pas a la démarche
dinterprétation, ni au pouvoir de généralisation, préoccupations fondamentales chez
les statisticiens. La clef est la correspondance entre modéle statistique et architecture
neuronale. Cette comespondance peut étre utilisée, soit pour accélérer la convergence
de lalgorithme de rétropropagation, soit pour construire de nouvelles architectures.= 45-
[Link]
[A1a92] Araya R. and Gibon P. (1992) “Segmentation Trees/ A New help for
Building Expert Systems and Neural Networks ”, COMPSTAT92
{Bar93] Barndorff-Nielsen O.E., Cox D.R., Jensen L., Kendall W.S. (eds.) (1993)
Chaos and Networks - Statistical Probabilistic Aspects, Chapman & Hall, London:
[Bin94} Bing Cheng and igton D. M. (1994) “Neural networks: a review
from a statistical perspective ” Statistical Science, 9, 2-54.
[Bre84] Breiman L., Friedman J.H., Olshen R.A. and Stone C.J. (1984)
Classification and Regression Trees, Wadsworth
[Bre91] Brent R.P. (1991) “Fast training algorithms for multilayer neural nets”,
IEEE Trans. on Neural Networks, 2, 346-354
{Cha90] Chabanon C, et Dubuisson B, (1990) “ Méthodes non probabilistes ”,
Dans: Analyse discriminante sur variables continues, Collection Didactique INRIA
[Cha92] Chabanon C., Lechevallier Y. et Millemann S. (1992). “An efficient
neural network by a classification tree”. In: Computational Statistics. Proccedings of
the 10 Symposium on Computational Statistics, Vol.1, 227-232, Physica-Verlag,
[Cia91] Ciampi A. (1991) “ Generalized Regression Trees”, Computational Statist
and Data Analysis, 12, 57-78
{Co190] Cotter N. E. (1990) “ The Stone-Weierstrass Theorem and Its Application to
Neural Networks”, JEEE Trans. on Neural Networks, 1, 290-295
[Dal93] D’Alché-Buc F. (1993)Mod2les new onaux et algorithmes constructifs pour
Uapprentissage de régles de décision These Patis XI
[DeB78] De Boor C.D, (1978) A practical guide to splines. Springer, New York
{Dub90] Dubuisson B. (1990) Diagnostic et Reconnaissance des formes, Hermés
[Gal95] Gallinari P. et Gascuel . (1995) “Statistiques, apprentissage et
généralisation: applications aux réseaux de neurones ”, RIA, a paraitre
[Gem92] Geman S., Bienenstock E. and Dorsat R. (1992) “ Neural Networks and
the Bias/Variance dilemma ” Neural Computation, 41-58
[Gev92] Geva S. and Sitte J. (1992) “A Constructive Method for Multivariate
Funetion Approximation by Multilayer Perceptrons ”, IEEE Trans. on Neural
Networks, 4,621-624
[Has90] Hastie T. and Tibshirani R. (1990) Generalized Additive Models,
Chapman & Hall, London
[Hec90] Hecht-Nielsen R. (1990), Neurocomputing, Addison-Wesley, Reading,
Mass.
[H0s90] Hosmer D.W. and Lemenshow S. (1990) Applied Logi
Wiley, NewYork.
[190] Irino T. and Kawahara (1990) “A Method for Desining Neural Network
Using Nonlinear Multivariate Analysis: Application to Speaker-Independent Vowel
Recognition”. Neural Computation, 2,386-397
[leC85] Le Cun ¥. (1985) “A leaning scheme for asymetric threshold
network” Cognitiva, 85,599-604
[McK92] MacKay D. J. C. (1992) “ Bayesian Interpolation ”, Neural Computation,
4415-447
ic Regression, J.- 46 -
[Mil93] Milgram M. (1993) Reconnaissance des formes, méthodes numériques et
connexionnistes, Armand Colin
[Mon94] Monrocq C. (1994) Approche probabiliste pour I’élaboration et la
validation de systémes de décision These Patis IX.
{Pol94] Poli I. and Jones R. D. (1994) “A neural net model for prediction”, J.
Amer. Stat. Asso ,89, 117-121
[PRC94] Gascuel O. et Gallinari P. (1994) Méthodes Symbolique-Numériques de
Discrimination, Rapport final d’activité Disponible sur demande.
[Rip94] Ripley B. D. (1994) “Neural networks and related methods for
classification ” (with discussion) J. Royal. Stat Soc B, 56, 409-456.
[Ros57] Rosenblatt (1957) “The perceptron a perceiving and recognizing
automation”, Tech report, Cornelll Aeronautical Laboratory Report No 85-460-1
[Rum86] Rummelhart D., Hinton G. E. and Williams R. J. (1986) “ Leaning
internal representations by ertor retropropagation, Paralled distributed processing/
exploration in the micto-structure of cognition ”, MIT Press
[Set90] Sethi I. K. (1990) “Entropy nets: from decision trees to neural networks ”
Proc. IEEE, 78, 1605-1613
[Whi89] White H_ (1989) “ Some asymptotic results for leaming in single hidden
layer feedforward networks ”, J. Amer Stat Asso, 84, 1008-1013
{Whi92] White H. (1992). Artificial neural networks, Approximation and learning
theory, Basil Blackwell, Oxford
Vous aimerez peut-être aussi