0% ont trouvé ce document utile (0 vote)

5 vues6 pages

Améliorations de la rétropropagation

L'algorithme de rétropropagation du gradient pour les réseaux de neurones est présenté avec plusieurs améliorations possibles. Le document décrit ensuite l'application de ces réseaux pour prédire la faillite d'entreprises belges sur plusieurs années.

Transféré par

fatimaboudra

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

5 vues6 pages

Améliorations de la rétropropagation

Transféré par

fatimaboudra

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

6.

5 Améliorations
Lalgorithme de rétropropagation du gradient tel quil vient detre présenté con-
stitue la base. De nombreuses améliorations ont été présentées dans la littérature.
Entre autres:

Utilisation dun moment.

En plus de la correction des poids actuels selon le gradient, on ajoute une
fraction de lajustement qui a été réalisé aux itérations précédentes. On
accélère ainsi la convergence de lalgorithme.

w(t) = E(t) + w(t 1) (28)

Validation croisée pour la détection de surapprentissage (doù incapacité à

généraliser).

Utilisation de la matrice Hessienne (méthode de Newton et quasi-Newton).

Evolution de la constante dapprentissage au cours du temps.

Utilisation dune ligne de recherche.

Réinitialisation de lalgorithme après un certain temps.

La structure du réseau est aussi revue. Pour éviter une taille trop importante
du réseau et un apprentissage trop long, on peut utiliser la technique du pruning
pour supprimer les connexions peu importantes.
Enn, les données peuvent etre prétraitées. Pour améliorer la généralisation
du réseau, les entrées sont parfois légèrement bruitées. Elles peuvent aussi etre
compressées. On obtiendra ainsi un réseau plus petit. Outre le fait quun réseau
avec peu de connexions sera plus facilement implémentable et à meilleur marché
quun réseau complexe, on obtient surtout un gain appréciable de traitements.

7 Analyse complète: étude de cas

7.1 Présentation du problème
Reprenons le problème présenté précédemment concernant un estimateur de la
santé nancière des entreprises. Nous allons tenter de prédire à laide des memes
ratios quAltman le risque de faillite des sociétés commerciales belges en 1993 et
cela 1, 2 et 3 ans à lavance. Pour cela, un simulateur de réseaux de neurones a été
écrit en respectant scrupuleusement la structure multicouches et lalgorithme de
rétropropragation tels quils ont été dénis plus haut (sans aucune optimisation).
7.2 Phase 1: collecte des données
Les 5 ratios utilisés par Altman ont été extraits de la banque de données dif-
fusée par la Centrale des Bilans de la Banque Nationale Belge pour les entre-
prises commerciales (NACE 06) et cela pour les exercices bilantaires de 1990 à
1992. Les données ont été réparties pour chaque année entre un chier utilisé
lors de lapprentissage et un chier utilisé ensuite pour tester la capacité de
généralisation.

Année Apprentissage Test

1990 8 282 2 363
1991 10 034 2 868
1992 13 329 3 810

Table 1: Nombre dentreprises dans chaque chier

6 ensembles de données ont ainsi été crées où chaque ligne décrit une société
et chaque colonne est un des ratios. Un expert nancier, sur base des ratios
dAltman en 1993, a alors réparti chacune de ces entreprises en deux catégories:
celles qui seront saines en 1993 (groupe 1) et celles qui au contraire risquent la
faillite à partir de 1993 (groupe 0). Cet indicateur a été ajouté comme sixième
colonne aux di érents chiers. Les 5 premières lignes du chier dapprentissage
de 1990 sont présentées dans la table 2.

X1 X2 X3 X4 X5 Santé
0.23 0.18 -0.01 0.31 0.13 0
0.84 0.78 0.06 5.77 0.47 1
-0.06 0.08 0.01 0.15 0.38 0
0.16 0.11 -0.01 0.15 0.42 0
0.52 0.54 0.04 1.43 0.46 1

Table 2: Début du chier dapprentissage de 1990

7.3 Phase 2: conception du réseau

En utilisant la structure multicouches et lalgorithme élémentaire tels quils ont
été décrits, il ne reste que 2 paramètres à dénir: le nombre de neurones en
couche cachée et la constante dapprentissage . On procède par essais successifs
pour déterminer les valeurs adéquates.
Le chier dapprentissage dune année est présenté au simulateur de réseaux
de neurones. Celui-ci va alors réaliser un nombre déterminé ditérations. Une
iteration consiste en la présentation des 5 ratios de chacune des entreprises à
lentrée du réseau, à la propagation de ces informations jusquà la sortie et à la
rétropropagation de lerreur vers lentrée avec modication des poids. Lappren-
tissage sarrete quand il nest plus possible de faire diminuer lerreur ou dès que
la diminution nest plus signicative.
On présente ensuite au simulateur le chier de test de la meme année. Les
5 ratios de chaque société sont propagés vers la sortie et on peut comparer les
résultats avec ceux donnés par lexpert nancier.
En répétant ces opérations pour di érents nombres de neurones en couche
cachée et pour di érentes valeurs de , on constate en étudiant les pourcentages
de classication correcte, quil nest pas nécessaire dutiliser plus de 2 neurones en
couche cachée et quune valeur adéquate de est 0.01. Utiliser plus de neurones
naméliore pas les résultats, mais allonge la phase dapprentissage. Des valeurs
supérieures de donnent des résultats moins précis et un temps dapprentissage
plus long (égarement). De plus lévolution de la fonction derreur au cours du
temps est assez chaotique. Quelques simulations pour les di érentes années sont
synthétisées dans les tableaux 3 et 4.

Conguration Apprentissage Test

1992 Correct Nbre Correct
iter
2 neurones
=0.2 83.82% 120 83.08%
=0.01 83.97% 442 83.52%
=0.001 84.04% 2 000 83.31%
10 neurones
=0.2 83.22% 860 82.83%
=0.01 84.23% 942 83.76%
=0.001 83.99% 2 000 83.20%

Table 3: Résultats des simulations pour 1992

Conguration Apprentissage Test
1990 Correct Nbre Correct
iter
2 neurones
=0.2 70.60% 767 70.5%
=0.01 70.78% 500 70.63%
=0.001 70.89% 3 000 70.21%
10 neurones
=0.2 70.82% 852 69.45%
=0.01 70.78% 600 70.5%
=0.001 70.47% 2 000 70.60%

Table 4: Résultats des simulations pour 1990

7.4 Phase 3: Analyse des résultats

Daprès les tableaux 3 et 4, les réseaux de neurones sont aptes à traiter ce genre
de problème. 84% de classication correcte pour les données dapprentissage de
1992 est un résultat honnete. De plus, le réseau a bien généralisé car pour un
chier test, le réseau sen tire presque aussi bien. Une légère baisse est normale;
il est plus facile danalyser des informations qui ont déjà été présentées au réseau
durant lapprentissage quun ensemble inconnu. Pour les autres années, les scores
restent bons. Bien entendu, ils se dégradent plus on remonte dans le temps. Il
est plus di cile de faire des prévisions 3 ans à lavance que lannée précédente.
Cette première analyse nest pas su sante. On sait que lon a obtenu un
réseau idéal pour les données dapprentissage. On sait aussi quil donne de
bons résultats pour un chier test di érent. Par contre, nous ne savons pas
encore si ce réseau est le meilleur pour ce chier test ou un autre. En e et,
il est possible quaprès un certain nombre ditérations le réseau ait trop étudié
les caractéristiques de lensemble dapprentissage et se soit spécialisé dans celui-
ci. Pour sen assurer, on utilise la technique de la validation croisée. Après
chaque itération de lapprentissage, on obtient un réseau intermédiaire auquel on
présente un chier test (ou chier de validation). La fonction derreur pour le
chier dapprentissage va décrotre au cours du temps. Par contre, la fonction
derreur calculée pour le chier de validation recommencera à augmenter sil y a
surapprentissage. A ce moment, il vaut mieux sarreter.
Cette technique a été utilisée dans notre exemple. Un troisième chier a
été constitué et présenté au réseau durant lapprentissage. La gure 9 montre
lévolution de la fonction derreur au cours du temps pour le chier dappren-
tissage et le chier de validation de 1992. On constate que lerreur diminue
continuellement pour les deux chiers et tend vers une asymptote horizontale.
Le chier dapprentissage était ici important et contenait un échantillon su -
isamment représentatif des entreprises que pour ne pas avoir de problèmes de
surapprentissage. Remarquons aussi en passant quaprès environ 440 itérations,
le meilleur réseau est atteint; lerreur ne diminue pratiquement plus.

Figure 9: Evolution de lerreur

Maintenant que nous avons une certaine conance dans les performances de
ce réseau, essayons de mieux comprendre les résultats. On sait que pour 1992,
le réseau diagnostiquera correctement la situation 84 fois sur 100. Inversément,
il ne se trompera que 16 fois sur 100. Pour un nancier, cette erreur naura pas
toujours le meme prix. Si une société est jugée à risques alors quelle ne lest
pas, il y aura juste un co ut dopportunité. Par contre, si une société à risques
est jugée saine, les dégats pourraient etre beaucoup plus considérables. Il parat
donc important de considérer les deux cas.
La table 5 montre des résultats plus détaillés obtenus pour les chiers tests.
Pour chaque année, le réseau sous-estime le nombre de sociétés saines et sures-
time le nombre de sociétés à risques. Par exemple en 1991, 17.71% des entreprises
sont considérées à tort malsaines et 7.22% seulement sont annoncées erronément
saines. Linvestisseur qui ferait totale conance au réseau subirait donc essen-
tiellement des co uts dopportunités.
Si une erreur de classication est vraiment très néfaste, on peut encore pousser
plus loin lanalyse. Il est possible en étudiant les résultats de diminuer le pour-
centage de classication incorrecte. On a représenté une société parfaitement
saine par une sortie valant 1 et une société à risques par une sortie nulle. Le
réseau fournit des résultats continus entre 0 et 1. La valeur pivot 0.5 représentait
jusquà présent la scission entre les deux catégories. Cependant, on ne devrait
pas avoir la meme conance en une valeur de 0.499 quen une valeur 0. Le
risque derreur est beaucoup plus grand pour la première. La solution envisagée
ici est de revoir le partitionnement de lespace de sortie. Par exemple, en choi-
Obtenu Désiré Total
Sain Risqué
1992
Sain 30.24% 7.87% 38.11%
Risqué 8.61% 53.28% 61.89%
Total 38.85% 61.15% 100%
1991
Sain 20.82% 7.22% 28.04%
Risqué 17.71% 54.25% 71.96%
Total 38.53% 61.47% 100%
1990
Sain 17.22% 7.74% 24.96%
Risqué 21.63% 53.41% 75.04%
Total 38.85% 61.15% 100%

Table 5: Résultats détaillés des simulations pour lensemble test

Obtenu Désiré Total

Sain Risqué
1992
Sain 28.54% 6.80% 35.34%
Incertitude 2.83% 2.57% 5.40%
Risqué 7.48% 51.78% 59.26%
Total 38.85% 61.15% 100%
1991
Sain 15.73% 3.94% 19.67%
Incertitude 9.20% 8.68% 17.88%
Risqué 13.60% 48.85% 62.45%
Total 38.53% 61.47% 100%
1990
Sain 13.16% 5.12% 18.28%
Incertitude 11.47% 10.71% 22.18%
Risqué 14.22% 45.32% 59.54%
Total 38.85% 61.15% 100%

Table 6: Résultats a nés des simulations pour lensemble test

Vous aimerez peut-être aussi

Cours sur l'apprentissage automatique
Pas encore d'évaluation
Cours sur l'apprentissage automatique
49 pages
Méthodes d'apprentissage machine expliquées
Pas encore d'évaluation
Méthodes d'apprentissage machine expliquées
53 pages
Perceptron Multicouche et Applications
Pas encore d'évaluation
Perceptron Multicouche et Applications
6 pages
Introduction aux réseaux multicouches
Pas encore d'évaluation
Introduction aux réseaux multicouches
14 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
37 pages
Introduction aux Réseaux de Neurones
Pas encore d'évaluation
Introduction aux Réseaux de Neurones
79 pages
Rétropropagation dans les réseaux multicouches
Pas encore d'évaluation
Rétropropagation dans les réseaux multicouches
9 pages
Poly Apprauto FSur
Pas encore d'évaluation
Poly Apprauto FSur
196 pages
Livre - Reseaux de Neurones Par Marc Parizeau
Pas encore d'évaluation
Livre - Reseaux de Neurones Par Marc Parizeau
127 pages
Introduction au Perceptron Monocouche
100% (1)
Introduction au Perceptron Monocouche
58 pages
Machine Learning en Finance: Applications
Pas encore d'évaluation
Machine Learning en Finance: Applications
73 pages
Introduction à l'Apprentissage Automatique
Pas encore d'évaluation
Introduction à l'Apprentissage Automatique
4 pages
Introduction à l'intelligence artificielle
Pas encore d'évaluation
Introduction à l'intelligence artificielle
3 pages
Évaluation des Modèles en Machine Learning
Pas encore d'évaluation
Évaluation des Modèles en Machine Learning
36 pages
Introduction à l'apprentissage automatique
Pas encore d'évaluation
Introduction à l'apprentissage automatique
29 pages
Cours Apprentissage Stat
Pas encore d'évaluation
Cours Apprentissage Stat
22 pages
TD Sur Apprentissage Dans RNA
Pas encore d'évaluation
TD Sur Apprentissage Dans RNA
10 pages
Classification et Régression en Data Science
Pas encore d'évaluation
Classification et Régression en Data Science
45 pages
Poly Apprauto FSur
Pas encore d'évaluation
Poly Apprauto FSur
174 pages
Mer Loire Online 24
Pas encore d'évaluation
Mer Loire Online 24
27 pages
Introduction aux réseaux de neurones
Pas encore d'évaluation
Introduction aux réseaux de neurones
31 pages
ML1 1 Introduction
Pas encore d'évaluation
ML1 1 Introduction
19 pages
Introduction aux réseaux multi-couches
Pas encore d'évaluation
Introduction aux réseaux multi-couches
26 pages
Introduction à l'apprentissage supervisé
Pas encore d'évaluation
Introduction à l'apprentissage supervisé
5 pages
Apprentissage automatique : modèles et méthodes
Pas encore d'évaluation
Apprentissage automatique : modèles et méthodes
12 pages
RCP208 : Perceptrons et Applications
Pas encore d'évaluation
RCP208 : Perceptrons et Applications
6 pages
Régression par Réseaux de Neurones
Pas encore d'évaluation
Régression par Réseaux de Neurones
33 pages
Introduction aux réseaux multi-couches
Pas encore d'évaluation
Introduction aux réseaux multi-couches
45 pages
Apprentissage Machine : Théorie et Pratique
Pas encore d'évaluation
Apprentissage Machine : Théorie et Pratique
37 pages
Apprentissage-Machine
Pas encore d'évaluation
Apprentissage-Machine
5 pages
Introduction à l'apprentissage automatique
Pas encore d'évaluation
Introduction à l'apprentissage automatique
178 pages
Rétropropagation dans les réseaux de neurones
Pas encore d'évaluation
Rétropropagation dans les réseaux de neurones
62 pages
Examen de Machine Learning : Concepts clés
Pas encore d'évaluation
Examen de Machine Learning : Concepts clés
3 pages
Apprentissage automatique : principes clés
Pas encore d'évaluation
Apprentissage automatique : principes clés
67 pages
Introduction à l'Intelligence Computationnelle
Pas encore d'évaluation
Introduction à l'Intelligence Computationnelle
146 pages
Atterrissage du rover sur Mars et IA
Pas encore d'évaluation
Atterrissage du rover sur Mars et IA
48 pages
Introduction à l'Apprentissage Machine
Pas encore d'évaluation
Introduction à l'Apprentissage Machine
41 pages
Introduction aux SVM en apprentissage
Pas encore d'évaluation
Introduction aux SVM en apprentissage
10 pages
Introduction au Machine Learning et ses Types
Pas encore d'évaluation
Introduction au Machine Learning et ses Types
31 pages
Introduction au Deep Learning et ses Algorithmes
Pas encore d'évaluation
Introduction au Deep Learning et ses Algorithmes
52 pages
Introduction Au Machine Learning: Table Des Matières
Pas encore d'évaluation
Introduction Au Machine Learning: Table Des Matières
12 pages
Cours de Data Mining en Statistiques Appliquées
100% (1)
Cours de Data Mining en Statistiques Appliquées
117 pages
Perceptron multicouche et rétropropagation
100% (1)
Perceptron multicouche et rétropropagation
8 pages
Apprentissage par renforcement en IA
Pas encore d'évaluation
Apprentissage par renforcement en IA
13 pages
Introduction aux Réseaux de Neurones
Pas encore d'évaluation
Introduction aux Réseaux de Neurones
31 pages
CHAPITRE 4 1 - Regression
Pas encore d'évaluation
CHAPITRE 4 1 - Regression
68 pages
Introduction au Machine Learning avec R
Pas encore d'évaluation
Introduction au Machine Learning avec R
47 pages
Algorithme du Perceptron Monocouche
Pas encore d'évaluation
Algorithme du Perceptron Monocouche
3 pages
Perceptron Multicouche
100% (1)
Perceptron Multicouche
6 pages
Apprentissage par renforcement expliqué
Pas encore d'évaluation
Apprentissage par renforcement expliqué
52 pages
Introduction aux SVM et réseaux de neurones
Pas encore d'évaluation
Introduction aux SVM et réseaux de neurones
15 pages
Introduction à la loi de Hebb
Pas encore d'évaluation
Introduction à la loi de Hebb
102 pages
IA pour Équations Différentielles EDO
Pas encore d'évaluation
IA pour Équations Différentielles EDO
53 pages
Harawkan 6
Pas encore d'évaluation
Harawkan 6
34 pages
Méthodes Neuronales RCP208: Perceptron
Pas encore d'évaluation
Méthodes Neuronales RCP208: Perceptron
9 pages
Avantages des algorithmes d'apprentissage
Pas encore d'évaluation
Avantages des algorithmes d'apprentissage
12 pages
MLP pour Résoudre le Problème XOR
Pas encore d'évaluation
MLP pour Résoudre le Problème XOR
10 pages
Myopie et risque de défaillance en PME
Pas encore d'évaluation
Myopie et risque de défaillance en PME
37 pages
Les Reseaux de Neurones Sur SPSS Les Étapes Oficielles de Réalisation
Pas encore d'évaluation
Les Reseaux de Neurones Sur SPSS Les Étapes Oficielles de Réalisation
30 pages
Histoire des sciences : de l'Antiquité à aujourd'hui
Pas encore d'évaluation
Histoire des sciences : de l'Antiquité à aujourd'hui
259 pages
Analyse de la matrice BCG de RECORE
Pas encore d'évaluation
Analyse de la matrice BCG de RECORE
2 pages
Comparaison LSTM et ARIMA pour le blé en Algérie
Pas encore d'évaluation
Comparaison LSTM et ARIMA pour le blé en Algérie
16 pages
Corrigé Exercices Réseaux de Neurones
Pas encore d'évaluation
Corrigé Exercices Réseaux de Neurones
2 pages
Perceptron et Descente de Gradient
Pas encore d'évaluation
Perceptron et Descente de Gradient
17 pages
Réseaux de Neurones Artificiels en IA
Pas encore d'évaluation
Réseaux de Neurones Artificiels en IA
24 pages
Réseaux de neurones : fonctions logiques
Pas encore d'évaluation
Réseaux de neurones : fonctions logiques
2 pages
Exercices Pratiques sur les MLP en Deep Learning
Pas encore d'évaluation
Exercices Pratiques sur les MLP en Deep Learning
3 pages
Introduction aux Perceptrons Artificiels
Pas encore d'évaluation
Introduction aux Perceptrons Artificiels
56 pages
Réseaux de neurones récurrents en profondeur
Pas encore d'évaluation
Réseaux de neurones récurrents en profondeur
42 pages
Réseau de Neurones pour Classification d'Images
Pas encore d'évaluation
Réseau de Neurones pour Classification d'Images
8 pages
Perceptron Multi-Couche avec Scikit-Learn
Pas encore d'évaluation
Perceptron Multi-Couche avec Scikit-Learn
2 pages
Introduction à l'apprentissage profond
Pas encore d'évaluation
Introduction à l'apprentissage profond
49 pages
Introduction aux Réseaux Neuronaux Convolutifs
Pas encore d'évaluation
Introduction aux Réseaux Neuronaux Convolutifs
57 pages
IA : Avenir ou menace pour l'humanité ?
Pas encore d'évaluation
IA : Avenir ou menace pour l'humanité ?
15 pages
Introduction à l'apprentissage profond
Pas encore d'évaluation
Introduction à l'apprentissage profond
104 pages
Introduction aux réseaux de neurones NLP
Pas encore d'évaluation
Introduction aux réseaux de neurones NLP
19 pages
Rétropropagation manuelle avec PyTorch
Pas encore d'évaluation
Rétropropagation manuelle avec PyTorch
3 pages
Introduction aux réseaux de neurones
Pas encore d'évaluation
Introduction aux réseaux de neurones
77 pages
Introduction aux Réseaux de Neurones
Pas encore d'évaluation
Introduction aux Réseaux de Neurones
22 pages
Formation en Traitement du Langage Naturel
Pas encore d'évaluation
Formation en Traitement du Langage Naturel
2 pages
2024 - 8 - RNN-LSTM
Pas encore d'évaluation
2024 - 8 - RNN-LSTM
41 pages
Introduction aux réseaux de neurones RNN
Pas encore d'évaluation
Introduction aux réseaux de neurones RNN
38 pages
QCM Correction
Pas encore d'évaluation
QCM Correction
6 pages
Reconnaissance de chiffres avec MNIST
Pas encore d'évaluation
Reconnaissance de chiffres avec MNIST
5 pages
RNN et Modélisation des Séquences
Pas encore d'évaluation
RNN et Modélisation des Séquences
68 pages
Apprentissage Supervisé par Réseaux Neurones
Pas encore d'évaluation
Apprentissage Supervisé par Réseaux Neurones
30 pages
Applications des Réseaux de Neurones
Pas encore d'évaluation
Applications des Réseaux de Neurones
65 pages
Perceptron Exercices
Pas encore d'évaluation
Perceptron Exercices
11 pages
TP Réseaux de Neurones 2015/2016
100% (1)
TP Réseaux de Neurones 2015/2016
13 pages
TP Ann
Pas encore d'évaluation
TP Ann
3 pages

Améliorations de la rétropropagation

Transféré par

Améliorations de la rétropropagation

Transféré par

6.

 Utilisation dun moment.

w(t) = E(t) + w(t 1) (28)

 Validation croisée pour la détection de surapprentissage (doù incapacité à

 Utilisation de la matrice Hessienne (méthode de Newton et quasi-Newton).

 Evolution de la constante dapprentissage au cours du temps.

 Utilisation dune ligne de recherche.

 Réinitialisation de lalgorithme après un certain temps.

7 Analyse complète: étude de cas

Année Apprentissage Test

Table 1: Nombre dentreprises dans chaque chier

Table 2: Début du chier dapprentissage de 1990

7.3 Phase 2: conception du réseau

Conguration Apprentissage Test

Table 3: Résultats des simulations pour 1992

Table 4: Résultats des simulations pour 1990

7.4 Phase 3: Analyse des résultats

Figure 9: Evolution de lerreur

Table 5: Résultats détaillés des simulations pour lensemble test

Obtenu Désiré Total

Table 6: Résultats a nés des simulations pour lensemble test

Vous aimerez peut-être aussi

Utilisation dun moment.

Validation croisée pour la détection de surapprentissage (doù incapacité à

Utilisation de la matrice Hessienne (méthode de Newton et quasi-Newton).

Evolution de la constante dapprentissage au cours du temps.

Utilisation dune ligne de recherche.

Réinitialisation de lalgorithme après un certain temps.

Table 1: Nombre dentreprises dans chaque chier

Table 2: Début du chier dapprentissage de 1990

Figure 9: Evolution de lerreur

Table 5: Résultats détaillés des simulations pour lensemble test

Table 6: Résultats a nés des simulations pour lensemble test