0% ont trouvé ce document utile (0 vote)
24 vues9 pages

Day 20

Le document traite des réseaux de neurones multicouches (MLP) en deep learning, abordant des concepts clés tels que la propagation avant, les fonctions d'activation, et la rétropropagation. Il présente également des applications pratiques comme la classification bancaire et la prévision de prix, tout en soulignant les avantages et limites des MLP par rapport à d'autres modèles comme XGBoost. Enfin, il met en avant l'importance des MLP comme base pour d'autres architectures de deep learning telles que les CNN et RNN.

Transféré par

Safaa Kahil
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
24 vues9 pages

Day 20

Le document traite des réseaux de neurones multicouches (MLP) en deep learning, abordant des concepts clés tels que la propagation avant, les fonctions d'activation, et la rétropropagation. Il présente également des applications pratiques comme la classification bancaire et la prévision de prix, tout en soulignant les avantages et limites des MLP par rapport à d'autres modèles comme XGBoost. Enfin, il met en avant l'importance des MLP comme base pour d'autres architectures de deep learning telles que les CNN et RNN.

Transféré par

Safaa Kahil
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

JOUR 20 / 30 | DEEP LEARNING — MULTILAYER PERCEPTRON

Réseaux de Neurones — MLP


Du neurone biologique à la rétropropagation — apprendre toute fonction
Input → Couches cachées → Activation → Output — Rosenblatt (1958) à aujourd’hui
ReLU ReLU
ReLU

x4

Sigmoid
x3
rétropropagation ∇L

x2
Output

x1
Input

Couche 1 Couche 2 Couche 3

Safaa Kahil Data Scientist | #30DaysDataScience


Au Programme

Théorie Pratique
✓ Le neurone artificiel et la propagation avant → Classification tabulaire (banque, assurance)
✓ Fonctions d’activation : ReLU, Sigmoid, Tanh, Softmax → Régression : prévision de prix
✓ Rétropropagation et descente de gradient → Détection de fraude (MLP vs XGBoost)
✓ Batch Normalization et Dropout → Embedding catégories : Entity Embedding
✓ Optimiseurs : SGD, Adam, RMSprop → MLP vs XGBoost vs RF sur données tabulaires
✓ Regularisation : L1/L2, Early Stopping

“Le MLP est l’unité de base du deep learning. Bien que XGBoost domine les données tabulaires, le MLP avec Entity Em-
bedding et Batch Normalization devient compétitif — et reste la porte d’entrée vers les CNNs, RNNs et Transformers.”

2/9
Le Neurone Artificiel et la Propagation Avant

b
Un neurone : somme pondérée + activation
p
X x1
z = w⊤ x + b = wj xj + b w1
j=1
w2 a
a = σ(z) x2 σ output
w : poids synaptiques. b : biais. σ : activation.
.. w3
.
x3
z = w⊤ x + b
Propagation avant (Forward Pass) pour une couche l :
a = σ(z)
Z[l] = W[l] A[l−1] + b[l] xp

A[l] = σ [l] (Z[l] ) ReLU vs Sigmoid

W[l] : matrice de poids (nl × nl−1 ). 1


ReLU
A[0] = X : entrée. ŷ = A[L] : sortie. 0.5
Sigmoid

−2 2

Théorème d’approximation universelle

Un MLP avec une couche cachée de taille suffisante peut approcher


n’importe quelle fonction continue sur un compact (Cybenko, 1989).
⇒ Le MLP est un approximateur universel. 3/9
Fonctions d’Activation : Choisir la Bonne

Comparaison des activations


Activation Formule Usage
3
1 ReLU
Sigmoid Sortie binaire
1+e −z
e −e −z
z Sigmoid
Tanh Couches cachées RNN
e z +e −z 2 Tanh
ReLU max(0, z) Couches cachées MLP Leaky ReLU
Leaky ReLU max(αz, z) Si neurones morts
1

ELU α(e z − 1) si z < 0 Variance stable


e zk
Softmax P zj Sortie multi-classe
j e
−2 −1 1 2
GELU zΦ(z) Transformers
−1

Règle : ReLU pour les couches cachées (rapide, pas de saturation). Sigmoid
pour la sortie binaire. Softmax pour la classification multi-classe. Linéaire
pour la régression.

Problème ReLU : neurones morts si z < 0 pour tous les exemples ⇒


gradient nul ⇒ poids figés. Solution : Leaky ReLU (α = 0.01) ou ELU.

4/9
Rétropropagation et Optimiseurs

Convergence des optimiseurs


Rétropropagation (Backpropagation)

Calculer ∂L
par la règle de dérivation en chaîne : Adam
∂W[l]
RMSprop
∂L ∂L ∂A[l] ∂Z[l] SGD
= · · 0.4
∂W[l] ∂A[l] ∂Z[l] ∂W[l]

Perte (loss)
SGD+momentum
Mise à jour SGD :
W ← W − η · ∇W L

0.2

Optimiseurs modernes

Adam (Kingma & Ba, 2015) : mt = β1 mt−1 + (1 − β1 )∇ vt =


β2 vt−1 + (1 − β2 )∇2 W ← W − η √v̂m̂t+ε 0 20 40 60 80 100
t
Adam = momentum + learning rate adaptatif par paramètre. Défaut : Époque
Adam
η = 0.001, β1 = 0.9, β2 = 0.999. converge plus vite. SGD+momentum peut mieux généraliser.

5/9
Regularisation : Batch Norm, Dropout, L1/L2

Impact Dropout + Batch Norm


Batch Normalization (Ioffe & Szegedy, 2015)
1
Normaliser les activations à l’intérieur du réseau :
zi − µB
ẑi = q
2 +ε
σB 0.9

Accuracy
z̃i = γ ẑi + β
γ, β : paramètres apprenables. Accélère l’entraînement, réduit la sensibilité
à l’initialisation. 0.8

Train (sans régul.)


Test (sans régul.)
Dropout (Srivastava et al., 2014) 0.7
Train (BN + Dropout)
0 20 Test40(BN +60Dropout)
80 100
Pendant l’entraînement, désactiver aléatoirement une fraction p de
neurones. Époque
mi · ai
ãi = , mi ∼ Bernoulli(1 − p)
1−p
Force chaque neurone à apprendre des représentations indépendantes.
Défaut : p = 0.2 à 0.5. Désactivé en inférence.

6/9
Applications Réelles

Classification Bancaire et Assurance Prévision de Prix (Régression)


Contexte : scoring client, churn, probabilité de défaut. Dataset : Ames Housing (81 features, dont 43 catégorielles).
Architecture : Input → BN → Dense(256) → Dropout(0.3) → Architecture : Entity Embedding pour catégories + MLP + sortie
Dense(128) → Sigmoid. linéaire.
Avantage : Entity Embedding pour les variables catégorielles. MAPE : 7.2% (comparable à XGBoost sur ce dataset).
BNP Paribas, AXA, Allianz. MLP compétitif face à XGBoost si embed- Zillow, Meilleurs Agents. Entity Embedding transforme les catégories
ding bien tunas. en représentations denses.

Systèmes de Recommandation Porte d’entrée vers le Deep Learning


Architecture : Neural Collaborative Filtering (NCF). CNN : MLP appliqué localement sur des images (convolution).
Idée : embeddings users + items → MLP → score de pertinence. RNN/LSTM : MLP partagé à travers le temps.
Exemple : Netflix Prize, Amazon recommendations. Transformer : MLP dans le feedforward block de chaque couche
Netflix, Spotify, YouTube. NCF + MLP a remplacé la factorisation d’attention.
matricielle classique. Comprendre le MLP, c’est comprendre le socle de tous les architectures
deep learning.

7/9
Avantages, Limites & Comparaison

+ Avantages – Limites

✓ Approximateur universel : apprend toute fonction × Données tabulaires : souvent inferieur à


continue XGBoost/RF
✓ Entity Embedding : représentations riches des × Tuning long : architecture, lr, dropout, batch size
catégories × n élevé nécessaire : risque d’overfit sur petits
✓ Scalable : mini-batch + GPU + TensorFlow/PyTorch datasets
✓ Transfert learning : fine-tuner des modèles × Boite noire : moins interprétable que les arbres
pré-entraînés
✓ Porte d’entrée vers CNN, RNN, Transformer

8/9
Récapitulatif Visuel

Données Architecture Adam + EarlyStopping


StandardScaler Dense + BN + Dropout ReduceLROnPlateau

Prédiction Diagnostic overfit Courbes loss


AUC / MAE Ajuster Dropout train vs val

1. StandardScaler 2. BN + Dropout 3. Adam + Early 4. Courbes loss


obligatoire ReLU cachées Stopping AUC / MAE

Mémoriser : Forward Pass → Loss → Backprop → Adam. ReLU pour les couches cachées. Batch Norm avant Dropout. EarlyStopping
toujours. StandardScaler avant l’entraînement.

9/9

Vous aimerez peut-être aussi