JOUR 20 / 30 | DEEP LEARNING — MULTILAYER PERCEPTRON
Réseaux de Neurones — MLP
Du neurone biologique à la rétropropagation — apprendre toute fonction
Input → Couches cachées → Activation → Output — Rosenblatt (1958) à aujourd’hui
ReLU ReLU
ReLU
x4
Sigmoid
x3
rétropropagation ∇L
ŷ
x2
Output
x1
Input
Couche 1 Couche 2 Couche 3
Safaa Kahil Data Scientist | #30DaysDataScience
Au Programme
Théorie Pratique
✓ Le neurone artificiel et la propagation avant → Classification tabulaire (banque, assurance)
✓ Fonctions d’activation : ReLU, Sigmoid, Tanh, Softmax → Régression : prévision de prix
✓ Rétropropagation et descente de gradient → Détection de fraude (MLP vs XGBoost)
✓ Batch Normalization et Dropout → Embedding catégories : Entity Embedding
✓ Optimiseurs : SGD, Adam, RMSprop → MLP vs XGBoost vs RF sur données tabulaires
✓ Regularisation : L1/L2, Early Stopping
“Le MLP est l’unité de base du deep learning. Bien que XGBoost domine les données tabulaires, le MLP avec Entity Em-
bedding et Batch Normalization devient compétitif — et reste la porte d’entrée vers les CNNs, RNNs et Transformers.”
2/9
Le Neurone Artificiel et la Propagation Avant
b
Un neurone : somme pondérée + activation
p
X x1
z = w⊤ x + b = wj xj + b w1
j=1
w2 a
a = σ(z) x2 σ output
w : poids synaptiques. b : biais. σ : activation.
.. w3
.
x3
z = w⊤ x + b
Propagation avant (Forward Pass) pour une couche l :
a = σ(z)
Z[l] = W[l] A[l−1] + b[l] xp
A[l] = σ [l] (Z[l] ) ReLU vs Sigmoid
W[l] : matrice de poids (nl × nl−1 ). 1
ReLU
A[0] = X : entrée. ŷ = A[L] : sortie. 0.5
Sigmoid
−2 2
Théorème d’approximation universelle
Un MLP avec une couche cachée de taille suffisante peut approcher
n’importe quelle fonction continue sur un compact (Cybenko, 1989).
⇒ Le MLP est un approximateur universel. 3/9
Fonctions d’Activation : Choisir la Bonne
Comparaison des activations
Activation Formule Usage
3
1 ReLU
Sigmoid Sortie binaire
1+e −z
e −e −z
z Sigmoid
Tanh Couches cachées RNN
e z +e −z 2 Tanh
ReLU max(0, z) Couches cachées MLP Leaky ReLU
Leaky ReLU max(αz, z) Si neurones morts
1
ELU α(e z − 1) si z < 0 Variance stable
e zk
Softmax P zj Sortie multi-classe
j e
−2 −1 1 2
GELU zΦ(z) Transformers
−1
Règle : ReLU pour les couches cachées (rapide, pas de saturation). Sigmoid
pour la sortie binaire. Softmax pour la classification multi-classe. Linéaire
pour la régression.
Problème ReLU : neurones morts si z < 0 pour tous les exemples ⇒
gradient nul ⇒ poids figés. Solution : Leaky ReLU (α = 0.01) ou ELU.
4/9
Rétropropagation et Optimiseurs
Convergence des optimiseurs
Rétropropagation (Backpropagation)
Calculer ∂L
par la règle de dérivation en chaîne : Adam
∂W[l]
RMSprop
∂L ∂L ∂A[l] ∂Z[l] SGD
= · · 0.4
∂W[l] ∂A[l] ∂Z[l] ∂W[l]
Perte (loss)
SGD+momentum
Mise à jour SGD :
W ← W − η · ∇W L
0.2
Optimiseurs modernes
Adam (Kingma & Ba, 2015) : mt = β1 mt−1 + (1 − β1 )∇ vt =
β2 vt−1 + (1 − β2 )∇2 W ← W − η √v̂m̂t+ε 0 20 40 60 80 100
t
Adam = momentum + learning rate adaptatif par paramètre. Défaut : Époque
Adam
η = 0.001, β1 = 0.9, β2 = 0.999. converge plus vite. SGD+momentum peut mieux généraliser.
5/9
Regularisation : Batch Norm, Dropout, L1/L2
Impact Dropout + Batch Norm
Batch Normalization (Ioffe & Szegedy, 2015)
1
Normaliser les activations à l’intérieur du réseau :
zi − µB
ẑi = q
2 +ε
σB 0.9
Accuracy
z̃i = γ ẑi + β
γ, β : paramètres apprenables. Accélère l’entraînement, réduit la sensibilité
à l’initialisation. 0.8
Train (sans régul.)
Test (sans régul.)
Dropout (Srivastava et al., 2014) 0.7
Train (BN + Dropout)
0 20 Test40(BN +60Dropout)
80 100
Pendant l’entraînement, désactiver aléatoirement une fraction p de
neurones. Époque
mi · ai
ãi = , mi ∼ Bernoulli(1 − p)
1−p
Force chaque neurone à apprendre des représentations indépendantes.
Défaut : p = 0.2 à 0.5. Désactivé en inférence.
6/9
Applications Réelles
Classification Bancaire et Assurance Prévision de Prix (Régression)
Contexte : scoring client, churn, probabilité de défaut. Dataset : Ames Housing (81 features, dont 43 catégorielles).
Architecture : Input → BN → Dense(256) → Dropout(0.3) → Architecture : Entity Embedding pour catégories + MLP + sortie
Dense(128) → Sigmoid. linéaire.
Avantage : Entity Embedding pour les variables catégorielles. MAPE : 7.2% (comparable à XGBoost sur ce dataset).
BNP Paribas, AXA, Allianz. MLP compétitif face à XGBoost si embed- Zillow, Meilleurs Agents. Entity Embedding transforme les catégories
ding bien tunas. en représentations denses.
Systèmes de Recommandation Porte d’entrée vers le Deep Learning
Architecture : Neural Collaborative Filtering (NCF). CNN : MLP appliqué localement sur des images (convolution).
Idée : embeddings users + items → MLP → score de pertinence. RNN/LSTM : MLP partagé à travers le temps.
Exemple : Netflix Prize, Amazon recommendations. Transformer : MLP dans le feedforward block de chaque couche
Netflix, Spotify, YouTube. NCF + MLP a remplacé la factorisation d’attention.
matricielle classique. Comprendre le MLP, c’est comprendre le socle de tous les architectures
deep learning.
7/9
Avantages, Limites & Comparaison
+ Avantages – Limites
✓ Approximateur universel : apprend toute fonction × Données tabulaires : souvent inferieur à
continue XGBoost/RF
✓ Entity Embedding : représentations riches des × Tuning long : architecture, lr, dropout, batch size
catégories × n élevé nécessaire : risque d’overfit sur petits
✓ Scalable : mini-batch + GPU + TensorFlow/PyTorch datasets
✓ Transfert learning : fine-tuner des modèles × Boite noire : moins interprétable que les arbres
pré-entraînés
✓ Porte d’entrée vers CNN, RNN, Transformer
8/9
Récapitulatif Visuel
Données Architecture Adam + EarlyStopping
StandardScaler Dense + BN + Dropout ReduceLROnPlateau
Prédiction Diagnostic overfit Courbes loss
AUC / MAE Ajuster Dropout train vs val
1. StandardScaler 2. BN + Dropout 3. Adam + Early 4. Courbes loss
obligatoire ReLU cachées Stopping AUC / MAE
Mémoriser : Forward Pass → Loss → Backprop → Adam. ReLU pour les couches cachées. Batch Norm avant Dropout. EarlyStopping
toujours. StandardScaler avant l’entraînement.
9/9