Algorithme de descente de gradient
Définition
La descente de gradient est une méthode itérative d'optimisation qui cherche à minimiser
une fonction différentiable (fonction coût) J (θ) en se déplaçant dans la direction opposée au
gradient ∇ θ J (θ).
But de l'algorithme
Trouver les paramètres θ qui minimisent une fonction coût J (θ). C’est le cas par exemple
pour ajuster un modèle aux données).
Types de problèmes résolus par la descente de gradient
- Régression linéaire (minimiser MSE).
- Réseaux de neurones (minimiser Loss).
- Optimisation convexe ou non-convexe en machine learning.
Exemples : ajuster une droite aux points, entraînement d'un perceptron, estimation de
paramètres.
Principe de fonctionnement
On considère une fonction coût J ( θ ) . À l'itération t :
θ(t+ 1)=θt −α ∇θ J ( θt ) ,
où α >0 est le taux d'apprentissage (Learning rate).
Pour la régression linéaire simple (modèle hθ ( x )=θ 0+θ 1 (x)) avec m exemples ( x(i) , y(i)) la
fonction coût (MSE) :
m
1
∑
2
j ( θ 0 , θ1 )= (h θ ( x ( i) )− y ( i) )
2 m i=1
Les gradients :
m
∂J 1
= ∑ ¿ ¿,
∂ θ j m i=1
Avec x 0(i) =1, x 1(i)=x (i) .
Variantes : batch GD (tous les exemples), mini-batch GD, stochastic GD (SGD).
Algorithme ACP via décomposition SVD (PCA via SVD)
Définition
L'Analyse en Composantes Principales (ACP ou PCA) est une méthode de réduction de
dimension qui cherche des directions orthogonales (composantes principales) maximisant la
variance des données. La SVD (Singular Value Decomposition) est une façon numérique
stable de calculer la PCA.
But de l'algorithme
L’objectif est de réduire la dimensionnalité tout en conservant le maximum de variance, de
faciliter visualisation, la compression, le débruitage et le prétraitement pour l’apprentissage.
Types de problèmes
- Compression d'images, représentation de données, visualisation (projeter en 2D/3D).
- Prétraitement avant classification.
Exemples : réduction d'un jeu de données 100-d à 2-d pour visualiser clusters.
Principe de fonctionnement
Soit X ∈ R m ×n (m échantillons, n variables).
1
1. Centrer les données : ~
X= X−1 μ où μ=
T
∑X;
m i i
2. Calculer SVD : ~ T
X=U Σ V .
o Colonnes de V sont vecteurs propres de la matrice de covariance (directions
principales).
o Σ contient les valeurs singulières σ 1 ≥ σ 2 ≥ ….
~
3. Projeter sur les k premières composantes : Z= X V k (où V k est en n × k ).
4. Reconstruction approchée : ^ T T
X =Z V k +1 μ .
2
1 ~T ~ Σ T
Lien avec covariance : X X =V V .
m m
Algorithme Classifieur Naïve Bayes (Gaussien)
Définition
Le classifieur naïve Bayes applique le théorème de Bayes en supposant l'indépendance
conditionnelle des caractéristiques xjx_jxj donné la classe yyy. Pour les variables continues,
on utilise souvent la loi normale (Gaussienne) par caractéristique — d'où Gaussian Naive
Bayes.
But de l'algorithme
Classer un échantillon xxx en la classe ccc qui maximise la probabilité a posteriori P(c∨x).
Types de problèmes
Cet algorithme permet de résoudre des problèmes de classification binaire ou multi-classes.
Exemples : filtrage spam, classification de texte (avec variantes multinomiales), classification
de fleurs IRIS, etc.
Principe de fonctionnement
Par Bayes :
P ( x|c ) P (c )
P ( c|x )= .
P(x)
On choisit c^ =arg maxc P ( x|c ) P (c) .
n
Naïve : P ( x|c )=∏ P (x j∨c).
j=1
Gaussian NB : on suppose x j∨ y=c ℵ (μ cj , σ 2cj ). Alors :
2
n
1 −( x j−μ cj )
P ( x|c )=∏ exp ( ).
j=1 √2 π σ 2
cj
2
2 σ cj
On calcule log-probabilités pour stabilité :
[ ]
2
−1 ( x j−μcj )
lop P ( x|c ) +log P ( c )=∑ log ( 2 π σ cj )−
2
2
+ logP ( c ) .
j 2 2 σ cj
Régression ridge en optimisation (Ridge Regression ou Régression
à régularisation L2)
Définition
La régression ridge minimise la somme des carrés des erreurs plus un terme de pénalité
proportionnel au carré des coefficients (L2) :
1 2 λ
¿| Xβ− y|∨¿ 2+ ¿|β|∨¿ 2 ¿ ¿ .
2
J ( β )=
2m 2
où λ ≥ 0 contrôle la force de la régularisation.
But de l'algorithme
Réduire l'overfitting lorsque les variables sont multicolinaires ou quand il y a beaucoup de
caractéristiques, en contraignant la magnitude des coefficients.
Types de problèmes
Cet algorithme peut être utilisé pour :
- Régression linéaire avec colinéarité.
- Problèmes où on veut éviter coefficients très grands.
Exemples : prédiction de prix avec de nombreuses paramètres corrélées, modèle
linéaire en présence de bruit élevé.
Principe de fonctionnement
Solution analytique (closed-form) :
^β=(X T X + λmI )−1 X T y .
Remarque : Ces formules varient selon normalisation des termes. Ici, j'ai inclus facteur 1/m
dans coût.
On peut aussi minimiser itérativement via gradient :
1 T
∇βJ= X ( Xβ− y ) + λβ ,
m
Et la mise à jour (GD) est définie par :
t +1 t
β =β −α ¿.