Guide Complet sur le Machine Learning
Guide Complet sur le Machine Learning
MACHINE
LEARNING
Construire Pas à Pas Votre
Expertise en Machine Learning
ABDELHAFID AIT BOUCHTA MOHAMED ABIR MESKINI BOUIZMOUNE HAMZA GBOURI YOUNESS BOUMESHOULI
EL MOKHTAR SALMA
Introduction
Le Machine Learning (ML) est l’étude des algorithmes informatiques capables de s’améliorer
automatiquement grâce à l’expérience et à l’utilisation des données. Il est considéré comme
une branche de l’intelligence artificielle.
Pgae 2 : Introduction
Machine Learning
Pgae 3 : Introduction
supervised learning
Chaque point représente une maison réelle. La ligne de régression trouve la meilleure approximation linéaire de la relation entre
surface et prix.
Avantages et Limites de la Régression Linéaire
Avantages Limites
Fonctionnement
Variables d'entrée comme l'âge, le prix, la Paramètres appris qui pondèrent l'importance Paramètre qui décale la valeur de la
distance, le nombre d'articles, etc. de chaque feature dans le calcul. combinaison linéaire pour améliorer la précision.
proche de 0 ou proche de 1
Sinon → classe = 0
Seuil personnalisable
Exemple 1 Exemple 2
Vous pouvez changer le seuil (0.3, 0.7...) selon votre cas
d'application. Seuil = 0.5 Seuil = 0.7
P(acheter=1) = 0.78 P(acheter=1) = 0.78
Seuil par défaut Seuil personnalisé → class = 1 (achète) → class = 1 (achète)
0.5 0.3
4 Critères d'arrêt
La croissance s'arrête lorsque tous les sous-ensembles sont purs, lorsque la division
n'améliore plus la prédiction, ou lorsque la profondeur maximale est atteinte.
Qu'est-ce
Qu'est-cequ'un
qu'unarbre
arbrede
declassification?
classification? Caractéristiques principales
Variable cible : étiquettes de classes discrètes
Définition Variable cible : qualitative (ex. Oui/Non, Chat/Chien, Rouge/Vert).
Prédire à quelle catégorie appartient un nouvel élément
Un arbre de classification est un modèle d’apprentissage Structure :
Chaque nœud interne teste une caractéristique
supervisé qui permet de prédire l’étiquette de classe (catégorie) à Nœud racine : point de départ, représentant l’ensemble des
Feuilles
laquelle: une
étiquettes decible
variable classe prédites
appartient. données.
Nœuds internes : tests conditionnels sur les variables explicatives
(ex. âge > 30 ?).
Exemple Branches : résultats des tests qui mènent vers d’autres nœuds.
Prédire si un client achète un produit : Feuilles : classes finales attribuées (ex. Spam ou Non Spam).
Racine : “Âge > 30 ?”
Oui → “Revenu > 2000 ?”
Oui → Classe : Achète
Non → Classe : N’achète pas
Non → Classe : N’achète pas
Exemples d'applications:
Estimation de prix immobiliers en fonction de la surface et de
la localisation
Random Forest (ou forêt aléatoire) est un algorithme d'apprentissage automatique qui se distingue comme une
méthode d'apprentissage ensembliste. Il fonctionne en construisant une multitude d'arbres de décision lors de la
phase d'entraînement, puis en agrégeant leurs prédictions pour obtenir un résultat final plus robuste et précis.
Construit une "forêt" d'arbres de décision et agrège leurs Polyvalent et peut être appliquée efficacement aux problèmes
résultats pour produire une prédiction finale plus robuste. de classification (catégories discrètes) et de régression (valeurs
numériques continues).
Introduit par Leo Breiman, il vise à améliorer la précision des Obtenir des prédictions plus précises et robustes en combinant
prédictions et à réduire le surapprentissage. plusieurs modèles simples.
Principe de Fonctionnement - Vue d’ensembe
Random Forest repose sur le principe de la sagesse de la foule (the wisdom of the crowd), où la combinaison des
prédictions de multiples modèles simples (des arbres de décision) conduit à un résultat global plus robuste et précis qu'un
modèle unique.
Construit une "forêt" d'arbres de La combinaison des prédictions de Pour la classification, la majorité des
décision, chacun entraîné sur un sous- multiples modèles donne un résultat votes. Pour la régression, la moyenne
ensemble différent des données global plus robuste qu'un modèle des prédictions.
d'entraînement. unique.
Résultat
Final
Principe de Fonctionnement - Vue d’ensembe
L'échantillonnage Bootstrap est une technique consistant à créer des sous-ensembles d'entraînement à
partir du jeu de données original, avec tirage avec remise. Chaque échantillon entraîne un arbre distinct.
Validation Interne
Environ un tiers des observations (Out-of-Bag) ne sont pas incluses dans un
échantillon donné. Ils peuvent être utilisés pour une validation interne. Arbre 1 Arbre 2 Arbre 3
Principe de Fonctionnement - Vue d’ensembe
En plus de l'échantillonnage bootstrap des données, Random Forest introduit une seconde source d'aléatoire
lors de la construction de chaque arbre de décision. À chaque nœud, au lieu de considérer toutes les
caractéristiques disponibles, l'algorithme sélectionne aléatoirement un sous-ensemble de caractéristiques.
Cette sélection aléatoire de caractéristiques réduit la corrélation Pour les tâches de classification, le nombre de caractéristiques
entre les arbres individuels, ce qui est crucial pour l'efficacité de considérées à chaque split est généralement la racine carrée du
l'ensemble. nombre total de caractéristiques. Pour les tâches de régression,
c'est souvent un tiers du nombre total de caractéristiques.
Une fois que tous les arbres de décision sont construits et entraînés, leurs prédictions individuelles sont combinées
pour former la prédiction finale du modèle Random Forest.
Classification Régression
Chaque arbre de décision vote pour une classe. La classe qui Les prédictions numériques de tous les arbres individuels sont
reçoit le plus grand nombre de votes (la majorité) est choisie moyennées pour obtenir la prédiction finale du Random Forest.
comme la prédiction finale.
3 votes R1 R2 R3 R4 R5 R6
1 0 1 0 1
Moyenne
2 votes
Le Random Forest offre plusieurs avantages significatifs pour les tâches de classification et de régression :
Polyvalence : applicable aux Données Complexes : gère bien les Pas de Normalisation : ne nécessite
problèmes de classification et de grands ensembles de données avec pas de normalisation des données
régression de nombreuses caractéristiques d'entrée
Inconvénients de RandomForest
Bien que puissant, Random Forest présente certains limitations importantes à prendre en compte lors de son
utilisation.
Risque de Surapprentissage : Bien qu'il réduise le surapprentissage, il peut encore surapprendre si les données sont extrêmement bruyantes, surtout with
un grand nombre d'arbres et un réglage inapproprié des hyperparamètres.
Quand Utiliser RandomForest ?
Robustesse aux valeurs aberrantes et au bruit : L'agrégation des prédictions de multiples arbres rend le modèle moins
sensible aux valeurs extrêmes ou aux données bruitées.
XGBoost
Architecture, Fonctionnement, Régularisation et Avantages
Novembre 2025
Introduction à XGBoost
XGBoost construit son modèle en combinant les prédictions de plusieurs arbres faibles. Chaque nouvel arbre corrige les erreurs des précédents. La
prédiction finale est la somme pondérée des sorties des arbres.
Modèle de Base Calcul des Résidus Entraînement Arbre Mise à Jour Modèle
rk = Y - Fk-1(x)
Principe de base
Chaque nouvel arbre prédit les résidus du
modèle précédent
Les résidus représentent les erreurs qui
restent après chaque itération
Le processus se répète jusqu'à ce que les
résidus soient minimisés
La prédiction finale est la somme pondérée
des prédictions de tous les arbres
Apprentissage Automatique
Valeurs Valeurs
L'algorithme apprend la meilleure façon de traiter les manquantes manquantes
gauche droite
valeurs manquantes pour chaque caractéristique, en
Gain Gauche Gain Droite
fonction de leur impact sur la réduction de la perte.
Forme de la pénalité Somme des valeurs absolues des Somme des carrés des poids
poids
Effet sur les poids Peut réduire certains poids à zéro Réduit la magnitude de tous les
poids L1 (Lasso) L2 (Ridge)
Sélection de caract. Intégrée (utile pour la sélection) Non (réduit les poids, sans
annulation)
Comment choisir ?
Robustesse aux Plus robuste (pénalité linéaire) Moins robuste (pénalité L1 (Lasso) si peu de caractéristiques importantes parmi
outliers quadratique) beaucoup de bruit
Coût computationnel Plus coûteux (pas de solution Moins coûteux (solution fermée) L2 (Ridge) si de nombreuses caractéristiques
fermée) modestement importantes
Mélange (Elastic Net) si douteux ou caractéristiques
corrélées
Réduction du temps d'entraînement sur plusieurs cœurs CPU Format compressé (ELLPACK) pour une gestion efficace de la
mémoire GPU
Parallélisation du calcul
GPU Computing
Résultat combiné
Résultat GPU
Les modèles entraînés sur GPU peuvent fonctionner sur CPU et vice-versa Page 9 | XGBoost – Architecture, Fonctionnement, Régularisation et Avantages
Avantages et Inconvénients
XGBoost est un algorithme puissant avec des forces et des faiblesses qu'il est essentiel de comprendre pour une utilisation optimale.
Avantages Inconvénients
Performance élevée et précision robuste Complexité relative par rapport aux algorithmes simples
Implémentation optimisée avec régularisation native Need for careful tuning of hyperparameters
Gestion native des valeurs manquantes Consommation de mémoire importante pour les grands modèles
Parallélisation efficace pour les grands ensembles de données Moins interprétable que les modèles linéaires
Flexibilité pour différents types de problèmes Peut être sensible au bruit dans les données
La compréhension de ces aspects vous aidera à déterminer si XGBoost est le bon algorithme pour votre projet.
Précautions
Quand l'utiliser?
Surapprentissage : surveillez les performances
Prédiction Compétitions
Coût computationnel : XGBoost peut être gourmand en mémoire
Le Support Vector Machine (SVM) est un algorithme d'apprentissage supervisé principalement utilisé pour la
classification (SVC) et adapté à la régression (SVR). Il est considéré comme un modèle discriminatif qui
cherche à définir la meilleure frontière de séparation possible entre les classes.
Classification Binaire
[Link] Classification de Texte
[Link] Maximale Bioinformatique
[Link] du Noyau (Kernel Trick Reconnaissance d'Images
L'idée originale du Maximum Margin Classifier a été proposée Trouver l'hyperplan optimal (la frontière de décision) qui
par Vladimir Vapnik et Alexey Chervonenkis dans les années maximise la distance (la marge) entre les points de données les
1960. La version moderne et non-linéaire du SVM avec l'Astuce plus proches de cette frontière (appelés Vecteurs de Support).
du Noyau (Kernel Trick) a été développée par Vladimir Vapnik Rigueur : L'objectif est d'assurer la meilleure généralisation
dans les années 1990. possible, basée sur la théorie de la Minimisation du Risque
Structurel (SRM).
Les Fondamentaux : La Marge Maximale
Terminologie Clé
Gérer la Non-Linéarité
Le concept du "Tube"
Contrairement aux réseaux de neurones qui peuvent trouver La fonction de coût du SVM est convexe. Cela signifie qu'il n'y
n'importe quelle frontière, SVM trouve la plus sûre, garantissant a pas de "minima locaux". On trouve toujours la solution
une meilleure généralisation. globale optimale.
Efficacité Dimensionnelle
Avantages Inconvénients
Précision élevée sur les datasets de taille moyenne. Lent sur les très grands volumes de données (Big Data).
Polyvalent grâce aux différents noyaux (Kernels). Sensible au bruit si les classes se chevauchent trop.
Robuste au surapprentissage (grâce à la régularisation C). Nécessite une mise à l'échelle des données (Feature Scaling).
Efficace en haute dimension. Difficile à interpréter (Boîte noire pour les noyaux non-
linéaires).
Cas d'Utilisation Concrets et resume
Reconnaissance d'images : Détection de visages, lecture Le SVM est le choix idéal quand la précision est primordiale
d'écriture manuscrite (OCR). sur des jeux de données complexes mais de taille raisonnable.
Classification de texte : Filtrage de spam, analyse de Sa capacité à transformer l'espace (Kernel) et sa rigueur
sentiments (positif/négatif). mathématique (Marge) en font un outil incontournable dans
Bioinformatique : Classification des protéines et analyse de la boîte à outils du Data Scientist.
l'expression des gènes (haute dimension).
Finance : Prédiction des tendances boursières (SVR).
KNN (K-Nearest Neighbors)
Définition et principe de base Algorithme KNN
Principe de proximitye
Qu'est-ce que KNN?
KNN (K-Nearest Neighbors) est un algorithme d'apprentissage
supervisé basé sur les instances.
Applications
Identifie les K voisins les plus proches
Effectue une prédiction basée sur ces voisins
Régression Classification Détection d'anomalies
Fonctionnement de l'algorithme KNN Algorithme KNN
KNN peut être utilisé pour deux types de problèmes d'apprentissage supervisé :
Classification Régression
Pour prédire une étiquette de classe discrète. Pour prédire une valeur continue.
Fonctionnement Fonctionnement
Identifie les K voisins les plus proches Identifie les K voisins les plus proches
Effectue un vote majoritaire Calcule la moyenne des valeurs voisines
Attribue la classe la plus représentée Attribue cette valeur moyenne
Le nouveau point est classé selon la catégorie dominante parmi ses K voisins Le nouveau point reçoit une valeur basée sur la moyenne des valeurs de ses K voisins
Choisir la valeur optimale de K Algorithme KNN
Méthodes de sélection
Validation croisée : Évalue les performances pour différentes K
Conseils pratiques
Essayer plusieurs valeurs de K Utiliser la validation croisée
Applications pratiques Algorithme KNN
Moteurs de recommandation
Finance Santé
Évaluation des risques liés aux prêts Prédiction des risques d'infarctus du Suggestion automatique de contenus
Détermination de la solvabilité myocarde (produits, films)
"Analyse des tendances et des comportements" "Analyse des données biométriques" "Personalisation de l'expérience utilisateur"
Classification des chiffres et des textes Imputation des valeurs manquantes Segmentation client
Reconnaissance des chiffres manuscrits Détection des valeurs aberrantes Détection de spam
Reconnaissance vocale
Identification sur les formulaires et
enveloppes postales
"Traitement d'images et de texte" "Préparation et nettoyage des données" "Champs d'application variés"
Avantages de l'algorithme KNN Page 7/8
Peu d'hyperparamètres
Nécessite uniquement la définition de k et d'une mesure de distance.
Polyvalence
Peut être utilisé pour classification et régression, versatile pour les data scientists.
Malédiction de la dimensionnalité
KNN fonctionne mal avec des données à de nombreuses dimensions. Dans les espaces de haute
dimension, la notion de "proximité" devient moins significative.
Autres défis
Normalisation requise
Les performances de KNN dépendent fortement de
l'échelle des caractéristiques.
Ensembles déséquilibrés
Les classes minoritaires peuvent être dominées par les
classes majoritaires.
PCA
Merci pour votre
attention