0% ont trouvé ce document utile (0 vote)
6 vues72 pages

Guide Complet sur le Machine Learning

Le document présente une introduction au Machine Learning, en expliquant ses concepts fondamentaux tels que l'apprentissage supervisé et non supervisé, ainsi que des techniques spécifiques comme la régression linéaire et logistique, les arbres de décision et les forêts aléatoires. Il détaille le fonctionnement de ces algorithmes, leurs avantages, limites et applications dans divers domaines. L'objectif est de fournir une compréhension approfondie des méthodes de Machine Learning pour prédire des résultats à partir de données.

Transféré par

bouchtamohamed01
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
6 vues72 pages

Guide Complet sur le Machine Learning

Le document présente une introduction au Machine Learning, en expliquant ses concepts fondamentaux tels que l'apprentissage supervisé et non supervisé, ainsi que des techniques spécifiques comme la régression linéaire et logistique, les arbres de décision et les forêts aléatoires. Il détaille le fonctionnement de ces algorithmes, leurs avantages, limites et applications dans divers domaines. L'objectif est de fournir une compréhension approfondie des méthodes de Machine Learning pour prédire des résultats à partir de données.

Transféré par

bouchtamohamed01
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

MASTERING

MACHINE
LEARNING
Construire Pas à Pas Votre
Expertise en Machine Learning

ABDELHAFID AIT BOUCHTA MOHAMED ABIR MESKINI BOUIZMOUNE HAMZA GBOURI YOUNESS BOUMESHOULI
EL MOKHTAR SALMA
Introduction
Le Machine Learning (ML) est l’étude des algorithmes informatiques capables de s’améliorer
automatiquement grâce à l’expérience et à l’utilisation des données. Il est considéré comme
une branche de l’intelligence artificielle.

Les algorithmes de Machine Learning construisent un modèle à partir d’exemples de données,


appelées données d’entraînement, afin de faire des prédictions ou des décisions sans être
explicitement programmés pour cela.

Pgae 2 : Introduction
Machine Learning

Pgae 3 : Introduction
supervised learning

Pgae 4 : supervised learning


unsupervised learning

Pgae 5 : unsupervised learning


Machine Learning

Pgae 6 : Machine Learning


Régression Linéaire
Modèle de Régression Linéaire
en Machine Learning
y = β₀ + β₁x₁ + β₂x₂ + ... + βₙxₙ

Méthode pour prédire une valeur numérique à partir d’une ou plusieurs


variables. On cherche à tracer une droite qui décrit la relation entre les
données.
Comment ça marche ? Objectifs
On calcule la droite qui minimise l’erreur entre les valeurs réelles Comprendre la relation entre les variables.
et les valeurs prédites. Méthode utilisée : Ordinary Least Squares Prédire une valeur.
(OLS). On minimise la somme des erreurs au carré. Expliquer l'influence de chaque variable.

Pgae 8 : logistic regression


Visualisation Centrale - Nuage de Points et Ligne de Régression

Exemple : Prédiction du Prix


Immobilier
50+ points représentant des maisons
avec leur surface et prix

Ligne de régression rouge optimale


(méthode des moindres carrés)

Erreurs résiduelles (lignes pointillées) =


différence entre points et ligne

Relation linéaire : Prix = β₀ + β₁ ×


Surface

Chaque point représente une maison réelle. La ligne de régression trouve la meilleure approximation linéaire de la relation entre
surface et prix.
Avantages et Limites de la Régression Linéaire

Avantages Limites

Entraînement Rapide Relation Linéaire Supposée


Algorithme efficace qui converge rapidement Ne capture pas les relations complexes

Hautement Interprétable Sensible aux Outliers


Coefficients clairement significatifs Valeurs atypiques influencent le modèle

Implémentation Simple Difficulté avec Patterns Complexes


Utilisation straightforward Ne capture pas bien les interactions

Fonctionne avec Petits Datasets Prétraitement Nécessaire


Performe bien avec nombre limité d'échantillons Nécessite normalisation des données
logistic regression
logistic regression
Définition Exemples d'applications
La régression logistique est un algorithme utilisé pour prédire une oui / non
classe.
0/1
C'est un modèle de classification, pas un modèle de régression spam / pas spam
(même si son nom est trompeur).
malade / pas malade

client va acheter / pas acheter

Fonctionnement

Variables d'entrée Combinaison linéaire Fonction sigmoïde Décision de classe


âge, prix, distance, etc. z = w₁x₁ + w₂x₂ + ... + b ŷ = σ(z) = 1/(1+e⁻ᶻ) ŷ ≥ 0.5 → classe 1

Pgae 8 : logistic regression


Étape 1 - Combinaison
Linéaire
Formule de la combinaison linéaire

z = w₁x₁ + w₂x₂ + ... + wₙxₙ + b


Le résultat z peut être n'importe quel nombre (-∞ à +∞)

Features (xᵢ) Poids (wᵢ) Biais (b)

Variables d'entrée comme l'âge, le prix, la Paramètres appris qui pondèrent l'importance Paramètre qui décale la valeur de la
distance, le nombre d'articles, etc. de chaque feature dans le calcul. combinaison linéaire pour améliorer la précision.

Pgae 5 : unsupervised learning


Étape 2 - Fonction
Sigmoïde
Transformation
On transforme z en une probabilité avec la fonction sigmoïde :

ŷ = σ(z) = 1/(1 + e⁻ᶻ)

La sigmoïde "écrase" le résultat entre :

proche de 0 ou proche de 1

Pgae 5 : unsupervised learning


Étape 3 - Décision de
Classe
Règles de décision Visualisation du seuil

Si probabilité ≥ 0.5 → classe = 1

Sinon → classe = 0

Seuil personnalisable
Exemple 1 Exemple 2
Vous pouvez changer le seuil (0.3, 0.7...) selon votre cas
d'application. Seuil = 0.5 Seuil = 0.7
P(acheter=1) = 0.78 P(acheter=1) = 0.78
Seuil par défaut Seuil personnalisé → class = 1 (achète) → class = 1 (achète)

0.5 0.3

Pgae 5 : unsupervised learning


Étape 4 - Apprentissage
du Modèle
Descente de Gradient Fonction de Coût
Méthode d'optimisation pour minimiser l'erreur
Loss = -[ylog(ŷ) + (1-y)log(1-ŷ)]
Ajuste les poids du modèle
Cette fonction de perte (log-loss ou cross-entropy) mesure l'erreur
Itérations successives pour trouver les meilleurs paramètres
du modèle.

L'objectif est de converger vers un minimum local de la fonction de


perte Bonnes classes → probabilités Mauvaises classes → probabilités
proches de 1 proches de 0

Visualisation de la fonction de perte

Pgae 5 : unsupervised learning


Très utilisé dans :
Marketing Prédire si un client va
acheter
Régression
Logistique — Cas
d’Usage Clés Santé Prédire si un patient est
malade

Banques Détection de Fraude

Prédire si un post sera


Réseaux Sociaux liké

Pgae 5 : unsupervised learning


La différence entre la régression
linéaire et logistique.

Pgae 5 : unsupervised learning


L’arbre de décision
Définition et Principe

Qu'est-ce qu'un arbre de décision? Représentation Visuelle


Méthode fondamentale de l'apprentissage automatique

Appartient à la catégorie de l'apprentissage supervisé

Permet de prédire une variable cible (continue ou discrète)

Structure hiérarchique et arborescente intuitive

Modèles transparents et facilement interprétables

Exemple d'arbre de décision pour la prédiction d'une variable cible


Algorithme de Construction

1 Détermination de la meilleure caractéristique Représentation Visuelle de l'Algorithme


À chaque nœud, l'algorithme identifie la caractéristique permettant la meilleure division des Récurrent
données. Cette sélection est basée sur des critères mesurant l'homogénéité des sous-
ensembles.

2 Division des données en sous-ensembles


Une fois la meilleure caractéristique déterminée, l'ensemble de données est divisé en sous-
ensembles selon les valeurs de cette caractéristique.

3 Génération récursive de nouveaux arbres


Le processus est appliqué récursivement à chacun des sous-ensembles, générant de
nouveaux nœuds et branches.

4 Critères d'arrêt
La croissance s'arrête lorsque tous les sous-ensembles sont purs, lorsque la division
n'améliore plus la prédiction, ou lorsque la profondeur maximale est atteinte.

Chaque nœud de l'arbre représente un appel récursif de


l'algorithme

Les Arbres de Décision


Arbres de Classification

Qu'est-ce
Qu'est-cequ'un
qu'unarbre
arbrede
declassification?
classification? Caractéristiques principales
Variable cible : étiquettes de classes discrètes
Définition Variable cible : qualitative (ex. Oui/Non, Chat/Chien, Rouge/Vert).
Prédire à quelle catégorie appartient un nouvel élément
Un arbre de classification est un modèle d’apprentissage Structure :
Chaque nœud interne teste une caractéristique
supervisé qui permet de prédire l’étiquette de classe (catégorie) à Nœud racine : point de départ, représentant l’ensemble des
Feuilles
laquelle: une
étiquettes decible
variable classe prédites
appartient. données.
Nœuds internes : tests conditionnels sur les variables explicatives
(ex. âge > 30 ?).
Exemple Branches : résultats des tests qui mènent vers d’autres nœuds.
Prédire si un client achète un produit : Feuilles : classes finales attribuées (ex. Spam ou Non Spam).
Racine : “Âge > 30 ?”
Oui → “Revenu > 2000 ?”
Oui → Classe : Achète
Non → Classe : N’achète pas
Non → Classe : N’achète pas

Les Arbres de Décision


Arbres de Régression

Prédiction de Valeurs Continues Représentation Visuelle


Les arbres de régression sont conçus pour prédire une valeur
numérique continue pour la variable cible.

Exemples d'applications:
Estimation de prix immobiliers en fonction de la surface et de
la localisation

Prévisions de ventes hebdomadaires d'un produit

Les Arbres de Décision


Avantages des Arbres de Décision

Simplicité d'interprétation Préparation des données minimale


Structure hiérarchique et logique booléenne facile à comprendre.
Modèles "boîte blanche" avec une logique de décision Peut gérer différents types de données sans prétraitement
transparente. intensif. Moins sensible aux valeurs manquantes qu'autres
algorithmes.

Données mixtes et seuils Problèmes multi-classes et flexibilité


Traite efficacement les variables numériques et catégorielles. Les
valeurs continues peuvent être converties en catégorielles via des Capable de gérer des problèmes de classification avec plusieurs
seuils. classes. Flexible pour les tâches de classification et de régression.

Les Arbres de Décision


Limitations et Défis

Surapprentissage Instabilité Biais et Complexité


Arbres complexes trop spécifiques aux De petites variations dans les données Biais envers les classes dominantes
données d'entraînement entraînent des arbres différents
Recherche optimale: problème NP-complet
Apprennent le bruit plutôt que le signal sous- Solution: méthodes d'ensemble comme les
jacent forêts aléatoires
Approches gloutonnes, pas de solution
Techniques d'élagage nécessaires pour globale garantie
atténuer ce problème

Prédictions non lisses Coût de formation élevé


Approximations constantes par morceaux, moins efficaces pour Phase de recherche pour identifier les divisions optimales peut être
l'extrapolation coûteuse

Les Arbres de Décision


RandomForest - Algorithme d'Apprentissage
Ensembliste

Définition Fonctionnement Avantages & Inconvénients Applications


Définition de RandomForest

Random Forest (ou forêt aléatoire) est un algorithme d'apprentissage automatique qui se distingue comme une
méthode d'apprentissage ensembliste. Il fonctionne en construisant une multitude d'arbres de décision lors de la
phase d'entraînement, puis en agrégeant leurs prédictions pour obtenir un résultat final plus robuste et précis.

Méthode Ensembliste Applications

Construit une "forêt" d'arbres de décision et agrège leurs Polyvalent et peut être appliquée efficacement aux problèmes
résultats pour produire une prédiction finale plus robuste. de classification (catégories discrètes) et de régression (valeurs
numériques continues).

Créateur Objectif Principal

Introduit par Leo Breiman, il vise à améliorer la précision des Obtenir des prédictions plus précises et robustes en combinant
prédictions et à réduire le surapprentissage. plusieurs modèles simples.
Principe de Fonctionnement - Vue d’ensembe

Random Forest repose sur le principe de la sagesse de la foule (the wisdom of the crowd), où la combinaison des
prédictions de multiples modèles simples (des arbres de décision) conduit à un résultat global plus robuste et précis qu'un
modèle unique.

Forêt d'Arbres Sagesse de la Foule Agrégation

Construit une "forêt" d'arbres de La combinaison des prédictions de Pour la classification, la majorité des
décision, chacun entraîné sur un sous- multiples modèles donne un résultat votes. Pour la régression, la moyenne
ensemble différent des données global plus robuste qu'un modèle des prédictions.
d'entraînement. unique.

Arbre 1 Arbre 2 Arbre 3

Résultat
Final
Principe de Fonctionnement - Vue d’ensembe

L'échantillonnage Bootstrap est une technique consistant à créer des sous-ensembles d'entraînement à
partir du jeu de données original, avec tirage avec remise. Chaque échantillon entraîne un arbre distinct.

Tirage avec Remise Principe de l'Échantillonnage Bootstrap


Chaque échantillon est créé en tirant aléatoirement des observations avec
remise. Une même observation peut apparaître plusieurs fois.
Jeu de Données Original

Diversité des Échantillons


Chaque échantillon bootstrap est unique, garantissant que chaque arbre Echantillon 1 Echantillon 2 Echantillon 3
est entraîné sur une version légèrement différente des données.

Validation Interne
Environ un tiers des observations (Out-of-Bag) ne sont pas incluses dans un
échantillon donné. Ils peuvent être utilisés pour une validation interne. Arbre 1 Arbre 2 Arbre 3
Principe de Fonctionnement - Vue d’ensembe

En plus de l'échantillonnage bootstrap des données, Random Forest introduit une seconde source d'aléatoire
lors de la construction de chaque arbre de décision. À chaque nœud, au lieu de considérer toutes les
caractéristiques disponibles, l'algorithme sélectionne aléatoirement un sous-ensemble de caractéristiques.

Réduction de la Corrélation Importance des hyperparamètres

Cette sélection aléatoire de caractéristiques réduit la corrélation Pour les tâches de classification, le nombre de caractéristiques
entre les arbres individuels, ce qui est crucial pour l'efficacité de considérées à chaque split est généralement la racine carrée du
l'ensemble. nombre total de caractéristiques. Pour les tâches de régression,
c'est souvent un tiers du nombre total de caractéristiques.

Sélection Aléatoire de Caractéristiques à chaque Nœud

F1 F2 F3 F4 F5 F6 F7 F8 F9 F10 F11 F12 F14


Principe de Fonctionnement - Vue d’ensembe

Une fois que tous les arbres de décision sont construits et entraînés, leurs prédictions individuelles sont combinées
pour former la prédiction finale du modèle Random Forest.

Classification Régression

Chaque arbre de décision vote pour une classe. La classe qui Les prédictions numériques de tous les arbres individuels sont
reçoit le plus grand nombre de votes (la majorité) est choisie moyennées pour obtenir la prédiction finale du Random Forest.
comme la prédiction finale.

3 votes R1 R2 R3 R4 R5 R6
1 0 1 0 1
Moyenne
2 votes

Avantage : Estimation plus précise et stable de la valeur continue


Avantage : Réduction du risque de surapprentissage par le biais de attendue.
la "sagesse de la foule".
Avantages de RandomForest

Le Random Forest offre plusieurs avantages significatifs pour les tâches de classification et de régression :

Haute Précision Robustesse au Surapprentissage


En agrégeant les prédictions de multiples arbres de L'utilisation de l'échantillonnage bootstrap et de la sélection
décision, le Random Forest réduit la variance associée aux aléatoire des caractéristiques permet de créer des arbres
arbres individuels, ce qui conduit généralement à des peu corrélés, réduisant le risque de surapprentissage.
prédictions plus précises.

Gestion des Données Manquantes Importance des Caractéristiques


Le Random Forest peut gérer efficacement les données L'algorithme fournit des mesures d'importance des
manquantes sans nécessiter d'imputation préalable caractéristiques, aidant à identifier les variables les plus
complexe, en utilisant des "splits de substitution" (surrogate influentes dans le modèle.
splits).

Polyvalence : applicable aux Données Complexes : gère bien les Pas de Normalisation : ne nécessite
problèmes de classification et de grands ensembles de données avec pas de normalisation des données
régression de nombreuses caractéristiques d'entrée
Inconvénients de RandomForest

Bien que puissant, Random Forest présente certains limitations importantes à prendre en compte lors de son
utilisation.

Complexité Computationnelle Manque d'Interprétabilité


L'entraînement d'un grand nombre d'arbres de En tant que modèle ensembliste composé de
décision peut être coûteux en termes de calcul, surtout nombreux arbres, il est plus difficile d'interpréter la
avec des ensembles de données volumineux, ce qui logique sous-jacente à une prédiction spécifique par
peut entraîner des temps d'entraînement plus longs. rapport à un arbre de décision unique. On le qualifie
parfois de "boîte noire".

Utilisation Mémoire Temps de Prédiction


Le stockage de multiples arbres de décision, chacun Bien que l'entraînement puisse être parallélisé, le
avec ses propres splits et nœuds, peut nécessiter une processus de prédiction peut être plus lent que celui de
quantité significative de mémoire, en particulier pour modèles plus simples, car chaque nouvelle observation
les grands ensembles de données ou les arbres doit traverser tous les arbres de la forêt.
profonds.

Risque de Surapprentissage : Bien qu'il réduise le surapprentissage, il peut encore surapprendre si les données sont extrêmement bruyantes, surtout with
un grand nombre d'arbres et un réglage inapproprié des hyperparamètres.
Quand Utiliser RandomForest ?

Random Forest est particulièrement efficace dans les situations suivantes :

Jeux de données volumineux et complexes Besoin de haute précision


Gère très bien les ensembles de données avec un Grâce à son approche ensembliste, il offre
grand nombre de caractéristiques et d'observations, généralement une précision prédictive élevée et une
ainsi que les interactions non linéaires entre les bonne robustesse au surapprentissage.
variables.

Analyse exploratoire pour l'importance des Données mixtes (numériques et


variables catégorielles)
Peut facilement identifier les caractéristiques les plus Peut traiter différents types de variables sans nécessiter
importantes pour la prédiction, utile pour la sélection de prétraitement complexe comme l'encodage one-
de caractéristiques et la compréhension des données. hot pour les variables catégorielles.

Robustesse aux valeurs aberrantes et au bruit : L'agrégation des prédictions de multiples arbres rend le modèle moins
sensible aux valeurs extrêmes ou aux données bruitées.
XGBoost
Architecture, Fonctionnement, Régularisation et Avantages

Présentation pédagogique pour les débutants en data science

Novembre 2025
Introduction à XGBoost

Qu'est-ce que XGBoost?


XGBoost, abréviation de "eXtreme Gradient Boosting", est un
algorithme de machine learning très performant et populaire,
particulièrement reconnu dans les compétitions de data science
XGBoost = Boosting + Optimisations
comme Kaggle.

C'est une implémentation optimisée de l'algorithme de Gradient


Boosting, une méthode d'apprentissage d'ensemble. F₀ F₁ F₂ Fₙ

Le principe du Boosting Modèle initial Arbre 1 Arbre 2 Dernier arbre

Le boosting combine séquentiellement une série de modèles


faibles, généralement des arbres de décision, pour former un Très populaire dans les compétitions de data science
modèle prédictif robuste et précis.

Chaque nouvel arbre apprend à partir des erreurs des arbres


précédents, corrigeant progressivement les prédictions.

Page 2 | XGBoost – Architecture, Fonctionnement, Régularisation et Avantages


Architecture Séquentielle de XGBoost

XGBoost construit son modèle en combinant les prédictions de plusieurs arbres faibles. Chaque nouvel arbre corrige les erreurs des précédents. La
prédiction finale est la somme pondérée des sorties des arbres.

Page 3 | XGBoost – Architecture, Fonctionnement, Régularisation et Avantages


Fonctionnement Détaillé - Étapes Clés

Modèle de Base Calcul des Résidus Entraînement Arbre Mise à Jour Modèle

1 Initialisation 2 Calcul des Résidus


Un modèle initial F₀(x) est créé (par exemple, un arbre unique ou une Pour chaque observation, on calcule la différence entre la valeur réelle Y
valeur constante). et la prédiction du modèle actuel Fₖ₋₁(x).
Exemple : F₀(x) = moyenne(Y) rₖ = Y - Fₖ₋₁(x)

3 Entraînement d'un Nouvel Arbre 4 Mise à Jour du Modèle


Un nouvel arbre de décision hₖ(x) est entraîné pour prédire les résidus rₖ. Le modèle global est mis à jour en ajoutant la prédiction du nouvel arbre,
L'objectif est de minimiser la fonction de perte sur les résidus. pondérée par un taux d'apprentissage η.
Fₖ(x) = Fₖ₋₁(x) + η · hₖ(x)

Page 4 | XGBoost – Architecture, Fonctionnement, Régularisation et Avantages


Calcul des Résidus - Illustration

Qu'est-ce qu'un résidu?


Dans XGBoost, le résidu est la différence entre la
valeur réelle et la prédiction du modèle actuel.

rk = Y - Fk-1(x)

Principe de base
Chaque nouvel arbre prédit les résidus du
modèle précédent
Les résidus représentent les erreurs qui
restent après chaque itération
Le processus se répète jusqu'à ce que les
résidus soient minimisés
La prédiction finale est la somme pondérée
des prédictions de tous les arbres

Page 5 | XGBoost – Architecture, Fonctionnement, Régularisation et Avantages


Pourquoi "Extreme" ? - Optimisations Principales
Le terme "Extreme" dans XGBoost fait référence à l'ensemble des optimisations techniques et algorithmiques qui le distinguent des implémentations
traditionnelles.

Régularisation L1 et L2 Élagage et Croissance d'Arbres


Termes de régularisation intégrés pour contrôler la complexité des Stratégies pour la construction et l'élagage des arbres afin d'optimiser la
modèles et prévenir le surapprentissage. performance.
L1 (Alpha) : Pénalise la somme des valeurs absolues des poids. Élagage basé sur Gamma : Prévention de la création de branches
Crée des modèles sparses. inutiles.
L2 (Lambda) : Pénalise la somme des carrés des poids. Réduit la Croissance niveau par niveau : Meilleure exploration des splits
magnitude des poids. potentiels.

Gestion des Valeurs Manquantes Optimisations Système


Capacité à gérer les valeurs manquantes sans prétraitement spécifique. Optimisations pour améliorer la vitesse et l'efficacité de XGBoost.
Lors de la recherche du meilleur point de division, XGBoost évalue la Accès "cache-friendly" : Utilisation efficace du cache processeur.
direction des observations manquantes. Algorithme approximatif : Weighted Quantile Sketch pour les points
Attribution d'une direction par défaut qui maximise le gain. de division.

Page 6 | XGBoost – Architecture, Fonctionnement, Régularisation et Avantages


Gestion Intelligente des Valeurs Manquantes
Processus de Gestion des Valeurs Manquantes
Capacité Native
XGBoost gère intrinsèquement les valeurs
manquantes sans nécessiter de prétraitement
spécifique comme l'imputation manuelle. Nœud de décision
X?

Apprentissage Automatique
Valeurs Valeurs
L'algorithme apprend la meilleure façon de traiter les manquantes manquantes
gauche droite
valeurs manquantes pour chaque caractéristique, en
Gain Gauche Gain Droite
fonction de leur impact sur la réduction de la perte.

Cette approche est plus efficace que l'imputation


Direction choisie : celle qui maximise le gain
manuelle et conserve l'intégrité des données
originales.

XGBoost apprend la meilleure stratégie pour chaque caractéristique

Page 7 | XGBoost – Architecture, Fonctionnement, Régularisation et Avantages


Régularisation L1 vs L2 - Comment Choisir ?

Comparaison L1 vs L2 Impact sur les coefficients


Caractéristique Régularisation L1 (Lasso) Régularisation L2 (Ridge)

Forme de la pénalité Somme des valeurs absolues des Somme des carrés des poids
poids

Effet sur les poids Peut réduire certains poids à zéro Réduit la magnitude de tous les
poids L1 (Lasso) L2 (Ridge)

Sélection de caract. Intégrée (utile pour la sélection) Non (réduit les poids, sans
annulation)
Comment choisir ?
Robustesse aux Plus robuste (pénalité linéaire) Moins robuste (pénalité L1 (Lasso) si peu de caractéristiques importantes parmi
outliers quadratique) beaucoup de bruit

Coût computationnel Plus coûteux (pas de solution Moins coûteux (solution fermée) L2 (Ridge) si de nombreuses caractéristiques
fermée) modestement importantes
Mélange (Elastic Net) si douteux ou caractéristiques
corrélées

Page 8 | XGBoost – Architecture, Fonctionnement, Régularisation et Avantages


Parallélisme et Accélération GPU

Parallélisme Accélération GPU


XGBoost est conçu pour exploiter le parallélisme pour accélérer le XGBoost offre un support pour l'accélération GPU avec CUDA.
processus d'entraînement.
Spécifiez le paramètre device='cuda' pour activer l'accélération
Divise les données en blocs traitables en parallèle

Réduction du temps d'entraînement sur plusieurs cœurs CPU Format compressé (ELLPACK) pour une gestion efficace de la
mémoire GPU

Parallélisation du calcul
GPU Computing

Résultat combiné

Résultat GPU

Les modèles entraînés sur GPU peuvent fonctionner sur CPU et vice-versa Page 9 | XGBoost – Architecture, Fonctionnement, Régularisation et Avantages
Avantages et Inconvénients
XGBoost est un algorithme puissant avec des forces et des faiblesses qu'il est essentiel de comprendre pour une utilisation optimale.

Avantages Inconvénients

Performance élevée et précision robuste Complexité relative par rapport aux algorithmes simples

Implémentation optimisée avec régularisation native Need for careful tuning of hyperparameters

Gestion native des valeurs manquantes Consommation de mémoire importante pour les grands modèles

Parallélisation efficace pour les grands ensembles de données Moins interprétable que les modèles linéaires

Flexibilité pour différents types de problèmes Peut être sensible au bruit dans les données

La compréhension de ces aspects vous aidera à déterminer si XGBoost est le bon algorithme pour votre projet.

Page 10 | XGBoost – Architecture, Fonctionnement, Régularisation et Avantages


Conclusion et Bonnes Pratiques
Bonnes Pratiques Conclusion
Commencez avec les paramètres par défaut XGBoost est un algorithme puissant et flexible, efficace pour regression
Ajustez progressivement les hyperparamètres et classification. Il combine efficacité et performance, avec des

Utilisez la régularisation L1 et L2 optimisations supérieures à de nombreuses implémentations


traditionnelles.

Précautions
Quand l'utiliser?
Surapprentissage : surveillez les performances
Prédiction Compétitions
Coût computationnel : XGBoost peut être gourmand en mémoire

XGBoost - Architecture, Fonctionnement, Régularisation et Avantages Page 11


SVM - Algorithme d'Apprentissage Ensembliste

Définition Fonctionnement Avantages & Inconvénients Applications


Définition de SVM

Le Support Vector Machine (SVM) est un algorithme d'apprentissage supervisé principalement utilisé pour la
classification (SVC) et adapté à la régression (SVR). Il est considéré comme un modèle discriminatif qui
cherche à définir la meilleure frontière de séparation possible entre les classes.

Méthode Ensembliste Applications

Classification Binaire
[Link] Classification de Texte
[Link] Maximale Bioinformatique
[Link] du Noyau (Kernel Trick Reconnaissance d'Images

Créateur Objectif Principal

L'idée originale du Maximum Margin Classifier a été proposée Trouver l'hyperplan optimal (la frontière de décision) qui
par Vladimir Vapnik et Alexey Chervonenkis dans les années maximise la distance (la marge) entre les points de données les
1960. La version moderne et non-linéaire du SVM avec l'Astuce plus proches de cette frontière (appelés Vecteurs de Support).
du Noyau (Kernel Trick) a été développée par Vladimir Vapnik Rigueur : L'objectif est d'assurer la meilleure généralisation
dans les années 1990. possible, basée sur la théorie de la Minimisation du Risque
Structurel (SRM).
Les Fondamentaux : La Marge Maximale

Terminologie Clé

Hyperplan : La frontière de décision qui


sépare les classes (une ligne en 2D, un plan
en 3D).
Vecteurs de Support : Les points de
données les plus proches de l'hyperplan. Ce
sont les seuls points qui comptent pour la
construction du modèle.
Marge : La distance entre l'hyperplan et les
vecteurs de support. Le SVM cherche à
maximiser cette distance.
SVM pour la Classification (SVC)

Séparer le Bruit du Signal

Dans un problème de classification


binaire, le SVM cherche l'hyperplan tel
que :
yi(w⋅xi+b)≥1−ξi

Soft Margin (Marge Souple) : Autorise


certaines erreurs de classification pour
éviter le surapprentissage sur des
données bruitées (paramètre C).
Hard Margin : Stricte séparation, sensible
aux outliers.
L'Astuce du Noyau (Kernel Trick)

Gérer la Non-Linéarité

Que faire si les données ne sont pas


séparables par une ligne droite ?
Le SVM projette les données dans un
espace de dimension supérieure (3D, 4D,
etc.) où elles deviennent linéairement
séparables.

Noyaux courants : Linéaire, Polynomial,


RBF (Radial Basis Function), Sigmoïde.
SVM pour la Régression (SVR)

Le concept du "Tube"

Au lieu de minimiser l'erreur pour chaque


point (comme la régression linéaire
classique), SVR essaie de faire tenir le
maximum de points à l'intérieur d'un
"tube" de largeur $\epsilon$ (epsilon)

Les points à l'intérieur du tube ne


comptent pas comme erreur (tolérance).
Seuls les points hors du tube influencent
le modèle (vecteurs de support).
Excellente résistance aux outliers.
Spécificités : Pourquoi ce modèle est unique ?

Principe de Marge Max Optimisation Convexe

Contrairement aux réseaux de neurones qui peuvent trouver La fonction de coût du SVM est convexe. Cela signifie qu'il n'y
n'importe quelle frontière, SVM trouve la plus sûre, garantissant a pas de "minima locaux". On trouve toujours la solution
une meilleure généralisation. globale optimale.

Efficacité Dimensionnelle

Le SVM est remarquablement efficace même quand le nombre


de dimensions est supérieur au nombre d'échantillons (ex:
analyse ADN).
Avantages et Limites

Avantages Inconvénients

Précision élevée sur les datasets de taille moyenne. Lent sur les très grands volumes de données (Big Data).
Polyvalent grâce aux différents noyaux (Kernels). Sensible au bruit si les classes se chevauchent trop.
Robuste au surapprentissage (grâce à la régularisation C). Nécessite une mise à l'échelle des données (Feature Scaling).
Efficace en haute dimension. Difficile à interpréter (Boîte noire pour les noyaux non-
linéaires).
Cas d'Utilisation Concrets et resume

Cas d'Utilisation Concrets En Résumé

Reconnaissance d'images : Détection de visages, lecture Le SVM est le choix idéal quand la précision est primordiale
d'écriture manuscrite (OCR). sur des jeux de données complexes mais de taille raisonnable.
Classification de texte : Filtrage de spam, analyse de Sa capacité à transformer l'espace (Kernel) et sa rigueur
sentiments (positif/négatif). mathématique (Marge) en font un outil incontournable dans
Bioinformatique : Classification des protéines et analyse de la boîte à outils du Data Scientist.
l'expression des gènes (haute dimension).
Finance : Prédiction des tendances boursières (SVR).
KNN (K-Nearest Neighbors)
Définition et principe de base Algorithme KNN

Principe de proximitye
Qu'est-ce que KNN?
KNN (K-Nearest Neighbors) est un algorithme d'apprentissage
supervisé basé sur les instances.

Son principe fondamental repose sur l'idée que les points de


données similaires se trouvent à proximité les uns des autres dans
un espace de caractéristiques.

Fonctionnement Classe A Classe B Classe C

Pour prédire la catégorie ou la valeur d'un nouveau point de


données :
Calcule la distance avec tous les points du jeu d'entraînement

Applications
Identifie les K voisins les plus proches
Effectue une prédiction basée sur ces voisins
Régression Classification Détection d'anomalies
Fonctionnement de l'algorithme KNN Algorithme KNN

Étapes de l'algorithme Mesures de distance

Sélectionner le nombre de voisins (K)


Définir la valeur de K, le nombre de voisins les plus proches à considérer

Calculer les distances


Calculer la distance entre le nouveau point et tous les points de l'ensemble
d'entraînement

Euclidienne Manhattan Minkowski Hamming


Identifier les K voisins les plus proches
Sélectionner les K points les plus proches du nouveau point
Euclidienne Manhattan
Distance "en ligne droite" "Distance du taxi"
Faire une prédiction
√∑(xj - Xi) ∑|xi - yi|
Classification : Vote majoritaire parmi les K voisins. Régression : Moyenne
des valeurs des K voisins.
Minkowski Hamming
Généralisation des deux précédentes Pour vecteurs booléens
(∑|xi - yi|) Nombre de positions différentes
Classification vs Régression Algorithme KNN

KNN peut être utilisé pour deux types de problèmes d'apprentissage supervisé :

Classification Régression
Pour prédire une étiquette de classe discrète. Pour prédire une valeur continue.

Fonctionnement Fonctionnement
Identifie les K voisins les plus proches Identifie les K voisins les plus proches
Effectue un vote majoritaire Calcule la moyenne des valeurs voisines
Attribue la classe la plus représentée Attribue cette valeur moyenne

Le nouveau point est classé selon la catégorie dominante parmi ses K voisins Le nouveau point reçoit une valeur basée sur la moyenne des valeurs de ses K voisins
Choisir la valeur optimale de K Algorithme KNN

L'impact de K sur les performances


Petit K : Haute variance, faible biais

Grand K : Basse variance, haut biais


K optimal : Équilibre entre biais et variance

Méthodes de sélection
Validation croisée : Évalue les performances pour différentes K

Méthode du coude : Trace taux d'erreur en fonction de K

Règle empirique : Choix de K impair pour classification binaire

Conseils pratiques
Essayer plusieurs valeurs de K Utiliser la validation croisée
Applications pratiques Algorithme KNN

Moteurs de recommandation
Finance Santé

Évaluation des risques liés aux prêts Prédiction des risques d'infarctus du Suggestion automatique de contenus
Détermination de la solvabilité myocarde (produits, films)

Prévisions boursières Détection du cancer de la prostate Identification des préférences similaires

Détection du blanchiment d'argent Calcul des expressions de gènes les plus


probables Analyse des comportements de navigation

"Analyse des tendances et des comportements" "Analyse des données biométriques" "Personalisation de l'expérience utilisateur"

Reconnaissance de formes Prétraitement des données


D'autres applications

Classification des chiffres et des textes Imputation des valeurs manquantes Segmentation client
Reconnaissance des chiffres manuscrits Détection des valeurs aberrantes Détection de spam

Reconnaissance vocale
Identification sur les formulaires et
enveloppes postales

"Traitement d'images et de texte" "Préparation et nettoyage des données" "Champs d'application variés"
Avantages de l'algorithme KNN Page 7/8

Simplicité et facilité d'implémentation


Algorithme simple à comprendre et à implémenter, idéal pour les débutants.

Absence de phase d'entraînement


KNN est un algorithme "paresseux" (lazy learner) qui stocke simplement les données
d'entraînement.

Peu d'hyperparamètres
Nécessite uniquement la définition de k et d'une mesure de distance.

Polyvalence
Peut être utilisé pour classification et régression, versatile pour les data scientists.

Adaptabilité aux données non linéaires


Ne fait aucune hypothèse sur la distribution des données, gère des relations non
linéaires. KNN : Un algorithme simple mais puissant
Limitations et défis Algorithme KNN

Coût computationnel élevé Complexité temporelle


KNN calcule la distance entre le nouveau point et tous les points d'entraînement, ce qui entraîne
des temps de calcul et des coûts mémoire élevés pour de grands ensembles.

Malédiction de la dimensionnalité
KNN fonctionne mal avec des données à de nombreuses dimensions. Dans les espaces de haute
dimension, la notion de "proximité" devient moins significative.

Sensibilité au bruit et aux valeurs aberrantes


Avec de faibles valeurs de k, KNN peut être sensible au bruit, ce qui peut entraîner un
surajustement et des prédictions moins stables.

Autres défis

Normalisation requise
Les performances de KNN dépendent fortement de
l'échelle des caractéristiques.

Ensembles déséquilibrés
Les classes minoritaires peuvent être dominées par les
classes majoritaires.
PCA
Merci pour votre
attention

Vous aimerez peut-être aussi