0% ont trouvé ce document utile (0 vote)

6 vues72 pages

Guide Complet sur le Machine Learning

Le document présente une introduction au Machine Learning, en expliquant ses concepts fondamentaux tels que l'apprentissage supervisé et non supervisé, ainsi que des techniques spécifiques comme la régression linéaire et logistique, les arbres de décision et les forêts aléatoires. Il détaille le fonctionnement de ces algorithmes, leurs avantages, limites et applications dans divers domaines. L'objectif est de fournir une compréhension approfondie des méthodes de Machine Learning pour prédire des résultats à partir de données.

Transféré par

bouchtamohamed01

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

6 vues72 pages

Guide Complet sur le Machine Learning

Transféré par

bouchtamohamed01

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

MASTERING

MACHINE
LEARNING
Construire Pas à Pas Votre
Expertise en Machine Learning

ABDELHAFID AIT BOUCHTA MOHAMED ABIR MESKINI BOUIZMOUNE HAMZA GBOURI YOUNESS BOUMESHOULI
EL MOKHTAR SALMA
Introduction
Le Machine Learning (ML) est l’étude des algorithmes informatiques capables de s’améliorer
automatiquement grâce à l’expérience et à l’utilisation des données. Il est considéré comme
une branche de l’intelligence artificielle.

Les algorithmes de Machine Learning construisent un modèle à partir d’exemples de données,

appelées données d’entraînement, afin de faire des prédictions ou des décisions sans être
explicitement programmés pour cela.

Pgae 2 : Introduction
Machine Learning

Pgae 3 : Introduction
supervised learning

Pgae 4 : supervised learning

unsupervised learning

Pgae 5 : unsupervised learning

Machine Learning

Pgae 6 : Machine Learning

Régression Linéaire
Modèle de Régression Linéaire
en Machine Learning
y = β₀ + β₁x₁ + β₂x₂ + ... + βₙxₙ

Méthode pour prédire une valeur numérique à partir d’une ou plusieurs

variables. On cherche à tracer une droite qui décrit la relation entre les
données.
Comment ça marche ? Objectifs
On calcule la droite qui minimise l’erreur entre les valeurs réelles Comprendre la relation entre les variables.
et les valeurs prédites. Méthode utilisée : Ordinary Least Squares Prédire une valeur.
(OLS). On minimise la somme des erreurs au carré. Expliquer l'influence de chaque variable.

Pgae 8 : logistic regression

Visualisation Centrale - Nuage de Points et Ligne de Régression

Exemple : Prédiction du Prix

Immobilier
50+ points représentant des maisons
avec leur surface et prix

Ligne de régression rouge optimale

(méthode des moindres carrés)

Erreurs résiduelles (lignes pointillées) =

différence entre points et ligne

Relation linéaire : Prix = β₀ + β₁ ×

Surface

Chaque point représente une maison réelle. La ligne de régression trouve la meilleure approximation linéaire de la relation entre
surface et prix.
Avantages et Limites de la Régression Linéaire

Avantages Limites

Entraînement Rapide Relation Linéaire Supposée

Algorithme efficace qui converge rapidement Ne capture pas les relations complexes

Hautement Interprétable Sensible aux Outliers

Coefficients clairement significatifs Valeurs atypiques influencent le modèle

Implémentation Simple Difficulté avec Patterns Complexes

Utilisation straightforward Ne capture pas bien les interactions

Fonctionne avec Petits Datasets Prétraitement Nécessaire

Performe bien avec nombre limité d'échantillons Nécessite normalisation des données
logistic regression
logistic regression
Définition Exemples d'applications
La régression logistique est un algorithme utilisé pour prédire une oui / non
classe.
0/1
C'est un modèle de classification, pas un modèle de régression spam / pas spam
(même si son nom est trompeur).
malade / pas malade

client va acheter / pas acheter

Fonctionnement

Variables d'entrée Combinaison linéaire Fonction sigmoïde Décision de classe

âge, prix, distance, etc. z = w₁x₁ + w₂x₂ + ... + b ŷ = σ(z) = 1/(1+e⁻ᶻ) ŷ ≥ 0.5 → classe 1

Pgae 8 : logistic regression

Étape 1 - Combinaison
Linéaire
Formule de la combinaison linéaire

z = w₁x₁ + w₂x₂ + ... + wₙxₙ + b

Le résultat z peut être n'importe quel nombre (-∞ à +∞)

Features (xᵢ) Poids (wᵢ) Biais (b)

Variables d'entrée comme l'âge, le prix, la Paramètres appris qui pondèrent l'importance Paramètre qui décale la valeur de la
distance, le nombre d'articles, etc. de chaque feature dans le calcul. combinaison linéaire pour améliorer la précision.

Pgae 5 : unsupervised learning

Étape 2 - Fonction
Sigmoïde
Transformation
On transforme z en une probabilité avec la fonction sigmoïde :

ŷ = σ(z) = 1/(1 + e⁻ᶻ)

La sigmoïde "écrase" le résultat entre :

proche de 0 ou proche de 1

Pgae 5 : unsupervised learning

Étape 3 - Décision de
Classe
Règles de décision Visualisation du seuil

Si probabilité ≥ 0.5 → classe = 1

Sinon → classe = 0

Seuil personnalisable
Exemple 1 Exemple 2
Vous pouvez changer le seuil (0.3, 0.7...) selon votre cas
d'application. Seuil = 0.5 Seuil = 0.7
P(acheter=1) = 0.78 P(acheter=1) = 0.78
Seuil par défaut Seuil personnalisé → class = 1 (achète) → class = 1 (achète)

0.5 0.3

Pgae 5 : unsupervised learning

Étape 4 - Apprentissage
du Modèle
Descente de Gradient Fonction de Coût
Méthode d'optimisation pour minimiser l'erreur
Loss = -[ylog(ŷ) + (1-y)log(1-ŷ)]
Ajuste les poids du modèle
Cette fonction de perte (log-loss ou cross-entropy) mesure l'erreur
Itérations successives pour trouver les meilleurs paramètres
du modèle.

L'objectif est de converger vers un minimum local de la fonction de

perte Bonnes classes → probabilités Mauvaises classes → probabilités
proches de 1 proches de 0

Visualisation de la fonction de perte

Pgae 5 : unsupervised learning

Très utilisé dans :
Marketing Prédire si un client va
acheter
Régression
Logistique — Cas
d’Usage Clés Santé Prédire si un patient est
malade

Banques Détection de Fraude

Prédire si un post sera

Réseaux Sociaux liké

Pgae 5 : unsupervised learning

La différence entre la régression
linéaire et logistique.

Pgae 5 : unsupervised learning

L’arbre de décision
Définition et Principe

Qu'est-ce qu'un arbre de décision? Représentation Visuelle

Méthode fondamentale de l'apprentissage automatique

Appartient à la catégorie de l'apprentissage supervisé

Permet de prédire une variable cible (continue ou discrète)

Structure hiérarchique et arborescente intuitive

Modèles transparents et facilement interprétables

Exemple d'arbre de décision pour la prédiction d'une variable cible

Algorithme de Construction

1 Détermination de la meilleure caractéristique Représentation Visuelle de l'Algorithme

À chaque nœud, l'algorithme identifie la caractéristique permettant la meilleure division des Récurrent
données. Cette sélection est basée sur des critères mesurant l'homogénéité des sous-
ensembles.

2 Division des données en sous-ensembles

Une fois la meilleure caractéristique déterminée, l'ensemble de données est divisé en sous-
ensembles selon les valeurs de cette caractéristique.

3 Génération récursive de nouveaux arbres

Le processus est appliqué récursivement à chacun des sous-ensembles, générant de
nouveaux nœuds et branches.

4 Critères d'arrêt
La croissance s'arrête lorsque tous les sous-ensembles sont purs, lorsque la division
n'améliore plus la prédiction, ou lorsque la profondeur maximale est atteinte.

Chaque nœud de l'arbre représente un appel récursif de

l'algorithme

Les Arbres de Décision

Arbres de Classification

Qu'est-ce
Qu'est-cequ'un
qu'unarbre
arbrede
declassification?
classification? Caractéristiques principales
Variable cible : étiquettes de classes discrètes
Définition Variable cible : qualitative (ex. Oui/Non, Chat/Chien, Rouge/Vert).
Prédire à quelle catégorie appartient un nouvel élément
Un arbre de classification est un modèle d’apprentissage Structure :
Chaque nœud interne teste une caractéristique
supervisé qui permet de prédire l’étiquette de classe (catégorie) à Nœud racine : point de départ, représentant l’ensemble des
Feuilles
laquelle: une
étiquettes decible
variable classe prédites
appartient. données.
Nœuds internes : tests conditionnels sur les variables explicatives
(ex. âge > 30 ?).
Exemple Branches : résultats des tests qui mènent vers d’autres nœuds.
Prédire si un client achète un produit : Feuilles : classes finales attribuées (ex. Spam ou Non Spam).
Racine : “Âge > 30 ?”
Oui → “Revenu > 2000 ?”
Oui → Classe : Achète
Non → Classe : N’achète pas
Non → Classe : N’achète pas

Les Arbres de Décision

Arbres de Régression

Prédiction de Valeurs Continues Représentation Visuelle

Les arbres de régression sont conçus pour prédire une valeur
numérique continue pour la variable cible.

Exemples d'applications:
Estimation de prix immobiliers en fonction de la surface et de
la localisation

Prévisions de ventes hebdomadaires d'un produit

Les Arbres de Décision

Avantages des Arbres de Décision

Simplicité d'interprétation Préparation des données minimale

Structure hiérarchique et logique booléenne facile à comprendre.
Modèles "boîte blanche" avec une logique de décision Peut gérer différents types de données sans prétraitement
transparente. intensif. Moins sensible aux valeurs manquantes qu'autres
algorithmes.

Données mixtes et seuils Problèmes multi-classes et flexibilité

Traite efficacement les variables numériques et catégorielles. Les
valeurs continues peuvent être converties en catégorielles via des Capable de gérer des problèmes de classification avec plusieurs
seuils. classes. Flexible pour les tâches de classification et de régression.

Les Arbres de Décision

Limitations et Défis

Surapprentissage Instabilité Biais et Complexité

Arbres complexes trop spécifiques aux De petites variations dans les données Biais envers les classes dominantes
données d'entraînement entraînent des arbres différents
Recherche optimale: problème NP-complet
Apprennent le bruit plutôt que le signal sous- Solution: méthodes d'ensemble comme les
jacent forêts aléatoires
Approches gloutonnes, pas de solution
Techniques d'élagage nécessaires pour globale garantie
atténuer ce problème

Prédictions non lisses Coût de formation élevé

Approximations constantes par morceaux, moins efficaces pour Phase de recherche pour identifier les divisions optimales peut être
l'extrapolation coûteuse

Les Arbres de Décision

RandomForest - Algorithme d'Apprentissage
Ensembliste

Définition Fonctionnement Avantages & Inconvénients Applications

Définition de RandomForest

Random Forest (ou forêt aléatoire) est un algorithme d'apprentissage automatique qui se distingue comme une
méthode d'apprentissage ensembliste. Il fonctionne en construisant une multitude d'arbres de décision lors de la
phase d'entraînement, puis en agrégeant leurs prédictions pour obtenir un résultat final plus robuste et précis.

Méthode Ensembliste Applications

Construit une "forêt" d'arbres de décision et agrège leurs Polyvalent et peut être appliquée efficacement aux problèmes
résultats pour produire une prédiction finale plus robuste. de classification (catégories discrètes) et de régression (valeurs
numériques continues).

Créateur Objectif Principal

Introduit par Leo Breiman, il vise à améliorer la précision des Obtenir des prédictions plus précises et robustes en combinant
prédictions et à réduire le surapprentissage. plusieurs modèles simples.
Principe de Fonctionnement - Vue d’ensembe

Random Forest repose sur le principe de la sagesse de la foule (the wisdom of the crowd), où la combinaison des
prédictions de multiples modèles simples (des arbres de décision) conduit à un résultat global plus robuste et précis qu'un
modèle unique.

Forêt d'Arbres Sagesse de la Foule Agrégation

Construit une "forêt" d'arbres de La combinaison des prédictions de Pour la classification, la majorité des
décision, chacun entraîné sur un sous- multiples modèles donne un résultat votes. Pour la régression, la moyenne
ensemble différent des données global plus robuste qu'un modèle des prédictions.
d'entraînement. unique.

Arbre 1 Arbre 2 Arbre 3

Résultat
Final
Principe de Fonctionnement - Vue d’ensembe

L'échantillonnage Bootstrap est une technique consistant à créer des sous-ensembles d'entraînement à
partir du jeu de données original, avec tirage avec remise. Chaque échantillon entraîne un arbre distinct.

Tirage avec Remise Principe de l'Échantillonnage Bootstrap

Chaque échantillon est créé en tirant aléatoirement des observations avec
remise. Une même observation peut apparaître plusieurs fois.
Jeu de Données Original

Diversité des Échantillons

Chaque échantillon bootstrap est unique, garantissant que chaque arbre Echantillon 1 Echantillon 2 Echantillon 3
est entraîné sur une version légèrement différente des données.

Validation Interne
Environ un tiers des observations (Out-of-Bag) ne sont pas incluses dans un
échantillon donné. Ils peuvent être utilisés pour une validation interne. Arbre 1 Arbre 2 Arbre 3
Principe de Fonctionnement - Vue d’ensembe

En plus de l'échantillonnage bootstrap des données, Random Forest introduit une seconde source d'aléatoire
lors de la construction de chaque arbre de décision. À chaque nœud, au lieu de considérer toutes les
caractéristiques disponibles, l'algorithme sélectionne aléatoirement un sous-ensemble de caractéristiques.

Réduction de la Corrélation Importance des hyperparamètres

Cette sélection aléatoire de caractéristiques réduit la corrélation Pour les tâches de classification, le nombre de caractéristiques
entre les arbres individuels, ce qui est crucial pour l'efficacité de considérées à chaque split est généralement la racine carrée du
l'ensemble. nombre total de caractéristiques. Pour les tâches de régression,
c'est souvent un tiers du nombre total de caractéristiques.

Sélection Aléatoire de Caractéristiques à chaque Nœud

F1 F2 F3 F4 F5 F6 F7 F8 F9 F10 F11 F12 F14

Principe de Fonctionnement - Vue d’ensembe

Une fois que tous les arbres de décision sont construits et entraînés, leurs prédictions individuelles sont combinées
pour former la prédiction finale du modèle Random Forest.

Classification Régression

Chaque arbre de décision vote pour une classe. La classe qui Les prédictions numériques de tous les arbres individuels sont
reçoit le plus grand nombre de votes (la majorité) est choisie moyennées pour obtenir la prédiction finale du Random Forest.
comme la prédiction finale.

3 votes R1 R2 R3 R4 R5 R6
1 0 1 0 1
Moyenne
2 votes

Avantage : Estimation plus précise et stable de la valeur continue

Avantage : Réduction du risque de surapprentissage par le biais de attendue.
la "sagesse de la foule".
Avantages de RandomForest

Le Random Forest offre plusieurs avantages significatifs pour les tâches de classification et de régression :

Haute Précision Robustesse au Surapprentissage

En agrégeant les prédictions de multiples arbres de L'utilisation de l'échantillonnage bootstrap et de la sélection
décision, le Random Forest réduit la variance associée aux aléatoire des caractéristiques permet de créer des arbres
arbres individuels, ce qui conduit généralement à des peu corrélés, réduisant le risque de surapprentissage.
prédictions plus précises.

Gestion des Données Manquantes Importance des Caractéristiques

Le Random Forest peut gérer efficacement les données L'algorithme fournit des mesures d'importance des
manquantes sans nécessiter d'imputation préalable caractéristiques, aidant à identifier les variables les plus
complexe, en utilisant des "splits de substitution" (surrogate influentes dans le modèle.
splits).

Polyvalence : applicable aux Données Complexes : gère bien les Pas de Normalisation : ne nécessite
problèmes de classification et de grands ensembles de données avec pas de normalisation des données
régression de nombreuses caractéristiques d'entrée
Inconvénients de RandomForest

Bien que puissant, Random Forest présente certains limitations importantes à prendre en compte lors de son
utilisation.

Complexité Computationnelle Manque d'Interprétabilité

L'entraînement d'un grand nombre d'arbres de En tant que modèle ensembliste composé de
décision peut être coûteux en termes de calcul, surtout nombreux arbres, il est plus difficile d'interpréter la
avec des ensembles de données volumineux, ce qui logique sous-jacente à une prédiction spécifique par
peut entraîner des temps d'entraînement plus longs. rapport à un arbre de décision unique. On le qualifie
parfois de "boîte noire".

Utilisation Mémoire Temps de Prédiction

Le stockage de multiples arbres de décision, chacun Bien que l'entraînement puisse être parallélisé, le
avec ses propres splits et nœuds, peut nécessiter une processus de prédiction peut être plus lent que celui de
quantité significative de mémoire, en particulier pour modèles plus simples, car chaque nouvelle observation
les grands ensembles de données ou les arbres doit traverser tous les arbres de la forêt.
profonds.

Risque de Surapprentissage : Bien qu'il réduise le surapprentissage, il peut encore surapprendre si les données sont extrêmement bruyantes, surtout with
un grand nombre d'arbres et un réglage inapproprié des hyperparamètres.
Quand Utiliser RandomForest ?

Random Forest est particulièrement efficace dans les situations suivantes :

Jeux de données volumineux et complexes Besoin de haute précision

Gère très bien les ensembles de données avec un Grâce à son approche ensembliste, il offre
grand nombre de caractéristiques et d'observations, généralement une précision prédictive élevée et une
ainsi que les interactions non linéaires entre les bonne robustesse au surapprentissage.
variables.

Analyse exploratoire pour l'importance des Données mixtes (numériques et

variables catégorielles)
Peut facilement identifier les caractéristiques les plus Peut traiter différents types de variables sans nécessiter
importantes pour la prédiction, utile pour la sélection de prétraitement complexe comme l'encodage one-
de caractéristiques et la compréhension des données. hot pour les variables catégorielles.

Robustesse aux valeurs aberrantes et au bruit : L'agrégation des prédictions de multiples arbres rend le modèle moins
sensible aux valeurs extrêmes ou aux données bruitées.
XGBoost
Architecture, Fonctionnement, Régularisation et Avantages

Présentation pédagogique pour les débutants en data science

Novembre 2025
Introduction à XGBoost

Qu'est-ce que XGBoost?

XGBoost, abréviation de "eXtreme Gradient Boosting", est un
algorithme de machine learning très performant et populaire,
particulièrement reconnu dans les compétitions de data science
XGBoost = Boosting + Optimisations
comme Kaggle.

C'est une implémentation optimisée de l'algorithme de Gradient

Boosting, une méthode d'apprentissage d'ensemble. F₀ F₁ F₂ Fₙ

Le principe du Boosting Modèle initial Arbre 1 Arbre 2 Dernier arbre

Le boosting combine séquentiellement une série de modèles

faibles, généralement des arbres de décision, pour former un Très populaire dans les compétitions de data science
modèle prédictif robuste et précis.

Chaque nouvel arbre apprend à partir des erreurs des arbres

précédents, corrigeant progressivement les prédictions.

Page 2 | XGBoost – Architecture, Fonctionnement, Régularisation et Avantages

Architecture Séquentielle de XGBoost

XGBoost construit son modèle en combinant les prédictions de plusieurs arbres faibles. Chaque nouvel arbre corrige les erreurs des précédents. La
prédiction finale est la somme pondérée des sorties des arbres.

Page 3 | XGBoost – Architecture, Fonctionnement, Régularisation et Avantages

Fonctionnement Détaillé - Étapes Clés

Modèle de Base Calcul des Résidus Entraînement Arbre Mise à Jour Modèle

1 Initialisation 2 Calcul des Résidus

Un modèle initial F₀(x) est créé (par exemple, un arbre unique ou une Pour chaque observation, on calcule la différence entre la valeur réelle Y
valeur constante). et la prédiction du modèle actuel Fₖ₋₁(x).
Exemple : F₀(x) = moyenne(Y) rₖ = Y - Fₖ₋₁(x)

3 Entraînement d'un Nouvel Arbre 4 Mise à Jour du Modèle

Un nouvel arbre de décision hₖ(x) est entraîné pour prédire les résidus rₖ. Le modèle global est mis à jour en ajoutant la prédiction du nouvel arbre,
L'objectif est de minimiser la fonction de perte sur les résidus. pondérée par un taux d'apprentissage η.
Fₖ(x) = Fₖ₋₁(x) + η · hₖ(x)

Page 4 | XGBoost – Architecture, Fonctionnement, Régularisation et Avantages

Calcul des Résidus - Illustration

Qu'est-ce qu'un résidu?

Dans XGBoost, le résidu est la différence entre la
valeur réelle et la prédiction du modèle actuel.

rk = Y - Fk-1(x)

Principe de base
Chaque nouvel arbre prédit les résidus du
modèle précédent
Les résidus représentent les erreurs qui
restent après chaque itération
Le processus se répète jusqu'à ce que les
résidus soient minimisés
La prédiction finale est la somme pondérée
des prédictions de tous les arbres

Page 5 | XGBoost – Architecture, Fonctionnement, Régularisation et Avantages

Pourquoi "Extreme" ? - Optimisations Principales
Le terme "Extreme" dans XGBoost fait référence à l'ensemble des optimisations techniques et algorithmiques qui le distinguent des implémentations
traditionnelles.

Régularisation L1 et L2 Élagage et Croissance d'Arbres

Termes de régularisation intégrés pour contrôler la complexité des Stratégies pour la construction et l'élagage des arbres afin d'optimiser la
modèles et prévenir le surapprentissage. performance.
L1 (Alpha) : Pénalise la somme des valeurs absolues des poids. Élagage basé sur Gamma : Prévention de la création de branches
Crée des modèles sparses. inutiles.
L2 (Lambda) : Pénalise la somme des carrés des poids. Réduit la Croissance niveau par niveau : Meilleure exploration des splits
magnitude des poids. potentiels.

Gestion des Valeurs Manquantes Optimisations Système

Capacité à gérer les valeurs manquantes sans prétraitement spécifique. Optimisations pour améliorer la vitesse et l'efficacité de XGBoost.
Lors de la recherche du meilleur point de division, XGBoost évalue la Accès "cache-friendly" : Utilisation efficace du cache processeur.
direction des observations manquantes. Algorithme approximatif : Weighted Quantile Sketch pour les points
Attribution d'une direction par défaut qui maximise le gain. de division.

Page 6 | XGBoost – Architecture, Fonctionnement, Régularisation et Avantages

Gestion Intelligente des Valeurs Manquantes
Processus de Gestion des Valeurs Manquantes
Capacité Native
XGBoost gère intrinsèquement les valeurs
manquantes sans nécessiter de prétraitement
spécifique comme l'imputation manuelle. Nœud de décision
X?

Apprentissage Automatique
Valeurs Valeurs
L'algorithme apprend la meilleure façon de traiter les manquantes manquantes
gauche droite
valeurs manquantes pour chaque caractéristique, en
Gain Gauche Gain Droite
fonction de leur impact sur la réduction de la perte.

Cette approche est plus efficace que l'imputation

Direction choisie : celle qui maximise le gain
manuelle et conserve l'intégrité des données
originales.

XGBoost apprend la meilleure stratégie pour chaque caractéristique

Page 7 | XGBoost – Architecture, Fonctionnement, Régularisation et Avantages

Régularisation L1 vs L2 - Comment Choisir ?

Comparaison L1 vs L2 Impact sur les coefficients

Caractéristique Régularisation L1 (Lasso) Régularisation L2 (Ridge)

Forme de la pénalité Somme des valeurs absolues des Somme des carrés des poids
poids

Effet sur les poids Peut réduire certains poids à zéro Réduit la magnitude de tous les
poids L1 (Lasso) L2 (Ridge)

Sélection de caract. Intégrée (utile pour la sélection) Non (réduit les poids, sans
annulation)
Comment choisir ?
Robustesse aux Plus robuste (pénalité linéaire) Moins robuste (pénalité L1 (Lasso) si peu de caractéristiques importantes parmi
outliers quadratique) beaucoup de bruit

Coût computationnel Plus coûteux (pas de solution Moins coûteux (solution fermée) L2 (Ridge) si de nombreuses caractéristiques
fermée) modestement importantes
Mélange (Elastic Net) si douteux ou caractéristiques
corrélées

Page 8 | XGBoost – Architecture, Fonctionnement, Régularisation et Avantages

Parallélisme et Accélération GPU

Parallélisme Accélération GPU

XGBoost est conçu pour exploiter le parallélisme pour accélérer le XGBoost offre un support pour l'accélération GPU avec CUDA.
processus d'entraînement.
Spécifiez le paramètre device='cuda' pour activer l'accélération
Divise les données en blocs traitables en parallèle

Réduction du temps d'entraînement sur plusieurs cœurs CPU Format compressé (ELLPACK) pour une gestion efficace de la
mémoire GPU

Parallélisation du calcul
GPU Computing

Résultat combiné

Résultat GPU

Les modèles entraînés sur GPU peuvent fonctionner sur CPU et vice-versa Page 9 | XGBoost – Architecture, Fonctionnement, Régularisation et Avantages
Avantages et Inconvénients
XGBoost est un algorithme puissant avec des forces et des faiblesses qu'il est essentiel de comprendre pour une utilisation optimale.

Avantages Inconvénients

Performance élevée et précision robuste Complexité relative par rapport aux algorithmes simples

Implémentation optimisée avec régularisation native Need for careful tuning of hyperparameters

Gestion native des valeurs manquantes Consommation de mémoire importante pour les grands modèles

Parallélisation efficace pour les grands ensembles de données Moins interprétable que les modèles linéaires

Flexibilité pour différents types de problèmes Peut être sensible au bruit dans les données

La compréhension de ces aspects vous aidera à déterminer si XGBoost est le bon algorithme pour votre projet.

Page 10 | XGBoost – Architecture, Fonctionnement, Régularisation et Avantages

Conclusion et Bonnes Pratiques
Bonnes Pratiques Conclusion
Commencez avec les paramètres par défaut XGBoost est un algorithme puissant et flexible, efficace pour regression
Ajustez progressivement les hyperparamètres et classification. Il combine efficacité et performance, avec des

Utilisez la régularisation L1 et L2 optimisations supérieures à de nombreuses implémentations

traditionnelles.

Précautions
Quand l'utiliser?
Surapprentissage : surveillez les performances
Prédiction Compétitions
Coût computationnel : XGBoost peut être gourmand en mémoire

XGBoost - Architecture, Fonctionnement, Régularisation et Avantages Page 11

SVM - Algorithme d'Apprentissage Ensembliste

Définition Fonctionnement Avantages & Inconvénients Applications

Définition de SVM

Le Support Vector Machine (SVM) est un algorithme d'apprentissage supervisé principalement utilisé pour la
classification (SVC) et adapté à la régression (SVR). Il est considéré comme un modèle discriminatif qui
cherche à définir la meilleure frontière de séparation possible entre les classes.

Méthode Ensembliste Applications

Classification Binaire
[Link] Classification de Texte
[Link] Maximale Bioinformatique
[Link] du Noyau (Kernel Trick Reconnaissance d'Images

Créateur Objectif Principal

L'idée originale du Maximum Margin Classifier a été proposée Trouver l'hyperplan optimal (la frontière de décision) qui
par Vladimir Vapnik et Alexey Chervonenkis dans les années maximise la distance (la marge) entre les points de données les
1960. La version moderne et non-linéaire du SVM avec l'Astuce plus proches de cette frontière (appelés Vecteurs de Support).
du Noyau (Kernel Trick) a été développée par Vladimir Vapnik Rigueur : L'objectif est d'assurer la meilleure généralisation
dans les années 1990. possible, basée sur la théorie de la Minimisation du Risque
Structurel (SRM).
Les Fondamentaux : La Marge Maximale

Terminologie Clé

Hyperplan : La frontière de décision qui

sépare les classes (une ligne en 2D, un plan
en 3D).
Vecteurs de Support : Les points de
données les plus proches de l'hyperplan. Ce
sont les seuls points qui comptent pour la
construction du modèle.
Marge : La distance entre l'hyperplan et les
vecteurs de support. Le SVM cherche à
maximiser cette distance.
SVM pour la Classification (SVC)

Séparer le Bruit du Signal

Dans un problème de classification

binaire, le SVM cherche l'hyperplan tel
que :
yi(w⋅xi+b)≥1−ξi

Soft Margin (Marge Souple) : Autorise

certaines erreurs de classification pour
éviter le surapprentissage sur des
données bruitées (paramètre C).
Hard Margin : Stricte séparation, sensible
aux outliers.
L'Astuce du Noyau (Kernel Trick)

Gérer la Non-Linéarité

Que faire si les données ne sont pas

séparables par une ligne droite ?
Le SVM projette les données dans un
espace de dimension supérieure (3D, 4D,
etc.) où elles deviennent linéairement
séparables.

Noyaux courants : Linéaire, Polynomial,

RBF (Radial Basis Function), Sigmoïde.
SVM pour la Régression (SVR)

Le concept du "Tube"

Au lieu de minimiser l'erreur pour chaque

point (comme la régression linéaire
classique), SVR essaie de faire tenir le
maximum de points à l'intérieur d'un
"tube" de largeur $\epsilon$ (epsilon)

Les points à l'intérieur du tube ne

comptent pas comme erreur (tolérance).
Seuls les points hors du tube influencent
le modèle (vecteurs de support).
Excellente résistance aux outliers.
Spécificités : Pourquoi ce modèle est unique ?

Principe de Marge Max Optimisation Convexe

Contrairement aux réseaux de neurones qui peuvent trouver La fonction de coût du SVM est convexe. Cela signifie qu'il n'y
n'importe quelle frontière, SVM trouve la plus sûre, garantissant a pas de "minima locaux". On trouve toujours la solution
une meilleure généralisation. globale optimale.

Efficacité Dimensionnelle

Le SVM est remarquablement efficace même quand le nombre

de dimensions est supérieur au nombre d'échantillons (ex:
analyse ADN).
Avantages et Limites

Avantages Inconvénients

Précision élevée sur les datasets de taille moyenne. Lent sur les très grands volumes de données (Big Data).
Polyvalent grâce aux différents noyaux (Kernels). Sensible au bruit si les classes se chevauchent trop.
Robuste au surapprentissage (grâce à la régularisation C). Nécessite une mise à l'échelle des données (Feature Scaling).
Efficace en haute dimension. Difficile à interpréter (Boîte noire pour les noyaux non-
linéaires).
Cas d'Utilisation Concrets et resume

Cas d'Utilisation Concrets En Résumé

Reconnaissance d'images : Détection de visages, lecture Le SVM est le choix idéal quand la précision est primordiale
d'écriture manuscrite (OCR). sur des jeux de données complexes mais de taille raisonnable.
Classification de texte : Filtrage de spam, analyse de Sa capacité à transformer l'espace (Kernel) et sa rigueur
sentiments (positif/négatif). mathématique (Marge) en font un outil incontournable dans
Bioinformatique : Classification des protéines et analyse de la boîte à outils du Data Scientist.
l'expression des gènes (haute dimension).
Finance : Prédiction des tendances boursières (SVR).
KNN (K-Nearest Neighbors)
Définition et principe de base Algorithme KNN

Principe de proximitye
Qu'est-ce que KNN?
KNN (K-Nearest Neighbors) est un algorithme d'apprentissage
supervisé basé sur les instances.

Son principe fondamental repose sur l'idée que les points de

données similaires se trouvent à proximité les uns des autres dans
un espace de caractéristiques.

Fonctionnement Classe A Classe B Classe C

Pour prédire la catégorie ou la valeur d'un nouveau point de

données :
Calcule la distance avec tous les points du jeu d'entraînement

Applications
Identifie les K voisins les plus proches
Effectue une prédiction basée sur ces voisins
Régression Classification Détection d'anomalies
Fonctionnement de l'algorithme KNN Algorithme KNN

Étapes de l'algorithme Mesures de distance

Sélectionner le nombre de voisins (K)

Définir la valeur de K, le nombre de voisins les plus proches à considérer

Calculer les distances

Calculer la distance entre le nouveau point et tous les points de l'ensemble
d'entraînement

Euclidienne Manhattan Minkowski Hamming

Identifier les K voisins les plus proches
Sélectionner les K points les plus proches du nouveau point
Euclidienne Manhattan
Distance "en ligne droite" "Distance du taxi"
Faire une prédiction
√∑(xj - Xi) ∑|xi - yi|
Classification : Vote majoritaire parmi les K voisins. Régression : Moyenne
des valeurs des K voisins.
Minkowski Hamming
Généralisation des deux précédentes Pour vecteurs booléens
(∑|xi - yi|) Nombre de positions différentes
Classification vs Régression Algorithme KNN

KNN peut être utilisé pour deux types de problèmes d'apprentissage supervisé :

Classification Régression
Pour prédire une étiquette de classe discrète. Pour prédire une valeur continue.

Fonctionnement Fonctionnement
Identifie les K voisins les plus proches Identifie les K voisins les plus proches
Effectue un vote majoritaire Calcule la moyenne des valeurs voisines
Attribue la classe la plus représentée Attribue cette valeur moyenne

Le nouveau point est classé selon la catégorie dominante parmi ses K voisins Le nouveau point reçoit une valeur basée sur la moyenne des valeurs de ses K voisins
Choisir la valeur optimale de K Algorithme KNN

L'impact de K sur les performances

Petit K : Haute variance, faible biais

Grand K : Basse variance, haut biais

K optimal : Équilibre entre biais et variance

Méthodes de sélection
Validation croisée : Évalue les performances pour différentes K

Méthode du coude : Trace taux d'erreur en fonction de K

Règle empirique : Choix de K impair pour classification binaire

Conseils pratiques
Essayer plusieurs valeurs de K Utiliser la validation croisée
Applications pratiques Algorithme KNN

Moteurs de recommandation
Finance Santé

Évaluation des risques liés aux prêts Prédiction des risques d'infarctus du Suggestion automatique de contenus
Détermination de la solvabilité myocarde (produits, films)

Prévisions boursières Détection du cancer de la prostate Identification des préférences similaires

Détection du blanchiment d'argent Calcul des expressions de gènes les plus

probables Analyse des comportements de navigation

"Analyse des tendances et des comportements" "Analyse des données biométriques" "Personalisation de l'expérience utilisateur"

Reconnaissance de formes Prétraitement des données

D'autres applications

Classification des chiffres et des textes Imputation des valeurs manquantes Segmentation client
Reconnaissance des chiffres manuscrits Détection des valeurs aberrantes Détection de spam

Reconnaissance vocale
Identification sur les formulaires et
enveloppes postales

"Traitement d'images et de texte" "Préparation et nettoyage des données" "Champs d'application variés"
Avantages de l'algorithme KNN Page 7/8

Simplicité et facilité d'implémentation

Algorithme simple à comprendre et à implémenter, idéal pour les débutants.

Absence de phase d'entraînement

KNN est un algorithme "paresseux" (lazy learner) qui stocke simplement les données
d'entraînement.

Peu d'hyperparamètres
Nécessite uniquement la définition de k et d'une mesure de distance.

Polyvalence
Peut être utilisé pour classification et régression, versatile pour les data scientists.

Adaptabilité aux données non linéaires

Ne fait aucune hypothèse sur la distribution des données, gère des relations non
linéaires. KNN : Un algorithme simple mais puissant
Limitations et défis Algorithme KNN

Coût computationnel élevé Complexité temporelle

KNN calcule la distance entre le nouveau point et tous les points d'entraînement, ce qui entraîne
des temps de calcul et des coûts mémoire élevés pour de grands ensembles.

Malédiction de la dimensionnalité
KNN fonctionne mal avec des données à de nombreuses dimensions. Dans les espaces de haute
dimension, la notion de "proximité" devient moins significative.

Sensibilité au bruit et aux valeurs aberrantes

Avec de faibles valeurs de k, KNN peut être sensible au bruit, ce qui peut entraîner un
surajustement et des prédictions moins stables.

Autres défis

Normalisation requise
Les performances de KNN dépendent fortement de
l'échelle des caractéristiques.

Ensembles déséquilibrés
Les classes minoritaires peuvent être dominées par les
classes majoritaires.
PCA
Merci pour votre
attention

Vous aimerez peut-être aussi

Régression Linéaire et Logistique en Deep Learning
Pas encore d'évaluation
Régression Linéaire et Logistique en Deep Learning
90 pages
Harawkan 6
Pas encore d'évaluation
Harawkan 6
34 pages
Expose ML
Pas encore d'évaluation
Expose ML
27 pages
S4 RégressionNonLinéaire ML SJ
Pas encore d'évaluation
S4 RégressionNonLinéaire ML SJ
32 pages
Introduction au Boosting en ML
Pas encore d'évaluation
Introduction au Boosting en ML
42 pages
Machine Learning-2
Pas encore d'évaluation
Machine Learning-2
68 pages
Méthodes d'Arbres en Décision et Régression
Pas encore d'évaluation
Méthodes d'Arbres en Décision et Régression
6 pages
Régression Linéaire et Évaluation des Modèles
Pas encore d'évaluation
Régression Linéaire et Évaluation des Modèles
37 pages
ProgrammationSTIA122. ProgrammationSTIA122
Pas encore d'évaluation
ProgrammationSTIA122. ProgrammationSTIA122
72 pages
Apprentissage Supervisé : Régression Linéaire
Pas encore d'évaluation
Apprentissage Supervisé : Régression Linéaire
43 pages
Introduction à l'apprentissage automatique
100% (1)
Introduction à l'apprentissage automatique
53 pages
Support - Cours Random Forest
Pas encore d'évaluation
Support - Cours Random Forest
25 pages
Cheatsheet Final
Pas encore d'évaluation
Cheatsheet Final
3 pages
Régression Linéaire en Machine Learning
Pas encore d'évaluation
Régression Linéaire en Machine Learning
63 pages
Modèles de Machine Learning Essentiels
Pas encore d'évaluation
Modèles de Machine Learning Essentiels
9 pages
Introduction aux modèles et algorithmes ML
Pas encore d'évaluation
Introduction aux modèles et algorithmes ML
9 pages
ML Metriques Algorithmes
Pas encore d'évaluation
ML Metriques Algorithmes
7 pages
Algorithmes d'apprentissage automatique
Pas encore d'évaluation
Algorithmes d'apprentissage automatique
20 pages
CHAPITRE 4 1 - Regression
Pas encore d'évaluation
CHAPITRE 4 1 - Regression
68 pages
Algorithmes de Régression en Machine Learning
Pas encore d'évaluation
Algorithmes de Régression en Machine Learning
6 pages
Classification
Pas encore d'évaluation
Classification
16 pages
2024 - 2 - Rappel de ML
Pas encore d'évaluation
2024 - 2 - Rappel de ML
49 pages
Ai Cours
Pas encore d'évaluation
Ai Cours
5 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
15 pages
Machine Learning pour la Gestion des Tickets
Pas encore d'évaluation
Machine Learning pour la Gestion des Tickets
5 pages
Les Fondamentales Du Machine Learning
Pas encore d'évaluation
Les Fondamentales Du Machine Learning
50 pages
Arbres de Classification et Régression
Pas encore d'évaluation
Arbres de Classification et Régression
55 pages
Analyse de la Régression Linéaire
Pas encore d'évaluation
Analyse de la Régression Linéaire
26 pages
Exercices Apprentissage Supervise Non Supervise
Pas encore d'évaluation
Exercices Apprentissage Supervise Non Supervise
14 pages
Apprentissage Automatique : Méthodes et Applications
Pas encore d'évaluation
Apprentissage Automatique : Méthodes et Applications
38 pages
Méthodes clés du Machine Learning
Pas encore d'évaluation
Méthodes clés du Machine Learning
14 pages
Régression Linéaire et Classification en ML
Pas encore d'évaluation
Régression Linéaire et Classification en ML
25 pages
Introduction à l'apprentissage supervisé
Pas encore d'évaluation
Introduction à l'apprentissage supervisé
73 pages
Att 1 Regression and Classification Avec Scikit Learn
Pas encore d'évaluation
Att 1 Regression and Classification Avec Scikit Learn
25 pages
Introduction au Machine Learning Débutant
Pas encore d'évaluation
Introduction au Machine Learning Débutant
12 pages
Algorithms
Pas encore d'évaluation
Algorithms
149 pages
Arbre de Décision CART et Indice de Gini
Pas encore d'évaluation
Arbre de Décision CART et Indice de Gini
48 pages
Réseaux de Neurones: Définitions Exemples Types D'apprentissage
Pas encore d'évaluation
Réseaux de Neurones: Définitions Exemples Types D'apprentissage
89 pages
Comprendre l'algorithme XGBoost
Pas encore d'évaluation
Comprendre l'algorithme XGBoost
21 pages
Introduction à l'apprentissage automatique
Pas encore d'évaluation
Introduction à l'apprentissage automatique
66 pages
ADD New Merged
Pas encore d'évaluation
ADD New Merged
33 pages
Agrégation de modèles en apprentissage machine
Pas encore d'évaluation
Agrégation de modèles en apprentissage machine
38 pages
Arbres de Décision en Datamining
Pas encore d'évaluation
Arbres de Décision en Datamining
46 pages
IA Cours1
Pas encore d'évaluation
IA Cours1
89 pages
Arbres de Décision en Apprentissage Automatique
Pas encore d'évaluation
Arbres de Décision en Apprentissage Automatique
70 pages
Surajustement et sous-ajustement en ML
100% (1)
Surajustement et sous-ajustement en ML
23 pages
Introduction à l'Apprentissage Automatique
Pas encore d'évaluation
Introduction à l'Apprentissage Automatique
16 pages
Arbres de Décision et de Régression
Pas encore d'évaluation
Arbres de Décision et de Régression
30 pages
Arbres de Décision et Méthodes Ensemblistes
Pas encore d'évaluation
Arbres de Décision et Méthodes Ensemblistes
33 pages
Classification en Machine Learning
100% (1)
Classification en Machine Learning
34 pages
Introduction aux arbres de décision CART
Pas encore d'évaluation
Introduction aux arbres de décision CART
56 pages
Régression Linéaire en Apprentissage Supervisé
Pas encore d'évaluation
Régression Linéaire en Apprentissage Supervisé
45 pages
Guide Complet sur l'Apprentissage Machine
Pas encore d'évaluation
Guide Complet sur l'Apprentissage Machine
26 pages
Introduction à la régression logistique
Pas encore d'évaluation
Introduction à la régression logistique
79 pages
Apprentissage Supervisé en Machine Learning
Pas encore d'évaluation
Apprentissage Supervisé en Machine Learning
12 pages
Techniques de Storyboard au Cinéma
100% (2)
Techniques de Storyboard au Cinéma
61 pages
Introduction à Matlab pour graphes
Pas encore d'évaluation
Introduction à Matlab pour graphes
29 pages
Examen de Biologie et Géologie 2016
Pas encore d'évaluation
Examen de Biologie et Géologie 2016
2 pages
Synthèse et décomposition de l'iodure de zinc
Pas encore d'évaluation
Synthèse et décomposition de l'iodure de zinc
3 pages
Exercice sur forces et équilibre
Pas encore d'évaluation
Exercice sur forces et équilibre
3 pages
Affichage Technicien Spécialisé ONCF - Liste Des Candidats Retenus Pour Passer Les Tests Psycho & Médic
Pas encore d'évaluation
Affichage Technicien Spécialisé ONCF - Liste Des Candidats Retenus Pour Passer Les Tests Psycho & Médic
9 pages
Le Soleil, source d'énergie vitale
Pas encore d'évaluation
Le Soleil, source d'énergie vitale
2 pages
Projet Didactique : Sports et Corps
Pas encore d'évaluation
Projet Didactique : Sports et Corps
2 pages
Tarifs et Conditions Orange Bank 2024
Pas encore d'évaluation
Tarifs et Conditions Orange Bank 2024
1 page
Améliorations de l'éco-conception GBMC
Pas encore d'évaluation
Améliorations de l'éco-conception GBMC
49 pages
Questions Olympiades Mathématiques 2019-2020
Pas encore d'évaluation
Questions Olympiades Mathématiques 2019-2020
14 pages
Résultats d'analyses médicales pour DJENAS
Pas encore d'évaluation
Résultats d'analyses médicales pour DJENAS
2 pages
Comprendre les États du Moi en A.T.
Pas encore d'évaluation
Comprendre les États du Moi en A.T.
6 pages
Calculs et Concepts en Marché de Travaux
Pas encore d'évaluation
Calculs et Concepts en Marché de Travaux
1 page
Biais d'ancrage : Impact sur décisions entrepreneuriales
Pas encore d'évaluation
Biais d'ancrage : Impact sur décisions entrepreneuriales
9 pages
Historique 4e Lac
Pas encore d'évaluation
Historique 4e Lac
6 pages
Pylônes en acier galvanisé : spécifications
Pas encore d'évaluation
Pylônes en acier galvanisé : spécifications
1 page
Opérations Sur Les Développements Limités
Pas encore d'évaluation
Opérations Sur Les Développements Limités
7 pages
Exercices sur moteurs à courant continu
Pas encore d'évaluation
Exercices sur moteurs à courant continu
4 pages
Examen Génie Climatique 2021 - Technicien
Pas encore d'évaluation
Examen Génie Climatique 2021 - Technicien
7 pages
Introduction à l'IA et Machine Learning
Pas encore d'évaluation
Introduction à l'IA et Machine Learning
9 pages
Its Only A Matter of Time Audition Cut Sheet Music
Pas encore d'évaluation
Its Only A Matter of Time Audition Cut Sheet Music
3 pages
Exercices sur les fonctions réelles
100% (1)
Exercices sur les fonctions réelles
3 pages
Programme CE2D en Sciences Économiques
Pas encore d'évaluation
Programme CE2D en Sciences Économiques
22 pages
Philosophie et Art d'Écrire chez Strauss
Pas encore d'évaluation
Philosophie et Art d'Écrire chez Strauss
14 pages
Droits de Gulliver et des hommes montagnes
Pas encore d'évaluation
Droits de Gulliver et des hommes montagnes
13 pages
Gestion des Talents : Concepts et Stratégies
Pas encore d'évaluation
Gestion des Talents : Concepts et Stratégies
27 pages
Solubilité et complexes métalliques
Pas encore d'évaluation
Solubilité et complexes métalliques
20 pages
CUD - Permis
Pas encore d'évaluation
CUD - Permis
5 pages
Calcul de Dalle en Béton Armé
Pas encore d'évaluation
Calcul de Dalle en Béton Armé
5 pages