20/03/2023
Introduction à
l’apprentissage
automatique
OULAD SAYAD YOUNES
[Link]@[Link]
Quotes
1
20/03/2023
Acquisitions
Challenges
2
20/03/2023
Comparison
3
20/03/2023
What is Machine Learning?
What is Machine Learning?
•Un des champs d’étude de l’intelligence artificielle
•La discipline scientifique concernée par le développement,
l’analyse et l’implémentation de méthodes
automatisables qui permettent à une machine (au sens
large) d’évoluer grâce à un processus d’apprentissage.
•Permet de remplir des tâches qu’il est difficile ou
impossible de remplir par des moyens algorithmiques plus
classiques
4
20/03/2023
Where does ML fit in?
En texte
10
5
20/03/2023
En texte
11
Sur des documents
12
6
20/03/2023
En image
13
En image
14
7
20/03/2023
15
Interface cerveau-machine
16
8
20/03/2023
Systèmes de recommendation
17
Dans les jeux et la robotique
18
9
20/03/2023
L’apprentissage aujourd’hui : Big Data
19
Quand appliquer l’apprentissage ?
20
10
20/03/2023
• Un bon modèle de machine learning, c’est un modèle qui
généralise.
• Qu’est-ce que c’est, déjà, la généralisation ?
La généralisation, c’est la capacité d’un modèle à faire des
prédictions non seulement sur les données que vous avez utilisées
pour le construire, mais surtout sur de nouvelles données : c’est
bien pour ça que l’on parle d’apprentissage
• L’objectif du machine learning est de trouver un modèle qui
effectue une approximation de la réalité (le phénomène à
l’origine des données), à l’aide de laquelle on va pouvoir
effectuer des prédictions. 21
Exemple
Comment ça marche ?
• On donne à l’algorithme des données
d’entrainement
• l’algorithme d’apprentissage machine
apprend un modèle capable de
généraliser à de nouvelles données
source : Hugo Larochelle
22
11
20/03/2023
Notations
source : Hugo Larochelle
23
Notations
24
12
20/03/2023
Types d’apprentissage machine
25
Apprentissage supervisé
26
13
20/03/2023
Classification vs Regression
27
Classification vs Regression
28
14
20/03/2023
Classification vs Regression
29
Exemple
Exemple d’apprentissage supervisé en musique : reconnaissance du genre
30
15
20/03/2023
Exemple
31
Exemple
32
16
20/03/2023
Apprentissage non-supervisé
source : Hugo Larochelle
33
Exemple
34
17
20/03/2023
Exemple
35
Un premier exemple : La régression linéaire
36
18
20/03/2023
Un premier exemple : La régression linéaire
37
Linear regression vs Logistic Regression
Linear regression Logistic regression
38
19
20/03/2023
Linear regression vs Logistic Regression
39
Validation croisée / Cross-validation
40
20
20/03/2023
Cross-validation
41
Stratified Cross validation
42
21
20/03/2023
Confusion matrix
Exactitude / Accuracy
43
Confusion matrix
Précision / Precision
Out of all the positive predicted,
what percentage is truly positive
44
22
20/03/2023
Confusion matrix
Rappel (sensibilité) / Recall / TPR
Out of the total positive, what
percentage are predicted positive
45
Confusion matrix
Spécificité / Specificity
How well a test can identify true
negatives
46
23
20/03/2023
Confusion matrix
F-measure (F1-score) & G-mean (Geometric mean)
47
Confusion matrix
False Positive Rate (FPR)
Ratio of negative events wrongly categorized as positive and the total number of
actual negative events
48
24
20/03/2023
Confusion matrix
False negative rate (FNR) / Miss rate
The probability that a true positive will be missed by the test
49
Exemple
50
25
20/03/2023
Bias vs Variance
HighBias
51
Bias vs Variance
Bias vs Variance
High Variance
52
26
20/03/2023
Bias vs Variance
53
Probabilistic classifiers
Classification models are predictive models that predict a class label based on an
input example. But some classification models do not directly predict a class for an
example of the given input but instead report a probability; this classification model
is called the Probabilistic classification model.
For example, it might predict that there’s a 75% chance the observation is positive.
The natural choice is to assign the observation as positive since the predicted
probability is greater than 50%. However, we don’t have to stick to 50%; we can
adjust our threshold and only classify observations as positive if our models predict
a greater than 90% probability.
Examples: Naive Bayes, Logistic Regression and Multilayer Perceptrons
54
27
20/03/2023
Probabilistic classifiers
By increasing the threshold, our model will only make positive predictions when it
is confident. Conversely, if we lower our threshold, our model will more liberally
assign positive labels. Model’s precision and recall are affected by adjusting the
threshold.
55
ROC curve (Receiver Operating Characteristic curve)
TPR tells us what proportion of the positive class got correctly classified.
FPR tells us what proportion of the negative class got incorrectly classified.
56
28
20/03/2023
ROC curve (Receiver Operating Characteristic curve)
The ROC curve shows the
trade-off between
sensitivity (or TPR) and
specificity (1 – FPR).
Classifiers that give curves
closer to the top-left corner
indicate a better
performance. As a baseline,
a random classifier is
expected to give points lying
along the diagonal (FPR =
TPR). The closer the curve
comes to the 45-degree
diagonal of the ROC space,
the less accurate the test.
57
ROC curve (Receiver Operating Characteristic curve)
58
29
20/03/2023
ROC curve (Receiver Operating Characteristic curve)
The Area Under the Curve (AUC) is the measure of the ability of a classifier to
distinguish between classes and is used as a summary of the ROC curve.
The higher the AUC, the better the performance of the model at distinguishing
between the positive and negative classes.
59
Supervised Learning: KNN
KNN
60
30
20/03/2023
Supervised Learning: KNN
kNN (k plus proches voisins)
61
Supervised Learning: KNN
kNN (k plus proches voisins)
62
31
20/03/2023
Supervised Learning: KNN
kNN (k plus proches voisins)
63
Supervised Learning: KNN
kNN (k plus proches voisins)
64
32
20/03/2023
Supervised Learning: KNN
kNN (k plus proches voisins)
Distance Euclidienne
65
Supervised Learning: Decision Trees (DT)
• Les arbres de décision sont une sorte
de modèles non paramétriques, qui
peuvent être utilisés à la fois pour la
classification et la régression.
• Les arbres de décision apprennent à
partir des données pour approximer une
courbe sinusoïdale avec un ensemble
de règles de décision si-alors-sinon
• Les DT sont construits à l'aide de
deux types d'éléments : les nœuds et
les branches.
• A chaque nœud, une des
caractéristiques de nos données est
évaluée afin de scinder les observations
• Le nœud feuille représente une
classification ou une décision
66
33
20/03/2023
Supervised Learning: Decision Trees (DT)
67
Supervised Learning: Decision Trees (DT)
68
34
20/03/2023
Supervised Learning: Decision Trees (DT)
69
Supervised Learning: Support Vector Machine (SVM)
70
35
20/03/2023
Supervised Learning: Support Vector Machine (SVM)
71
Supervised Learning: Support Vector Machine (SVM)
72
36
20/03/2023
Supervised Learning: Support Vector Machine (SVM)
Kernel types:
73
Supervised Learning: Support Vector Machine (SVM)
Kernel types:
Polynomial kernel vs Linear kernel
74
37
20/03/2023
Supervised Learning: Support Vector Machine (SVM)
Regularisation C.
75
Unsupervised Learning: Clustering
• L'organisation des données non étiquetées en groupes de similarité
appelés clusters.
• Un cluster est une collection d'éléments de données qui sont
« similaires » entre eux et « différents » aux éléments de données
dans d'autres clusters.
76
38
20/03/2023
Clustering Approaches
77
Hierarchical Clustering
78
39
20/03/2023
Cluster Distance Measures
79
Cluster Distance
80
40
20/03/2023
Example
81
Example
82
41
20/03/2023
Example
83
Example
84
42
20/03/2023
Example
85
Example
86
43
20/03/2023
Example
87
Example
88
44
20/03/2023
Partitioning Clustering: K-means
Le clustering K-means vise à partitionner les données en k clusters de manière à
ce que les points de données dans le même cluster soient similaires et que les
points de données dans les différents clusters soient plus éloignés.
89
K-means
Similarity of two points is determined by the distance between them
90
45
20/03/2023
K-means
Le fonctionnement de l'algorithme K-Means est expliqué dans les étapes ci-
dessous :
• Étape 1 : Sélectionnez le nombre K pour décider du nombre de clusters.
• Étape 2 : Sélectionnez des points K aléatoires ou des centroïdes.
• Étape 3 : Attribuez chaque point de données à leur centroïde le plus
proche, qui formera les clusters K prédéfinis.
• Étape 4 : Calculez la variance et placez un nouveau centre de gravité de
chaque cluster.
• Étape 5 : répétez les troisièmes étapes, ce qui signifie réaffecter chaque
point de données au nouveau centroïde le plus proche de chaque cluster.
• Étape 6 : Si une réaffectation se produit, passez à l'étape 4, sinon
TERMINER.
• Étape 7 : Le modèle est prêt.
91
K-means
1 2
92
46
20/03/2023
K-means
3 4
93
K-means
La variance des clusters se calcule comme suit :
5 6
94
47
20/03/2023
K-means
7 8
95
K-means
9 10
96
48
20/03/2023
K-means: Parameter Optimization
Généralement, en mettant dans un graphique les différents nombres de clusters en fonction de la
variance, on retrouve un graphique similaire à celui-ci :
On remarque sur ce graphique, la forme
d’un bras où le point le plus haut
représente l’épaule et le point le plus bas
représente l’autre extrémité : la main. Le
nombre optimal de clusters est le point
représentant le coude. Ici le coude peut
être représenté par 3. C’est le nombre
optimal de clusters. Généralement, le
point du coude est celui du nombre de
clusters à partir duquel la variance ne se
réduit plus significativement.
97
K-means: Parameter Optimization
98
49
20/03/2023
K-means: Parameter Optimization
99
K-means: Parameter Optimization
100
50
20/03/2023
K-means: Parameter Optimization
101
K-means: Parameter Optimization
102
51
20/03/2023
K-means: Parameter Optimization
103
K-means: Parameter Optimization
104
52
20/03/2023
K-means: Parameter Optimization
105
K-means: Parameter Optimization
106
53
20/03/2023
K-means: Parameter Optimization
107
K-means: Parameter Optimization
108
54
20/03/2023
K-means: Parameter Optimization
109
K-means: Parameter Optimization
110
55
20/03/2023
K-means: Parameter Optimization
111
Ensemble Learning
112
56
20/03/2023
Bagging
113
Bagging
114
57
20/03/2023
Bagging
115
Bagging
116
58
20/03/2023
Boosting
117
Boosting
118
59
20/03/2023
Boosting
119
Boosting
120
60
20/03/2023
Stacking
121
Stacking
122
61
20/03/2023
Stacking
123
Stacking
124
62
20/03/2023
Stacking
125
Stacking
126
63
20/03/2023
Blending
127
Blending
128
64
20/03/2023
Voting
129
PCA: Principal component analysis
130
65
20/03/2023
PCA: Principal component analysis
The goal of PCA is to explain most of the variability in a dataset with fewer variables than
the original dataset. 131
PCA: Principal component analysis
132
66