Introduction à l’apprentissage automatique
Séance 1
Introduction, vocabulaire
Frédéric Sur
Université de Lorraine / LORIA
[Link]
1/40
Plan
1 Introduction
La démarche basée données
Objectifs du cours, évaluation
2 Contexte : la révolution de l’IA
Définitions
Exemples
Apprentissage non-supervisé et supervisé
3 Une limite fondamentale de l’apprentissage :
la malédiction de la dimension
4 Point méthodologique : et la statistique ?
5 Conclusion
2/40
Un problème physique . . .
Question :
Ma voiture roule à 72 km/h.
Quelle est la distance d’arrêt ?
3/40
Solution 1 : méthode expérimentale
→ on essaie. . .
Question 2 :
Ma voiture roule à 105,77 km/h.
Quelle est la distance d’arrêt ?
etc.
Inconvénients : expérience possible ? coût ?
4/40
Solution 2 : modélisation physique
→ approche basée modèle :
v02
D = v0 tr +
2a
où a décélération, v0 vitesse initiale, tr temps de réaction.
Inconvénients :
et si aucun modèle physique satisfaisant n’est disponible ?
et si la résolution est très coûteuse ? (temps de calcul)
5/40
Solution 3 : approche données
→ recueil des données de quelques expériences ou simulations
numériques...
Mais les vraies données ne ressemblent pas à ça :
6/40
Solution 3 : approche données
→ recueil des données de quelques expériences ou simulations
numériques...
Plutôt à ça :
6/40
Solution 3 : approche données
→ recueil des données de quelques expériences ou simulations
numériques...
Question de l’apprentissage automatique :
quel modèle définir à partir des données ?
6/40
Solution 3 : exemple de régressions
7/40
Solution 3 : exemple de régressions
7/40
Solution 3 : exemple de régressions
7/40
Solution 3 : exemple de régressions
modèle RMSE
polynôme degré 1 11.20 sous-apprentissage ?
polynôme degré 2 7.01
polynôme degré 5 2.21 sur-apprentissage ?
7/40
Objectifs du cours
comprendre les problématiques scientifiques de l’IA
→ fondements, limites théoriques et pratiques
comprendre ce que signifie “apprentissage”
→ principaux modèles, validation des approches proposées
expérimenter dans un environnement standard utilisé en milieu
professionnel / scientifique
→ carnets Jupyter et bibliothèque Python Scikit-learn
Scikit-learn “ third most used free software for machine learning in
the world”
[Link]
Il s’agit d’un cours de tronc commun, pas d’un cours de
mathématiques ou informatique
8/40
Le cours Introduction à l’apprentissage automatique
S’appuie sur TCS 1A : informatique, probabilités, statistique,
analyse numérique, recherche opérationnelle
et TCS 2A : analyse de données
Tout le matériel est sur Arche :
dernière version du polycopié et programme de lecture
supports de cours
sujets de TP et corrections
compléments
Voir aussi (back-up) :
[Link]
9/40
Équipe pédagogique 2021-2022
groupe A : am groupe B : pm
Ambroise Baril (A2 A208) Pierre Ludmann (A5 et B3 B215)
(LORIA - théorie des graphes) (LORIA - modélisation du langage)
Dominique Benmouffek (B2 B208) Fabien Pierre (A6 P322)
(LORIA - e-education) (LORIA - images, deep learning)
Olivier Deck (A4 B208) Thibault Quatravaux (A1 A207)
(Géoingénierie - ouvrages, risques) (IJL - chaire métal liquide)
Rodolphe Loubaton (B4 P322) Wahiba Ramdane-Cheriff (A3 B207)
(IECL - probas pour la génomique) (LORIA - rech. opérationnelle)
Parisa Rastin (B1 B207)
Frédéric Sur (cours) (LORIA - données, apprentissage)
(LORIA - images, apprentissage)
10/40
Évaluation du cours
1 Un QCM sur Arche en début de chaque séance de TD
→ auto-évaluation
→ sert de base à la note de TD (modulée par la
participation) : sur 5 points
2 Un examen final : 25 janvier 2022
→ vérifier que les objectifs du cours sont atteints
→ sur 15 points
11/40
Plan
1 Introduction
La démarche basée données
Objectifs du cours, évaluation
2 Contexte : la révolution de l’IA
Définitions
Exemples
Apprentissage non-supervisé et supervisé
3 Une limite fondamentale de l’apprentissage :
la malédiction de la dimension
4 Point méthodologique : et la statistique ?
5 Conclusion
12/40
Qu’est-ce que l’apprentissage automatique ?
L’apprentissage automatique (en anglais machine learning,
littéralement l’apprentissage machine ) ou apprentissage
statistique est un champ d’étude de l’intelligence artificielle qui se
fonde sur des approches statistiques pour donner aux ordinateurs la
capacité d’ apprendre à partir de données, c’est-à-dire
d’améliorer leurs performances à résoudre des tâches sans être
explicitement programmés pour chacune. Plus largement, cela
concerne la conception, l’analyse, le développement et
l’implémentation de telles méthodes.
[Link]
Difference between machine learning and AI :
If it is written in Python, it’s probably machine learning
If it is written in PowerPoint, it’s probably AI
13/40
Intelligence Artificielle ?
Ensemble de théories et de techniques mises en œuvre en vue de
réaliser des machines capables de simuler l’intelligence humaine
Source : [Link]
Test de Turing
Imitation game
IA générale, IA forte,
IA faible
Illustration : By Bilby (Own work) [Public domain], via
Wikimedia Commons
14/40
Quelques notions historiques
1763-1812 : théorème de Bayes (Bayes - Laplace)
∼1945 : premiers ordinateurs
→ applications potentielles : traitement du langage naturel,
systèmes experts , OCR, computer vision, jeux. . .
1970s : “First AI winter”
1980s : systèmes experts (règles d’inférence)
réseaux de neurones artificiels (à contre-courant ?)
mi-1980s / mi-1990s : “Second AI winter”
fin 1990s : SVM, méthodes à noyau
1997 : Deep Blue bat Garry Kasparov
2010s : apprentissage profond (deep learning)
[Link]
2016 : AlphaGo bat Lee Sedol
15/40
27 mars 2019
16/40
L’IA en quatre graphiques
Source : AI Index 2021 Annual Report - Stanford University
[Link]
17/40
L’IA en quatre graphiques
Source : AI Index 2021 Annual Report - Stanford University
[Link]
17/40
L’IA en quatre graphiques
Source : AI Index 2021 Annual Report - Stanford University
[Link]
17/40
L’IA en quatre graphiques
Source : AI Index 2021 Annual Report - Stanford University
[Link]
17/40
Exemple : gestion des ressources humaines
18/40
Exemple : gestion des ressources humaines ( ? ? ?)
→ IA et biais ? “garbage in, garbage out”
19/40
Exemple : matériaux (Bulletin of the American Physical Society)
20/40
Exemple : géophysique
21/40
Exemple : énergie (et services d’utilité publique)
source : Frost & Sullivan, cabinet de conseil en stratégie US
22/40
Exemple : chaı̂ne logistique
Source : Forbes 2019
23/40
Exemple : réseaux de neurones et EDP
DeepXDE : a deep-learning library for
solving forward and inverse differential
equations
[Link]
deepxde
24/40
Exemple : Google news
25/40
Exemple : Optical Character Recognition (OCR)
Illustration : scikit-learn
26/40
Exemple : Google translate
→ IA et biais ? “garbage in, garbage out” (bis)
→ comparaison [Link] vs. [Link] :
“c’est le comble”, “il est tombé dans les pommes”, etc.
27/40
Exemple : reconnaissance de la parole
28/40
Exemple : deepfake ( hypertrucage )
First Order Motion Model for Image Animation (NeurIPS 2019)
[Link]
[Link]
DeepFaceLab : “the leading software for creating deepfakes”
[Link]
29/40
Exemple : smart city / ville intelligente
. . .et conséquences ?
Illustration : Saul Loeb/AFP/Getty Images
30/40
Apprentissage non-supervisé et supervisé
Apprentissage non-supervisé :
on dispose d’un ensemble d’observations
→ on veut découvrir des caractéristiques communes à certaines
observations (modèle probabiliste sous-jacent, partitionnement. . .)
Exemples : Google news
Apprentissage supervisé :
classification : on dispose d’un ensemble d’observations, chaque
observation appartenant à une classe
→ on veut prédire la classe d’une nouvelle observation
Exemples : reconnaissance de caractères, identification faciale
régression : on dispose d’un ensemble d’observations, chaque
observation étant associée à une grandeur scalaire ou vectorielle
→ on veut prédire la grandeur associée à une nouvelle observation
Exemples : deepfake
31/40
Plan
1 Introduction
La démarche basée données
Objectifs du cours, évaluation
2 Contexte : la révolution de l’IA
Définitions
Exemples
Apprentissage non-supervisé et supervisé
3 Une limite fondamentale de l’apprentissage :
la malédiction de la dimension
4 Point méthodologique : et la statistique ?
5 Conclusion
32/40
Malédiction de la dimension
ou fléau de la dimension
a.k.a. curse of dimensionality
Expression inventée par Richard Bellman
(années 1950)
→ plusieurs aspects liés, souvent en contra-
diction avec l’intuition que l’on développe en
dimension 2 ou 3
Problème : si les observations dépendent d’un grand nombre de
variables (caractéristiques), comment tirer parti des relations entre
les variables pour prédire ou partitionner ?
→ on reviendra plusieurs fois sur ce problème dans le cours
33/40
Exemples. . .
facile : dans R3
7
plus difficile : image numérique ∈ R6·10 (20Mpixels × 3 canaux)
encore plus difficile : reconnaissance 6= perception
34/40
Triangle de Kanizsa Échiquier d’Adelson Dalmatian dog
Cf exemples dans les notes de cours. . .
Explosion combinatoire
→ quelle est la taille moyenne des élèves ayant obtenu C en TCS analyse
de données ?
→ quelle est la taille moyenne des élèves ayant obtenu C en TCS analyse
de données, A en statistique, E en mathématiques I, Fx en
mathématiques II ?
La notion de distance perd en pertinence
→ le rapport entre plus petite et plus grande distances à des
points répartis uniformément dans une boule tend vers 1 lorsque la
dimension tend vers +∞
Exemple : l’image la plus proche d’une image de voiture est-elle une
image de voiture ?
35/40
Solution ?
Heureusement, les observations (données) vivent souvent dans un
sous-espace ou une variété de dimension beaucoup plus petite que
l’espace ambiant.
Solution pratique : réduire la dimension
→ sélection de caractéristiques pertinentes (feature selection),
analyse en composantes principales & co. . .
Source : [Link]
Problème : quel est ce sous-espace / quelle est cette variété ?
→ pas traité ici faute de temps
36/40
Plan
1 Introduction
La démarche basée données
Objectifs du cours, évaluation
2 Contexte : la révolution de l’IA
Définitions
Exemples
Apprentissage non-supervisé et supervisé
3 Une limite fondamentale de l’apprentissage :
la malédiction de la dimension
4 Point méthodologique : et la statistique ?
5 Conclusion
37/40
Significativité des paramètres, intervalles de confiance
→ nécessite un modèle aléatoire explicite sur les observations et de
savoir faire les maths
Exemple / rappel : régression linéaire
modèle sur les observations : yi = axi + b + εi où εi i.i.d. N (0, σ 2 )
t1−α/2,n−2
IC de l’estimation de a au risque α : a ± √
n − 1 sx
si nombre d’observations n grand : IC petit, tout est significatif. . .
→ dans un cours d’ apprentissage , on ne s’intéresse pas aux
questions de significativité (a 6= 0 ?)
(cf exercice 1 TP 1 déjà vu en cours d’analyse de données)
Remarque 1 : la significativité des coefficients du modèle n’est
pas importante pour la prévision
Remarque 2 : l’IC des prévisions est un problème important, mais
encore ouvert pour les modèles d’apprentissage modernes
38/40
Plan
1 Introduction
La démarche basée données
Objectifs du cours, évaluation
2 Contexte : la révolution de l’IA
Définitions
Exemples
Apprentissage non-supervisé et supervisé
3 Une limite fondamentale de l’apprentissage :
la malédiction de la dimension
4 Point méthodologique : et la statistique ?
5 Conclusion
39/40
Conclusion
Approches basées sur les données :
→ possible au XXIème siècle car les coûts de calcul, de stockage,
de transfert de l’information sont de plus en plus faibles
Apprentissage automatique :
→ apprentissage non-supervisé vs.
apprentissage supervisé (classification, régression)
→ limites théoriques
malédiction de la dimension,
dilemme biais-fluctuation à la prochaine séance
TP séance 1 :
prise en main de Python/scikit-learn et carnets Jupyter
illustration des concepts du cours
40/40