Historique de l'apprentissage profond
Historique de l'apprentissage profond
X y1t
X
f ··· f
wj,1
t
j
w1,j
1
X atj yjt 1
f
...
...
t wj,0 wK,j t
K = etK yK
t
(1 t
yK )
R
X t
wj,R 1
X
yR
f f
···
1 1
f(a)
I Problème de saturation sur le gradient 0.4
0.2
Fonctions de transfert doivent inclure des
0.0
4 3 2 1 0 1 2 3 4
non-linéarités a
non-linéarité 3
I Composition de ReLU permet de
f(a)
2
96
3, fully connected
95 11, convolutional
94
93
92
91
0.0 0.2 0.4 0.6 0.8 1.0
Number of parameters ×10 8
iparHte undirected
observed
raphical model
h ~ P(h|x) h ~ P(h|x
Tiré de G. Hinton, )
Y. Bengio et Y. LeCun, Deep Learning NIPS’15 Tutorial, 2015.
Block
Gibbs
sampling
x x ~ P(x | h)
x̂
W1T
Entraı̂nement non supervisé du
poids W1 , poids W1T lié
Minimize erreur kx − x̂k2
Représentation intermédiaire
dans valeurs centrales
W1
x̂
Ajout de deux nouvelles
W1T couches (une dans encodeur et
une dans décodeur)
Entraı̂nement non supervisé du
W2T poids W2 , poids W1 fixés
Minimize toujours erreur
kx − x̂k2
W2 Nouvelle représentation
intermédiaire
Peut être répété ainsi sur
W1 plusieurs couches
x
y y y y
h1 h2 h1 h2 h1 h2 h2
x1 x2 x2 x1 x1 x2
y
y y y y
h1 h1 h2 h2
h1 h2
x1 x2 x1 x2 x2
y y y y
x1 x2
h1 h1 h2
Base network
x1 x2 x1 x1
y y y y
h2 h1
x2
Ensemble of subnetworks
Figure 7.6:
Tiré de I. Dropout trains an ensemble consisting
Goodfellow, Y. Bengio of all
et A. Courville, Deep sub-networks that can
Learning, MIT Press, 2016. be
constructed by removing non-output units from an underlying base network. Here, we
begin with a base network with two
GIF-4101 / GIF-7005 (U. Laval)
visible units and two hidden units. There are sixteen
Apprentissage profond C. Gagné 18 / 48
Batch normalization
xV yV
Output layer
Input layer
y1,j!
x1k
WV×N
W'N×V!
Input layer
Output layer Hidden layer
Hidden layer
N-dim!
N-dim
V-dim V-dim!
W'N×V!
WV×N
yC,j!
xCk
C×V-dim
C×V-dim!
Figure 2: Continuous
Continuous bag-of-word
BoW model
FigureContinuous skip-gram
3: The skip-gram model.
equation for the hidden!output weights stay the same as that for the
Tiré de X. Rong,We
word2vec
still Parameter
use vwI Learning Explained,
to denote arXiv:1411.2738v4,
the input vector of 2016.
the only word on the in
xt model (11). We copy it here:
(new) (old)
thus we have the same definition of the hidden-layer outputs h as in (1), wh
v0 GIF-4101
= v/0 GIF-7005⌘ ·(U.
ej Laval)
·h for j = 1, 2,Apprentissage
· · · , V. profond (22) C. Gagné 22 / 48
Réseau à convolution
Layer 3 Layer 5
Layer 1 Layer 2 Layer 4
input 12@10x10 100@1x1
6@28x28 6@14x14 12@5x5
1@32x32
Layer 6: 10
10
5x5
2x2 5x5 2x2 convolution
5x5
pooling/ convolution pooling/
convolution
subsampling subsampling
Samoyed (16); Papillon (5.7); Pomeranian (2.7); Arctic fox (1.0); Eskimo dog (0.6); white wolf (0.4); Siberian husky (0.4)
Max pooling
Max pooling
Figure 2 | Inside a convolutional network. The outputs (not the filters) corresponding to the output for one of the learned features, detected at each
of each layer (horizontally)
Tiréof de
a typical convolutional
Y. LeCun, networketarchitecture
Y. Bengio of the
G. Hinton, Deep image positions.
Learning, Nature,Information
vol. 521,flows
28 bottom up, with lower-level features
mai 2015.
applied to the image of a Samoyed dog (bottom left; and RGB (red, green, acting as oriented edge detectors, and a score is computed for each image class
blue) inputs, bottom right). Each rectangular image is a feature map in output. ReLU, rectified linear unit.
raw pixels could not possibly distinguish the latter two, while putting rule for derivatives. The key insight is that the derivative (or gradi-
the former two in the same category. This is why shallow classifiers ent) of the objective with respect to the input of a module can be
require a good feature extractor that solves the selectivity–invariance computed by working backwards from the gradient with respect to
dilemma
GIF-4101 — /one that produces
GIF-7005 representations that are selective
(U. Laval) to theprofond
Apprentissage output of that module (or the input of [Link]
Gagné module)25 / 48
Image recognition:
Composition dePixel → edge → texton → motif → part → object
filtres
Text: Character → word → word group → clause → sentence → story
Speech: Sample → spectral band → sound → … → phone → phoneme → wo
Représentation Représentation
Représentation
∂E (x|θ)
∆x = −η
∂x
Tiré de [Link]
Licensed by Google Inc. under a Creative Commons Attribution 4.0 International License.
Utiliser génération
CHAPTER de données
7. REGULARIZATION pourLEARNING
FOR DEEP déterminer plus petite variation
permettant de faire une erreur de classement
+ .007 × =
x+
x sign(∇ xJ (θ, x, y))
sign(∇xJ (θ, x, y))
y =“panda” “nematode” “gibbon”
w/ 57.7% w/ 8.2% w/ 99.3 %
confidence confidence confidence
V V V V
W st−1 st st+1
s W
W W W
Unfold
U U U U
x xt−1 xt xt+1
self-loop
Modèle LSTM : ajouter de
+ × la mémoire au réseau
state
Cellule de mémoire (état),
avec quatre neurones
ber × I Entrée
I Activation de l’entrée
n input input gate forget gate output gate
I Activation de l’oublis
I Activation de la sortie
Vision Language
Deep CNN Generating RNN
A group of people
shopping at an outdoor
market.
A woman is throwing a frisbee in a park. A dog is standing on a hardwood floor. A stop sign is on a road with a
mountain in the background
A little girl sitting on a bed with a teddy bear. A group of people sitting on a boat in the water. A giraffe standing in a forest with
trees in the background.
Figure 3 | From image to text. Captions generated by a recurrent neural with permission from ref. 102. When the RNN is given the ability to focus its
network (RNN) taking,
Tiré deas Y.
extraLeCun,
input, the representation
Y. Bengioextracted
et [Link],
a deep attention
Deep on a different
Learning, location invol.
Nature, the input
521,image
28(middle
mai and bottom; the
2015.
convolution neural network (CNN) from a test image, with the RNN trained to lighter patches were given more attention) as it generates each word (bold), we
‘translate’ high-level representations of images into captions (top). Reproduced found86 that it exploits this to achieve better ‘translation’ of images into captions.
GIF-4101 / GIF-7005 (U. Laval) Apprentissage profond C. Gagné 36 / 48
Apprentissage par renforcement profond
Apprentissage par renforcement : déterminer les bonnes actions à
effectuer selon les conditions actuelles
I Guidé par récompense ponctuelle, sans indication précise sur actions
décisives
I Forme plus élaborée (et plus complexe) d’intelligence que tâches de
classement et régression
Réseaux profonds s’avèrent très prometeurs pour l’apprentissage par
renforcement
I Simulations massives permettent d’apprendre à effectuer certaines
actions précises
Jeux vidéos (Atari 2600) : Deep Q-learning Network (Deepmind)
I Entrée est la capture de l’écran, récompense est le pointage obtenu
I 49 jeux différents, performances « surhumaines »
Jeu de Go : AlphaGo (encore Google Deepmind)
I Go : jeu traditionnel asiatique, plus complexe que les échecs
I [Link]
google-deepmind-alphago-go-artificial-intelligence-impact
GIF-4101 / GIF-7005 (U. Laval) Apprentissage profond C. Gagné 37 / 48
Conduite automatisée
Véhicules autonomes : chamboulement prochain dans la façon de se
déplacer
I Premiers essais avec capteurs très coûteux (ex. LIDAR longue portée)
I Développement avec technologies plus abordables (caméra vidéo,
RADAR, Sonar)
Grand potentiel de l’apprentissage profond pour conduite autonome
I Détection d’objets et de piéton
I Lecture de la signalisation (panneaux et lumières)
I Interprétation de la conduite d’autres véhicules
I Contrôle de la conduite
Prédictabilité de l’apprentissage automatique, en particulier
apprentissage profond, reste un problème
Approche de Tesla pour la conduite autonome
I Équiper tous les véhicules fabriqués de capteurs sophistiqués et d’un
lien réseau
I Collecter information sur la conduite par tous ces véhicules
I Automatiser graduellement la conduite par un apprentissage sur ces
données à mesure que la qualité des modèles appris augmente
GIF-4101 / GIF-7005 (U. Laval) Apprentissage profond C. Gagné 38 / 48
Traduction automatisée
Google’s Neural Machine Translation System : nouvelle mouture de
Google Translate basée sur des réseaux profonds
I Amélioration de 60 % des performances relativement à la version
précédente
I En cours de déploiement sur les systèmes de Google
Figure
Tiré de Wu et al., 1: The
Google’s model Machine
Neural architecture of GNMT,System
Translation Google’s: Bridging
Neural Machine Translation
the Gap between system.
Human Onandthe left
Machine Translation,
is the encoder network, on the right isarXiv:1609.08144v1,
the decoder network, 2016.
in the middle is the attention module. The
bottom encoder layer is bi-directional: the pink nodes gather information from left to right while the green
nodes gather information from right to left. The other layers of the encoder are uni-directional. Residual
connections
GIF-4101 / GIF-7005 ([Link] from the layer third from
Laval) the bottom in the
Apprentissage encoder and decoder. The model is partitioned
profond C. Gagné 39 / 48
Exemples de traduction avec GNMT (1/3)
Table 11: Some example translations from PBMT [15], our GNMT system (the "NMT before RL", Table 9),
and Human. Source and target sentences (human translations) are from the public benchmark WMT EnæFr
(newstest2014) data set. The right-hand column shows the human ratings on a scale of 0 (complete nonsense)
to 6 (perfect translation). We disagree with some of the human ratings, e.g., the translation “Elle a été
repéré trois jours plus tard par un promeneur de chien piégé dans la carrière” contains grammatical mistakes
and changes semantics, and is still scored 6. We present it to illustrate the potential problems of the scoring
process.
"The reason Boeing are doing this is to cram more seats in to make their plane more
Source competitive with our products," said Kevin Keniston, head of passenger comfort at
Europe’s Airbus.
"La raison pour laquelle Boeing sont en train de faire, c’est de concentrer davantage de
PBMT sièges pour prendre leur avion plus compétitive avec nos produits", a déclaré Kevin M. 3.0
Keniston, chef du confort des passagers de l’Airbus de l’Europe.
"La raison pour laquelle Boeing fait cela est de créer plus de sièges pour rendre son
GNMT avion plus compétitif avec nos produits", a déclaré Kevin Keniston, chef du confort des 6.0
passagers chez Airbus.
"Boeing fait ça pour pouvoir caser plus de sièges et rendre ses avions plus compétitifs
Human par rapports à nos produits", a déclaré Kevin Keniston, directeur de Confort Passager 6.0
chez l’avionneur européen Airbus.
When
Tiré de Wu et al., askedNeural
Google’s about this, an
Machine official ofSystem
Translation the American
: Bridging administration
the Gap between replied:
Human and"The United
Machine Translation,
Source States is not conducting electronic surveillance aimed
arXiv:1609.08144v1, 2016. at offices of the World Bank and
IMF in Washington."
Interrogé à ce sujet, un responsable de l’administration américaine a répondu : "Les
PBMT Etats-Unis n’est pas effectuer une surveillance électronique destiné aux bureaux de la 3.0
GIF-4101 / GIF-7005 (U. Laval) Apprentissage profond C. Gagné 40 / 48
"La raison pour laquelle Boeing fait cela est de créer plus de sièges pour rendre son
GNMT avion plus compétitif avec nos produits", a déclaré Kevin Keniston, chef du confort des 6.0
Exemples de traduction avec GNMT (2/3)
passagers chez Airbus.
"Boeing fait ça pour pouvoir caser plus de sièges et rendre ses avions plus compétitifs
Human par rapports à nos produits", a déclaré Kevin Keniston, directeur de Confort Passager 6.0
chez l’avionneur européen Airbus.
When asked about this, an official of the American administration replied: "The United
Source States is not conducting electronic surveillance aimed at offices of the World Bank and
IMF in Washington."
Interrogé à ce sujet, un responsable de l’administration américaine a répondu : "Les
PBMT Etats-Unis n’est pas effectuer une surveillance électronique destiné aux bureaux de la 3.0
Banque mondiale et du FMI à Washington".
Interrogé à ce sujet, un fonctionnaire de l’administration américaine a répondu: "Les
GNMT États-Unis n’effectuent pas de surveillance électronique à l’intention des bureaux de la 6.0
Banque mondiale et du FMI à Washington".
Interrogé sur le sujet, un responsable de l’administration américaine a répondu: "les
Human Etats-Unis ne mènent pas de surveillance électronique visant les sièges de la Banque 6.0
mondiale et du FMI à Washington".
Martin told CNN that he asked Daley whether his then-boss knew about the potential
Source
shuffle.
Martin a déclaré à CNN qu’il a demandé Daley si son patron de l’époque connaissaient
PBMT 2.0
le potentiel remaniement ministériel.
Martin a dit à CNN qu’il avait demandé à Daley si son patron d’alors était au courant
GNMT 6.0
du remaniement potentiel.
Martin a dit sur CNN qu’il avait demandé à Daley si son patron d’alors était au
Human 5.0
courant du remaniement éventuel.
TiréSource SheGoogle’s
de Wu et al., was spotted
Neural three days
Machine later bySystem
Translation a dog: walker
Bridgingtrapped in the quarry
the Gap between Human and Machine Translation,
PBMT Elle a été repéré trois jours plus tard par un promeneur
arXiv:1609.08144v1, 2016. de chien piégé dans la carrière 6.0
GNMT Elle a été repérée trois jours plus tard par un traîneau à chiens piégé dans la carrière. 2.0
Elle a été repérée trois jours plus tard par une personne qui promenait son chien
Human 5.0
coincée (U.
GIF-4101 / GIF-7005 dans la carrière
Laval) Apprentissage profond C. Gagné 41 / 48
Martin told CNN that he asked Daley whether his then-boss knew about the potential
Source
shuffle.
Exemples de traduction avec GNMT (3/3)
PBMT
Martin a déclaré à CNN qu’il a demandé Daley si son patron de l’époque connaissaient
2.0
le potentiel remaniement ministériel.
Martin a dit à CNN qu’il avait demandé à Daley si son patron d’alors était au courant
GNMT 6.0
du remaniement potentiel.
Martin a dit sur CNN qu’il avait demandé à Daley si son patron d’alors était au
Human 5.0
courant du remaniement éventuel.
Source She was spotted three days later by a dog walker trapped in the quarry
PBMT Elle a été repéré trois jours plus tard par un promeneur de chien piégé dans la carrière 6.0
GNMT Elle a été repérée trois jours plus tard par un traîneau à chiens piégé dans la carrière. 2.0
Elle a été repérée trois jours plus tard par une personne qui promenait son chien
Human 5.0
coincée dans la carrière
Analysts believe the country is unlikely to slide back into full-blown conflict, but recent
Source
events have unnerved foreign investors and locals.
Les analystes estiment que le pays a peu de chances de retomber dans un conflit total,
PBMT 5.0
mais les événements récents ont inquiété les investisseurs étrangers et locaux.
Selon les analystes, il est peu probable que le pays retombe dans un conflit généralisé,
GNMT mais les événements récents ont attiré des investisseurs étrangers et des habitants 2.0
locaux.
Les analystes pensent que le pays ne devrait pas retomber dans un conflit ouvert, mais
Human 5.0
les récents évènements ont ébranlé les investisseurs étrangers et la population locale.
23 : Bridging the Gap between Human and Machine Translation,
Tiré de Wu et al., Google’s Neural Machine Translation System
arXiv:1609.08144v1, 2016.
ŷ
σ
z u(1) u(2)
+
dot
×
x y x w b
Graphe computationnel :
représenter les opérations
(a) (b)
mathématiques d’un réseau
H u(2) u(3) dans graphe
relu ×
sum Capture l’ordre et la nature
U (1)
+
U (2) ŷ u(1) des opérations
sqr
dot
matmul
X W b x w λ
(c) (d)
ON THE RISE
Investment in technologies that use artificial intelligence has climbed in recent years.
1,000
Disclosed investment (US$, millions)
900
800
700
600
500
400
300
200
100
0
Q1 Q2 Q3 Q4 Q1 Q2 Q3 Q4 Q1 Q2 Q3 Q4 Q1 Q2 Q3 Q4 Q1 Q2 Q3 Q4 Q1
3 1 2 | NTiré
AT U deRK.E Crawford
| V O L et5 R.
3 8Calo,
| 2 There
0 O Cis Ta Oblind
B E spot
R 2 in
0 1AI6 research, Nature, vol. 538, 20 octobre 2016.
ǟ ƐƎƏƖ
!,(++- 4 +(2'#12 (,(3#"Ʀ /13 .$ /1(-%#1 341#ƥ ++ 1(%'32 1
ɥ ɥ ɥ ɥ ɥ ɥ ɥ ɥ ɥ ɥ ɥ