0% ont trouvé ce document utile (0 vote)

58 vues12 pages

Exploration Boltzmann en RL

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

58 vues12 pages

Exploration Boltzmann en RL

Transféré par

Ignée Fleur

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

IFT-4201 / IFT-7201

Apprentissage par Renforcement

Reinforcement Learning

Audrey Durand
Boltzmann/Softmax
Rappel : Le compromis exploration/exploitation
Espérance de récompense  Espérance de récompense 
associée à l’action optimale k⋆ associée à l’action k Gap de sous-optimalité de l’action k
T T K T K

∑ [∑ ] ∑ [ ∑ ] ∑
R(T) = μ⋆ − rt = (μ⋆ − μk) [kt = k] = Δk [Nk(T)]
t=1 t=1 k=1 t=1 k=1

Récompense obtenue au temps t  Action choisie au temps t Nombre de sélections de l’action k 

(donc après avoir joué l’action kt) jusqu’au temps T (inclusivement)

Simultanément :

• Découvrir les (Δk)k=1…K

Exploration

• Sélectionner k⋆aussi souvent que possible Exploitation

𝔼
𝔼
𝕀
𝔼
Rappel : Exploration uniforme

Constante d’exploration ε ∈ [0,1] assez petit (e.g. ε = 0.1)

ε-greedy
Estimation empirique de la moyenne 
• Jouer chaque action une fois
des récompenses de l’action k après 
t − 1 pas de temps (inclusivement)
• Pour t > K :

• Explorer avec probabilité ε : Sélectionner kt ∼ ({1,2,…, K})

• Exploiter avec probabilité 1 − ε : Sélectionner kt = arg maxk μk̂ (t − 1)

⇒ Probabilité d’explorer l’action k dépendante de μk̂ (t − 1)?

𝒰
Exploration en fonction du potentiel

Taux d’apprentissage (learning rate) η ≥0

Boltzmann / Softmax

• Jouer chaque action une fois

• Pour t > K :

ημk̂ (t−1)
e
Sélectionner l’action k avec probabilité ℙ[kt = k] = K
∑k=1 e ημk̂ (t−1)
Expérience 1

K = 2 actions, con guration μ = (0.5, 0.9)

ημk̂ (t−1) ημk

Xk,t ∼ ℬ(μk)
e e
ℙ[kt = k] = K
→ K
50 répétitions, T = 500 ∑k=1 e ημk̂ (t−1) ∑k=1 e ημk

η=1 η = 10 η = 20
fi
Expérience 2

• K = 2 actions
• 50 instances ⇒ μk ∼ (0,1) ∀k

• rt ∼ ℬ(μkt) • T = 500 pas de temps

η=1 η = 10 η = 20
𝒰
Expérience 2
Pseudo-regret cumulatif

• K = 2 actions
• 50 instances ⇒ μk ∼ (0,1) ∀k

• rt ∼ ℬ(μkt) • T = 500 pas de temps

η xe
𝒰
fi
Exploration en fonction du potentiel

Taux d’apprentissage ηt ≥ 0 croissant avec t

Boltzmann / Softmax

• Jouer chaque action une fois

• Pour t > K :

ηt μk̂ (t−1)
e
Sélectionner l’action k avec probabilité ℙ[kt = k] =

K
∑k=1 e ηt μk̂ (t−1)

( mink≠k⋆ Δk )
ln(t)
⇒ Garanties de pseudo-regret cumulatif quasi-optimal requièrent ηt ≥ O
[Cesa-Bianchi et al., 2017]
Toujours dans le contexte de l’expérience 2
ln(t)
ηt = c
mink≠k⋆ Δk
• K = 2 actions
• 50 instances ⇒ μk ∼ (0,1) ∀k

• rt ∼ ℬ(μkt) • T = 500 pas de temps

c = 0.01 c = 0.1 c=1

𝒰
Toujours dans le contexte de l’expérience 2
t
ηt = c
mink≠k⋆ Δk
• K = 2 actions
• 50 instances ⇒ μk ∼ (0,1) ∀k

• rt ∼ ℬ(μkt) • T = 500 pas de temps

c = 0.01 c = 0.1 c=1

𝒰
Toujours dans le contexte de l’expérience 2
Pseudo-regret cumulatif

• K = 2 actions
• 50 instances ⇒ μk ∼ (0,1) ∀k

• rt ∼ ℬ(μkt) • T = 500 pas de temps

ln(t) t
ηt = c ηt = c
η xe mink≠k⋆ Δk mink≠k⋆ Δk
𝒰
fi

Vous aimerez peut-être aussi

Introduction à l'apprentissage par renforcement
Pas encore d'évaluation
Introduction à l'apprentissage par renforcement
27 pages
Comprendre Apache Tez et ses avantages
Pas encore d'évaluation
Comprendre Apache Tez et ses avantages
3 pages
Recherche Tabou et Recuit Simulé
Pas encore d'évaluation
Recherche Tabou et Recuit Simulé
43 pages
Introduction à la méthode Event-B
Pas encore d'évaluation
Introduction à la méthode Event-B
11 pages
Algorithmes de recherche heuristique en IA
Pas encore d'évaluation
Algorithmes de recherche heuristique en IA
48 pages
Construction et Analyse de la Courbe ROC
Pas encore d'évaluation
Construction et Analyse de la Courbe ROC
3 pages
Théorie des Possibilités et Croyances
100% (1)
Théorie des Possibilités et Croyances
9 pages
Master en Génie Logiciel et Systèmes Distribués
Pas encore d'évaluation
Master en Génie Logiciel et Systèmes Distribués
27 pages
Méta-heuristiques pour le voyageur de commerce
Pas encore d'évaluation
Méta-heuristiques pour le voyageur de commerce
6 pages
Définition et fonctionnement des systèmes experts
Pas encore d'évaluation
Définition et fonctionnement des systèmes experts
13 pages
Représentation des Connaissances en IA
Pas encore d'évaluation
Représentation des Connaissances en IA
4 pages
Cube de McCumber en cybersécurité
Pas encore d'évaluation
Cube de McCumber en cybersécurité
32 pages
Le Web Sémantique : Avantages et Inconvénients
Pas encore d'évaluation
Le Web Sémantique : Avantages et Inconvénients
30 pages
Génie Logiciel pour l'IA - MGL869
Pas encore d'évaluation
Génie Logiciel pour l'IA - MGL869
88 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
10 pages
Problèmes d'optimisation mathématique
Pas encore d'évaluation
Problèmes d'optimisation mathématique
4 pages
Détection d'Intrusions et IDS 2024
Pas encore d'évaluation
Détection d'Intrusions et IDS 2024
20 pages
Rôles des agents en e-learning
Pas encore d'évaluation
Rôles des agents en e-learning
11 pages
Examen sur le Data Mining
Pas encore d'évaluation
Examen sur le Data Mining
3 pages
Mémoire Partagée Distribuée : Concepts et Modèles
Pas encore d'évaluation
Mémoire Partagée Distribuée : Concepts et Modèles
33 pages
Agents intelligents : concepts et rationalité
Pas encore d'évaluation
Agents intelligents : concepts et rationalité
48 pages
Arbre de décision en Machine Learning
Pas encore d'évaluation
Arbre de décision en Machine Learning
6 pages
Systèmes à Base de Règles en Informatique
Pas encore d'évaluation
Systèmes à Base de Règles en Informatique
11 pages
Examen RICM 4 - 13 avril 2016
Pas encore d'évaluation
Examen RICM 4 - 13 avril 2016
4 pages
Modélisation CSP : Monnaie et N Reines
Pas encore d'évaluation
Modélisation CSP : Monnaie et N Reines
3 pages
Structure et Composantes des Scripts
Pas encore d'évaluation
Structure et Composantes des Scripts
20 pages
Introduction aux méta-heuristiques
Pas encore d'évaluation
Introduction aux méta-heuristiques
14 pages
Systèmes à base de connaissances
Pas encore d'évaluation
Systèmes à base de connaissances
45 pages
Algorithmes et Complexité en TD 4
Pas encore d'évaluation
Algorithmes et Complexité en TD 4
12 pages
Examen sur les Séries Temporelles ARMA
Pas encore d'évaluation
Examen sur les Séries Temporelles ARMA
7 pages
Introduction à l'apprentissage supervisé
Pas encore d'évaluation
Introduction à l'apprentissage supervisé
83 pages
Clustering Hiérarchique et DBSCAN
Pas encore d'évaluation
Clustering Hiérarchique et DBSCAN
7 pages
Définition et fonctionnement du pipeline
Pas encore d'évaluation
Définition et fonctionnement du pipeline
46 pages
Introduction aux Systèmes Experts IA
Pas encore d'évaluation
Introduction aux Systèmes Experts IA
43 pages
Correction T.D. Algorithmique 1ère année
Pas encore d'évaluation
Correction T.D. Algorithmique 1ère année
4 pages
Règles d'Association et Itemsets Fréquents
Pas encore d'évaluation
Règles d'Association et Itemsets Fréquents
6 pages
Programmation Logique en Turbo Prolog
Pas encore d'évaluation
Programmation Logique en Turbo Prolog
10 pages
Introduction à l'Intelligence Computationnelle
Pas encore d'évaluation
Introduction à l'Intelligence Computationnelle
146 pages
Entraînement des Réseaux Neuronaux
Pas encore d'évaluation
Entraînement des Réseaux Neuronaux
57 pages
Résolution de Problèmes par Exploration
Pas encore d'évaluation
Résolution de Problèmes par Exploration
175 pages
Classification des données C1 à C4
Pas encore d'évaluation
Classification des données C1 à C4
63 pages
Introduction à SWI-Prolog et IA
Pas encore d'évaluation
Introduction à SWI-Prolog et IA
6 pages
Résolution du TSP et algorithmes associés
Pas encore d'évaluation
Résolution du TSP et algorithmes associés
7 pages
Exercices Corrigés de Régression Logistique
Pas encore d'évaluation
Exercices Corrigés de Régression Logistique
38 pages
Simulation de Réseaux Informatiques
Pas encore d'évaluation
Simulation de Réseaux Informatiques
41 pages
Apprentissage Automatique et Clustering
Pas encore d'évaluation
Apprentissage Automatique et Clustering
63 pages
Cours sur l'Intelligence Artificielle
Pas encore d'évaluation
Cours sur l'Intelligence Artificielle
21 pages
Application du filtre de Bloom
Pas encore d'évaluation
Application du filtre de Bloom
5 pages
Réseaux de Capteurs Sans Fil et OMNeT++
Pas encore d'évaluation
Réseaux de Capteurs Sans Fil et OMNeT++
17 pages
Reconnaissance de Chiffres avec Keras
Pas encore d'évaluation
Reconnaissance de Chiffres avec Keras
23 pages
Apprentissage par renforcement expliqué
Pas encore d'évaluation
Apprentissage par renforcement expliqué
52 pages
Introduction à l'apprentissage par renforcement
Pas encore d'évaluation
Introduction à l'apprentissage par renforcement
8 pages
Introduction aux Bandits Stochastiques
Pas encore d'évaluation
Introduction aux Bandits Stochastiques
15 pages
Stratégies d'Apprentissage par Renforcement
Pas encore d'évaluation
Stratégies d'Apprentissage par Renforcement
51 pages
Modèles de renforcement profond
Pas encore d'évaluation
Modèles de renforcement profond
44 pages
Apprentissage par Renforcement en Micromouse
Pas encore d'évaluation
Apprentissage par Renforcement en Micromouse
4 pages
Apprentissage Par Renforcement
Pas encore d'évaluation
Apprentissage Par Renforcement
15 pages
Apprentissage par Renforcement et IA
Pas encore d'évaluation
Apprentissage par Renforcement et IA
22 pages
Apprentissage par renforcement pour véhicules
Pas encore d'évaluation
Apprentissage par renforcement pour véhicules
30 pages
Introduction à l'Apprentissage par Renforcement
Pas encore d'évaluation
Introduction à l'Apprentissage par Renforcement
33 pages
Certificat d'acceptation du Québec
Pas encore d'évaluation
Certificat d'acceptation du Québec
2 pages
Détails de compte et prélèvements
Pas encore d'évaluation
Détails de compte et prélèvements
114 pages
Maîtrise en IA à l'Université Laval
Pas encore d'évaluation
Maîtrise en IA à l'Université Laval
15 pages
Instructions pour collecte biométrique IRCC
Pas encore d'évaluation
Instructions pour collecte biométrique IRCC
3 pages
Validité des Renseignements Biométriques
Pas encore d'évaluation
Validité des Renseignements Biométriques
2 pages
Projet vidéo et rapport sur RL
Pas encore d'évaluation
Projet vidéo et rapport sur RL
3 pages
Lettre d'introduction permis d'études Canada
100% (1)
Lettre d'introduction permis d'études Canada
2 pages
IFT-7022 : Traitement du Langage Naturel
Pas encore d'évaluation
IFT-7022 : Traitement du Langage Naturel
4 pages
Introduction au forage de données SIO-6003
Pas encore d'évaluation
Introduction au forage de données SIO-6003
26 pages
Rallye Pédestre : Éducation Sécurité Routière
Pas encore d'évaluation
Rallye Pédestre : Éducation Sécurité Routière
8 pages
Cours de Probabilités et Statistiques C.O.P.E.
Pas encore d'évaluation
Cours de Probabilités et Statistiques C.O.P.E.
32 pages
Exercices Corrigés sur la Loi de Poisson
100% (2)
Exercices Corrigés sur la Loi de Poisson
6 pages
Cambriolage informatique à Paris : enquête
Pas encore d'évaluation
Cambriolage informatique à Paris : enquête
1 page
Concours Doctorat 2014 à Médéa
100% (1)
Concours Doctorat 2014 à Médéa
2 pages
Fiche Technique Seance 4 2AC UD3-1
Pas encore d'évaluation
Fiche Technique Seance 4 2AC UD3-1
2 pages
Leçons de français : Découverte de la France
Pas encore d'évaluation
Leçons de français : Découverte de la France
5 pages
Modalités de Contrôle des Connaissances Master 2024-2025
Pas encore d'évaluation
Modalités de Contrôle des Connaissances Master 2024-2025
25 pages
L'Art de Bâtir les Villes selon Sitte
Pas encore d'évaluation
L'Art de Bâtir les Villes selon Sitte
5 pages
Automate Programmable Industriel et GRAFCET
Pas encore d'évaluation
Automate Programmable Industriel et GRAFCET
9 pages
Utilisation du mode subjonctif
Pas encore d'évaluation
Utilisation du mode subjonctif
1 page
Séminaire sur les Problèmes de Modernité
Pas encore d'évaluation
Séminaire sur les Problèmes de Modernité
2 pages
Plan d'urbanisme d'Alasora 2023-2024
Pas encore d'évaluation
Plan d'urbanisme d'Alasora 2023-2024
120 pages
Liberté et responsabilité selon Sartre
Pas encore d'évaluation
Liberté et responsabilité selon Sartre
6 pages
Structure Tache 3 Expression Écrite
Pas encore d'évaluation
Structure Tache 3 Expression Écrite
16 pages
Intégration de la médecine traditionnelle dans les soins de santé
Pas encore d'évaluation
Intégration de la médecine traditionnelle dans les soins de santé
3 pages
Règlement des Études à l'EPHEC
Pas encore d'évaluation
Règlement des Études à l'EPHEC
72 pages
Cadre de Gestion PROGEP Sénégal
Pas encore d'évaluation
Cadre de Gestion PROGEP Sénégal
126 pages
Optimisation sous contraintes : Méthodes et Exemples
Pas encore d'évaluation
Optimisation sous contraintes : Méthodes et Exemples
19 pages
La photographie et la peur fantastique
Pas encore d'évaluation
La photographie et la peur fantastique
50 pages
Analyse des causes des erreurs médicamenteuses
Pas encore d'évaluation
Analyse des causes des erreurs médicamenteuses
5 pages
Activités Mathématiques Cycle 3
Pas encore d'évaluation
Activités Mathématiques Cycle 3
6 pages
Répartition des compétences scolaires 1er trimestre
Pas encore d'évaluation
Répartition des compétences scolaires 1er trimestre
20 pages
Leçon sur la dégradation des sols
Pas encore d'évaluation
Leçon sur la dégradation des sols
11 pages
Ddoc T 2014 0002 Sewonu
Pas encore d'évaluation
Ddoc T 2014 0002 Sewonu
228 pages
Comprendre la violence dans nos sociétés
Pas encore d'évaluation
Comprendre la violence dans nos sociétés
6 pages
Exercices de mathématiques : intégrales et probabilités
Pas encore d'évaluation
Exercices de mathématiques : intégrales et probabilités
2 pages
Guide des Linkers NDS : Choisir le Bon
Pas encore d'évaluation
Guide des Linkers NDS : Choisir le Bon
17 pages
Lettre explicative pour visa étudiant
67% (3)
Lettre explicative pour visa étudiant
6 pages