0% ont trouvé ce document utile (0 vote)

9 vues53 pages

IA pour Équations Différentielles EDO

Ce rapport de stage de Master 2 présente l'application de techniques d'intelligence artificielle à l'étude des équations différentielles autonomes. L'objectif est de retrouver le champ de vecteurs d'une équation différentielle à partir de données de trajectoires, en utilisant des méthodes numériques et des réseaux de neurones pour minimiser une fonction de perte. Le document aborde également des cas linéaires et non linéaires, ainsi que des méthodes d'optimisation pour améliorer la précision des résultats.

Transféré par

rglhou

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

9 vues53 pages

IA pour Équations Différentielles EDO

Transféré par

rglhou

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Master 2 Mathématiques Fondamentales Mars-Juin 2021

Techniques d’intelligence artificielle pour

les équations différentielles autonomes

Stage de Master 2 - Rapport

Stage encadré par Philippe CHARTIER, Mohammed LEMOU et Florian MEHATS

Maxime BOUCHEREAU 1 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

Remerciements
Je remercie Philippe CHARTIER, Mohammed LEMOU et Florian MEHATS pour l’encadrement,
l’aide et les conseils apportés tout au long du stage, mais aussi pour l’intérêt qu’ils m’ont
fait porter pour ce domaine.

Maxime BOUCHEREAU 2 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

Introduction
L’intelligence artificielle, outre l’application à des problèmes complexes tels que le traite-
ment d’image, du signal ou encore la classification des données [1],[2], peut s’appliquer à
l’étude de problèmes d’évolution. En effet, il est possible d’utiliser des techniques d’IA
sur des équations différentielles - voire aux dérivées partielles lorsqu’elles sont discrétisées
en espace - autonomes ẏ = f (y) afin de retrouver le champ de vecteurs f via l’étude de
trajectoires [3],[4] y compris lorsque ces dernières sont perturbées par un bruit [5], afin
d’imiter la trajectoire (discrétisée en temps) d’une solution d’EDO [6] ou lorsque l’on veut
simplifier un modèle physique afin de réduire le coût de calcul [7]

L’objectif de ce stage consiste en l’application de méthodes d’intelligence artificielle

à des équations différentielles, c’est-à-dire que, étant donné une EDO ẏ = f (y), il s’agit
de retrouver le champ de vecteurs f de manière approchée à partir de données sur la
trajectoire de la solution partant d’une donnée initiale y0 , et en connaissant une donnée
”finale” y1 . En réalité, il est nécessaire de connaı̂tre plus d’une trajectoire (donc on se
(k) (k)
donne plusieurs conditions initiales y0 et plusieurs données y1 ) afin de pouvoir calculer
f . C’est là que les méthodes d’IA entrent en jeu, puisque les données sont souvent nom-
breuses. Par ailleurs, f est retrouvé de manière approchée, c’est-à-dire que des méthodes
numériques pour les EDO entrent en jeu [8],[9]. Une part du travail est consacrée à l’étude
de la précision avec laquelle le champ de vecteurs f est retrouvé et le lien avec l’ordre de
la méthode numérique, en particulier lorsque l’on rajoute des points intermédiaires entre
y0 et y1 , permettant d’apporter plus de précision.

La première partie traite de l’introduction des méthodes d’intelligence artificielle pour

l’étude d’EDO. Il y est introduit la définition de fonction de perte Loss, qui mesure l’écart
entre des points de la trajectoire réelle et de la trajectoire calculée par une IA, la notion de
réseaux de neurones, notamment le PMC [2], ainsi que le gradient stochastique, technique
d’optimisation largement employée dans le cadre du stage afin de minimiser la fonction
Loss [1],[10].

La seconde partie se concentre sur le cas linéaire et aborde quatre méthodes numériques
classiques des EDO de petit ordre [8],[9] permettant de retrouver le champ de vecteurs.
Cette partie accorde une place importante à la convexité de la fonction Loss, critère très
apprécié en optimisation.

La troisième partie propose toujours d’étudier l’approximation de f dans le cas linéaire,

en fonction de certaines méthodes numériques mieux adaptées aux algorithmes d’optimisa-
tion que l’on peut trouver dans la littérature [3],[8],[9]

Enfin, la quatrième partie aborde le cas où f n’est plus linéaire, et met en évidence une
nouvelle structure de réseau de neurones [1][7], adaptée à l’étude de systèmes dynamiques
complexes utilisé dans d’autres disciplines comme la physique ou la biologie [3],[7]. Les
méthodes numériques employées reprennent celles utilisées dans le cas linéaire [3],[8],[9].

Maxime BOUCHEREAU 3 Université Rennes 1

Table des matières

1 Intoduction et outils 5
1.1 Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Réseaux de neurones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1 Couche de neurones . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.2 Perceptron Multi-Couche (PMC) . . . . . . . . . . . . . . . . . . . 7
1.3 Algorithme du gradient stochastique (SGD) . . . . . . . . . . . . . . . . . 8

2 Cas linéaire: Première formulation 9

2.1 Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Méthode d’Euler Explicite . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3 Méthode d’Euler Implicite . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4 Méthode du Point Milieu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.5 Méthode de Rung-Kutta 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3 Cas linéaire: Nouvelle formulation et méthodes supplémentaires 24

3.1 Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2 Convexité des fonctions Loss . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3 Méthodes à deux points . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.4 Méthodes Multi-pas (explicites) à pas constant . . . . . . . . . . . . . . . . 30
3.4.1 Ordre de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.4.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.5 Méthodes Multi-pas à pas non constant . . . . . . . . . . . . . . . . . . . . 37
3.5.1 Ordre de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.5.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6 Généralisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.6.1 Ordre de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.6.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4 Cas non linéaire 46

4.1 Structure du réseau de neurones . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2 Ordre de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.2.1 Première formulation . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.2.2 Nouvelle formulation . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4
Partie 1

Intoduction et outils

1.1 Position du problème

Soit f : Rd → Rd un champ de vecteurs continu et localement lipschitzien. Soient h >
0, N ∈ N∗ et t0 = 0 < t1 < · · · < tN = h. On considère le problème de Cauchy suivant:

ẏ = f (y)
y(0) = y0

et on suppose que, pour tout j ∈ [[0, N ]], y tj = φtj (y0 ) est connu, où φ est le flot associé
h
à l’équation différentielle ẏ = f (y).

L’idée du travail réalisé est de retrouver le champ de vecteurs f à partir des données
yj de la solution à différents temps. Concrètement, il s’agit de retrouver le champ de
vecteurs f à partir d’observations sur la trajectoire partant de y0 .
(k)
Bien entendu, plusieurs observations sont menées, à partir de K données initiales y0 ,
(k) (k)
pour k ∈ [[0, K − 1]], donnant ainsi, pour tout j ∈ [[1, N ]], y tj = φtj (y0 ).
h
La stratégie est d’approcher le champ de vecteurs f aussi précisément que possible
afin de pouvoir reconstituer toute la trajectoire. C’est là que les techniques d’IA entrent
en jeu:

Figure 1.1: Illustration de la technique d’IA

- Les données y tj sont entrées dans un réseau de neurones (NN), muni de paramètres.
h

5
Master 2 Mathématiques Fondamentales Mars-Juin 2021

- Il en ressort un champ de vecteurs approché fapp (calculé en fonction des paramètres de

N N ), ainsi qu’une valeur en h prédite de la solution, notée yˆ1 , faisant intervenir fapp au
moyen d’un schéma numérique donné. Par exemple, si on opte pour le schéma d’Euler
explicite, on aura yˆ1 = y0 + hfapp (y0 ).

- On évalue la différence yˆ1 − y1 à l’aide le la fonction de perte (Loss). C’est cette

fonction que l’on va chercher à minimiser en les paramètres du réseau de neurones,
faisant intervenir des méthodes d’optimisation

On dispose de K données, mais on ne les utilise pas toutes afin d’optimiser la fonction
de perte. Une partie seulement le sera (K0 < K données). C’est la phase d’apprentissage
(ou entraı̂nement), qui consiste à minimiser cette fonction:

K0 −1
1 X 1 (k)
2
LossT raining = yˆ1 (k) − y1
K0 k=0 h2

Le reste des données servira à vérifier que les paramètres du réseau de neurones ap-
ˆ(k) (k)
prochent correctement f , et que les autres différences y1 − y1 ne sont pas trop grandes
non plus. C’est la phase de test, qui consiste à vérifier que la fonction suivante n’est pas
trop grande par rapport à la fonction LossT raining :

K−1
1 X 1 (k)
2
LossT est = 2
yˆ1 (k) − y1
K − K0 k=K h
0

Remarque. - Lorsque la fonction LossT est devient trop grande par rapport à LossT raining ,
on dit qu’il y a surapprentissage.

- En notant p ∈]0, 1[ la proportion de données qui servent à l’entraı̂nement, on a K0 =

bpK0 c

1.2 Réseaux de neurones

Dans cette section, nous allons détailler le fonctionnement d’un réseau de neurones, tel
qu’il est utilisé dans le cadre du stage (ce qui ne correspond donc pas au cas général).

1.2.1 Couche de neurones

Une couche de neurones peut être vue comme une application Rd → Rζ qui envoie un
vecteur vers un autre vecteur, et dont les paramètres sont les suivants:

- Une matrice W ∈ Mζ,d (R), appelée matrice poids

- Un vecteur b ∈ Rζ appelé poids du biais (le biais a la valeur 1)

- Une fonction σ : R → R appelée fonction d’activation

On dit que la couche comporte ζ neurones, et voici son fonctionnement:

Maxime BOUCHEREAU 6 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

- On prend un vecteur x ∈ Rd , appelé entrée

- On calcule le vecteur y = W x + b ∈ Rζ

- On calcule le vecteur x0 = Σ(y) ∈ Rζ en appliquant la fonction d’activation σ à chacune

des composantes de y: Σ((y1 , . . . , yζ )T ) = (σ(y1 ), . . . , σ(yζ ))T

- On obtient un vecteur x0 ∈ Rζ , appelée sortie

Figure 1.2: Illustration du fonctionnement de la couche de neurones

Remarque. Pour tout j ∈ [[1, ζ]], le vecteur (wj,1 , . . . , wj,d ) ∈ Rd est appelé poids du
neurone j.

1.2.2 Perceptron Multi-Couche (PMC)

Un PMC est un type de réseau de neurones utilisé dans le cadre du stage. Il se compose
d’une succession de couches dans lesquelles la sortie de la j-ème couche correspond à
l’entrée de la (j + 1)-ème couche:

Figure 1.3: Illustration du fonctionnement d’un PMC comportant J couches de neurones,

l’entrée, la sortie et le poids du biais associés à la couche j sont respectivement notés x(j) ,
x0(j) et b(j)

Dans le cadre du stage, en notant W (j) la matrice poids associée à la couche j, nous
obtenons une fonction Loss qui dépendra des paramètres W (1) ,...,W (J) ,b(1) ,...,b(J) . La
stratégie est d’optimiser en ces paramètres.

Maxime BOUCHEREAU 7 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

1.3 Algorithme du gradient stochastique (SGD)

On cherche à minimiser la fonction en les paramètres du réseau de neurones, que l’on note
W:

K0 −1
1 X
LossT raining (W ) = L(W, k)
K0 k=0

2
1 ˆ(k) (k)
où L(W, k) = h2
y1 − y1 .

On se donne un réel α > 0, appelé taux d’apprentissage (learning rate en anglais).

L’algorithme du gradient stochastique est donné par la boucle suivante, et s’effectue en
un nombre d’itérations que l’on note Niter :

(W )0 est choisi au hasard

Pour tout t ∈ [[0, Niter − 1]]:

- it ∼ U([[0, K0 − 1]])
- (W )t+1 = (W )t − α∇L((W )t , it )

Cet algorithme présente l’avantage de ne pas avoir à calculer le gradient de LossT raining
à chaque itération, ce qui serait coûteux, en particulier lorsque K0 devient grand, ce qui
est le cas lorsque nous avons beaucoup de données, tout en assurant de descendre dans
suffisamment de directions afin de faire converger l’algorithme.

Remarques. - Dans le cadre du stage, il a été observé que l’algorithme converge si les
fonctions L(·, k) sont (strictement) convexes sur le domaine sur lequel se trouvent les
(W )t .

- Il existe des variantes de l’algorithme SGD. Par exemple, il est possible de calculer la
moyenne de plusieurs gradients de fonctions L(·, k) à chaque itération (petits lots), ou
bien de faire décroı̂tre le taux d’apprentissage au cours des itérations.

Maxime BOUCHEREAU 8 Université Rennes 1

Partie 2

Cas linéaire: Première formulation

2.1 Position du problème

Dans cette partie, on va se restreindre au cas linéaire, i.e. de la forme:

ẏ = Ay
y(0) = y0
où A ∈ Md (R)

Par ailleurs, on considèrera que N = 1, c’est-à-dire que l’on connaı̂t la solution du

(k) (k)
problème de Cauchy qu’en t = 0 et t = h, cette dernière étant donnée par: y1 = ehA y0 .

Ainsi, on utilise un réseau neuronal comportant une couche de d neurones, sans biais,
ce qui se traduit par une matrice poids W ∈ Md (R). Ainsi, nous avons:

ˆ(k) (k0)
y1 = Ah y0
où Ah est la matrice d’itération, qui dépend du schéma numérique employé:
- Pour la méthode d’Euler Explicite, on a:

Ah = Id + hW

donnant ainsi:

1 (k) 2
L(W, k) = Id + hW − ehA y0
h2
- Pour la méthode d’Euler Implicite, on a:

Ah = (Id − hW )−1

donnant ainsi:

1 (k) 2
L(W, k) = (Id − hW )−1 − ehA y0
h2

9
Master 2 Mathématiques Fondamentales Mars-Juin 2021

- Pour la méthode du Point Milieu, on a:

−1
h h
Ah = Id − W Id + W
2 2

donnant ainsi:

−1 ! 2
1 h h hA (k)
L(W, k) = 2 Id − W Id + W −e y0
h 2 2

- Pour la méthode de Runge-Kutta 2, on a:

h2 2
Ah = Id + hW + W
2
donnant ainsi:

2
h2 2

1 hA (k)
L(W, k) = 2 Id + hW + W − e y0
h 2

Remarque. Si on écrit une fonction Loss de la façon suivante:

1 (k)
2
L(W, k) = 2
M y0
h
alors la condition pour que LossT raining (W ) = 0 ⇔ M = 0 (minimisant ainsi la Loss)
(k)
est d’avoir d données y0 linéairement indépendantes. Ainsi, peu de données suffisent
dans le cas linéaire.

2.2 Méthode d’Euler Explicite

Proposition (Fonction Loss - Méthode d’Euler Explicite)
Soit k ∈ [[0, K − 1]]. La fonction
1 (k) 2
L(·, k) : W 7→2
Id + hW − ehA y0
h
est convexe sur Md (R) et est presque partout strictement convexe sur Md (R).

Démonstration. L(·, k) est une forme quadratique en W , donc est une application régulière.
Tout d’abord, calculons la différentielle de L(·, k). Soient W, H ∈ Md (R):

1 (k) 2
L(W + H, k) = Id + h(W + H) − ehA y0
h2
1 (k) 2 2 (k) (k) (k)
2
= 2 Id + hW − ehA y0 + h Id + hW − ehA y0 |Hy0 i + Hy0
h h

Maxime BOUCHEREAU 10 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

Donc, on retient le terme linéaire en H pour obtenir la différentielle (le terme restant
est un terme quadratique):
2 (k) (k)
dL(W, k) : H 7→ h Id + hW − ehA y0 |Hy0 i
h
- Tout d’abord, montrons la convexité. Soient W1 , W2 ∈ Md (R):

1 (k) 2
L(W1 , k) + dL(W1 , k) · (W2 − W1 ) = Id + hW1 − ehA y0
h2
2 (k) (k)
+ h Id + hW1 − ehA y0 |(W2 − W1 )y0 i
h
1 (k) 2
6 2 Id + hW1 − ehA y0
h
2 (k) (k)
+ h Id + hW1 − ehA y0 |(W2 − W1 )y0 i
h
2
(k)
+ (W2 − W1 )y0
1 (k) (k)
2
6 2
Id + hW1 − ehA y0 + h(W2 − W1 )y0
h
1 (k) 2
6 2 Id + hW2 − ehA y0
h
6 L(W2 , k)

Donc L(·, k) est convexe sur Md (R).

- Montrons la stricte convexité presque partout sur Md (R).

Cette propriété se montre en reprenant le raisonnement précédent, et en utilisant le fait

(k)
que, pour presque tous W1 , W2 ∈ Md (R), y0 ∈ Rd :

2
(k)
(W2 − W1 )y0 > 0

puisque les matrices non inversibles sont de mesure nulle dans Md (R) (pour la mesure
(k)
de Lebesgue), et que y0 6= 0 presque partout sur Rd . Ainsi, on a, pour presque tous
(k)
W1 , W2 ∈ Md (R), y0 ∈ Rd :

L(W1 , k) + dL(W1 , k) · (W2 − W1 ) < L(W2 , k)

ce qui montre la stricte convexité presque partout sur Md (R)

La stricte convexité presque partout fournit l’existence d’au plus un minimiseur WM in

qui annule la fonction L(·, k), et à fortiori LossT raining , cette matrice étant la matrice
recherchée pour approximer A.

Maxime BOUCHEREAU 11 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

Proposition (Méthode d’Euler Explicite - Ordre de convergence)

L’apprentissage pour la méthode d’Euler Explicite est d’ordre 1:

WM in = A + O(h)
h→0

Démonstration. On rappelle que:

1 (k) 2
L(W, k) = Id + hW − ehA y0
h2
On a:

ehA − Id
WM in =
h
On fait un développement limité à l’ordre 2:

1
Id + hA + O(h2 ) − Id

WM in =
h→0 h
WM in = A + O(h)
h→0

Figure 2.1: Courbe de convergence en échelle log-log pour la méthode d’Euler Explicite,
obtenue avec une matrice A prise au hasard dans Md ([−10, 10]) dans le cas d = 2,
Niter = 500 et α = 10−3

Maxime BOUCHEREAU 12 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

2.3 Méthode d’Euler Implicite

Proposition (Fonction Loss - Méthode d’Euler Implicite en dimension 1)
(k)
Soit R > 0. Soient k ∈ [[0, K − 1]] et y0 =6 0. La fonction
2
1 1 hA (k)2
L(·, k) : W 7→ 2 −e y0
h 1 − hW
est strictement convexe sur [−R, R] dès que h est assez petit.

Démonstration. On a, pour tout W ∈ R\ h1

2
1 1 hA (k)2
L(W, k) = 2 −e y0
h 1 − hW
Cette fonction est deux fois différentiable sur R\ h1 et on a:

∂L 2 1 hA (k)2
(W, k) = 2
−e y0
∂W h(1 − hW ) 1 − hW
2

∂ L 2 2 hA (k)2
(W, k) = − e y 0
∂W 2 (1 − hW )3 1 − hW
Prenons h < R1 . Soit W ∈ [−R, R]. On a W 6 R < h1 , donc 1
1−hW
> 0. Donc L(·, k)
est strictement convexe si et seulement si:

2
− ehA > 0
1 − hW
(stricte positivité de la dérivée seconde). Or, nous avons:

2
− ehA > 0 ⇔ 1 − hW < 2e−hA
1 − hW
⇔ 2e−hA + hW − 1 > 0
Or, un développement limité en h assure que:

2e−hA + hW − 1 = 2(1 − hA) + hW − 1 + O(h2 )

h→0
= 1 + h(W − 2A) + O(h2 )
h→0

Donc, si h est assez petit, on a:

2e−hA + hW − 1 > 0
Donc L(·, k) est strictement convexe sur [−R, R].

Étudions maintenant une matrice WM in telle que LossT raining (WM in ) = 0:

Maxime BOUCHEREAU 13 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

Proposition (Méthode d’Euler Implicite - Ordre de convergence)

L’apprentissage pour la méthode d’Euler Implicite est d’ordre 1:

WM in = A + O(h)
h→0

Démonstration. On rappelle que:

1 (k) 2
L(W, k) = (Id − hW )−1 − ehA y0
h2

On a comme unique possibilité pour WM in :

Id − e−hA
WM in =
h

On fait un développement limité à l’ordre 2:

1
Id − Id + hA + O(h2 )

WM in =
h→0 h
WM in = A + O(h)
h→0

1
Remarque. En dimension 1, le point critique de L(·, k) vérifie 1−hW
− ehA = 0. donc, au
voisinage de ce point critique:

(k)2
∂ 2L 2y0 1
2
(W, k) = 3
·
∂W (1 − hW ) 1 − hW
(k)2
2y0
=
(1 − hW )4
> 0

donc on y a de la convexité stricte, la convergence vers ce point critique, minimiseur

via la méthode du gradient y est garantie. De façon plus générale, en partant d’un point
quelconque, la méthode de gradient va converger vers le point critique, et ce grâce à la
convexité sur tout segment lorsque h est assez petit.

Maxime BOUCHEREAU 14 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

Figure 2.2: Courbe de convergence en échelle log-log pour la méthode d’Euler Implicite,
obtenue avec une matrice A prise au hasard dans Md ([−10, 10]) dans le cas d = 2,
Niter = 500 et α = 10−3

2.4 Méthode du Point Milieu

Proposition (Fonction Loss - Méthode du Point Milieu en dimension 1)
(k)
Soit R > 0. Soient k ∈ [[0, K − 1]] et y0 6= 0. La fonction
!2
1 1 + h2 W hA
2
(k)
L(·, k) : W 7→ 2 h
− e y0
h 1 − 2W
est strictement convexe sur [−R, R] dès que h est assez petit.
2
Démonstration. On a, pour tout W ∈ R\ h
:

!2
1 1 + h2 W
(k)
2
L(W, k) = 2 − ehA y0
h 1 − h2 W
2
Cette fonction est deux fois différentiable sur R\ h
et on a:

!
∂L 2 1 + h2 W hA
2
(k)
(W, k) = 2 h
−e y0
∂W h
h 1 − 2W 1 − 2W
!
∂ 2L 2 2
(k) 2 1 + h2 W hA
2
(k)
2
(W, k) = 2 y0 + 3 h
−e y0
∂W h
1 − 2W h
1 − 2W 1 − 2W

Pour tout W 6= h2 :

Maxime BOUCHEREAU 15 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

2 !
∂ 2L

2 h h h 2
(k)
(W, k) = 4 1 − W + 1 + W − 1 − W ehA y0
∂W 2 1 − h2 W 2 2 2

2
Si h < R
, alors W 6 R < h2 , donc 1
h 4 > 0. Donc L(·, k) est strictement convexe
( 2 W)
1−
si et seulement si:

2
h h h
1− W + 1 + W − 1 − W ehA > 0
2 2 2

(stricte positivité de la dérivée seconde).

On fait un développement limité au voisinage de h = 0:

2
h h h h
1 − W + 1 + W − 1 − W ehA = 1 − hW + 1 + W + O(h2 )
2 2 2 h→0 2

h
1 − W 1 + hA + O(h2 )

−
2
2
h h h h h
1− W +1+ W − 1− W ehA = 2 − W − 1 + W − hA + O(h2 )
2 2 2 h→0 2 2
2
h h h
1− W +1+ W − 1− W ehA = 1 − hA + O(h2 )
2 2 2 h→0

Donc, si h est assez petit:

2
h h h
1− W + 1 + W − 1 − W ehA > 0
2 2 2

Donc L(·, k) est strictement convexe sur [−R, R].

On s’intéresse à une matrice WM in qui minimise LossT raining en l’annulant.

Proposition (Méthode du Point Milieu - Ordre de convergence)

L’apprentissage pour la méthode du Point Milieu est d’ordre 2:

WM in = A + O(h2 )
h→0

Démonstration. On rappelle que:

−1 ! 2
1 h h (k)
L(W, k) = 2 Id − W Id + W − ehA y0
h 2 2

Maxime BOUCHEREAU 16 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

On a ainsi:

−1
h h
Id − WM in Id + WM in = ehA
2 2

On applique le logarithme matriciel:

( −1 )
h h
hA = log Id − WM in Id + WM in
2 2

On utilise les propriétés du logarithme (valables pour les matrices):

1 h h
A = log Id + WM in − log Id − WM in
h 2 2

On fait un développement limité à l’ordre 3:

( 2 2 !)
1 h 1 h h 1 h
A = WM in − WM in + O(h3 ) − − WM in − − WM in + O(h3 )
h→0 h 2 2 2 2 2 2
1
= hWM in + O(h3 )
h→0 h
= WM in + O(h2 )
h→0

Donc on a:

WM in = A + O(h2 )
h→0

1+ h W
Remarque. En dimension 1, le point critique de L(·, k) vérifie 2
1− h W
− ehA = 0. donc, au
2
voisinage de ce point critique:

(k)2
∂ 2L 2y0
(W, k) = 2
∂W 2 1 − h2 W
> 0

Donc on y a de la stricte convexité, ce qui garantit la convergence de la méthode de

gradient vers ce point critique. De façon plus générale, en partant d’un point quelconque,
la méthode de gradient va converger vers le point critique, et ce grâce à la convexité sur
tout segment lorsque h est assez petit.

Maxime BOUCHEREAU 17 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

Figure 2.3: Courbe de convergence en échelle log-log pour la méthode du Point Milieu,
obtenue avec une matrice A prise au hasard dans Md ([−10, 10]) dans le cas d = 2,
Niter = 500 et α = 10−3

2.5 Méthode de Rung-Kutta 2

Proposition (Fonction Loss - Méthode de Runge-Kutta 2 en dimension 1)
(k)
Soient k ∈ [[0, K − 1]] et y0 6= 0. La fonction
2
h2 2

1 hA (k)2
L(·, k) : W →
7 1 + hW + W − e y0
h2 2
1
est strictement convexe sur R si et seulement si A < 0 et h > |A|
log(2)

Démonstration. On a, pour tout W ∈ R:

2
h2 2

1 hA (k)
2
L(W, k) = 2 1 + hW + W − e y0
h 2

Cette fonction est deux fois différentiable sur R et on a:

h2 2

∂L 2 hA (k)
2
(W, k) = (1 + hW ) 1 + hW + W − e y0
∂W h 2
2

∂ L hA 3 2 2 (k) 2
(W, k) = 2 2 − e + 3hW + h W y0
∂W 2 2

3 2 1 hA (k)
2
= 2 (1 + hW ) + − e y0
2 2

Maxime BOUCHEREAU 18 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

Une condition nécéssaire et suffisante de stricte convexité est que, pour tout W ∈ R,
∂2L
∂W 2
(W, k) > 0, i.e. ∆ < 0, où ∆ est le discriminant associé à la fonction polynomiale de
∂2L
degré 2 ∂W 2 (·, k). ∆ est donné par:

(k)4
∆ = 12h2 y0 2ehA − 1

Donc:

∂ 2L
(·, k) > 0 sur R ⇔ ∆ < 0
∂W 2
⇔ 2ehA − 1 < 0
⇔ hA < − log(2)

- Si A > 0, c’est impossible

log(2)
- Si A < 0, h > |A|

Remarque. Ce résultat nécéssite de ne pas prendre h trop petit et on n’a pas de convexité
globale quand A > 0

Proposition (Fonction Loss - Méthode de Runge-Kutta 2 en dimension 1)

(k)
Soit R > 0. Soient k ∈ [[0, K − 1]] et y0 6= 0. Si on a:

1 1 1 5
h < min 1− √ , log
R 2 |A| 4

alors la fonction:
2
h2 2

1 hA (k)
2
L(·, k) : W →
7 1 + hW + W − e y0
h2 2
est strictement convexe sur [−R, +∞[.

1
log 45 donc ehA 6 eh|A| < 54 , soit 21 − ehA > − 34

Démonstration. - h < |A|

1 1
- De plus, si h 6 R 1 − 2 , alors, pour tout W ∈ [−R, 0[:
√

1 1 1 1
h6 1− √ = √ −1
|W | 2 W 2

1 1
h 6 1− √
|W | 2

1 1
h 6 √ −1
W 2

Maxime BOUCHEREAU 19 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

Donc hW > √1 − 1 i.e. 1 + hW > √1 . Ainsi, on a:

2 2

1
(1 + hW )2 >
2

Donc, pour tout W ∈ [−R, 0[:

 

∂ 2L 3
2 1 
hA 
(W, k) = 2 (1 + hW ) + − e >0

∂W 2  2 | {z } |2 {z }

1
>2
>− 34

Donc L(·, k) est strictement convexe sur [−R, 0[.

1
log 54 6 |A|
1 1

- Enfin, h < |A| log (2) donc hA 6 h|A| < log(2) i.e. ehA < 2 soit 2
− ehA >
− 23 .
Donc, si W > 0:
 

∂ 2L 3
2 1 
hA 
(W, k) = 2 (1 + hW ) + − e >0

∂W 2  2 | {z } |2 {z }

>1
>− 32

Donc L(·, k) est strictement convexe sur [0, +∞[.

Donc L(·, k) est strictement convexe sur [−R, +∞[.

Figure 2.4: Lorsque h n’est pas assez petit, l’algorithme du gradient stochastique donne
la convergence vers le mauvais minimiseur de la Loss

Maxime BOUCHEREAU 20 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

Figure 2.5: Lorsque h est suffisamment petit, l’algorithme du gradient stochastique donne
la convergence vers le bon minimiseur de la Loss, et ce grâce à la convexité.

Proposition (Fonction Loss - Méthode de Runge-Kutta 2 en dimension supérieure)

(k)
Soit R > 0. Soient k ∈ [[0, K − 1]] et y0 6= 0. La fonction
2
1 h2 2 (k)2
L(·, k) : W 7→ 2
Id + hW + W − ehA y0
h 2
est convexe sur B||·|| (0, R) où || · || est une norme matricielle quelconque.

Démonstration. On a, pour tout W ∈ Md (R):

T
h2 2 h2 2

1 (k)T hA hA (k)
L(W, k) = y Id + hW + W − e Id + hW + W − e y0
h2 0 2 2
1 (k)T 2 T
2
(k)
= y h(W − A) + O(h ) h(W − A) + O(h ) y0
h→0 h2 0
2
(k)
= (W − A)y0 + O(h)
h→0

Donc, si h est assez petit, L(·, k) ressemble à une forme quadratique en W → 0d , donc
on a de la convexité autour de cette matrice.

On s’intéresse à une matrice WM in qui minimise LossT raining en l’annulant.

Proposition (Méthode de Runge-Kutta 2 - Ordre de convergence)

L’apprentissage pour la méthode de Runge-Kutta 2 est d’ordre 2:

WM in = A + O(h2 )
h→0

Maxime BOUCHEREAU 21 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

Démonstration. On rappelle que:

2
h2 2

1 hA (k)
L(W, k) = 2 Id + hW + W − e y0
h 2

On a ainsi:

h2 2
Id + hWM in + WM in = ehA
2
On applique le logarithme matriciel:

h2 2

hA = log Id + hWM in + WM in
2
h2 2

1
A = log Id + hWM in + WM in
h 2

On fait un développement limité à l’ordre 3:

( 2 )
2 2

1 h 2 1 h 2
A = hWM in + WM in − hWM in + WM in + O(h3 )
h→0 h 2 2 2
h2 2 h2 2 h3 3 h4 4

1 3
= hWM in + WM in − WM in − WM in − WM in + O(h )
h→0 h 2 2 2 8
1
= hWM in + O(h3 )
h→0 h
= WM in + O(h2 )
h→0

Donc on a:

WM in = A + O(h2 )
h→0

Remarque. En dimension 1, le point critique de L(·, k) vérifie 1 + hW + 21 h2 W 2 − ehA = 0

i.e. 21 [1 + (1 + hW )2 ] = ehA donc, au voisinage de ce point critique:

∂ 2L (k)2
(W, k) = 2y 0 (1 + hW )2 > 0
∂W 2
Donc on y a de la stricte convexité, ce qui garantit la convergence de la méthode de
gradient vers ce point critique. De façon plus générale, en partant d’un point quelconque,
la méthode de gradient va converger vers le point critique, et ce grâce à la convexité sur
tout segment lorsque h est assez petit.

Maxime BOUCHEREAU 22 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

Figure 2.6: Courbe de convergence en échelle log-log pour la méthode de Runge-Kutta

2, obtenue avec une matrice A prise au hasard dans Md ([−10, 10]) dans le cas d = 2,
Niter = 500 et α = 10−3

Maxime BOUCHEREAU 23 Université Rennes 1

Partie 3

Cas linéaire: Nouvelle formulation et

méthodes supplémentaires

3.1 Position du problème

Dans cette partie, on va toujours se restreindre au cas linéaire:

ẏ = Ay
y(0) = y0
où A ∈ Md (R)

En revanche, on considèrera que N > 1 quelconque, c’est-à-dire que l’on connaı̂t la

solution du problème de Cauchy en des temps 0 = t0 < t1 < . . . < tN = h, i.e. on connaı̂t
(k) (k)
la solution en des points intermédiaires, cette dernière étant donnée par: y tj = etj A y0 .
h

Ainsi, on utilise toujours un réseau neuronal comportant une couche de d neurones,

sans biais, ce qui se traduit par une matrice poids W ∈ Md (R). Cependant, nous allons
considérer ces formes pour le vecteur yˆ1 (k) :

N
X N
X
(k) (k) (k)
yˆ1 = αj y t j + W βj hj y tj (3.1)
h h
j=0 j=0

avec h0 + · · · + hn = h. Ainsi, la fonction L(·, k) est donnée, pour tout W ∈ Md (R) par:

N N 2
1 X (k) (k)
X (k)
L(W, k) = 2 αj y tj − y1 + W βj hj y tj
h j=0 h
j=0 h

- Pour la méthode d’Euler Explicite, on a:

(k) (k)
yˆ1 (k) = y0 + hW y0

donnant ainsi:

1 (k) 2
L(W, k) = Id + hW − ehA y0
h2

24
Master 2 Mathématiques Fondamentales Mars-Juin 2021

- Pour la méthode d’Euler Implicite, on a:

(k) (k)
yˆ1 (k) = y0 + hW y1

donnant ainsi:

1 (k) 2
L(W, k) = (Id − hW )ehA − Id y0
h2

- Pour la méthode du Point Milieu, on a:

(k) h (k) (k)

yˆ1 (k) = y0 + W y0 + y1
2

donnant ainsi:

2
1 hA h hA (k)
L(W, k) = 2 e − Id − W (Id + e ) y0
h 2

3.2 Convexité des fonctions Loss

(k)
L’écriture de y1 sous la forme (3.1) permet d’obtenir une fonction L(·, k) sous la forme
d’une forme quadratique en W :

1 (k) 2
L(W, k) = u + W v (k)
h2

Proposition (Fonction Loss - Forme quadratique en W )

Soit k ∈ [[0, K − 1]]. La fonction
1 (k) 2
L(·, k) : W 7→
2
u + W v (k)
h
est convexe sur Md (R) et est presque partout strictement convexe sur Md (R).

Démonstration. Cette propriété se montre de la même manière que pour la fonction Loss
associée à la méthode d’Euler Explicite dans la partie précédente, en utilisant la différen-
tielle de la fonction.

Remarque. Dans la plupart des cas rencontrés, la fonction Loss s’écrit sous la forme:

1 (k) (k)
2
L(W, k) = 2
By0 + W Cy0
h

Maxime BOUCHEREAU 25 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

où B, C ∈ Md (R). Ainsi, la propriété précédente de stricte convexité donne l’existence

d’au plus un minimiseur, que l’on peut expliciter, dans le cas où la matrice C est inversible,
par:

WM in = −BC −1

car ce minimiseur annule la fonction L(·, k).

3.3 Méthodes à deux points

(k) (k)
Dans cette sous-partie, on suppose que seules y0 et y1 sont données (N = 1). On peut
en déduire les trois méthodes principales: Euler Explicite, Euler Implicite et Point Milieu.

Proposition (Méthodes d’Euler et du Point Milieu - Ordres de convergence)

- L’apprentissage pour la méthode d’Euler Explicite est d’ordre 1:

WM in = A + O(h)
h→0

- L’apprentissage pour la méthode d’Euler Implicite est d’ordre 1:

WM in = A + O(h)
h→0

- L’apprentissage pour la méthode du Point Milieu est d’ordre 2:

WM in = A + O(h2 )
h→0

Démonstration. - Pour la méthode d’Euler Explicite, on raisonne comme dans la propo-

sition de la partie précédente.

- Pour la méthode d’Euler Implicite, même si la Loss est différente, on a toujours:

Id − ehA
WM in =
h

et un développement limité à l’ordre 2 donne le résultat souhaité, comme dans la partie

précédente

- Pour la méthode du Point Milieu, on a:

2
WM in = (Id + ehA )−1 (ehA − Id )
h

Maxime BOUCHEREAU 26 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

qui annule L(·, k). On fait un développement limité à l’ordre 3:

−1
h2 2 h2 2

2 3 3
Wmin = 2Id + hA + A + O(h ) hA + A + O(h )
h→0 h 2 2
−1
h2 2 h2 2

1 h 3 3
= Id + A + A + O(h ) hA + A + O(h )
h→0 h 2 4 2
" #
2
h2 2 h2 2 h2 2

1 h h 3 3
= Id − A − A + A+ A + O(h ) hA + A + O(h )
h→0 h 2 4 2 4 2
h2

1 h
= Id − A + O(h3 ) hA + A2 + O(h3 )
h→0 h 2 2
2 2

1 h 2 h 2 3
= hA − A + A + O(h )
h→0 h 2 2
1
hA + O(h3 )

=
h→0 h
= A + O(h2 )
h→0

Figure 3.1: Courbe de convergence en échelle log-log pour la méthode d’Euler Implicite
(Loss convexe), obtenue avec une matrice A prise au hasard dans Md ([−10, 10]) dans le
cas d = 2, Niter = 500 et α = 10−3

Maxime BOUCHEREAU 27 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

Figure 3.2: Courbe de convergence en échelle log-log pour la méthode du Point Milieu
(Loss convexe), obtenue avec une matrice A prise au hasard dans Md ([−10, 10]) dans le
cas d = 2, Niter = 500 et α = 10−3

La proposition suivante donne l’odre maximal que l’on peut atteindre avec la forme
(3.1) pour yˆ1 (k) :

Proposition (Ordre de convergence maximal avec deux points)

Si on prend yˆ1 (k) de la forme:

(k) (k) (k) (k)
yˆ1 (k) = α0 y0 + α1 y1 + hW β0 y0 + β1 y1

Alors, l’apprentissage est, au mieux, d’ordre 2.

Démonstration. On a, pour tout k ∈ [[0, K − 1]]:

1 (k) 2
L(W, k) = 2
α0 Id + (α1 − 1)ehA + hW β0 Id + β1 ehA y0
h
On a ainsi:

1 −1
β0 Id + β1 ehA α0 Id + (α1 − 1)ehA

WM in = −
h
1
∼ − [(β0 + β1 )Id + β1 hA]−1 [(α0 + α1 − 1)Id + (α1 − 1)hA] (3.2)
h→0 h
On doit avoir α0 + α1 = 1 pour que le troisième facteur de (3.2) soit en O(h) et
”compense” le premier facteur en h1 . on a ainsi:

α0 β1 2 α0
WM in ∼ Id − hA + O(h ) A ∼ A
h→0 β0 + β1 β0 + β1 h→0 β0 + β1

Maxime BOUCHEREAU 28 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

On doit avoir α0 = β0 + β1 . L’objectif est de monter en ordre. Comme on a:

α0 + α1 = 1
β0 + β1 = α0
On obtient:

1 −1
β0 Id + β1 ehA α0 Id − α0 ehA

WM in = −
h
On fait un développement limité à l’ordre 4:

−1
h2 2 h3 3

4
WM in = (β0 + β1 )Id + β1 hA + β1 A + β1 A + O(h )
h→0 2 6
2 3

h 2 h 3 h 4 4
· α0 A + A + A + A + O(h )
2 6 24
α0
En posant b = β0 +β1
, on a:

−1
h2 2 h3 3

α0 4
WM in = Id + b hA + A + A + O(h )
h→0 β0 + β1 2 6
2 3

h 2 h 3 h 4 4
· A + β1 A + A + A + O(h )
2 6 24
−1
h2 2 h3 3

4
WM in = Id + b hA + A + A + O(h )
h→0 2 6
2 3

h 2 h 3 h 4 4
· A + A + A + A + O(h )
2 6 24
En écrivant WM in sous forme d’une série de Taylor, on a, à l’ordre 4:

1 2 2 1
Wmin = A+ − b hA + b − b + h2 A3
h→0 2 6

3 3 2 7 1
+ −b + b − b + h3 A4 + O(h4 )
2 12 24
Si on veut de l’ordre 2, on doit avoir b = 21 , et les conditions pour avoir de l’ordre 2
sont:
 
 α0 + α1 = 1  α0 = 2β0
β0 + β1 = α 0 ⇔ α0 + β1 = α0
β0 = β1 β1 = β0
 

Ce qui correspond à la méthode du Point Milieu.

En plus de ces conditions, si on veut avoir de l’ordre 3, on doit avoir:

1
b2 − b + = 0
6
ce qui est impossible avec b = 21 , donc on ne peut pas monter en ordre.

Maxime BOUCHEREAU 29 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

Remarques. - si α0 + α1 − 1 = α1 − 1 = 0, alors (α0 , α1 ) = (0, 1):

(k) (k) (k)
yˆ1 (k) = y1 + hW β0 y0 + β1 y1

1
(k) (k)
2
L(W, k) = hW β y
0 0 + β y
1 1
h2
Donc WM in = 0, ce qui n’approche pas forcément A
- Si β0 + β1 = 0 et α0 + α1 = 1, alors, dans l’expression (3.2), on a:

1 − α1
WM in = Id + O(1) si β1 6= 0
h→0 hβ1
α0
= Id + O(1)
h→0 hβ1

Cela impose α0 = 0, donc α1 = 1, et on se ramène au cas précédent, et si β1 = 0, alors

β0 = 0 et yˆ1 (k) ne dépend pas de W .

3.4 Méthodes Multi-pas (explicites) à pas constant

3.4.1 Ordre de convergence
jh
On suppose que, pour tout j ∈ [[0, N ]], tj = N
, et que la solution y est connue en les
points tj , i.e. pour tout k ∈ [[0, K − 1]]:

(k) j (k)
yj = e N A y0
N

Posons alors:

N −1 N −1
ˆ(k) X (k) h X (k)
y1 = αi y1− i+1 + W βi y1− i+1
i=0
N N i=0
N

On obtient ainsi:

N −1 N −1 2
1 X (k) (k) h X (k)
L(W, k) = 2 αi y1− i+1 − y1 + W βi y1− i+1
h i=0 N N i=0
N

et, comme minimiseur:

N −1
!−1 N −1
!
N X N −i−1
hA
X N −i−1
hA
WM in = − βi e N αi e N − ehA
h i=0 i=0

Maxime BOUCHEREAU 30 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

Proposition (Méthode Multi-pas à pas constant - Ordre de convergence)

Si on a:

-
N
X −1
αi = 1
i=0

- Pour tout q ∈ [[1, p]]:

N
X −1
iq αi − qiq−1 βi = (−1)q
i=0

Alors:

WM in = A + O(hp )
h→0

Démonstration. On a:

N −1
!−1 N −1
!
N X N −i−1
hA
X −i
hA hA
WM in = − βi e N αi e N −e
h i=0 i=0
N −1
!−1 (N −1 )!
N N −1
hA
X
− Ni hA N −1
hA
X
− Ni hA h
A
WM in = − e N βi e e N αi e −e N
h i=0 i=0

N −1
hA
Les matrices commutent (polynômes en A), donc on peut simplifier par e N :

N −1
!−1 N −1
!
N X N −i−1
hA
X −i
hA h
A
WM in = − βi e N αi e N −e N
h i=0 i=0

On fait un développement limité à l’ordre p du numérateur et du dénominateur:

N p
−1 q q !−1
N X
X i h
WM in = − βi − A + O(hp+1 )
h→0 h i=0 q=0 N q!
−1 Xp
N q q !
X i 1
· αi − A − A hq + O(hq+1 )
i=0 q=0
N N
p q "N −1
# !−1
N X1 A X
= − (−i)q βi hq + O(hp+1 )
h→0 h q=0 q! N i=0
p
"N −1 # !
X1 A q X
q q p+1
· (−i) αi − 1 h + O(h )
q=0
q! N i=0

Maxime BOUCHEREAU 31 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

Dans le deuxième facteur, on sépare la somme en deux parties: un premier terme pour
q = 0 et un second terme pour q allant de 1 à p:

p q "N −1
# !−1
X 1 A X
WM in = −N (−i)q βi hq + O(hp+1 )
h→0
q=0
q! N i=0
−1 p q "N −1
N
# !
1X 1 X1 A X
· αi − + (−i)q αi − 1 hq−1 + O(hp )
h i=0 h q=1 q! N i=0
p q N " −1
# !−1 N −1
!
N X1 A X X
= − (−i)q βi hq + O(hp+1 ) · αi − 1
h→0 h q=0 q! N i=0 i=0
p q "N −1
# !−1
X 1 A X
− N (−i)q βi hq + O(hp+1 )
q=0
q! N i=0
p
" −1 # !
q−1 N
A X1 A X
· (−i)q αi − 1 hq−1 + O(hp )
N q=1 q! N i=0

à la dernière ligne, on fait le changement d’indice q 7→ q − 1 dans la somme:

p q "N −1
# !−1 N −1
!
N X 1 A X X
WM in = − (−i)q βi hq + O(hp+1 ) · αi − 1
h→0 h q=0
q! N i=0 i=0
p−1 q " N −1
# !−1
X 1 A X
+ A − (−i)q βi hq + O(hp )
q=0
q! N i=0
p−1
"N −1 # !
X1 A q
1 X
q+1 q p
· (−i) αi − 1 h + O(h )
q=0
q! N q + 1 i=0

Donc, si on a ces conditions:

-
N
X −1
αi − 1 = 0
i=0

- Pour tout q ∈ [[0, p − 1]]:

−1 −1
N N
!
X 1 X
− (−i)q βi = (−i)q+1 αi − 1
i=0
q+1 i=0

Alors on a:

WM in = A (Id + O(hp ))
h→0
WM in = A + O(hp )
h→0

Maxime BOUCHEREAU 32 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

en particulier, la deuxième condition est équivalente à:

−1 −1
N N
!
X 1 X
∀q ∈ [[1, q]], − (−i)q−1 βi = (−i)q αi − 1
i=0
q i=0

N
X −1
⇔ ∀q ∈ [[1, q]], (−1)q iq αi + q(−1)q−1 iq−1 βi = 1
i=0

N
X −1
⇔ ∀q ∈ [[1, q]], iq αi − qiq−1 βi = (−1)q
i=0

(k) (k) (k)
Remarque. Concrètement, pour un problème avec N + 1 points donnés y0 , y 1 , . . . , y1 ,
N
pour avoir l’ordre p, il faut que:

α0 + α1 + α2 + · · · + αN −1 = 1
α1 + 2α2 + (N − 1)αN −1 − (β0 + · · · + βN −1 ) = −1
.. ..
. .
α1 + 2 α2 + · · · + (N − 1) αN −1 − p β1 + 2 β2 + · · · + (N − 1) βN −1 = (−1)p
p p p−1 p−1

3.4.2 Exemples
- Méthode de Nyström: On se place dans le cas N = 2 (1 point intermédiaire donné), et
on prend les coefficients:

(α0 , α1 , β0 , β1 ) = (0, 1, 2, 0)

Ainsi, avec:

ˆ(k) (k) h (k)

y1 = y0 + W 2y 1
2 2

l’apprentissage est d’ordre 2:

WM in = A + O(h2 )
h→0

- Une méthode d’ordre 3: On se place dans le cas N = 2 (1 point intermédiaire donné),

et on prend les coefficients:

(α0 , α1 , β0 , β1 ) = (−4, 5, 4, 2)

Maxime BOUCHEREAU 33 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

Figure 3.3: Courbe de convergence en échelle log-log pour la méthode de Nyström (Loss
convexe), obtenue avec une matrice A prise au hasard dans Md ([−10, 10]) dans le cas
d = 2, Niter = 500 et α = 10−3

Ainsi, avec:

ˆ(k) (k) (k) h (k) (k)

y1 = −4y 1 + 5y0 + W 4y 1 + 2y0
2 2 2

l’apprentissage est d’ordre 3:

WM in = A + O(h3 )
h→0

Maxime BOUCHEREAU 34 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

Figure 3.4: Courbe de convergence en échelle log-log pour la méthode Multipas à pas
constant d’ordre 3 (Loss convexe), obtenue avec une matrice A prise au hasard dans
Md ([−10, 10]) dans le cas d = 2, Niter = 500 et α = 10−3

- Méthode de Milne: On se place dans le cas N = 4 (3 points intermédiaire donné), et

on prend les coefficients:

8 4 8
(α0 , α1 , α2 , α3 , β0 , β1 , β2 , β3 ) = 0, 0, 0, 1, , − , , 0
3 3 3

Ainsi, avec:

ˆ(k) (k) h 8 (k) 4 (k) 8 (k)
y1 = y0 + W y3 − y1 + y1
4 3 4 3 2 3 4

l’apprentissage est d’ordre 4:

WM in = A + O(h4 )
h→0

Maxime BOUCHEREAU 35 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

Figure 3.5: Courbe de convergence en échelle log-log pour la méthode de Milne (Loss
convexe), obtenue avec une matrice A prise au hasard dans Md ([−10, 10]) dans le cas
d = 2, Niter = 500 et α = 10−3

- Une méthode d’ordre 5: On se place dans le cas N = 3 (2 points intermédiaire donné),

et on prend les coefficients:

(α0 , α1 , α2 , β0 , β1 , β2 ) = (−18, 9, 10, 9, 18, 3)

Ainsi, avec:

ˆ(k) (k) (k) (k) h (k) (k) (k)

y1 = −18y 2 + 9y 1 + 10y0 + W 9y 2 + 18y 1 + 3y0
3 3 3 3 3

l’apprentissage est d’ordre 5:

WM in = A + O(h5 )
h→0

Maxime BOUCHEREAU 36 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

Figure 3.6: Courbe de convergence en échelle log-log pour la méthode Multipas à pas
constant d’ordre 5 (Loss convexe), obtenue avec une matrice A prise au hasard dans
Md ([−10, 10]) dans le cas d = 2, Niter = 1000 et α = 10−4

3.5 Méthodes Multi-pas à pas non constant

On suppose la solution connue aux temps 0 = t0 < t1 < · · · < tN = h, où cette foix on ne
suppose plus forcément que tj = jh
N
:

(k) (k)
y tj = etj A y0
h

3.5.1 Ordre de convergence

On considère les polynômes interpolateurs de Lagrange:
Y t − ti
∀j ∈ [[0, N ]], Lj,N (t) = ∈ RN [t]
tj − ti
06i6N
i 6= j

Ainsi, pour tout i ∈ [[0, N ]], Lj,N (ti ) = δi,j

Soit ainsi:

N
X
(k) (k)
PN (t) = Lj,N (t)W y tj ∈ R[t]
h
j=0

(k) (k)
t 7→ PN (t) doit approcher t 7→ W etA y0 sur [0, h] par interpolation aux points t0 , t1 , · · · , tN .
Posons, pour tout k ∈ [[0, K − 1]]:

Maxime BOUCHEREAU 37 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

Z h
(k) (k) (k)
yˆ1 = y0 + PN (t)dt
0
N Z
X h
(k) (k)
= y0 +W Lj,N (t)dty tj
j=0 0 h

On a ainsi:

N Z h 2
1 hA (k)
X (k)
L(W, k) = 2 (Id − e )y0 + W Lj,N (t)dt etj A y0
h j=0 0

Proposition (Méthode Multi-pas à pas non constant - Ordre de convergence)

Si A ∈ GLd (R) (ce qui est le cas presque partout dans Md (R)), l’apprentissage pour
cette méthode est d’ordre N + 1:

WM in = A + O(hN +1 )
h→0

Démonstration. Tout d’abord, notons que:

N Z
!−1
X h
Lj,N (t)dtetj A ehA − Id

WM in =
j=0 0

Soit la matrice de polynômes:

N
X
QN = etj A Lj,N (X) ∈ RN [X]d×d
i=0

Soit t ∈ [0, h]. Par le théorème de Taylor, il existe ξ ∈]t, h[ tel que:

1
etA − QN (t) = AN +1 eξA πN (ξ)
(N + 1)!
avec:

N
Y
πN (ξ) = (ξ − tj )
j=0

Or, on a:

Z h −1
ehA − Id

WM in = QN (t)dt
0
Z h Z h −1
tA tA
ehA − Id

= e dt − e − QN (t)dt
0 0

Maxime BOUCHEREAU 38 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

Donc, pour tout t ∈ [0, h]:

1
etA − QN (t) 6 ||A||N +1 eh||A|| hN +1
(N + 1)!

Or, on a:

Z h
etA dt = A−1 ehA − Id

0

Notons que toutes les matrices utilisées commutent entre elles, puisque ce sont des polynômes
en A, donc on a:

Z h −1
−1 hA tA
ehA − Id

WM in = A e − Id − e − QN (t)dt
0
Z h −1
hA
−1 hA
−1 tA
ehA − Id

= A e − Id Id − A e − Id e − QN (t)dt
0
Z h −1
hA
−1 tA
= A Id − A e − Id e − QN (t)dt
0

Or, on a:

−1 1
A ehA − Id ∼ Id
h→0 h
Z h
etA − QN (t)dt = O(hN +2 )
0 h→0

Donc on a:
−1
WM in = A Id + O(hN +1 ) = A + O(hN +1 )
h→0 h→0

3.5.2 Exemples
- Une méthode d’ordre 3
On prend N = 2 (1 point intermédiaire), et on connaı̂t les solutions en 0, h3 et h.
L’apprentissage est d’ordre 3:

WM in = A + O(h3 )
h→0

Maxime BOUCHEREAU 39 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

Figure 3.7: Courbe de convergence en échelle log-log pour la méthode Multipas à pas
variable d’ordre 3 (Loss convexe), obtenue avec une matrice A prise au hasard dans
Md ([−10, 10]) dans le cas d = 2, Niter = 500 et α = 10−3

- Une méthode d’ordre 4

On prend N = 3 (2 points intermédiaires), et on connaı̂t les solutions en 0, h4 , h2 et h.
L’apprentissage est d’ordre 4:

WM in = A + O(h4 )
h→0

Figure 3.8: Courbe de convergence en échelle log-log pour la méthode Multipas à pas
variable d’ordre 4 (Loss convexe), obtenue avec une matrice A prise au hasard dans
Md ([−10, 10]) dans le cas d = 2, Niter = 500 et α = 10−3

Maxime BOUCHEREAU 40 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

3.6 Généralisation
3.6.1 Ordre de convergence
Dans cette sous-partie, on veut déterminer l’ordre d’apprentissage directement à partir
de l’ordre de la méthode numérique, tant qu’elle est sous la forme (3.1). Par exemple,
vu que les méthodes d’Euler sont d’ordre 1, l’apprentissage est d’ordre 1, pour le Point
Milieu, qui est une méthode d’ordre 2, l’apprentissage est lui aussi d’ordre 2.

Théorème (Ordre de convergence - Cas linéaire)

Si on prend yˆ1 de la forme (3.1):

N
X N
X
yˆ1 = αj y t j + W βj hj y tj
h h
j=0 j=0

où la méthode est d’ordre p, c’est-à-dire que, si on pose:

N N
∼ X X
y1 = αj y t j + A βj hj y tj
h h
j=0 j=0

on a:

∼
y1 − y1 = O(hp+1 )
h→0

et si on suppose que:

N
X hj
βj 6= 0
j=0
h

Alors, l’apprentissage est d’ordre p:

WM in = A + O(hp )
h→0

Démonstration. On a cette expression pour la fonction L(·):

N N 2
1 X X
L(W ) = 2 αj y tj − y1 + W βj hj y tj
h j=0 h
j=0
h

Remarque. Par souci d’allègement des notations, l’indice (k) de la donnée a été supprimé.
(k)
Dans le cas d’une vraie donné y0 , on écrirait L(W, k).

Ainsi, on a:

Maxime BOUCHEREAU 41 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

N
! N
X X
WM in βj hj y tj = y1 − αj y tj
h h
j=0 j=0
N
! N N
!
X X X
(WM in − A) βj hj y tj = y1 − αj y tj − A βj hj y tj
h h h
j=0 j=0 j=0
∼
= y1 − y1

WM in peut-être construite à partir de A et de etj A par somme, produit ou inversion,

donc à partir de polynômes en A, c’est pour cette raison que l’on peut faire commuter les
facteurs des produits. Ainsi, on a:

N N
X ∼ X
βj hj WM in etj A y0 = y1 − y1 + βj hj Aetj A y0
j=0 j=0
N
! N
!
X X ∼
WM in βj hj etj A y0 = A βj hj etj A y0 + y1 − y1
j=0 j=0
N
!−1
X ∼

WM in y0 = Ay0 + βj hj etj A y1 − y1
j=0
N
!−1
X hj 1 ∼

WM in y0 = Ay0 + βj etj A y1 − y1
j=0
h h

PN hj
Comme j=0 βj h
6= 0, on a:

N N
!
X hj X hj
βj etj A −→ βj Id
j=0
h h→0
j=0
h

qui est une matrice inversible (perturbation d’un multiple non nul de l’identité). Par
∼
ailleurs, comme on a y1 − y1 = O(hp+1 ), on obtient ainsi:
h→0

WM in = A + O(hp )
h→0

Maxime BOUCHEREAU 42 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

3.6.2 Exemples
Une méthode d’ordre 2
Si on prend cette méthode numérique:

h
yˆ1 = y0 + W (y0 + 2y 1 + y1 )
4 2

∼ h
y1 = y0 + A(y0 + 2y 1 + y1 )
4 2

Alors on a:

∼ h h

Id − ehA y0 + A Id + 2e 2 A + ehA y0

y1 − y1 =
4
h h
2
Id − ehA y0 + A Id + e 2 A y0

=
4
On a donc:

∼
y1 − y1 = O(h3 )
h→0

qui est de l’ordre 3 localement, ainsi, l’apprentissage est d’ordre 2:

Wmin = A + O(h2 )
h→0

Figure 3.9: Courbe de convergence en échelle log-log pour l’exemple, obtenue avec une
matrice A prise au hasard dans Md ([−10, 10]) dans le cas d = 2, Niter = 1000 et α = 10−3 .

Maxime BOUCHEREAU 43 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

Une méthode d’ordre 4

Si on prend cette méthode numérique:

h
yˆ1 = y0 + W (y0 + 3y 1 + 3y 2 + y1 )
8 3 3

∼ h
y1 = y0 + A(y0 + 3y 1 + 3y 2 + y1 )
8 3 3

Alors on a:

∼ h h 2h

Id − ehA y0 + A Id + 3e 3 A + 3e 3 A + ehA y0

y1 − y1 =
8
h h
3
Id − ehA y0 + A Id + e 3 A y0

=
8

On a donc:

∼
y1 − y1 = O(h5 )
h→0

qui est de l’ordre 5 localement, ainsi, l’apprentissage est d’ordre 4:

Wmin = A + O(h4 )
h→0

Maxime BOUCHEREAU 44 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

Figure 3.10: Courbe de convergence en échelle log-log pour l’exemple, obtenue avec une
matrice A prise au hasard dans Md ([−10, 10]) dans le cas d = 2, Niter = 1000 et α = 10−3 .

Maxime BOUCHEREAU 45 Université Rennes 1

Partie 4

Cas non linéaire

Dans cette partie, nous allons nous intéresser au cas général:

ẏ = f (y)
y(0) = y0
(k) (k) (k)
et on suppose que l’on connaı̂t K données y0 (conditions initiales) et y1 = φh (y0 )
(solution au temps h, où h est le pas de la méthode numérique choisie).

4.1 Structure du réseau de neurones

Afin d’avoir une idée du réseau de neurones le plus simple à créer, nous allons utiliser le
théorème d’universalité:

Théorème (Théorème d’universalité)

Soit g ∈ C(Rd , R), soit σ : R −→ R une fonction continue non polynomiale. Alors,
pour tout ε > 0, il existe gapp ∈ Mσ telle que, pour tout Ω ⊂ Rd compact:

||g − gapp ||L∞ (Ω) 6 ε

avec:

Mσ = V ect x 7→ σ(w · x + b), w ∈ Rd , b ∈ R

Remarques. - σ est appelée fonction d’activation. On peut par exemple choisir une sig-
moı̈de:

1
σ(x) =
1 + e−x

mais on retiendra, dans le cadre du stage, la tangente hyperbolique:

σ(x) = tanh(x)

46
Master 2 Mathématiques Fondamentales Mars-Juin 2021

- Vu que notre champ de vecteurs est à valeurs dans Rd et que le théorème s’applique à
une fonction à valeurs dans R, on doit appliquer ce théorème à chaque composante de
f.
Ainsi, avec ce théorème, on peut construire un réseau de neurones qui approchera
correctement notre champ de vecteurs f par un champ approché fapp . Voici la structure
du réseau de neurones, qui comporte deux couches:

- Une première couche de ζ neurones, et donc les paramètres sont W (1) ∈ Mζ,d (R) (ma-
(1)
trice poids des ζ neurones), ainsi qu’un biais de poids w0 ∈ Rζ

- Une seconde couche de d neurones, et donc les paramètres sont W (2) ∈ Md,ζ (R) (matrice
poids des ζ neurones), ne comportant pas de biais.

Figure 4.1: Illustration du fonctionnement du réseau de neurones permettant d’approcher

fapp pour le cas général. La fonction Σ : Rζ → Rζ applique la fonction σ à chacune des
composantes du vecteur qu’elle prend en entrée

Ainsi, le champ de vecteur approché fapp s’écrit:

(2) (1) (1)
fapp (y0 ) = W Σ W y0 + w0

Par exemple, pour la méthode d’Euler Explicite, on a cette valeur prédite en h:

ˆ(k)

(k) (k)
y1 = y0 + hfapp y0

ainsi que cette fonction loss:

(1) (1)
1 (k) (k)

(k)
2
L W , w0 , W (2) , k = 2 y0 − y1 + hfapp y0
h

4.2 Ordre de convergence

Dans cette sous-partie, on considèrera une certaine méthode numérique multi-pas. On
considère également que le champ de vecteur f recherché peut être approché de manière
aussi précise que l’on souhaite par un champ fapp (en d’autres termes, on peut utiliser

Maxime BOUCHEREAU 47 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

autant de neurones que l’on veut dans le théorème d’universalité). on considère alors un
vecteur yˆ1 donnant la valeur prédite en h du problème de Cauchy:

ẏ = f (y)
y(0) = y0

à l’aide du champ de vecteurs fapp . Ce vecteur yˆ1 utilise une certaine méthode
numérique, en faisant intervenir fapp , ainsi que y tj , via notre réseau de neurones.
h

On introduit la fonction Loss:

1
L(fapp ) = |yˆ1 − y1 |2
h2

∗ ∗
Soit fapp ∈ C 0 (Rd , Rd ) tel que L(fapp ) = 0 (on suppose que l’on peut avoir une précision
aussi fine que possible, en pratique, il est compliqué d’avoir une Loss nulle). L’objectif
de cette sous-partie est d’établir un lien entre l’ordre de la méthode numérique utilisé et
∗
l’ordre d’apprentissage, c’est-à-dire étudier la différence entre les champs de vecteurs fapp
(champ de vecteurs appris) et f (champ de vecteurs réel).

4.2.1 Première formulation

Dans cette section, on souhaite déterminer l’ordre d’apprentissage directement à partir de

l’ordre de la méthode numérique, tant que cette dernière est de la forme:

N N
X X hj
yˆ1 = αj y t j + h βj fapp y tj (4.1)
j=0
h
j=0
h h

Maxime BOUCHEREAU 48 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

Théorème (Ordre de convergence dans le cas général - Première formulation)

Si on prend yˆ1 de la forme (4.1):

N N
X X hj
yˆ1 = αj y t j + h βj fapp y tj
j=0
h
j=0
h h

où la méthode est d’ordre p, c’est-à-dire que, si on pose:

N N
∼ X X hj
y1 = αj y tj +h βj f y tj
j=0
h
j=0
h h

on a:

∼
y1 − y1 = O(hp+1 )
h→0

et si on suppose que:

N
X hj
βj 6= 0
j=0
h

Alors, l’apprentissage est d’ordre p, autrement dit, pour tout y0 ∈ Rd , et pour h assez
petit:

∗
fapp (y0 ) = f (y0 ) + O(hp )
h→0

Démonstration. On a:

N N
X hj
X
yˆ1 = αj y t j +h βj fapp y tj
j=0
h
j=0
h h

hj
avec h
constant (la position des tj ne change pas par rapport à h). Soit la fonction
Loss:

1
L(fapp ) = |yˆ1 − y1 |2
h2
N N 2
1 X X hj
= 2 αj y tj − y1 + h βj fapp y tj
h j=0 h
j=0
h h

On a ainsi:

N N
X hj ∗ X
h βj fapp y tj = y1 − αj y tj
j=0
h h
j=0
h

Maxime BOUCHEREAU 49 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

Donc:

N N N
X hj ∗ X X hj
h βj f − f y tj = y1 − αj y t j − h βj f y tj
j=0
h app h
j=0
h
j=0
h h

∼
= y1 − y1
Ainsi, on a:

N
X hj ∗ 1 ∼

βj fapp − f y tj = y1 − y1
j=0
h h h
∗
1 ∼

ϕh fapp − f (y0 ) = y1 − y1
h
où l’application (linéaire) ϕh est donnée par:

ϕh : C 0 (Rd , Rd ) −→ C 0 (Rd , Rd )
PN hj
g 7−→ j=0 βj h g φtj (y0 )
On a ainsi:

N
!
hj X
ϕh −→ Id βj
h→0
j=0
h
hj
qui est bien une application inversible puisque N
P
j=0 βj h =6 0. On a ainsi:

1
∗
fapp (y0 ) = f (y0 ) + ϕ−1 (φh − Fh ) (y0 )
h h
où Fh est le champ de vecteurs donné par:

N
! N
X X hj ∗
Fh = αj φtj Id + h βj fapp ◦ φtj
j=0 j=0
h
Or, on a:

1
ϕ−1
h (Fh − φh ) (y0 ) ∼ PN hj
(φh − Fh ) (y0 )
h→0
j=0 βj h
Donc on a:

∗ 1
fapp (y0 ) = f (y0 ) + PN hj
(φh − Fh ) (y0 )
h→0 h βj
j=0 h
1 ∼

= f (y0 ) + PN hj
y1 − y1
h→0 h βj
j=0 h
D’où:

∗
fapp (y0 ) = f (y0 ) + O(hp )
h→0

Maxime BOUCHEREAU 50 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

4.2.2 Nouvelle formulation

Dans cette section, on souhaite déterminer l’ordre d’apprentissage directement à partir de
l’ordre de la méthode numérique, tant que cette dernière est de la forme:

N N
!
X X hj
yˆ1 = αj y tj + hfapp βj y tj (4.2)
j=0
h
j=0
h h

Théorème (Ordre de convergence dans le cas général - Nouvelle formulation)

Si on prend yˆ1 de la forme (4.2):

N N
!
X X hj
yˆ1 = αj y tj + hfapp βj y tj
j=0
h
j=0
h h

où la méthode est d’ordre p, c’est-à-dire que, si on pose:

N N
!
∼ X X hj
y1 = αj y tj + hf βj y tj
j=0
h
j=0
h h

on a:

∼
y1 − y1 = O(hp+1 )
h→0

et si on suppose que:

N
X hj
βj 6= 0
j=0
h

Alors, l’apprentissage est d’ordre p, autrement dit, pour tout y0 ∈ Rd , et pour h assez
petit:

∗
fapp (y0 ) = f (y0 ) + O(hp )
h→0

Démonstration. On a:

N N
!
X X hj
yˆ1 = αj y tj + hfapp βj y tj
j=0
h
j=0
h h

hj
avec h
constant (la position des tj ne change pas par rapport à h). Soit la fonction
Loss:

Maxime BOUCHEREAU 51 Université Rennes 1

Master 2 Mathématiques Fondamentales Mars-Juin 2021

1
L(fapp ) = |yˆ1 − y1 |2
h2
N N
! 2
1 X X hj
= 2 αj y tj − y1 + hfapp βj y tj
h j=0 h
j=0
h h

On a ainsi:

N
! N
∗
X hj X
hfapp βj y tj = y1 − αj y tj
j=0
h h j=0
h

Donc:

N
! N N
!
∗ X hj X X hj ∼
h fapp − f βj y tj = y1 − αj y tj − hf βj y tj = y1 − y1
j=0
h h j=0
h
j=0
h h

Ainsi, on a:
N
!
∗ X hj 1 ∼

fapp − f βj y tj = y1 − y1 = O(hp )
j=0
h h h h→0

De plus, puisque l’on a:

N
X hj
βj 6= 0
j=0
h

PN hj
alors on peut changer j=0 βj h
y tj en y0 . En effet:
h

N N
!
X hj X hj
βj y tj = βj φtj (y0 )
j=0
h h j=0
h

et:

N N
!
X hj X hj
βj φtj −→ βj Id
j=0
h h→0
j=0
h

PN hj
qui est inversible, donc j=0 βj h φtj est inversible quand h est assez petit (c’est une
∼
perturbation d’un multiple non nul de l’identité). De plus, le terme y1 − y1 reste d’ordre
p + 1.

Maxime BOUCHEREAU 52 Université Rennes 1

Bibliographie

[1] S. Mallat, Notes des Cours de Stéphane Mallat Chaire ”Sciences des Données” du
Collège de France, Cours 2019: L’apprentissage par réseaux de neurones profonds.
Notes sur tout le cours 2019 par J-E. Campagne

[2] Site OpenClassrooms d’initiation au Deep Learning,

[Link]

[3] M. Raissi, P. Perdikaris, G.E. Karniadakis, Multistep neural networks for data-driven
discovery of nonlinear dynamical systems, arXiv preprint, arXiv:1801.01236.

[4] Steven L. Brunton, Joshua L. Proctor, and J. Nathan Kutz. “Discovering governing
equations from data by sparse identification of nonlinear dynamical systems”. In: Pro-
ceedings of the National Academy of Sciences 113.15 (2016), pp. 3932–3937. ISSN:
0027-8424

[5] Duong Nguyen et al. EM-like Learning Chaotic Dynamics from Noisy and Partial
Observations. 2019. arXiv: 1903.10335

[6] Ricky T. Q. Chen et al. “Neural Ordinary Differential Equations”. In: Advances in
Neural Information Processing Systems. Ed. by S. Bengio et al. Vol. 31. Curran As-
sociates, Inc., 2018.

[7] F. Regazzoni, L. Dedè, and A. Quarteroni. “Machine learning for fast and reliable so-
lution of time-dependent differential equations”. In: Journal of Computational Physics
397 (2019), p. 108852. ISSN: 0021-9991.

[8] J-P. Demailly, Analyse numérique et équations différentielles, coll. Grenoble Sciences,
1999.

[9] E. Hairer, S. P. Nørsett and G. Wanner. Solving Ordinary Differential Equations I,

2008, ISBN 978-3-540-56670-0.

[10] Pierre Gillot, Akka Zemmari1, Jenny Benois-Pineau et Yurii Nesterov. Algo-
rithmes de Descente de Gradient Stochastique avec le filtrage des paramètres pour
l’entraı̂nement des réseaux à convolution profonds.

Vous aimerez peut-être aussi

Optimisation en apprentissage automatique
Pas encore d'évaluation
Optimisation en apprentissage automatique
64 pages
Outils Mathématiques pour Machine Learning
Pas encore d'évaluation
Outils Mathématiques pour Machine Learning
52 pages
Introduction au Deep Learning
Pas encore d'évaluation
Introduction au Deep Learning
51 pages
Du Deep Learning Aux Transformers
Pas encore d'évaluation
Du Deep Learning Aux Transformers
18 pages
Deep Learning pour Détection d'Objets
100% (1)
Deep Learning pour Détection d'Objets
65 pages
Fondements du Deep Learning Mathématique
Pas encore d'évaluation
Fondements du Deep Learning Mathématique
5 pages
Livre - Reseaux de Neurones Par Marc Parizeau
Pas encore d'évaluation
Livre - Reseaux de Neurones Par Marc Parizeau
127 pages
Introduction au Deep Learning MLP
Pas encore d'évaluation
Introduction au Deep Learning MLP
43 pages
Introduction au Deep Learning
Pas encore d'évaluation
Introduction au Deep Learning
60 pages
Optimisation non linéaire et RNA
Pas encore d'évaluation
Optimisation non linéaire et RNA
92 pages
Introduction Au Deep Learning Tavenard 4
Pas encore d'évaluation
Introduction Au Deep Learning Tavenard 4
60 pages
Resume de Deep Learning
Pas encore d'évaluation
Resume de Deep Learning
4 pages
Optimisation des Réseaux Neuronaux
Pas encore d'évaluation
Optimisation des Réseaux Neuronaux
40 pages
Fondements du Machine Learning L3 IM2D
Pas encore d'évaluation
Fondements du Machine Learning L3 IM2D
34 pages
Comprendre le perceptron multi-couches
Pas encore d'évaluation
Comprendre le perceptron multi-couches
52 pages
Introduction au Deep Learning et ses Algorithmes
Pas encore d'évaluation
Introduction au Deep Learning et ses Algorithmes
52 pages
Introduction aux réseaux de neurones
Pas encore d'évaluation
Introduction aux réseaux de neurones
37 pages
Réseaux de Neurones et Optimisation
Pas encore d'évaluation
Réseaux de Neurones et Optimisation
20 pages
Stratégies d'Apprentissage par Renforcement
Pas encore d'évaluation
Stratégies d'Apprentissage par Renforcement
51 pages
Cours sur les réseaux de neurones
Pas encore d'évaluation
Cours sur les réseaux de neurones
26 pages
Algorithme de rétropropagation des erreurs
Pas encore d'évaluation
Algorithme de rétropropagation des erreurs
4 pages
Exposé sur IA : Régression et Optimisation
100% (1)
Exposé sur IA : Régression et Optimisation
18 pages
Optimisation et Calcul des Variations
Pas encore d'évaluation
Optimisation et Calcul des Variations
129 pages
Introduction au Machine Learning et Deep Learning
Pas encore d'évaluation
Introduction au Machine Learning et Deep Learning
12 pages
Introduction au Deep Learning en Keras
Pas encore d'évaluation
Introduction au Deep Learning en Keras
55 pages
Applications des équations différentielles en IA
Pas encore d'évaluation
Applications des équations différentielles en IA
7 pages
IA Et Big Data Part1
Pas encore d'évaluation
IA Et Big Data Part1
24 pages
Fondements du deep learning en théorie
Pas encore d'évaluation
Fondements du deep learning en théorie
84 pages
Cours ML Op Minds 25 26
Pas encore d'évaluation
Cours ML Op Minds 25 26
51 pages
Introduction aux réseaux de neurones
Pas encore d'évaluation
Introduction aux réseaux de neurones
27 pages
Perceptron 2 Couches Pour Enseignement
Pas encore d'évaluation
Perceptron 2 Couches Pour Enseignement
25 pages
Architecture et Perte en Réseaux de Neurones
Pas encore d'évaluation
Architecture et Perte en Réseaux de Neurones
57 pages
Optimisation numérique pour IA avancée
Pas encore d'évaluation
Optimisation numérique pour IA avancée
24 pages
Apprentissage en ligne pour le contrôle linéaire
Pas encore d'évaluation
Apprentissage en ligne pour le contrôle linéaire
10 pages
Optimisation et Algorithmes Numériques
Pas encore d'évaluation
Optimisation et Algorithmes Numériques
50 pages
2025 Cours IA
Pas encore d'évaluation
2025 Cours IA
59 pages
Introduction aux réseaux de neurones
Pas encore d'évaluation
Introduction aux réseaux de neurones
26 pages
Fondements du Deep Learning en Mathématiques
Pas encore d'évaluation
Fondements du Deep Learning en Mathématiques
101 pages
Résumé DL
Pas encore d'évaluation
Résumé DL
53 pages
Cours sur l'apprentissage profond
Pas encore d'évaluation
Cours sur l'apprentissage profond
53 pages
004cours - Perceptron Copi
Pas encore d'évaluation
004cours - Perceptron Copi
55 pages
ENSIAS DeepLearning Ch1 Annexe - Key
Pas encore d'évaluation
ENSIAS DeepLearning Ch1 Annexe - Key
6 pages
Optimisation non linéaire : Méthodes et Algorithmes
Pas encore d'évaluation
Optimisation non linéaire : Méthodes et Algorithmes
78 pages
NotesdeCours Benin Imsp
Pas encore d'évaluation
NotesdeCours Benin Imsp
72 pages
Cours sur l'apprentissage automatique
Pas encore d'évaluation
Cours sur l'apprentissage automatique
49 pages
Optimisation des réseaux neuronaux polynomiaux
Pas encore d'évaluation
Optimisation des réseaux neuronaux polynomiaux
2 pages
Entraînement d'un réseau de neurones DNN
Pas encore d'évaluation
Entraînement d'un réseau de neurones DNN
27 pages
Introduction à l'apprentissage profond
Pas encore d'évaluation
Introduction à l'apprentissage profond
100 pages
Modélisation des Systèmes Non Linéaires
Pas encore d'évaluation
Modélisation des Systèmes Non Linéaires
112 pages
Méthodes d'Analyse Numérique
Pas encore d'évaluation
Méthodes d'Analyse Numérique
223 pages
Fondements du Machine Learning en L3
Pas encore d'évaluation
Fondements du Machine Learning en L3
47 pages
Introduction aux réseaux de neurones
Pas encore d'évaluation
Introduction aux réseaux de neurones
25 pages
Optimisation Numérique : Méthodes et Concepts
Pas encore d'évaluation
Optimisation Numérique : Méthodes et Concepts
9 pages
Chapitre 5 - Optimisation Des Réseaux Convolutifs Profonds
Pas encore d'évaluation
Chapitre 5 - Optimisation Des Réseaux Convolutifs Profonds
53 pages
Introduction aux Perceptrons Artificiels
Pas encore d'évaluation
Introduction aux Perceptrons Artificiels
56 pages
UE IA L2 Cours Complet 50 Pages
Pas encore d'évaluation
UE IA L2 Cours Complet 50 Pages
18 pages
Apprentissage-Machine
Pas encore d'évaluation
Apprentissage-Machine
5 pages
Apprentissage Machine : Théorie et Pratique
Pas encore d'évaluation
Apprentissage Machine : Théorie et Pratique
37 pages
Introduction aux réseaux de neurones
Pas encore d'évaluation
Introduction aux réseaux de neurones
2 pages
Rapport sur les diagrammes électriques
Pas encore d'évaluation
Rapport sur les diagrammes électriques
10 pages
Vitesse et Accélération en Mécanique du Point
Pas encore d'évaluation
Vitesse et Accélération en Mécanique du Point
5 pages
Exercices corrigés de régulation
Pas encore d'évaluation
Exercices corrigés de régulation
5 pages
Guide de Conception Reseaux Schneider Top - PDF Ok
Pas encore d'évaluation
Guide de Conception Reseaux Schneider Top - PDF Ok
35 pages
Dynamique en Référentiel Non Galiléen
Pas encore d'évaluation
Dynamique en Référentiel Non Galiléen
7 pages
Introduction à l'électricité statique
Pas encore d'évaluation
Introduction à l'électricité statique
7 pages
Production d'hydrogène : méthodes et enjeux
100% (2)
Production d'hydrogène : méthodes et enjeux
7 pages
Propriétés thermodynamiques d'une cellule galvanique
Pas encore d'évaluation
Propriétés thermodynamiques d'une cellule galvanique
4 pages
Analyse des tendances de 2024
Pas encore d'évaluation
Analyse des tendances de 2024
12 pages
Fiche de Travaux Dirigés N°1
Pas encore d'évaluation
Fiche de Travaux Dirigés N°1
3 pages
Active Body Control : fonctionnement et innovations
Pas encore d'évaluation
Active Body Control : fonctionnement et innovations
8 pages
Classification des pompes hydrauliques
Pas encore d'évaluation
Classification des pompes hydrauliques
42 pages
Documentation Technique Génie Electrotechnique
Pas encore d'évaluation
Documentation Technique Génie Electrotechnique
168 pages
Molécules, Ions et Circuits Électriques
Pas encore d'évaluation
Molécules, Ions et Circuits Électriques
2 pages
Conception et choix des travées de ponts
100% (1)
Conception et choix des travées de ponts
34 pages
Usure et Durée de Vie des Outils
Pas encore d'évaluation
Usure et Durée de Vie des Outils
25 pages
Devoir de Mathématiques BTS 2024-2025
Pas encore d'évaluation
Devoir de Mathématiques BTS 2024-2025
3 pages
Calculs de moteurs à combustion interne
Pas encore d'évaluation
Calculs de moteurs à combustion interne
5 pages
Comprendre les Éclipses Solaires et Lunaires
Pas encore d'évaluation
Comprendre les Éclipses Solaires et Lunaires
7 pages
Caractéristiques de la file M/M/1 et M/M/1/K
Pas encore d'évaluation
Caractéristiques de la file M/M/1 et M/M/1/K
12 pages
Capteurs actifs : spécifications et exemples
Pas encore d'évaluation
Capteurs actifs : spécifications et exemples
4 pages
Histoire de la lunette astronomique
Pas encore d'évaluation
Histoire de la lunette astronomique
12 pages
Exercices de symétrie axiale 6ème
Pas encore d'évaluation
Exercices de symétrie axiale 6ème
10 pages
Analyse non linéaire poutre béton armé
Pas encore d'évaluation
Analyse non linéaire poutre béton armé
17 pages
Réglementation des barrières de dégel
Pas encore d'évaluation
Réglementation des barrières de dégel
2 pages
Norme NA 424/1990 : Essais des Bétons
Pas encore d'évaluation
Norme NA 424/1990 : Essais des Bétons
3 pages
Thermodynamique et systèmes énergétiques
Pas encore d'évaluation
Thermodynamique et systèmes énergétiques
58 pages
UPolaris : Guide de Conversion UP!System
100% (1)
UPolaris : Guide de Conversion UP!System
23 pages
Galilée : Lecture moderne des sciences
Pas encore d'évaluation
Galilée : Lecture moderne des sciences
22 pages
Paradoxe d'Achille et la tortue en mathématiques
Pas encore d'évaluation
Paradoxe d'Achille et la tortue en mathématiques
18 pages