0% ont trouvé ce document utile (0 vote)
27 vues134 pages

Introduction aux espaces vectoriels

Le document traite des espaces vectoriels, introduisant les concepts de structure vectorielle, sous-espaces vectoriels, et familles génératrices. Il présente des définitions et théorèmes clés, tels que la somme de sous-espaces et les projections vectorielles, tout en illustrant ces notions par des exemples et des exercices. Enfin, il aborde la notion de familles libres et leur importance dans la linéarité des vecteurs.

Transféré par

7y87mq2wfn
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
27 vues134 pages

Introduction aux espaces vectoriels

Le document traite des espaces vectoriels, introduisant les concepts de structure vectorielle, sous-espaces vectoriels, et familles génératrices. Il présente des définitions et théorèmes clés, tels que la somme de sous-espaces et les projections vectorielles, tout en illustrant ces notions par des exemples et des exercices. Enfin, il aborde la notion de familles libres et leur importance dans la linéarité des vecteurs.

Transféré par

7y87mq2wfn
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

PC*

Lycée Marcelin Berthelot

Cours
Cours
Chapitre I 1.1

Espaces vectoriels

1. Structures vectorielles
La notion d’espace vectoriel naît conceptuellement de la géométrie affine avec l’introduction au XVIIe siècle
des coordonnées dans un repère du plan ou de l’espace usuel. Les vecteurs sont introduits progressivement
au cours de la première moitié du XIXe siècle, et en 1857, Cayley introduit la notation matricielle, qui permit
d’harmoniser les notations et de simplifier l’écriture des applications linéaires entre espaces vectoriels.

1.1 Espaces vectoriels


Dans tout le chapitre, K désigne l’un des deux corps R ou C.
La structure d’espace vectoriel sur K (ou K-espace vectoriel) a été décrite en première année : un K-espace
vectoriel E dispose de deux opérations, une addition entre vecteurs et une multiplication entre un scalaire et un
vecteur. On conviendra de noter 0E le vecteur nul de E, pour éviter de le confondre avec le scalaire nul 0.
Lorsqu’on veut illustrer graphiquement un concept lié aux espaces vectoriels, on se réfère à la géométrie : à
condition de fixer un point qui représentera par convention le vecteur nul, on peut identifier tout point du plan
à un unique vecteur d’un espace vectoriel de dimension 2, ou tout point de l’espace à un vecteur d’un espace
vectoriel de dimension 3 (illustration figure 1).

y x
x+y λx
x

Figure 1 – Représentation graphique de l’addition et de la multiplication par un scalaire.

Définition. (Produit de deux K-espaces vectoriels) — Si E et F sont deux K-espaces vectoriels, on munit leur
produit cartésien E × F d’une structure de K-espace vectoriel en définissant somme et produit externe de la façon
suivante :
(i) pour tout (x, y) et (x′ , y ′ ) dans E × F, (x, y) + (x′ , y ′ ) = (x + x′ , y + y ′ ) ;
(ii) pour tout (x, y) ∈ E × F et λ ∈ K, λ(x, y) = (λx, λy).

Cette définition s’étend naturellement au produit d’un nombre fini quelconque de K-espaces vectoriels.

■ Quelques exemples de référence


– Le K-espace vectoriel Kp est l’espace vectoriel obtenu sur le produit cartésien K × · · · × K, autrement dit sur
l’ensemble des p-uplets (x1 , x2 , . . . , xp ) où x1 , x2 , . . ., xp sont éléments de K ;
– le K-espace vectoriel K[X] est l’ensemble des polynômes à coefficients dans K ;
– le K-espace vectoriel Mn,p (K) est l’ensemble des matrices n lignes et p colonnes à coefficients dans K.
On conviendra d’identifier les espaces vectoriels Kp et Mp,1 (K), autrement dit de confondre le vecteur (x1 , . . . , xp )
 
x1 
de K avec la matrice colonne  ... .
 
p
 
xp

PC∗ – Lycée Marcelin Berthelot


1.2 Espaces vectoriels

1.2 Sous-espaces vectoriels


Si E est un K-espace vectoriel, un sous-espace vectoriel de E est une partie H non vide et stable par combinaison
linéaire. H est alors lui aussi muni d’une structure de K-espace vectoriel, ce qui justifie sa dénomination.

y λx + y

H x λx

Figure 2 – Une représentation graphique en perspective d’un sous-espace vectoriel.

Pour prouver qu’une partie H est un sous-espace vectoriel de E, on utilise le plus souvent le résultat suivant :

Proposition 1.1 — H est un sous-espace vectoriel de E si et seulement si :


(i) 0E ∈ H (ou H , €) ;
(ii) ∀(x, y) ∈ H2 , ∀λ ∈ K, λx + y ∈ H.

Exercice 1
Soit E le R-espace vectoriel des applications de R dans R. parmi les sous-ensembles suivants, indiquez ceux
qui sont des sous-espaces vectoriels de E :
a. L’ensemble des fonctions 1-périodiques ;
b. l’ensemble des fonctions croissantes ;
c. l’ensemble des fonctions monotones ;
d. l’ensemble des fonctions majorées ;
e. l’ensemble des fonctions bornées ;
f. l’ensemble des fonctions lipschitziennes.
\
Proposition 1.2 — Soit E un K-espace vectoriel, et (Hi )i∈I une famille de sous-espaces vectoriels. Alors Hi est
un sous-espace vectoriel de E. i∈I

H2
H1 ∩ H2

H1

Figure 3 – L’intersection de deux sous-espaces vectoriels est un sous-espace vectoriel.

Attention. En revanche, la réunion de deux sous-espaces vectoriels n’est pas, sauf dans le cas trivial où l’un est
inclus dans l’autre, un sous-espace vectoriel.

PC∗ – Lycée Marcelin Berthelot


1.3

■ Familles génératrices d’un sous-espace vectoriel


Définition. — Soit E un K-espace vectoriel, et A = {a1 , . . . , an } une famille finie de vecteurs de E. On appelle
combinaison linéaire des vecteurs de A tout vecteur x pouvant s’écrire sous la forme :
n
X
x= λi ai avec (λ1 , . . . , λn ) ∈ Kn .
i=1

Théorème 1.3 — L’ensemble des combinaisons linéaires des vecteurs de A forme un sous-espace vectoriel de E, que
l’on note Vect(A ) ou Vect(a1 , . . . , an ). C’est le sous-espace vectoriel engendré par la famille A .

À l’inverse, on dira que la famille A est une famille génératrice du sous-espace vectoriel Vect(A ). Lorsqu’on
parle de famille génératrice sans préciser le sous-espace vectoriel dont il est question, c’est qu’il s’agit d’une
famille génératrice de l’espace E tout entier.
Remarque. Vect(A ) est le plus petit (au sens de l’inclusion) des sous-espaces vectoriels contenant A .
n o
Remarque. Lorsque A = {a} est composé d’un seul vecteur, on peut écrire Vect(a) = λa λ ∈ K sous la forme
plus concise : Vect(a) = Ka.

1.3 Somme de sous-espaces vectoriels


Lorsque H1 et H2 sont deux sous-espaces vectoriels d’un même K-espace vectoriel E, on note
n o
H1 + H2 = x1 + x2 x1 ∈ H1 et x2 ∈ H2 .

Proposition 1.4 — H1 + H2 est un sous-espace vectoriel. En outre, si A1 et A2 sont des parties génératrices
respectivement de H1 et H2 , A1 ∪ A2 est une partie génératrice de H1 + H2 .

En d’autres termes, H1 + H2 est le plus petit sous-espace vectoriel (au sens de l’inclusion) contenant H1 et H2 .

H1 + H2
x2 x1 + x2
H1
x1

H2

Figure 4 – La somme de deux droites vectorielles est en général un plan.

Tout vecteur x de H1 + H2 peut donc se décomposer sous la forme x = x1 + x2 avec x1 ∈ H1 et x2 ∈ H2 , mais cette
décomposition est-elle unique ? Le résultat suivant a pour objet de répondre à cette question.

Proposition 1.5 — Soient H1 et H2 deux sous-espaces vectoriels de E. Il y a équivalence entre :

(i) ∀x ∈ H1 + H2 , ∃!(x1 , x2 ) ∈ H1 × H2 x = x1 + x2
(ii) H1 ∩ H2 = {0E }

Autrement dit, pour qu’il y ait unicité de la décomposition, il faut et il suffit que H1 ∩ H2 = {0E }. On dit dans ce cas
que la somme H1 + H2 est directe, et on la note : H1 ⊕ H2 .

Pour finir, notons que de cette notion de somme de deux sous-espaces vectoriels découle la notion de sous-
espaces supplémentaires :

Définition. — Lorsque H1 et H2 vérifient : E = H1 ⊕ H2 , on dit que ces deux sous-espaces sont supplémentaires.

PC∗ – Lycée Marcelin Berthelot


1.4 Espaces vectoriels

Exercice 2
On considère l’espace vectoriel E = C 0 ([0, 1], R) des fonctions continues de [0, 1] dans R. On note H1 l’ensemble
Z1
des fonctions constantes et H2 l’ensemble des fonctions f ∈ E telles que f (t) dt = 0. Montrer que H1 et H2
0
sont deux sous-espaces vectoriels supplémentaires de E.
L’exemple de la division euclidienne
Considérons l’espace vectoriel E = K[X] des polynômes à coefficients dans K ; il s’agitn d’un K-espace vectoriel.
o
Si M est un polynôme non nul, l’ensemble des multiples de M, noté : M.K[X] = MQ Q ∈ K[X] , est un
sous-espace vectoriel de K[X]. En posant n = deg M, l’identité de la division euclidienne affirme pour tout
P ∈ K[X] l’existence d’un unique couple (Q, R) ∈ K[X]2 tel que :

P = MQ + R et deg R ⩽ n − 1.

Autrement dit, tout polynôme P se décompose de manière unique comme somme d’un polynôme MQ ∈ M.K[X]
et d’un polynôme R ∈ Kn−1 [X]. Ainsi, les sous-espaces vectoriels M.K[X] et Kn−1 [X] sont des sous-espaces
vectoriels supplémentaires de K[X]. On peut donc écrire K[X] = M.K[X] ⊕ Kn−1 [X] lorsque n = deg M.

■ Projections vectorielles
Considérons deux sous-espaces vectoriels supplémentaires H1 et H2 de E : E = H1 ⊕ H2 . Pour tout x ∈ E, il existe
un unique couple (x1 , x2 ) ∈ H1 × H2 tel que x = x1 + x2 . On définit l’application p : E → E qui à tout x ∈ E associe
p(x) = x1 ; il s’agit de la projection vectorielle sur H1 parallèlement à H2 .
On a H1 = Im p = Ker(p − IdE ) et H2 = Ker p donc on peut écrire : E = Ker p ⊕ Ker(p − IdE ).

H2

x
x − p(x)

p(x)
H1

Figure 5 – La projection sur H1 parallèlement à H2 .

Remarque. Si p est la projection vectorielle sur H1 parallèlement à H2 , alors IdE − p est la projection sur H2
parallèlement à H1 .

Théorème 1.6 — Un endomorphisme p ∈ L(E) est une projection vectorielle si et seulement si p ◦ p = p. Dans ce cas,
p est la projection sur Im p = Ker(p − IdE ) parallèlement à Ker p.

Exercice 3
On considère deux projections p et q d’un même espace vectoriel E.
Montrer que Im p = Im q si et seulement si p ◦ q = q et q ◦ p = p.
Donner une condition analogue pour caractériser l’égalité Ker p = Ker q.

PC∗ – Lycée Marcelin Berthelot


1.5

■ Somme de plusieurs sous-espaces vectoriels


Si H1 , . . . , Hp sont des sous-espaces vectoriels de E, on peut définir de manière analogue leur somme :
n o
H1 + H2 + · · · + Hp = x1 + x2 + · · · + xp xi ∈ Hi , 1 ⩽ i ⩽ p .

Lorsque la décomposition d’un vecteur x ∈ H1 + H2 + · · · + Hp est unique, on dira que cette somme est directe, et
on la notera H1 ⊕ H1 ⊕ · · · ⊕ Hp .
Comment caractériser une somme directe ? Pour répondre à cette question, on peut adopter une démarche
récursive en écrivant : x = (x1 + x2 + · · · + xp−1 ) + xp
| {z } |{z}
∈ H1 +H2 +···+Hp−1 ∈ Hp
Ainsi, la somme est directe si et seulement si les sommes H = H1 + H2 + · · · + Hp−1 et H + Hp sont directes. Cela
conduit au résultat suivant :

Théorème 1.7 — La somme H1 + H2 + · · · Hp est directe si et seulement si :


(i) la somme H1 ⊕ H2 ⊕ · · · ⊕ Hp−1 est directe ;
 
(ii) H1 ⊕ H2 ⊕ · · · ⊕ Hp−1 ∩ Hp = {0E }.

Attention. Il n’existe pas de critère simple pour vérifier qu’une somme de n ⩾ 3 sous-espaces vectoriels est
directe. Ou bien on justifie l’unicité de la décomposition directement, ou bien on procède récursivement à
l’aide du résultat précédent. Par exemple, pour prouver qu’une somme H1 + H2 + H3 est directe il faut prouver
successivement les deux égalités : H1 ∩ H2 = {0E } puis (H1 ⊕ H2 ) ∩ H3 = {0E }.

■ Famille de projecteurs associée à une somme directe


Mn
Considérons maintenant une famille (H1 , . . . , Hn ) de sous-espaces vectoriels vérifiant : E = Hk . Tout vecteur
Xn k=1
x ∈ E s’écrit de manière unique : x = xk , avec xk ∈ Hk . On peut donc définir les endomorphismes pk : x 7→ xk
k=1 M
pour 1 ⩽ k ⩽ p. Ainsi, pk est la projection vectorielle sur Hk parallèlement à Hi .
i,k
H3

x3 x

H1 ⊕ H2
x2
x1 H2

H1

Figure 6 – x3 est la projection sur H3 parallèlement à H1 ⊕ H2 .

■ Familles libres
Définition. — Une famille finie (a1 , . . . , an ) de vecteurs non nuls de E est dite libre lorsque la somme Ka1 + · · · + Kan
est directe, c’est à dire lorsque tout vecteur x appartenant à cette somme se décompose de manière unique sous la
forme :
Xn
x= λ i ai .
i=1

PC∗ – Lycée Marcelin Berthelot


1.6 Espaces vectoriels

On dit encore que les vecteurs a1 , . . . , an sont linéairement indépendants. Une famille qui n’est pas libre est dite liée.

Il existe essentiellement trois manières de prouver la liberté d’une famille de vecteurs : on peut bien entendu
recourir à la définition en justifiant l’unicité de la décomposition, ou utiliser l’un des deux résultats suivants.

Proposition 1.8 — La famille (a1 , . . . , an ) est libre si et seulement si elle vérifie la propriété :
n
X
(i) ∀(λ1 , . . . , λn ) ∈ Kn , λi ai = 0E =⇒ λ1 = · · · = λn = 0.
i=1

Exercice 4
Soit E un espace vectoriel, et f ∈ L(E). On suppose l’existence d’un vecteur x ∈ E et d’un entier n tel que
f n−1 (x) , 0E et f n (x) = 0E . Montrer que la famille (x, f (x), f 2 (x), . . . , f n−1 (x)) est libre.
Le second résultat adopte une approche récursive :

Proposition 1.9 — Soit (a1 , . . . , an ) une famille libre, et an+1 ∈ E. Alors (a1 , . . . , an+1 ) est libre si et seulement si
an+1 < Vect(a1 , . . . , an ).

Autrement dit, pour prouver que la famille (a1 , . . . , an ) est libre il suffit de prouver que (a1 , . . . , an−1 ) est libre puis
que an n’est pas combinaison linéaire des vecteurs a1 , . . . , an−1 .
Exercice 5
On considère n réels ordonnés α1 < α2 < · · · < αn ainsi que les fonctions fi = x 7→ eαi x de F (R, R). Prouver par
récurrence que les fonctions (f1 , f2 , . . . , fn ) forment une famille libre.

1.4 Bases d’un espace vectoriel


Définition. — Une base (e1 , . . . , ep ) est une famille libre et génératrice de E, c’est à dire lorsque tout vecteur x de E se
décompose de manière unique sous la forme :
p
X
x= xi e i avec (x1 , . . . , xp ) ∈ Kp .
i=1

On a donc dans ce cas : E = Ke1 ⊕ · · · ⊕ Kep .

Ainsi, le caractère générateur de la famille (e) traduit l’existence de la décomposition de tout vecteur de E, le
caractère libre, l’unicité de cette décomposition.
Remarque. Les liens entre base et décomposition de l’espace en somme directe sont profonds : si on dispose
d’une décomposition de E en somme directe E = H1 ⊕ H2 ⊕ · · · ⊕ Hp , on obtient une base de (e) en réunissant des
bases de chacun des sous-espaces vectoriels H1 , H2 , . . . , Hp .
Plus formellement, si (e1 , . . . , ei1 ) est une base de H1 , (ei1 +1 , . . . , ei2 ) une base de H2 , . . . , (eip−1 −1 , . . . , ep ) une base
de Hp , alors (e1 , . . . , ep ) est une base de E. Une telle base sera dite adaptée à la décomposition en somme directe
E = H1 ⊕ · · · ⊕ Hp .
À l’inverse, à partir d’une base (e1 , . . . , ep ) de E on peut obtenir une décomposition en somme directe de E en
fractionnant cette base. Si on considère par exemple un entier k ∈ ⟦1, p − 1⟧ et si on pose H1 = Vect(e1 , . . . , ek ) et
H2 = Vect(ek+1 , . . . , ep ) on obtient une décomposition de E en somme directe de deux sous-espaces supplémen-
taires E = H1 ⊕ H2 .

■ Dimension d’un espace vectoriel


Dans le cours de première année a été prouvé un résultat important : si un espace vectoriel contient une base de
cardinal fini, toutes les autres bases ont même cardinal, appelé dimension de l’espace vectoriel.

PC∗ – Lycée Marcelin Berthelot


1.7

Les conséquences de ce résultat sont nombreuses, et en particulier :

Proposition 1.10 — Si E est un K-espace vectoriel de dimension p, toute famille libre (respectivement génératrice)
de cardinal p est une base.
En outre, toute famille génératrice contient au moins p éléments, et toute famille libre contient au plus p éléments.

Théorème 1.11 (de la base incomplète) — Soit (e) une famille libre et (g) une famille génératrice d’un espace
vectoriel E. Alors il existe une base (b) telle que (e) ⊂ (b) ⊂ (e ∪ g). Autrement dit, on peut « compléter » une famille
libre par certains éléments d’une famille génératrice pour former une base.

Cet énoncé possède une version simplifiée (en prenant pour (g) l’ensemble des vecteurs de E, puis en prenant
pour (e) l’ensemble vide) :

Corollaire — Toute famille libre peut être complétée pour former une base de E (théorème de la base incomplète) ;
de toute famille génératrice on peut extraire une base de E (théorème de la base extraite).

Une application fréquente du théorème de la base incomplète consiste, à partir d’une base (e1 , . . . , ek ) d’un
sous-espace vectoriel H de E, à compléter celle-ci pour obtenir une base (e1 , . . . , ek , ek+1 , . . . , ep ) de E. Une telle
base est dite adaptée à H.

Proposition 1.12 — Si E et F sont deux K-espaces vectoriels de dimensions finies, il en est de même de E × F, et
dim(E × F) = dim(E) + dim(F).

Corollaire — On en déduit par une récurrence immédiate que si E1 , E2 , . . . , Ek sont des K-espaces vectoriels de
k
X
dimensions finies, il en est de même de E1 × · · · × Ek , et dim(E1 × · · · × Ek ) = dim Ei .
i=1

Proposition 1.13 (Formule de Grassmann) — Si H1 et H2 sont deux sous-espaces vectoriels d’un K-espace vectoriel
de dimension finie, alors dim(H1 + H2 ) = dim H1 + dim H2 − dim(H1 ∩ H2 ).

Il existe une formule qui généralise la formule de Grassmann au cas d’une somme de k sous-espaces vectoriels,
mais elle est trop compliquée pour être utilisable en pratique. On se contentera donc du résultat suivant :

Proposition 1.14 — Si H1 , . . . , Hk sont des sous-espaces vectoriels de dimensions finies, il en est de même de leur
Xk  Xk
somme, et dim Hi ⩽ dim Hi , avec égalité si et seulement si la somme est directe.
i=1 i=1

Remarque. Ceci donne un moyen alternatif pour prouver qu’une somme est directe, pour peut qu’on sache
calculer la dimension de la somme.

■ Représentation matricielle des vecteurs en dimension finie


 
Matrice associée à un vecteur x1 
Étant donnée une base (e1 , . . . , ep ) de E, l’application : φ : Mp,1 (K) → E qui à une matrice colonne X =  ... 
 
 
p
X xp
associe le vecteur xk ek est un isomorphisme. Pour tout x ∈ E, X = φ−1 (x) est la matrice des composantes de x
k=1
dans la base (e), et sera notée : X = Mate (x).

PC∗ – Lycée Marcelin Berthelot


1.8 Espaces vectoriels

Matrice associée à une famille de vecteurs


Si (x1 , . . . , xk ) est une famille de vecteurs de E et X1 , . . . , Xk les matrices colonnes associées à ces vecteurs dans la
base (e), on appelle matrice associée à la famille (x1 , . . . , xk ) dans la base (e) la matrice A ∈ Mp,k (K) formée des
colonnes X1 , . . . , Xk :

  i e coefficient de xj dans la base (e)


e1 
 
 ↑ ↑   

   
A =  X1 · · · Xk  = ei  xij
 
   
  
 ↓ ↓ 
 
e  p
x1 xj xk

Le rang de la famille (x1 , . . . , xk ) est la dimension de l’espace vectoriel qu’ils engendrent ; on a donc rg(x1 , . . . , xk ) =
rg(X1 , . . . , Xk ) = rg A.

Exemple. Considérons E = R4 et notons (e) la base canonique. Définissons les quatre vecteurs :

a = (1, 2, 3, 4), b = (1, 1, 1, 3), c = (2, 1, 1, 1), d = (3, 1, 0, 3)

et posons H = Vect(a, b, c, d). Quelle est la dimension de H ? Pour répondre à cette question, posons A =
Mat(e) (a, b, c, d) et calculons rg(A) en appliquant la méthode de Gauss-Jordan sur les colonnes de A :

1 1 2 3
 
2 1 1 1
A = 
3 1 1 0

 
4 3 1 3

On réalise les opérations C2 ← C2 − C1 , C3 ← C3 − 2C1 , C4 ← C4 − 3C1 :

1 0 0 0 
 
2 −1 −3 −5
rg A = rg 

3 −2 −5 −9

 
4 −1 −7 −9

Réalisons maintenant les opérations C3 ← C3 − 3C2 , C4 ← C4 − 5C2 :

1 0 0 0 
 
2 −1 0 0 
rg A = rg 

3 −2 1 1 

 
4 −1 −4 −4

Et enfin l’opération C4 ← C4 − C3 :
1 0 0 0
 
2 −1 0 0
rg A = rg 

3 −2 1 0

 
4 −1 −4 0

Ainsi, H est un sous-espace vectoriel de dimension rg A = 3, et la famille (a, b, c, d) est une famille génératrice
qui n’est pas libre : il ne s’agit pas d’une base.
Pourquoi avoir agi sur les colonnes plutôt que sur les lignes 1 ? La matrice A est la matrice de quatre vecteurs de
H ; toute combinaison linéaire de ces vecteurs donne de nouveaux vecteurs de H. Ainsi, réaliser des opérations
élémentaires sur les colonnes de A crée de nouvelles familles de vecteurs de H sans en modifier le rang. Les vecteurs
qui apparaissent dans la matrice finale sont donc toujours des vecteurs générateurs de H, mais cette fois les
trois premiers forment une famille libre, et donc une base de H : la famille (a, b′ , c′ ) avec b′ = (0, −1, −2, −1) et
c′ = (0, 0, 1, −4) est une base de H.

1. Rappelons que les opérations élémentaires sur les lignes comme sur les colonnes ne modifient pas le rang.

PC∗ – Lycée Marcelin Berthelot


1.9

Exercice 6
On considère l’espace vectoriel E = Kn [X] des polynômes de degré inférieur ou égal à n, ainsi que la famille
de vecteurs (P0 , . . . , Pn ) définie par : Pk = Xk (1 − X)n−k . Quelle forme particulière prend la matrice associée à la
famille (P) dans la base canonique ? En déduire que (P) est une base de E.
Par un raisonnement analogue, prouver que toute famille de polynômes (Q0 , . . . , Qn ) vérifiant deg Qk = k,
0 ⩽ k ⩽ n, est une base de E.
Matrice de passage entre deux bases
Considérons un K-espace vectoriel E de dimension finie p, et (e) et (e′ ) deux bases. Nous qualifierons la base (e)
d’ancienne base, et (e′ ) de nouvelle base.
Étant donné un vecteur x ∈ E, on souhaite exprimer ses nouvelles coordonnées X′ = Mat(e′ ) (x) en fonction de ses
anciennes coordonnées X = Mat(e) (x).
On suppose connaître l’expression des vecteurs de la nouvelle base (e′ ) dans l’ancienne base (e) :
p
X
∀j ∈ ⟦1, p⟧, ej′ = λij ei
i=1

ce qui revient à considérer la matrice P = Mate (e1′ , . . . , ep′ ) = (λij ) ∈ Mp (K). On dit que P est la matrice de passage
de (e) vers (e′ ).

Théorème 1.15 (formule de changement de base) — La matrice P = Mate (e′ ) est une matrice inversible, et la
formule de changement de base s’exprime sous la forme : X′ = P−1 X.

Remarque. De l’égalité X = PX′ = (P−1 )−1 X′ il résulte que P−1 est la matrice de passage de (e′ ) vers (e).

2. Applications linéaires
2.1 Rappels
Une application linéaire est une application entre deux espaces vectoriels qui respecte l’addition des vecteurs et
la multiplication scalaire, ou, en d’autre termes, qui préserve les combinaisons linéaires. On adoptera donc la
définition suivante :

Définition. — Soit E et F deux K-espaces vectoriels, et u : E → F une application. On dit que u est linéaire lorsque :
∀(x, y) ∈ E2 , ∀λ ∈ K, u(λx + y) = λu(x) + u(y).

On note L(E, F) le K-espace vectoriel des applications linéaires de E vers F ; si E et F sont de dimensions finies,
la dimension de cet espace vectoriel est égal à dim E × dim F.
Enfin, lorsque F = E on notera L(E) = L(E, E), et les éléments de L(E) seront appelés des endomorphismes.

■ Matrice associée à une application linéaire


Soit E un K-espace vectoriel de dimension p, et F un K-espace vectoriel de dimension n. On note (e1 , . . . , ep ) une
base de E, et (f1 , . . . , fn ) une base de F.  
À une application linéaire u ∈ L(E, F) on associe la matrice A = Matf u(e1 ), . . . , u(ep ) (la matrice des composantes
des vecteurs u(e1 ), . . . , u(ep ) dans la base (f )), matrice que l’on note Mate,f (u). On a donc :

  coordonnées de u(ej ) dans la base (f )


f1  a11 a1j a1p 
 

A = Mate,f (u) =  
 
 

fn  an1 anj anp 


u(e1 ) u(ej ) u(ep )

PC∗ – Lycée Marcelin Berthelot


1.10 Espaces vectoriels

Remarque. L’application φ : L(E, F) → Mnp (K) définie par φ(u) = Mate,f (u) établit un isomorphisme entre
L(E, F) et Mn,p (K) ; c’est ce résultat qui permet de justifier sans peine que dim L(E, F) = np = dim E × dim F.
Exercice 7
Soient E et F deux
n espaces vectoriels
o de dimensions finies, et u ∈ L(E, F).
On pose H = v ∈ L(F, E) v ◦ u = 0 .
Soit v ∈ H. Quelle particularité possède la matrice associée à v dans une base adaptée à Im u ? En déduire
l’expression de dim H en fonction des dimensions de E et de F et du rang de u.
L’application d’une application linéaire à un vecteur est lié au produit matriciel par le résultat suivant :
 
Théorème 2.1 — Si x ∈ E, on pose X = Mate (x) et Y = Matf u(x) . Alors Y = AX.

Formule de changement de base pour les applications linéaires


Soient (e′ ) et (f ′ ) deux nouvelles bases, respectivement de E et F. On note P ∈ GLp (K) la matrice de passage de
(e) vers (e′ ) et Q ∈ GLn (K) la matrice de passage de (f ) vers (f ′ ).
On note A′ = (a′ij ) = Mate′ ,f ′ (u) la matrice associée à l’application linéaire u dans les nouvelles bases (e′ ) et (f ′ ).
On souhaite exprimer A′ en fonction de A, matrice associée à u dans les anciennes bases (e) et (f ).
La matrice associée à u(x) est égale à AX dans la base (f ), et à A′ X′ dans la base (f ′ ). Des formules de changement
de base pour les vecteurs on déduit que : A′ X′ = Q−1 AX. Or X′ = P−1 X, donc : A′ P−1 X = Q−1 AX. Ceci étant vrai
pour tout X ∈ Mp,1 (K), on en déduit que A′ P−1 = Q−1 A, soit : A′ = Q−1 AP.

Exemple. On pose E = R4 , F = R3 , on note (e) et (f ) les bases canoniques respectivement de E et F, et on


 
4 5 −7 7
considère l’application linéaire u ∈ L(E, F) définie par Mate,f (u) = 2 1 −1 3 = A. On souhaite obtenir la
 
1 −1 2 1
 
matrice A′ = Mate′ ,f ′ (u) relative aux changements de bases définis par :
 ′
e1 = e 1  ′

 ′
 f1 = 4f1 + 2f2 + f3
e2 = e2

 

  ′

 ′ et f2 = 5f1 + f2 − f3
e3 = 4e1 + e2 − 3e4
 

  ′

f3 = f3

 
e′ = −7e + e + 5e

4 1 3 4

Pour obtenir A′ nous avons deux possibilités :


1 0 4 −7
 
 
0 1 1 0  4 5 0
(i) définir les matrices P = Mat(e) (e′ ) =   et Q = Mat(f ) (f ′ ) = 2 1 0 et calculer Q−1 AP ;
  
0 0 0 1 
1 −1 1
 
 
0 0 −3 5
(ii) exprimer directement les vecteurs u(ei′ ) dans la base (f ′ ).
La première méthode s’avère longue en calcul ; elle ne sera quasiment jamais employée.
La seconde méthode peut s’avérer elle aussi fastidieuse, sauf si les vecteurs (e′ ) et (f ′ ) ont étés judicieusement
choisis, ce qui s’avérera en général le cas.
Et en effet :

u(e1′ ) = u(e1 ) = f1′ u(e3′ ) = 4u(e1 ) + u(e2 ) − 3u(e4 ) = 0E


u(e2′ ) = u(e2 ) = f2′ u(e4′ ) = −7u(e1 ) + u(e3 ) + 5u(e4 ) = 0E
 
1 0 0 0
donc A′ = 0 1 0 0 = Mate′ ,f ′ (u) et on peut affirmer que A = QA′ P−1 sans avoir besoin de réaliser le calcul.
 
0 0 0 0
 
Le théorème 2.4 permettra d’expliquer la façon dont ont été choisies les bases (e′ ) et (f ′ ).

PC∗ – Lycée Marcelin Berthelot


1.11

Formule de changement de base pour les endomorphismes

Il s’agit d’un cas particulier du précédent, avec : F = E, (f ) = (e), (f ′ ) = (e′ ). On obtient : A′ = P−1 AP.
Deux matrices A et A′ liées par une relation de ce type sont dites semblables. Garder toujours à l’esprit que deux
matrices semblables sont deux matrices qui peuvent être associées au même endomorphisme, mais exprimées
dans des bases différentes.

Exercice 8
Soit A ∈ Mn (K) une matrice vérifiant An = 0 et An−1 , 0. Montrer que la matrice A est semblable à la matrice
 
 0 1 0 0 
 
 

A = 
 
 0 


 1 
0 0
 

   
 2 2 −3 1 1 0
En déduire que les matrices A =  5 1 −5 et T = 0 1 1 sont semblables, puis calculer explicitement
   
−3 4 0 0 0 1
   
une matrice P vérifiant A = PTP−1 .

■ Trace d’un endomorphisme


p
X
Définition. — On appelle trace d’une matrice carrée A = (aij ) ∈ Mp (K) le scalaire : tr A = aii , c’est à dire la
somme des éléments diagonaux de cette matrice. i=1

On définit ainsi une forme linéaire sur l’espace Mp (K) des matrices carrées d’ordre p, autrement dit une
application linéaire de Mp (K) dans K. Cette forme linéaire va pouvoir à son tour être définie sur l’espace
L(E) des endomorphismes d’un espace vectoriel E de dimension finie grâce au résultat suivant, et surtout son
corollaire :

Proposition 2.2 — Si (A, B) ∈ Mp (K)2 on a tr(AB) = tr(BA).

Corollaire — Si A ∈ Mp (K) et P ∈ GLp (K) alors tr(P−1 AP) = tr A.

Du corollaire précédent on déduit que si u ∈ L(E) et A = Mate (u), alors tr A ne dépend pas du choix de la base
(e). On peut donc définir la trace de u par l’intermédiaire de la trace d’une matrice associée à A dans une base
quelconque :

Définition. — Si E est un K-espace vectoriel de dimension finie et u ∈ L(E) un endomorphisme de E, on appelle


trace de u la trace de la matrice Mat(e) (u), où (e) est une base quelconque de E.

L’application u 7→ tr u est une forme linéaire sur L(E), autrement dit une application linéaire de L(E) dans K.
De la proposition 2.2 il résulte :

Corollaire — Si u et v sont deux endomorphismes d’un même K-espace vectoriel E, alors tr(u ◦ v) = tr(v ◦ u).

PC∗ – Lycée Marcelin Berthelot


1.12 Espaces vectoriels

Base canonique de Mnp (K)


Il s’agit bien entendu de la base (Eij )1⩽i⩽n formée des matrices dont tous les coefficients sont nuls sauf un, égal
à1: 1⩽j⩽p
 
 0 0 
 
 
Eij = 
 
 1  i

 
 
0 0
j

Il est bon de connaître la formule donnant le produit de deux matrices de cette forme ; c’est le résultat suivant :

Eij Ekℓ = δj,k Eiℓ .



1 si j = k


où δj, k désigne le symbole de Kronecker : δj,k = .
0
 si j , k

Exercice 9
En utilisant la base canonique de Mp (K), prouver que toute forme linéaire φ : Mp (K) → K vérifiant :
∀(A, B) ∈ Mp (K)2 , φ(AB) = φ(BA) est proportionnelle à la trace.

2.2 Image et noyau d’une application linéaire


Nous allons maintenant nous intéresser aux liens qui existent entre sous-espaces vectoriels et applications
linéaires.

Proposition 2.3 — Soit u : E → F une application linéaire, H1 et H2 des sous-espaces vectoriels respectivement de E
et F. Alors u(H1 ) et u −1 (H2 ) sont respectivement des sous-espaces vectoriels de F et de E.

Attention. Attention à la notation u −1 (H2 ), qui pourrait faire croire à tort que u est supposée bijective. Il n’en
est rien, il s’agit de la notion d’image réciproque définie par :
n o
u −1 (H2 ) = x ∈ E u(x) ∈ H2 .

Exemples. En appliquant cette propriété aux sous-espaces vectoriels H1 = E et H2 = {0F }, on définit image et
noyau d’une application linéaire :
n o
Im u = u(E) = y ∈ F ∃x ∈ E tel que u(x) = y est un sous-espace vectoriel de F (l’image de u) ;
  n o
Ker u = u −1 {0F } = x ∈ E u(x) = 0F est un sous-espace vectoriel de E (le noyau de u).
Rappelons que ces deux sous-espaces vectoriels permettent de caractériser l’injectivité et la surjectivité d’une
application linéaire :

u est injective si et seulement si Ker u = {0E }, et u est surjective si et seulement si Im u = F.

Remarque. Ces notions de noyau et d’image interviennent dans la résolution d’un système linéaire du type :
u(x) = y, d’inconnue x ∈ E :
cette équation possède une
n solution si eto seulement si y ∈ Im u, et dans ce cas, l’ensemble des
solutions prend la forme x0 + h h ∈ Ker u , où x0 est une solution particulière quelconque.

Définition. — Lorsque u est bijective, l’application u −1 est aussi linéaire. On dit alors que u est un isomorphisme,
et que E et F sont des espaces vectoriels isomorphes.

Lorsqu’ils sont de dimensions finies, deux espaces isomorphes sont de même dimension.

PC∗ – Lycée Marcelin Berthelot


1.13

Nous allons maintenant aborder un théorème très important, qui lie image et supplémentaire du noyau. Il s’agit
du résultat suivant :

Théorème 2.4 (Théorème du rang - forme géométrique) — Soit u ∈ L(E, F) une application linéaire, et H un
supplémentaire de Ker u dans E. Alors la restriction de u à H réalise un isomorphisme entre H et Im u.
!
H −→ Im u
En d’autres termes, l’application uH : est un isomorphisme.
x 7−→ u(x)

Remarque. Lorsque E et F sont de dimensions finies, considérons une base (e1 . . . , er ) de H et une base
(er+1 , . . . , ep ) de Ker u. On obtient ainsi une base (e1 , . . . , er , er+1 , . . . , ep ) de E. Le théorème précédent nous permet
 
d’affirmer que f1 = u(e1 ), . . . , fr = u(er ) est une base de Im u, que l’on peut compléter pour former une base
(f1 , . . . , fr , fr+1 , . . . , fn ) de F. La matrice associée à u pour les bases (e) et (f ) est alors la matrice suivante :
 
 1 0 0 

  !
 = Ir O
 

 1 
 0 0  O O
 
 
 
0 0

Notons que l’exemple donné en page 10 illustre ce résultat.

Corollaire (Théorème du rang) — Soit E un K-espace vectoriel de dimension finie, F un K-espace vectoriel, et
u ∈ L(E, F) une application linéaire. Alors Ker u et Im u sont de dimension finie, et :

dim E = dim(Ker u) + dim(Im u).

Corollaire — Si F est de dimension finie et si dim E = dim F, alors :

u injective ⇐⇒ u surjective ⇐⇒ u bijective.

En particulier, pour les endomorphismes en dimension finie, injectivité, surjectivité et bijectivité sont des notions
équivalentes.

Exercice 10
Soit E un K-espace vectoriel de dimension finie, et (u, v) ∈ L(E)2 . Montrer, en appliquant le théorème du rang
à la restriction de u à Im v, que : rg(u ◦ v) ⩾ rg u + rg v − dim E.
En déduire que dim(Ker u 2 ) ⩽ 2 dim(Ker u).

■ Application à l’interpolation de Lagrange


En analyse numérique, l’interpolation est une opération mathématique consistant à déterminer une fonction à
partir de la donnée d’un nombre fini de valeurs, et vérifiant éventuellement certaines propriétés supplémen-
taires.
Dans le cas particulier de l’interpolation de Lagrange on considère un entier n ∈ N, x0 , . . . , xn des scalaires deux
à deux distincts, et y0 , . . . , yn des scalaires quelconques. Le problème consiste à déterminer le ou les polynômes
P ∈ K[X] (s’ils existent) vérifiant : ∀k ∈ ⟦0, n⟧, P(xk ) = yk , et si possible de degré minimal.

Considérons l’application linéaire u : K[X] → Kn+1 définie par :


 
∀P ∈ K[X], u(P) = P(x0 ), . . . , P(xn ) .

Si on note y = (y0 , . . . , yn ), il s’agit de résoudre le système linéaire : u(P) = y, d’inconnue P ∈ K[X].

n
Y
Lemme — Le noyau de u est constitué des multiples du polynôme N = (X − xi ).
i=0

PC∗ – Lycée Marcelin Berthelot


1.14 Espaces vectoriels

• y •

yk •

x
xk

Figure 7 – Un polynôme de degré trois passant par quatre points d’interpolation.

Sachant que Kn [X] est un supplémentaire de N.K[X] (principe de la division euclidienne par N), on en déduit
que u réalise un isomorphisme entre Kn [X] et l’image de u. Mais alors dim(Im u) = n + 1, et puisque Im u ⊂ Kn+1
on a Im u = Kn+1 . Autrement dit, u est un endomorphisme surjectif, et :

Théorème 2.5 — Il existe un unique polynôme P de Kn [X] tel que : ∀k ∈ ⟦0, n⟧, P(xn ) = yn .

Nous venons donc de démontrer que le problème de l’interpolation de Lagrange possède une unique solution PL
de degré inférieur ou égal à N ; les autres solutions s’écrivent : P = PL + N.Q, où Q est un polynôme quelconque.
Mais tout ceci ne nous dit pas comment calculer PL . Pour ce faire, nous allons introduire une nouvelle base de
Kn [X], la base des polynômes d’interpolation de Lagrange, dans laquelle l’expression de PL sera très simple.

Y X−x
i
Théorème 2.6 — Posons pour tout entier k ∈ ⟦0, n⟧, Lk = . Ces polynômes forment une base de Kn [X]
xk − xi
i,k
n
X
pour laquelle : ∀P ∈ Kn [X], P = P(xk )Lk .
k=0

Les polynômes Lk sont les polynômes d’interpolation de Lagrange aux points x0 , . . . , xn .


n
X
Il devient alors évident que le polynôme PL s’écrit : PL = yk Lk .
k=0

Exemple. Déterminons le polynôme d’interpolation de degré minimal répondant aux conditions d’interpola-
tion : P(−3) = 2, P(−1) = −1, P(1) = 1, P(2) = 2 (c’est celui représenté figure 7).
On commence par calculer les quatre polynômes de Lagrange associés aux réels −3, −1, 1, 2 :

(X + 1)(X − 1)(X − 2) 1
L0 = = − (X3 − 2X2 − X + 2)
(−3 + 1)(−3 − 1)(−3 − 2) 40
(X + 3)(X − 1)(X − 2) 1 3
L1 = = (X − 7X + 6)
(−1 + 3)(−1 − 1)(−1 − 2) 12
(X + 3)(X + 1)(X − 2) 1
L2 = = − (X3 + 2X2 − 5X − 6)
(1 + 3)(1 + 1)(1 − 2) 8
(X + 3)(X + 1)(X − 1) 1 3
L3 = = (X + 3X2 − X − 3)
(2 + 3)(2 + 1)(2 − 1) 15

Le polynôme d’interpolation recherché est donc :

1 1 9 1
P = 2L0 − L1 + L2 + 2L3 = − X3 + X2 + X −
8 4 8 4

PC∗ – Lycée Marcelin Berthelot


1.15

■ Déterminant de Vandermonde
Adoptons maintenant une démarche naïve pour résoudre le problème de l’interpolation de Lagrange : posons
n−1
X
P= ak Xk , et considérons le système d’inconnues a0 , a1 , . . . , an−1 .
k=0 
2 n−1
a0 + a1 x1 + a2 x1 + · · · + an−1 x1 = y1



2
a0 + a1 x2 + a2 x2 + · · · + an−1 x2n−1 = y2




...................................





a + a x + a x2 + · · · + a xn−1 = y

0 1 n 2 n n−1 n n

Il s’agit d’un système linéaire (bien noter que les inconnues sont a0 , . . . , an−1 ) dont la forme matricielle est :

1 x1 x12 · · · x1n−1   a0  y1 


    
1 x2 x22 n−1 
· · · x2   a1  y2 
    
 .. .. .. ..   ..  =  .. 
     
 .
 . . .   .   . 
xn2 · · · xnn−1 an−1 yn
   
1 xn

La matrice carrée d’ordre n qui intervient dans ce système s’appelle la matrice de Vandermonde ; son déterminant
est appelé le déterminant de Vandermonde :

1 x1 x12 · · · x1n−1
1 x2 x22 · · · x2n−1
V(x1 , x2 , . . . , xn ) = . .. .. ..
.. . . .
1 xn xn2 ··· xnn−1

La résolution du problème de Lagrange nous permet d’ors et déjà d’affirmer que ce déterminant est non nul
lorsque les xi sont deux à deux distincts ; il est néanmoins possible de calculer explicitement ce déterminant :

j−1
n Y
Y
Théorème 2.7 — V(x1 , x2 , . . . , xn ) = (xj − xi ), formule qu’on retiendra sous la forme plus concise :
j=2 i=1

Y
V(x1 , x2 , . . . , xn ) = (xj − xi ).
i<j

2.3 Polynômes d’endomorphismes et de matrices carrées


Nous allons maintenant considérer un endomorphisme u ∈ L(E) et un polynôme P ∈ K[X].
n
X n
X
Si P = ak Xk , on définit l’endomorphisme P(u) = ak u k . En bref :
k=0 k=0

P(X) = an Xn + an−1 Xn−1 + · · · + a1 X + a0


P(u) = an u n + an−1 u n−1 + · · · + a1 u + a0 Id

Proposition 2.8 — L’application qui à P associe P(u) est une application linéaire qui vérifie :

∀(P, Q) ∈ K[X]2 , (PQ)(u) = P(u) ◦ Q(u).

L’intérêt de ce résultat est immédiat : aux factorisations polynomiales vont correspondre des factorisations
d’endomorphismes. Par exemple, si P se factorise sous la forme P = P1 P2 , on aura : P(u) = P1 (u) ◦ P2 (u).

PC∗ – Lycée Marcelin Berthelot


1.16 Espaces vectoriels

Attention. Si P et Q sont deux polynômes vérifiants PQ = 0, on sait que l’on peut en déduire que P = 0 ou
Q = 0. Ce n’est pas le cas des polynômes d’un endomorphisme : on peut avoir (PQ)(u) = 0 sans pour autant en
déduire que P(u) = 0 ou Q(u) = 0.
Considérons par exemple une projection vectorielle u : on a u 2 − u = 0. Si on pose P = X et Q = X − 1 on a
PQ = X2 − X donc (PQ)(u) = 0, mais on a pas en général P(u) = 0 ou Q(u) = 0 (sauf si u = 0 ou u = Id).

Définition. — Si u ∈ L(E) et P ∈ K[X], on dit que P est un polynôme annulateur de u lorsque P(u) = 0.

Par exemple, X2 − X est un polynôme annulateur de toute projection vectorielle, X2 − 1 un polynôme annulateur
de toute symétrie vectorielle.

Proposition 2.9 — Lorsque E est un espace vectoriel de dimension finie, tout endomorphisme u ∈ L(E) possède un
polynôme annulateur.

Exemple. De façon symétrique, on définit la notion de polynôme


! annulateur d’une matrice carrée A ∈ Mn (R).
a b
Considérons une matrice A ∈ M2 (K), et posons A = .
c d
a2 + bc (a + d)b
! ! ! !
2 (a + d)a + bc − ad (a + d)b a b 1 0
On a A = = = (a + d) − (ad − bc)
(a + d)c bc + d 2 (a + d)c (a + d)d + bc − ad c d 0 1
= (tr A)A − (det A)I2
Autrement dit, le polynôme P = X2 − (tr A)X + (det A) est un polynôme annulateur de A.

■ Application au calcul de l’inverse


Considérons un endomorphisme u ∈ L(E), et M un polynôme annulateur de u, de degré d. Supposons de plus le
d
X
coefficient constant de M non nul : M = ak Xk avec a0 , 0.
k=0
d d  d
1 X
X  X  
Alors M(u) = 0 ⇐⇒ a0 Id = − ak u k = u◦ − ak u k−1 donc u est inversible, d’inverse u −1 = − − ak u k−1 .
a0
k=1 k=1 k=1
!
a b  
Exemple. Si A = , on a vu que A2 −(trA)A+(det A)I2 = 0 donc si A est inversible, A (tr A)I2 −A = (det A)I2 .
c d
!
1   1 d −b
On a donc A−1 = (tr A)I2 − A = .
det A ad − bc −c a

■ Application au calcul des puissances de u


Pour calculer u n , on peut réaliser la division euclidienne de Xn par M : Xn = MQ + R, avec deg R < d. Ainsi,
u n = M(u) ◦ Q(u) + R(u) = R(u) puisque M(u) = 0. La calcul de u n se ramène à celui de R(u), ce qui peut être
intéressant lorsque le degré d du polynôme annulateur est petit, puisque deg R < d.
Exercice 11
a. Soit p ∈ N∗ . Déterminer le reste de la division euclidienne de (1 + X)n par X(X − p).
1 · · · · · · 1 2 1 · · · 1
   
 . . ..   . . . 
 . ..
 . .  1 . . . . .. 

b. On pose U =  . .  ∈ Mp (R), et A =  .. . . . .
   ∈ Mp (R). Déterminer un polynôme annu-
 . ..
. .. 

 .  . . . 1
1 ··· ··· 1 1 ··· 1 2
   
n
lateur de U, et en déduire A pour n ∈ N, ainsi que l’inverse de A, s’il existe.

PC∗ – Lycée Marcelin Berthelot


1.17

■ Polynôme minimal (notion hors programme)


Dans la seconde application, nous avons vu que nous avions intérêt à utiliser un polynôme annulateur de degré
d le plus petit possible. Un tel polynôme existe toujours ; son degré est défini par :
n o
d = min k ∈ N (Id, u, u 2 , . . . , u k ) est liée

et il est caractérisé par :

la famille (Id, u, u 2 , . . . , u d−1 ) est libre et u d ∈ Vect(Id, u, u 2 , . . . , u d−1 ).

De plus, il est unique si on fixe son coefficient dominant :

Théorème 2.10 — Il existe un unique polynôme annulateur et unitaire de degré minimal ; il est appelé le polynôme
minimal de u.

Théorème 2.11 — Si M est le polynôme minimal de u, les polynômes annulateurs de u sont les multiples de M.

2.4 Sous-espaces stables


■ Matrices définies par blocs
Considérons une matrice A ∈ Mn,p (K) ainsi que deux entiers i ∈ ⟦1, n − 1⟧ et j ∈ ⟦1, p − 1⟧. Divisons les lignes de
A en deux ensembles : les lignes dont les indices sont compris entre 1 et i et celles dont les indices sont compris
entre i + 1 et n. Faisons de même avec les colonnes en distinguant celles dont les indices sont compris entre 1 et
j de celles dont les indices sont compris entre j + 1 et p.
En procédant de la sorte, on divise la matrice A en quatre blocs :
 
 A A2  i

 1
A =  avec A1 ∈ Mi,j (K), A2 ∈ Mi,p−j (K), A3 ∈ Mn−i,j (K), A4 ∈ Mn−i,p−j (K).
 

 A3 A4
 
 n − i
 

j p−j

Une telle matrice sera dite définie par blocs.


Pour peu que le découpage soit identique, la définition par bloc de deux matrices est évidemment compatible
avec l’addition :    
 A′ A′2   λA + A′ λA + A′ 
 1  1 1 2 2 
si A′ =   alors λA + A′ = 
   

 ′ 
′   ′ ′
 A3 A4   λA3 + A3 λA4 + A4 
  

mais le fait le plus remarquable est que le découpage par blocs est compatible avec la multiplication, pour peu
que les découpages conduisent à des produits « licites » de matrices :
   
 
 B1 B2  j  A B + A B A B + A B
 1 1  i

  2 3 1 2 2 4
si B =  ∈ Mp,q (K) alors AB =  ∈ Mn,q (K)
  
 
 A3 B1 + A4 B3 A3 B2 + A4 B4
 

 B3 B4

 p − j  n − i
   

k q−k k q−k

Autrement dit, les matrices définies par blocs se multiplient entre elles tout comme si les blocs étaient des
scalaires, à condition que chaque multiplication corresponde à une multiplication « légale » de matrices (en ce
qui concerne les dimensions).

PC∗ – Lycée Marcelin Berthelot


1.18 Espaces vectoriels

Ces propriétés s’étendent par récurrence au cas d’un découpage des lignes et/ou des colonnes en un nombre
arbitraire de subdivisions.

Définition. — Une matrice carrée A ∈ Mp (K) est dite diagonale par bloc lorsqu’il existe une subdivision de ⟦1, p⟧
telle que :
 
 
 A  i1
 11 
 
 
A22  i2
 
A = 


 ..
 

  .

 
Akk  ik
 


i1 i2 ... ik

(Tous les blocs sont nuls hormis les blocs diagonaux, qui sont tous carrés.)
Une matrice carrée A ∈ Mp (K) est dite triangulaire par bloc lorsqu’il existe une subdivision de ⟦1, p⟧ telle que :
 
 
 A A12 A1k  i1
 11 
 
 
A22 A2k i2
 
A = 
 

  ..
.
 
 
 
 

 Akk 
 ik

i1 i2 ... ik

(Tous les blocs diagonaux sont carrés, et les blocs situés sous la diagonale sont nuls.)

■ Sous-espaces stables
Définition. — Soit H un sous-espace vectoriel de E, et u ∈ L(E) un endomorphisme. On dit que H est stable par u
lorsque u(H) ⊂ H.

Considérons une base adaptée à un sous-espace vectoriel H, c’est-à-dire construite à partir d’une base (e1 , . . . , ek )
de H puis complétée pour former une base (e1 , . . . , ek , ek+1 , . . . , ep ) de E. Alors H est stable par u si et seulement si
la matrice associée à u dans cette base (e) est de la forme :
 
 
 
 
k  A C 

 
 
 
 

p − k 

 O D 

k p−k

En effet, nous avons : ∀j ∈ ⟦1, k⟧, u(ej ) ∈ H = Vect(e1 , . . . , ek ).

Lorsque H est stable par u, la restriction de u à H définit donc un endomorphisme uH de H dont la matrice
dans la base (e1 , . . . , ek ) est la matrice A. Cet endomorphisme s’appelle l’induit de u sur H.

Remarque. Dans une base (e1′ , . . . , ep′ ) de E pour laquelle ce sont les vecteurs (ep−k+1

, . . . , ep′ ) qui forment une

PC∗ – Lycée Marcelin Berthelot


1.19

base de H, la matrice d’un endomorphisme stabilisant H est de la forme :

 
 
D O
 
 
 
 
 
 
 
C A
 
 
 
 

Exemple. Ker u et Im u sont des sous-espaces vectoriels stables de u. En effet, dans une base adaptée à Ker u, la
matrice associée à u prend la forme :
 
 
 
 
 O C 
 
 
 
 
 

 O D 

et dans une base adaptée à Im u la matrice associée à u prend la forme :

 
 
 
 

 A C 

 
 
 
 
 

 O O 

Proposition 2.12 — Si P ∈ K[X] alors Ker P(u) est un sous-espace stable de u.

Exercice 12
Soit E un K-espace vectoriel, et p ∈ L(E) une projection vectorielle. Montrer que u ∈ L(E) commute avec p si et
seulement si Ker p et Im p sont stables par u.

Décomposition de l’espace en somme de sous-espaces stables


Considérons enfin une famille (H1 , . . . , Hk ) de sous-espaces vectoriels telle que : E = H1 ⊕ H2 ⊕ · · · ⊕ Hk , et
une base (e1 , . . . , ep ) adaptée à cette décomposition. Alors un endomorphisme u ∈ L(E) stabilise chacun de ces
sous-espaces vectoriels si et seulement si la matrice associée à u dans cette base est diagonale par bloc :

 
 
 A1 
 
 
 
Mat(e) (u) = 
 A2 
 = A
 
 
 
 


 Ak 

k
X k
X
Remarque. Avec les notations ci-dessus, on a : rg A = rg Aj et tr A = tr Aj .
j=1 j=1
En outre, si v est un endomorphisme ayant aussi H1 , H2 , . . . , Hk comme sous-espaces stables, et si B = Mat(e) (v),

PC∗ – Lycée Marcelin Berthelot


1.20 Espaces vectoriels

alors :    
   
 B1   A1 B1 
   
   
   
B = 
 B2 
 et AB = 
 A2 B2 

   
   
   
   
 

 Bk  
 Ak Bk 

En particulier, on notera que pour tout entier n ∈ N,


 
 An
 

 1 
 
An2
 
An = 
 

 

 
 
Ank 
 


■ Déterminant d’une matrice définie par blocs


Il n’existe pas de formule simple pour calculer le déterminant d’une matrice définie par blocs, à l’exception du
cas des matrices triangulaires par blocs. Commençons par le cas d’une matrice définie par quatre blocs :

Proposition 2.13 — Soit A ∈ Mn (K), et k ∈ ⟦1, n − 1⟧ un entier induisant la même partition des lignes et des
colonnes en deux sous-ensembles ⟦1, k⟧ et ⟦k + 1, n⟧. On suppose de plus le bloc correspondant aux indices de lignes
⟦k + 1, n⟧ et aux indices de colonnes ⟦1, k⟧ (autrement dit le bloc en bas à gauche) nul. Alors :
 
 
 
A1 A2
 
 
 
A =   =⇒ det A = det(A1 ) × det(A4 ).

 
 

O A4
 
 

On en déduit aisément par récurrence le :

Corollaire — Le déterminant d’une matrice triangulaire par bloc est égal au produit des déterminants des blocs
diagonaux :

A11 A12 A1k

A22 A2k
= det A11 × det A22 × · · · × det Akk .

Akk

Exercice 13
Soient A, B, C, D quatre matrices
! de Mn (K).! On suppose que C et D commutent
! et que D est inversible.
A B D O A B
Calculer le produit et en déduire : det = det(AD − BC).
C D −C D−1 C D

PC∗ – Lycée Marcelin Berthelot


1.21

2.5 Endomorphismes nilpotents (notion hors-programme)


Définition. — Un endomorphisme u ∈ L(E) est dit nilpotent lorsqu’il existe un entier p ∈ N∗ tel que u p = 0.
Le plus petit entier p vérifiant cette condition, autrement dit tel que u p = 0 et u p−1 , 0, est appelé l’indice de
nilpotence de u.

Théorème 2.14 — Soit u un endomorphisme nilpotent d’indice p, et x ∈ E un vecteur vérifiant u p−1 (x) , 0E . Alors
la famille x, u(x), . . . , u p−1 (x) est libre.

Corollaire — Lorsque l’espace vectoriel est de dimension n, l’indice d’un endomorphisme nilpotent est inférieur ou
égal à n.

Intéressons nous maintenant au cas où l’indice de nilpotence


 de u est égal à la dimension n de E. Dans ce cas,
quel que soit x ∈ E vérifiant u (x) , 0E , la famille x, u(x), . . . , u n−1 (x) est libre et de cardinal n donc constitue
n−1

une base de E, base dans laquelle la matrice associée à u est de la forme :

0 0 ··· ··· 0


 
 .. .. .. 
1 . . . 

.. 

J = 0
 .. .. ..
 . . . . 
 . .. .. ..

 . . . .

 . 0
0 ··· 0 1 0
 

Exercice 14
Montrer que J et JT sont deux matrices semblables.

PC∗ – Lycée Marcelin Berthelot


1.22

PC∗ – Lycée Marcelin Berthelot


Chapitre II 2.1

Réduction des endormorphismes


Réduire un endomorphisme, c’est trouver une base dans laquelle la matrice associée à cet endomorphisme est
la plus simple possible, de manière à faciliter les calculs que l’on peut être amené à effectuer sur celui-ci. La
réduction sans doute la plus utilisée en dimension finie est la réduction de Jordan, qui décompose l’espace en
somme directe de sous-espaces stables, l’endomorphisme agissant de manière très simple sur chacun de ces
sous-espaces.

1. Introduction
Nous allons commencer par observer l’action de la réduction de Jordan sur un exemple, pour apprécier l’intérêt
qu’il y a à réduire un endomorphisme.
Exemple. Considérons l’endomorphisme u de E = R4 défini par sa matrice sur la base canonique (e) :

 5 8 6 5 
 
 0 2 0 0 
Mat(e) (u) =  =A

−1 −4 0 −3

1 4 2 5

Nous allons effectuer le changement de base sur la base (e′ ) définie par la matrice de passage :

−1 0 1 −1
 
 0 0 −1 −1

Mat(e) (e ) =  =P

 1 −1 0 1 
 
1 1 1 1

Bien entendu, nous ne savons pas pour l’instant comment ont été choisis ces vecteurs formant la nouvelle base ;
c’est là tout l’enjeu de ce chapitre. Mais observons déjà le résultat de ce changement de base.
Nous l’avons déjà dit au chapitre précédent, calculer P−1 AP est la plus-part du temps une mauvaise option ; il
est préférable de calculer les vecteurs u(ek′ ), k ∈ {1, 2, 3, 4}, et chercher à les exprimer dans la base (e′ ). On calcule
donc :

u(e1′ ) = −u(e1 ) + u(e3 ) + u(e4 ) = −4e1 + 4e3 + 4e4 = 4e1′


u(e2′ ) = −u(e3 ) + u(e4 ) = −e1 − 3e3 + 3e4 = e1′ + 4e2′
u(e3′ ) = u(e1 ) − u(e2 ) + u(e4 ) = 2e1 − 2e2 + 2e4 = 2e3′
u(e4′ ) = −u(e1 ) − u(e2 ) + u(e3 ) + u(e4 ) = −2e1 − 2e2 + 2e3 + 2e4 = 2e4′
 

 4 1 0 0 

0 4 0 0
 
Nous obtenons Mat(e′ ) (u) =   = P−1 AP.


 0 0 2 0 

0 0 0 2
 

Cette nouvelle matrice est constituée de deux blocs diagonaux, qui correspondent à la décomposition de l’espace
en deux sous-espaces stables : E = H1 ⊕ H2 avec H1 = Vect(e1′ , e2′ ), H2 = Vect(e3′ , e4′ ).
Sur le plan vectoriel H2 l’endomorphisme u agit comme une homothétie :

∀x ∈ H2 , u(x) = 2x.

Sur le plan vectoriel H1 , l’action de u est un peu plus compliquée : c’est l’addition d’une homothétie de rapport
4 et d’un endomorphisme nilpotent v défini par v(e1′ ) = 0E et v(e2′ ) = e1′ :

∀x ∈ H1 , u(x) = 4x + v(x) avec v 2 (x) = 0E .

PC∗ – Lycée Marcelin Berthelot


2.2 Réduction des endormorphismes

Il est beaucoup plus facile de travailler avec la base (e′ ) qu’avec la base (e) ; par exemple, le calcul de u n s’obtient
très simplement dans la base (e′ ) :

∀x ∈ H1 , u n (x) = 4n x + n4n−1 v(x), ∀x ∈ H2 , u n (x) = 2n x


 
n n−1
4 n4 0 0
 
 
 
n
égalités qui se traduisent matriciellement par : A = P 
 0 4n 0 0  −1
 P .

 0 0 2n 0 

2n
 
 0 0 0 

Exercice 1  
 1 1 1
3
On considère l’endomorphisme u ∈ L(K ) défini par la matrice A =  1 1 1.
 
−1 1 1
 
Déterminer les droites vectorielles stables par u, et en déduire une base (e) de K3 pour laquelle Mat(e) (u) est
diagonale.

2. Éléments propres
Dans l’exemple introductif que nous venons de traiter, sur deux des sous-espaces de la décomposition (H2 et H3 )
l’endomorphisme agit comme une homothétie. Ce sont ces sous-espaces particuliers qui vont nous intéresser.

2.1 Valeurs et vecteurs propre


Dans cette section, sauf mention explicite du contraire, E désigne un K-espace vectoriel, de dimension finie ou
non.

Définition. — On dit qu’un scalaire λ ∈ K est une valeur propre d’un endomorphisme u ∈ L(E) lorsqu’il existe un
vecteur non nul x ∈ E tel que u(x) = λx. Dans ce cas, on dit que x est un vecteur propre associé à la valeur propre λ.

On note Sp(u) l’ensemble des valeurs propres de u ; c’est le spectre de u.

Définition. — Si λ est une valeur propre de u, on note Eλ (u) = Ker(u − λIdE ) ; il s’agit du sous-espace propre
associé à la valeur propre λ. C’est un sous-espace vectoriel de E stable par u.

Attention. Le vecteur nul n’est pas un vecteur propre ; les vecteurs propres associés à une valeur propre λ sont
les éléments non nuls du sous-espace propre Eλ (u), sous-espace qui est au moins de dimension 1.
Remarque. La restriction de u au sous-espace propre Eλ (u) est l’homothétie vectorielle de rapport λ.

Exercice 2
Soit E = C ∞ (R, R) le R-espace vectoriel des applications de classe C ∞ sur R, et D : f 7→ f ′ l’opérateur de
dérivation. Déterminer les éléments propres (valeurs et vecteurs propres) de D.

Théorème 2.1 — Si λ1 , . . . , λk sont des valeurs propres deux à deux distinctes de u, la somme Eλ1 (u) ⊕ · · · ⊕ Eλk (u)
est directe.

Chacun de ces sous-espaces propres étant au minimum de dimension 1, on en déduit :

Corollaire — Si E est un espace vectoriel de dimension finie p, tout endomorphisme a au plus p valeurs propres
distinctes.

PC∗ – Lycée Marcelin Berthelot


2.3

■ Traduction matricielle en dimension finie


Considérons maintenant un K-espace vectoriel E de dimension finie, et (e) une base de E. L’égalité u(x) = λx se
traduit matriciellement par AX = λX, où A = Mat(e) (u) ∈ Mp (K) et X = Mat(e) (x) ∈ Mp,1 (K), ce qui nous amène
aux définitions suivantes (rappelons que l’espace des matrices colonnes Mp,1 (K) est identifié à Kp ) :

Définition. — Soit A ∈ Mp (K) une matrice carrée. Un scalaire λ ∈ K est une valeur propre de A lorsqu’il existe
un vecteur non nul x ∈ Kp tel que Ax = λx. Le vecteur x est un vecteur propre associé à la valeur propre λ. En outre,
on appelle sous-espace propre associé à la valeur propre λ le sous-espace vectoriel :
n o
Ker(A − λI) = x ∈ Kp Ax = λx .

D’après le corollaire du théorème 2.1, une matrice p × p ne peut avoir plus de p valeurs propres distinctes.
Il y a bien entendu parfaite équivalence entre éléments spectraux d’un endomorphisme et éléments spectraux
d’une matrice qui lui est associée par le choix d’une base.

Proposition 2.2 — Un scalaire λ est valeur propre de A ∈ Mp (K) si et seulement si det(λI − A) = 0.

Ce dernier résultat nous indique la démarche à suivre pour étudier les éléments propres en dimension finie :

1. déterminer les valeurs propres de A en résolvant l’équation det(λI − A) = 0 ;


2. pour chaque valeur propre λ, résoudre le système linéaire (A − λI)X = 0 pour déterminer une base du
sous-espace propre correspondant ;
3. Lorsque cela est possible, construire une base formée de vecteurs propres, et établir la formule de
changement de base A = PDP−1 .

Exercice 3
Déterminer les éléments propres des matrices suivantes et le cas échéant, former une base de vecteurs propres :
     
 5 2 6   5 −3 −2  0 2 1
A1 = −4 −1 −8 A2 = −3 5 2  A3 = −4 6 1
     
0 0 2 6 −6 −2 4 −4 2
     

2.2 Polynôme caractéristique


En dimension finie, nous venons de constater que déterminer les valeurs propres d’un endomorphisme u ∈ L(E)
revient à résoudre l’équation det(u − λIdE ) = 0. Nous allons nous intéresser à la nature de cette équation, en
démontrant qu’il s’agit d’une équation polynomiale.
Considérons une base quelconque (e) de E, et A = Mate (u) = (aij ). Alors :

x − a11 −a12 −a1p


−a21
det(xIdE − u) = det(xI − A) =
−ap−1,p
−ap1 −ap,p−1 x − app

Théorème 2.3 — L’application x 7→ det(xI − A) est une fonction polynomiale ; le polynôme qui lui est associé est un
polynôme unitaire de degré p appelé polynôme caractéristique de la matrice A. Il est noté χA .

Remarque. Le déterminant d’un endomorphisme ne dépendant pas de la base choisie pour effectuer le calcul,
on définit de même le polynôme caractéristique d’un endomorphisme : le polynôme canoniquement associé à la
fonction polynomiale x 7→ det(xIdE − u).

PC∗ – Lycée Marcelin Berthelot


2.4 Réduction des endormorphismes

!
a c
Exemple. Lorsque A = , son polynôme caractéristique est :
b d
x−a −c
χA(x) = −b x − d = (x − a)(x − d) − bc = x2 − (a + d)x + ad − bc = x2 − (tr A)x + det A.
Remarque. Pour une matrice A ∈ Mp (K) de taille p × p, le coefficient constant de χA est égal à (−1)p det A et le
coefficient de Xp−1 égal à − tr A.
Exercice 4
Soit E un espace vectoriel de dimension finie, et u ∈ L(E) un endomorphisme de rang 1. Déterminer son
polynôme caractéristique.

■ Ordre de multiplicité d’une valeur propre


Définition. — les valeurs propres d’un endomorphisme u sont les racines de son polynôme caractéristique. On appelle
ordre de multiplicité d’une valeur propre son ordre de multiplicité en tant que racine du polynôme caractéristique.

Proposition 2.4 — Lorsque le polynôme caractéristique est scindé, notons λ1 , . . . , λp les valeurs propres de u, en
p
Y Xp
répétant autant de fois que sa multiplicité chacune des valeurs propres. Alors det u = λk et tr u = λk .
k=1 k=1

Enfin, on notera qu’il existe un lien entre ordre de multiplicité de la valeur propre et la dimension du sous-espace
propre correspondant :

Théorème 2.5 — La dimension d’un sous-espace propre est inférieure ou égale à l’ordre de multiplicité de la valeur
propre correspondante.

Ce résultat a plusieurs conséquences intéressantes. Considérons par exemple une valeur propre simple (c’est à
dire de multiplicité égale à 1). Le sous-espace propre associé n’étant pas réduit à {0E }, on en déduit qu’il est
obligatoirement de dimension 1.
Nous verrons d’autres conséquences de ce résultat dans les sections suivantes.

2.3 Diagonalisation en dimension finie


Dans toute cette section on suppose que E est un K-espace vectoriel de dimension finie p.

Définition. — Un endomorphisme u ∈ L(E) est dit diagonalisable lorsqu’il existe une base (e) dans laquelle la
matrice Mat(e) (u) est diagonale.

Traduction matricielle
Considérons une base quelconque (e), et A = Mat(e) (u). u est diagonalisable s’il existe une base (e′ ) telle que
D = Mat(e′ ) (u) est diagonale. Si on note P = Mat(e) (e′ ) la matrice de passage de (e) vers (e′ ) nous disposons de la
relation : D = P−1 AP, qu’on peut écrire A = PDP−1 . Ceci conduit à la définition :

Définition. — Une matrice carrée A ∈ Mp (K) est dite diagonalisable lorsqu’il existe une matrice inversible
P ∈ GLp (K) telle que A = PDP−1 .

Exemple. Les matrice A1 et A2 de l’exercice 3 sont diagonalisables : nous avons dans les deux cas trouvé une
base formée de vecteurs propres.
Exercice 5
Soit A ∈ Mp (K) une matrice triangulaire supérieure dans laquelle tous les coefficients diagonaux sont égaux.
Peut-elle être diagonalisable ?
Remarque. Lorsqu’un endomorphisme u est diagonalisable, la base (e) pour laquelle Mat(e) (u) est diagonale
est constituée de vecteurs propres. Dès lors, on ne s’étonnera pas des nombreuses définitions équivalentes que
l’on va obtenir en faisant intervenir la théorie spectrale.

PC∗ – Lycée Marcelin Berthelot


2.5

Théorème 2.6 — Soit u ∈ L(E) un endomorphisme de E, et Sp(u) = {λ1 , . . . , λk } le spectre de u. Alors u est
diagonalisable si et seulement si E = Eλ1 (u) ⊕ · · · ⊕ Eλk (u).

Corollaire — Soit u ∈ L(E) un endomorphisme de E, Sp(u) = {λ1 , . . . , λk } le spectre de u. Alors u est diagonalisable
k
X
si et seulement si dim Eλi (u) = dim E.
i=1

Exemple. La matrice A3 de l’exercice 3 n’est pas diagonalisable. Nous n’avons trouvé que deux sous-espaces
propres, chacun de dimension 1.

Corollaire — Un endomorphisme u de L(E) est diagonalisable si et seulement si son polynôme caractéristique est
scindé sur le corps de base K, et si pour toute valeur propre la dimension du sous-espace propre associé est égale à sa
multiplicité dans le polynôme caractéristique.

Exemple. Reprenons une nouvelle fois les exemples de l’exercice 3 :

– le polynôme caractéristique de A1 est égal à (X − 1)(X − 2)(X − 3) ; A1 possède trois sous-espaces propres
de dimension 1 donc A1 est diagonalisable ;

– le polynôme caractéristique de A2 est égal à (X − 2)2 (X − 4) ; le sous-espace propre associé à la valeur


propre 2 est de dimension 2, celui associé à la valeur propre 4 de dimension 1, donc A2 est diagonalisable ;

– le polynôme caractéristique de A3 est égal à (X − 2)2 (X − 4) ; le sous-espace propre associé à la valeur


propre 2 est de dimension 1 donc A3 n’est pas diagonalisable.

Un cas particulier
Lorsque E est de dimension p et lorsque u possède p valeurs propres distinctes, chacun des sous-espaces propres
est de dimension au moins égale à 1 donc la somme des sous-espaces propres est au moins de dimension p. Ceci
prouve que la somme de ces sous-espaces propres est égale à E, donc u est diagonalisable, et indique en plus
que chacun de ces sous-espaces propres est de dimension 1. C’est le cas par exemple de la matrice A1 .
Cette situation n’est pas caractéristique de tous les endomorphismes diagonalisables (comme le montre par
exemple la matrice A2 ), mais quand elle se produit, nous donne une façon simple de justifier que l’endomor-
phisme est diagonalisable :

Proposition 2.7 — Si E est de dimension p et si u ∈ L(E) possède p valeurs propres distinctes alors u est diagonali-
sable.

Exercice 6 
0 0

z 
Soit z ∈ C. Montrer que la matrice M = 1 0 0 ∈ M3 (C) est diagonalisable, sauf pour deux valeurs de z
 
qu’on précisera. 1 1 0
 

Attention. Pour finir cette section, observons que la dernière caractérisation de la diagonalisation fait intervenir
le corps de base K. Lorsqu’il s’agit de diagonaliser un endomorphisme, le corps de base est imposé par l’espace
vectoriel, mais lorsqu’il s’agit de diagonaliser une matrice à coefficients réels, il est possible de la considérer
comme un élément de Mp (R) mais aussi comme un élément de Mp (C). En d’autres termes, une matrice à
coefficients réels peut être diagonalisable dans Mp (C) sans être diagonalisable dans Mp (R).
!
1 −1
Considérons par exemple la matrice A = . On calcule χA = (X −1)2 +1, donc A n’a pas de valeurs propres
1 1
réelles : elle n’est pas diagonalisable dans M2 (R). En revanche, elle dispose de deux valeurs propres complexes
distinctes 1 − i et 1 + i donc est diagonalisable dans M2 (C).

PC∗ – Lycée Marcelin Berthelot


2.6 Réduction des endormorphismes

2.4 Projecteurs spectraux d’un endomorphisme diagonalisable

Considérons une projection vectorielle p ∈ L(E) sur H1 parallèlement à H2 : on a E = H1 ⊕ H2 , et dans une base
(e) adaptée à cette décomposition on a

 
 1 
 
 
 
 
Mat(e) (p) =  1 


0
 
 
 
 
0 

L’endomorphisme p est diagonalisable, Sp(p) = {0, 1}, et H1 = Ker(p − IdE ) et H2 = Ker p sont les sous-espaces
propres associés.

On peut de même considérer la symétrie vectorielle s ∈ L(E) par rapport à H1 , parallèlement à H2 : sur la même
base (e) on a cette fois

 
 1 
 
 
 
 
Mat(s) (s) =  1 


−1
 
 
 
 
−1 

L’endomorphisme s est diagonalisable, Sp(s) = {−1, 1}, H1 = Ker(s − IdE ) et H2 = Ker(s + IdE ).
Observons enfin que s = p−(IdE −p) = 1×p1 +(−1)×p2 , où p1 = p est la projection vectorielle sur H1 parallèlement
à H2 et p2 = IdE − p est la projection vectorielle sur H2 parallèlement à H1 .

Considérons enfin un endomorphisme diagonalisable u ∈ L(E), et la décomposition de E en somme des sous-


espaces propres : E = Eλ1 (u) ⊕ · · · ⊕ Eλk (u). Si (e) est une base adaptée à la décomposition de l’espace, nous
avons :
 
 λ1 
 
 
 
 

 λ1 

 

 λ2 

 
 
 λ2 
Mate (u) =  

 
 
 
 
 
 

 λk 

 
 
 
 λk 

La famille (p1 , . . . , pk ) associée à cette décomposition de l’espace est appelée la famille des projecteurs spectraux

PC∗ – Lycée Marcelin Berthelot


2.7

M
de u. Rappelons que pour tout i ∈ ⟦1, k⟧, pi est la projection sur Eλi (u) parallèlement à Eλj (u). Ainsi,
j,i

 
 0 
 
 
 
 

 0 

 
 

 1 

i e bloc
 
Mate (pi ) =  
1

 
 
 
 
 
 
0
 
 
 
 
 
 
0 

k
X k
X
On dispose alors de manière évidente des égalités IdE = pj et u = λj pj , et plus généralement :
j=1 j=1

k
X
Proposition 2.8 — Pour tout entier n ∈ N on a u n = λnj pj .
j=1

Remarque. Lorsque u est inversible (c’est à dire lorsque 0 n’est pas valeur propre de u) cette formule s’étend
sur Z.

interprétation matricielle
 
1 
Considérons la diagonalisation de la matrice A1 obtenue dans l’exercice 3 : A1 = PDP−1 avec D =  2 .
 
3
 
Dans la base de diagonalisation, les trois projecteurs spectraux sont associés aux matrices
     
1  0  0 
0  , 1  , 0  .
     
  
0 0 1
     

Dans la base initiale, les trois projecteurs spectraux sont donc associés aux matrices
     
1  0  0 
 −1  −1  −1
U = P  0  P , V = P  1  P , W = P  0  P .
  
0 0 1
     

 
1 
On a I = U + V + W, A1 = U + 2V + 3W, et plus généralement : ∀n ∈ N, An1 = P  2n  P = U + 2n V + 3n W ;
  −1
n
3

le calcul des matrices U, V et W permet donc d’exprimer aisément An1 .
Exercice 7
On considère la matrice A2 de l’exercice 3. Justifier l’existence (mais sans les calculer) de deux matrices U et V
telles que pour tout n ∈ N, An2 = 2n U + 4n V.
Montrer que ces matrices U et V peuvent s’exprimer en fonction des matrices I et A, et en déduire une
expression de An en fonction de I et de A.

PC∗ – Lycée Marcelin Berthelot


2.8 Réduction des endormorphismes

■ Application à la recherche du commutant d’un endomorphisme diagonalisable


Considérons un endomorphisme u diagonalisable, et posons Sp(u) = {λ1 , . . . , λk }. Nous allons chercher à caracté-
riser le commutant de u, c’est-à-dire l’ensemble des endomorphismes v ∈ L(E) qui vérifient : u ◦ v = v ◦ u.
Le raisonnement que nous allons tenir tient essentiellement au fait suivant :
pour tout x ∈ Eλi (u), u(v(x)) = u ◦ v(x) = v ◦ u(x) = v(u(x)) = v(λi x) = λi v(x)
égalité qui montre que pour tout x ∈ Eλi (u), v(x) ∈ Eλi (u) : le sous-espace propre Eλi (u) est stable par v.
Ceci montre que dans une base adaptée à la décomposition de l’espace en somme de sous-espaces propres, la
matrice associée à v est diagonale par blocs.
Bref, dans une telle base nous avons :
   
   
 λ1 I   A1 
   
   
   
Mat(e) (u) = 
 λ2 I 
et Mat(e) (v) = 
 A2

 
   
   
   
   

 λk I   
 Ak 

Réciproquement, il est évident que ces deux matrices (et donc les endomorphismes u et v) commutent. Nous
avons donc prouvé la

Proposition 2.9 — Si u est un endomorphisme diagonalisable, les endomorphismes qui commutent avec u sont ceux
qui laissent stables les sous-espaces propres.

Corollaire — Lorsque le polynôme caractéristique de u est scindé à racines simples, le commutant est un espace de
dimension p = dim E, et les projecteurs spectraux de u en constituent une base.

Exercice 8
Soit A ∈ M2 (R) une matrice admettant −1 et 8 pour valeurs propres. Justifier l’existence d’une unique matrice
B ∈ M2 (R) vérifiant B3 = A, puis exprimer B en fonction de I et de A.

2.5 Polynômes annulateurs et théorie spectrale


Étant donnés un endomorphisme u de E et un polynôme P ∈ K[X], nous avons les implications :
– si λ est valeur propre de u, P(λ) est valeur propre de P(u) ;
– si P(u) = 0, toute valeur propre λ de u est racine de P.
Ce dernier résultat montre qu’il existe un lien entre les racines d’un polynôme annulateur de u et ses valeurs
propres. C’est ce que nous allons étudier dans cette partie.
Considérons maintenant un endomorphisme diagonalisable u ; il existe une base (e) pour laquelle :
 
 λ1 
 
 
 

 λ1 


 λ2 

 
Mate (u) =    avec Sp(u) = {λ1 , . . . , λk }.
λ2

 
 
 
 

 λk 

 
 
 λk 
k
Y Y
On constate que le polynôme P = (X − λj ) = (X − λ) annule u (on peut même constater que c’est le
j=1 λ∈Sp(A)
polynôme minimal). Notons qu’il s’agit d’un polynôme scindé à racines simples.

PC∗ – Lycée Marcelin Berthelot


2.9

Nous venons de constater que lorsque u est diagonalisable, il existe un polynôme scindé à racines simples qui
annule u. Le fait remarquable est qu’il s’agit d’une équivalence, comme le prouve le théorème :

Théorème 2.10 — Soit u ∈ L(E) un endomorphisme de E. Alors u est diagonalisable si et seulement si u est annulé
par un polynôme scindé à racines simples.

Attention. Cette preuve ne permet pas d’affirmer que les λj sont les valeurs propres de u, car rien ne dit qu’on
a bien Eλj (u) , {0E }. Tout au plus peut-on affirmer que Sp(u) ⊂ {λ1 , . . . , λk }.
Notons en revanche que lorsqu’on connait les valeurs propres de u, on peut en déduire le résultat suivant :
Y
Corollaire — u est diagonalisable si et seulement s’il est annulé par le polynôme (X − λ).
λ∈Sp(u)

Notons pour finir que ce résultat permet de prouver le résultat suivant :

Proposition 2.11 — Si u est diagonalisable et si H est un sous-espace vectoriel stable par u, alors l’endomorphisme
induit par u sur H est aussi diagonalisable.

Exercice 9
Soit u ∈ L(E) un endomorphisme pour lequel il existe une famille libre (e) vérifiant : u(e1 ) = e1 et u(e2 ) = e1 + e2 .
L’endomorphisme u est-il diagonalisable ?

2.6 Le théorème de Cayley-Hamilton


Nous venons donc d’établir un lien entre les deux chapitres d’algèbre linéaire de ce cours : la notion de polynôme
annulateur et la notion d’endomorphisme diagonalisable. Il nous reste à énoncer un dernier résultat.
Y
Lorsque u est diagonalisable, le polynôme caractéristique χu de u est un multiple de (X − λ). Ce dernier
λ∈Sp(u)
polynôme étant annulateur, il en est de même de χu . Le théorème qui suit affirme que ceci reste vrai même
lorsque u n’est pas diagonalisable :

Théorème 2.12 (Cayley-Hamilton) — Le polynôme caractéristique de u est un polynôme annulateur de u.

Ce résultat présente bien évidemment l’intérêt de nous fournir un polynôme annulateur de u, mais ce dernier
ne sera pas forcément de degré minimal (on se souvient néanmoins que le polynôme minimal de u se trouve
parmi ses diviseurs).

3. Matrices et endomorphismes trigonalisables


Nous n’avons pour l’instant pas abordé le cas des endomorphismes non diagonalisables car ce n’est pas un
des objectifs principaux de ce cours, mais nous en avons vu un exemple avec la matrice A3 de l’exercice 3.
Nous allons montrer maintenant qu’à défaut d’être diagonalisable, cette matrice est trigonalisable, c’est-à-dire
semblable à une matrice triangulaire supérieure.
Exercice 10 
4 0 0

Trouver une matrice inversible P telle que A3 = P 0 2 1 P−1 .
 
0 0 2
 

Ceci nous amène aux définitions suivantes :

Définition. — Un endomorphisme u ∈ L(E) est dit trigonalisable s’il existe une base de E dans laquelle la matrice
associée à u est triangulaire supérieure.
Une matrice A est dite trigonalisable si et seulement si elle est semblable à une matrice triangulaire supérieure, c’est à
dire s’il existe une matrice triangulaire supérieure T et une matrice inversible P telles que A = PTP−1 .

PC∗ – Lycée Marcelin Berthelot


2.10

Le résultat majeur dont on dispose est le suivant :

Théorème 3.1 — Un endomorphisme u ∈ L(E) (ou une matrice A ∈ Mp (K)) est trigonalisable si et seulement si son
polynôme caractéristique est scindé.

Remarque. Puisque tout polynôme complexe est scindé, une conséquence importante de ceci est que toute
matrice est trigonalisable dans Mp (C), mais pas nécessairement dans Mp (R).

PC∗ – Lycée Marcelin Berthelot


Chapitre III 3.1

Espaces euclidiens
Élément important de calcul en géométrie euclidienne, le produit scalaire apparaît cependant assez tard dans
l’histoire des mathématiques. On en trouve trace chez Hamilton en 1843 lorsqu’il crée le corps des quaternions
ou encore chez Peano (associé à un calcul d’aire), et n’est initialement défini qu’à l’aide du cosinus d’un angle.
Sa qualité de forme bilinéaire symétrique ne sera exploitée en algèbre linéaire que plus tard et, de propriété,
deviendra définition.
Un espace muni d’un produit scalaire sera dit préhilbertien 2 , le terme euclidien étant réservé aux espaces de
dimensions finies.

1. Espaces préhilbertiens
1.1 Produit scalaire
Dans toute cette section, E désigne un R-espace vectoriel de dimension quelconque.

Définition. — Un produit scalaire sur E est une forme bilinéaire φ : E × E → R vérifiant :


– ∀(x, y) ∈ E2 , φ(x, y) = φ(y, x) (φ est symétrique) ;
– ∀x ∈ E, φ(x, x) ⩾ 0 et φ(x, x) = 0 ⇒ x = 0E (φ est définie positive).
Un produit scalaire est donc une forme bilinéaire symétrique définie positive 3 .

Remarque. Une forme bilinéaire symétrique qui vérifie seulement la propriété ∀x ∈ E, φ(x, x) ⩾ 0 sans être
nécessairement définie positive est dite positive. p
On notera par la suite les notations usuelles : φ(x, y) = ⟨x | y⟩, et ∥x∥ = ⟨x | x⟩, cette dernière expression
désignant la norme euclidienne associée au produit scalaire 4 .
Un R-espace vectoriel muni d’un produit scalaire est appelé un espace préhilbertien réel.

Proposition 1.1 — L’application (A, B) 7→ tr(AT B) est un produit scalaire sur Mn,p (R). Il s’agit du produit scalaire
canonique de Mn,p (R) : la base canonique est orthonormée pour ce produit scalaire.

Proposition 1.2 — Soit ω : [a, b] → R∗+ une fonction continue à valeurs strictement positives, et E l’ensemble des
Zb
fonctions continues f : [a, b] → R. Alors l’application (f , g) 7→ f (t)g(t)ω(t) dt un produit scalaire sur E.
a
Z 1
Exemple. L’application (P, Q) 7−→ P(t)Q(t) dt est un produit scalaire sur C 0 ([−1, 1], R), mais aussi sur R[X].
−1

Utilisation de la bilinéarité
En utilisant la bilinéarité et la symétrie du produit scalaire, on obtient les deux développements suivants :

∀(x, y) ∈ E2 , ∥x + y∥2 = ∥x∥2 + 2⟨x | y⟩ + ∥y∥2


∥x − y∥2 = ∥x∥2 − 2⟨x | y⟩ + ∥y∥2

Ces développements conduisent à diverses identités de polarisation, autrement dit des relations qui définissent le
produit scalaire à partir de la norme :

1  1 2  1 
⟨x | y⟩ = ∥x + y∥2 − ∥x∥2 − ∥y∥2 ⟨x | y⟩ = ∥x∥ + ∥y∥2 − ∥x − y∥2 ⟨x | y⟩ = ∥x + y∥2 − ∥x − y∥2
2 2 4
2. Comme ce terme le laisse entendre, il existe aussi des espaces hilbertiens, mais leur étude n’est pas au programme.
3. Ces différents termes proviennent de l’étude générale des formes bilinéaires.
4. Il s’agit en effet d’une norme au sens topologique du terme.

PC∗ – Lycée Marcelin Berthelot


3.2 Espaces euclidiens

On remarquera que ces identités impliquent qu’à une norme euclidienne donnée ne peut correspondre qu’un
seul produit scalaire.

Théorème 1.3 (Inégalité de Cauchy-Schwarz) — ∀(x, y) ∈ E2 , |⟨x | y⟩| ⩽ ∥x∥ × ∥y∥.

Corollaire — Il y a égalité dans l’inégalité de Cauchy-Schwarz (autrement dit, |⟨x | y⟩| = ∥x∥ × ∥y∥) si et seulement
si la famille (x, y) est liée.

Exercice 1 n
X 2 n
X
Soit (x1 , x2 , . . . , xn ) ∈ Rn . Montrer que xk ⩽n xk2 . Dans quel cas y-a-t-il égalité ?
k=1 n=1

Théorème 1.4 (Inégalité triangulaire) — ∀(x, y) ∈ E2 , ∥x + y∥ ⩽ ∥x∥ + ∥y∥.

Remarque. Il y a égalité dans l’inégalité triangulaire lorsque ⟨x | y⟩ = ∥x∥ × ∥y∥, c’est à dire lorsqu’il y a égalité
dans l’inégalité de Cauchy-Schwarz et qu’en plus ⟨x | y⟩ ⩾ 0, ce qui impose x = 0E ou y = λx avec λ ⩾ 0.

1.2 Orthogonalité
Définition. — Soit E un espace préhilbertien réel.
(i) On dit que deux vecteurs x et y sont orthogonaux lorsque ⟨x | y⟩ = 0.
(ii) On dit qu’un vecteur x est orthogonal à un sous-espace vectoriel H lorsque ∀y ∈ H, ⟨x | y⟩ = 0.
(iii) Enfin, deux sous-espaces vectoriels H1 et H2 sont orthogonaux lorsque ∀(x, y) ∈ H1 × H2 , ⟨x | y⟩ = 0.

Remarque. On peut noter que deux sous-espaces vectoriels orthogonaux sont nécessairement en somme directe.
En effet, si x ∈ H1 ∩ H2 alors ⟨x | x⟩ = 0, ce qui impose x = 0E . On dit alors que la somme H1 ⊕ H2 est une somme

directe orthogonale, et on pourra éventuellement la noter H1 ⊕ H2 .

Théorème 1.5 (Pythagore) — Soient H1 et H2 deux sous-espaces vectoriels orthogonaux, et un vecteur x = x1 + x2 ∈



H1 ⊕ H2 . Alors ∥x∥2 = ∥x1 ∥2 + ∥x2 ∥2 .

Nous pouvons noter que réciproquement, si nous avons ∥x1 + x2 ∥2 = ∥x1 ∥2 + ∥x2 ∥2 , alors x1 et x2 sont nécessaire-
ment orthogonaux.

Définition. — Soit A une partie quelconque de E. On appelle orthogonal de A l’ensemble


n o
A⊥ = x ∈ E ∀a ∈ A, ⟨x | a⟩ = 0

des vecteurs orthogonaux à tout élément de A. Il s’agit d’un sous-espace vectoriel de E.

Proposition 1.6 — Si H est un sous-espace vectoriel et A une partie génératrice de H, alors H⊥ = A⊥ .

Remarque. L’intérêt majeur de ce dernier résultat est qu’en dimension finie, déterminer l’orthogonal d’un
sous-espace vectoriel H revient à déterminer l’orthogonal d’une base de H.
Lorsque H est un sous-espace vectoriel, H⊥ est donc le plus grand des sous-espaces vectoriels (au sens de
l’inclusion) qui soit en somme directe orthogonale avec H : H ⊕ H⊥ .
Attention cependant, cela ne signifie pas pour autant que cette somme soit égale à E. Il faudra en effet supposer
en plus que E est de dimension finie pour pouvoir affirmer que H et H⊥ sont des sous-espaces supplémentaires.
Si H1 et H2 sont deux sous-espaces vectoriels de E, on dispose enfin des équivalences :

H1 et H2 sont orthogonaux ⇐⇒ H1 ⊂ H⊥ ⊥
2 ⇐⇒ H2 ⊂ H1 .

PC∗ – Lycée Marcelin Berthelot


3.3

1.3 Espaces euclidiens


Définition. — Une famille finie (e1 , . . . , ep ) de vecteurs de E est dite orthonormée lorsque :

2 1

 si i = j
∀(i, j) ∈ ⟦1, p⟧ , ⟨ei | ej ⟩ = δij = 
0
 si i , j

Proposition 1.7 — Un famille orthonormée est libre. En particulier, lorsque E est de dimension finie n, une famille
orthonormée constituée de n vecteurs est une base de E, dite base orthonormée.

On appelle espace euclidien tout espace préhilbertien réel de dimension finie. Le résultat précédent définit la
notion de base orthonormée, mais ne prouve pas l’existence de celles-ci. C’est l’objet du théorème suivant :

Théorème 1.8 — Tout espace euclidien possède des bases orthonormées.

Nous reviendrons sur cette construction une fois définie la notion de projection orthogonale ; elle prendra alors le
nom de procédé d’orthonormalisation de Gram-Schmidt.

■ Expression du produit scalaire dans une base orthonormée


Une fois acquise l’existence de bases orthonormées dans un espace euclidien, il reste à constater que les calculs
relatifs au produit scalaire sont très simples une fois exprimés dans une telle base.
n
X n
X
Soit (e1 , . . . , en ) une base orthonormée d’un espace euclidien E, et x = xi e i , y = yj ej . On pose X = Mate (x)
i=1 j=1
v
n
t n
X X √
et Y = Mate (y). Alors : ⟨x | y⟩ = xi y i = X T Y et ∥x∥ = xi2 = X T X.
i=1 i=1
n
X
En outre, on peut noter que ⟨ek | x⟩ = xi ⟨ek | ei ⟩ = xk , donc on dispose dans un espace euclidien d’une expres-
n
i=1 X
sion simple pour caractériser la décomposition dans une base orthonormée : x = ⟨ek | x⟩ek .
k=1

Proposition 1.9 — Toute forme linéaire de E s’écrit de manière unique : x 7−→ ⟨a | x⟩, où a est un vecteur de E.

1.4 Projection orthogonale


Revenons maintenant à la notion d’orthogonal d’un sous-espace vectoriel H de E. Nous avons vu que H ⊕ H⊥
est une somme directe, mais ce n’est que lorsque H est de dimension finie qu’on sera assuré d’être en présence
de deux sous-espaces supplémentaires :

Théorème 1.10 — Si E est un espace préhilbertien et H un sous-espace vectoriel de dimension finie ; alors E = H⊕ H⊥ .

Corollaire — Lorsque E est un espace euclidien et H un sous-espace vectoriel de E, on a dim(H⊥ ) = dim E − dim H
et H⊥⊥ = H.

Remarque. Dans un espace préhilbertien de dimension quelconque, on peut seulement affirmer que H ⊂ H⊥⊥ .

Définition. — On appelle projection orthogonale sur un sous-espace vectoriel H de dimension finie d’un espace
préhilbertien E la projection vectorielle sur H parallèlement à H⊥ .

Lorsque p est la projection orthogonale sur H et (e1 , . . . , ek ) une base orthonormée de H on a :

k
X
∀x ∈ E, p(x) = ⟨ej | x⟩ej
j=1

PC∗ – Lycée Marcelin Berthelot


3.4 Espaces euclidiens

H⊥
x

p(x)
H

Figure 1 – Représentation graphique d’une projection orthogonale.

Remarque. Dans le cas de la projection sur un hyperplan H on a dim H = dim E − 1 donc dim H⊥ = 1. Si a
est un vecteur unitaire de H⊥ , la projection orthogonale sur H⊥ s’écrit x 7→ ⟨a | x⟩a et celle sur H s’écrit donc
x 7→ x − ⟨a | x⟩a.

Lorsqu’on ne dispose pas d’une base orthonormée de H, on utilise pour caractériser le vecteur p(x) le résultat
suivant :
(
p(x) ∈ H
Proposition 1.11 — p(x) est l’unique vecteur de E vérifiant les conditions :
x − p(x) ∈ H⊥

Distance à un sous-espace vectoriel


n
Si x ∈ E et si H est un sous-espace vectoriel de E, on appelle distance de x à H la quantité : d(x, H) = inf ∥x − h∥
o
h ∈ H . Dans le cas où H est un sous-espace vectoriel de dimension finie d’un espace préhilbertien réel, le
résultat suivant nous permet de calculer cette distance :
!
H −→ R
Proposition 1.12 — L’application atteint un minimum en un unique point, à savoir h = p(x).
h 7−→ ∥x − h∥
Autrement dit, d(x, H) = ∥x − p(x)∥.

Exercice 2
Soit E un espace euclidien de dimension 4, (e) une base orthonormée et u = 3e1 + 2e2 − e3 + e4 , v = 2e1 + 5e2 − e4 .
On note H = Vect(u, v). Calculer la distance de H au vecteur w = e1 + e2 + e3 + e4 .
Remarque. Nous reviendrons au chapitre IX sur la notion de distance, dans un cadre plus général, celui des
espaces vectoriels normés.

■ Orthonormalisation par la méthode de Gram-Schmidt


Considérons une famille libre (x1 , . . . , xk ) de E, et notons pj la projection orthogonale sur Vect(x1 , . . . , xj−1 ) (avec
la convention p1 = 0). Alors la famille (e) définie par les formules suivantes :

xj − pj (xj )
∀j ∈ ⟦1, k⟧, ej =
∥xj − pj (xj )∥

est une famille orthonormée vérifiant : ∀j ∈ ⟦1, k⟧, Vect(e1 , . . . , ej ) = Vect(x1 , . . . , xj ).


C’est en outre l’unique famille vérifiant en plus les conditions : ∀j ∈ ⟦1, k⟧, ⟨xj | ej ⟩ > 0.

Exemple. Considérons l’espace euclidien R3 muni du produit scalaire usuel, ainsi que la famille de vecteurs
     
0 1 1
x1 = 1, x2 = 2 et x3 = 0, et appliquons lui la méthode de Gram-Schmidt :
     
2 3 1
     

PC∗ – Lycée Marcelin Berthelot


3.5

 
0
x1 1  
– e1 = donc e1 = √ 1.
∥x1 ∥ 5 2
     
0 5 5
8   1   1  
– p(x2 ) = ⟨e1 | x2 ⟩e1 = 1 donc x2 − p(x2 ) =  2  et e2 = √  2 .
5  5  30 −1
2 −1
     
1 1 1
2   1   1  
– p(x3 ) = ⟨e1 | x3 ⟩e1 + ⟨e2 | x3 ⟩e2 = 1 donc x3 − p(x3 ) = −2 et e3 = √ −2.
3  3  6 1 
1 1
Exercice 3
On muni R[X] d’un produit scalaire quelconque. À l’aide du procédé de Schmidt appliqué à la base canonique
de R[X], justifier l’existence d’une unique famille (Pn )n∈N telle que :
– pour tout n ∈ N, deg Pn = n ;
– pour tout n ∈ N, cdom(Pn ) = 1 ;
– pour tout i , j, ⟨Pi | Pj ⟩ = 0.

2. Endomorphismes dans un espace euclidien


2.1 Isométries vectorielles
Définition. — Si E est un espace préhilbertien, on appelle isométrie vectorielle un endomorphisme u ∈ L(E)
compatible avec le produit scalaire, c’est à dire vérifiant : ∀(x, y) ∈ E2 , ⟨u(x) | u(y)⟩ = ⟨x | y⟩.

Une telle application est a fortiori compatible avec la norme euclidienne : en posant y = x on obtient ∀x ∈ E,
∥u(x)∥ = ∥x∥, ce qui explique leur nom. Le fait remarquable est que la réciproque est vraie :

Proposition 2.1 — u ∈ L(E) est une isométrie vectorielle si et seulement si ∀x ∈ E, ∥u(x)∥ = ∥x∥.

En conséquence de quoi une isométrie vectorielle est injective : en effet, lorsque u(x) = 0E nous avons ∥x∥ =
∥u(x)∥ = 0 et donc x = 0E . Et en particulier, lorsque E est de dimension finie, une isométrie vectorielle est
nécessairement inversible. Un endomorphisme inversible étant appelé un automorphisme, en dimension finie
les isométries vectorielles portent aussi le nom d’automorphisme orthogonal.
On notera O(E) l’ensemble des isométries vectorielles de E ; il est appelé le groupe orthogonal de E.
Exemple. On appelle symétrie orthogonale par rapport à un sous-espace vectoriel H la symétrie par rapport à H,
parallèlement à H⊥ . Il s’agit d’une isométrie vectorielle.

H⊥
x

s(x)

Posons x = x1 + x2 avec x1 ∈ H et x2 ∈ H⊥ . Alors ∥s(x)∥2 = ∥x1 ∥2 + ∥x2 ∥2 = ∥x∥2 donc s préserve la norme ; il s’agit
bien d’une isométrie vectorielle.

PC∗ – Lycée Marcelin Berthelot


3.6 Espaces euclidiens

Attention. Une symétrie orthogonale est un automorphisme orthogonal (ie une isométrie vectorielle), mais ce
n’est pas le cas d’une projection orthogonale (qui, hormis l’identité, n’est pas inversible).
Remarque. Une symétrie orthogonale par rapport à un hyperplan (un sous-espace vectoriel de dimension p − 1)
est aussi appelée une réflexion. En dimension 2, les réflexions sont donc les symétries orthogonales par rapport
aux droites, en dimension 3 les symétries orthogonales par rapport aux plans.
Exercice 4
Soient a et b deux vecteurs non nuls distincts d’un espace euclidien E vérifiant ∥a∥ = ∥b∥. Montrer qu’il existe
une unique réflexion s telle que s(a) = b.

Proposition 2.2 — Soit E un espace euclidien, u ∈ O(E) une isométrie vectorielle, et H un sous-espace vectoriel de E
stable par u. Alors H⊥ est aussi stable par u.

■ Interprétation matricielle d’une isométrie vectorielle


Proposition 2.3 — Soit (e1 , . . . , ep ) une base orthonormée de E, et u ∈ L(E). Alors u est une isométrie vectorielle si et
 
seulement si u(e1 ), . . . , u(ep ) est une base orthonormée.

Corollaire — Soit (e1 , . . . , en ) une base orthonormée, u ∈ L(E), et A = Mate (u). Alors u est une isométrie vectorielle
si et seulement si AT A = I.

Une matrice A ∈ Mp (R) vérifiant l’identité AT A = I est appelée une matrice orthogonale. On note Op (R)
l’ensemble des matrices orthogonales de Mp (R) ; ensemble qu’on appelle le groupe orthogonal d’ordre p.
 
Remarque. Si on observe que Mat(e) (u) = Mat(e) u(e1 ), u(e2 ), . . . , u(ep ) , on peut affirmer qu’une matrice ortho-
gonale est une matrice dont les colonnes forment une famille orthonormée pour le produit scalaire usuel.
C’est souvent par l’intermédiaire de cette propriété que l’on reconnait une matrice orthogonale. Une autre
conséquence de cette observation réside dans la :

Proposition 2.4 — La matrice de passage entre deux bases orthonormées est une matrice orthogonale.

Structure de groupe
Le vocable groupe a une signification particulière en mathématiques, et ce n’est pas par hasard s’il est employé
ici. Sans rentrer dans les détails, l’emploi de ce terme implique les propriétés suivantes :
(i) la matrice Ip est orthogonale : Ip ∈ Op (R) ;
(ii) si A et B sont orthogonales, AB est aussi orthogonale : (A, B) ∈ Op (R)2 =⇒ AB ∈ Op (R) ;
(iii) si A est orthogonale, A−1 aussi : A ∈ Op (R) =⇒ A−1 ∈ Op (R).

Notons en outre pour ce dernier point que A−1 = AT .

Proposition 2.5 — Soit u une isométrie vectorielle (respectivement A une matrice orthogonale). Alors det u ∈ {−1, 1}
(det A ∈ {−1, 1}).

Ce dernier résultat permet de séparer les isométries


n vectoriellesoen deux classes : ceux dont le déterminant est
égal à 1 (les isométries directes) : SO(E) = u ∈ O(E) det u = 1 , qui forment eux aussi un groupe, appelé le
groupe spécial orthogonal), et ceux dont le déterminant est égal à −1 (les isométries
n indirectes, qui n’ont
o pas de
structure algébrique particulière). On notera bien entendu de même : SO p (R) = A ∈ Op (R) det A = 1 .

Exemple. Si u est une réflexion, alors det u = −1.

Orientation d’un espace euclidien


Considérons l’ensemble B des bases orthonormées d’un espace euclidien E. Si (e) et (e′ ) sont deux éléments de
B, P = Mat(e) (e′ ) est une matrice orthogonale donc det P = ±1. On définit donc une relation R sur B en posant :
(e) R (e′ ) ⇐⇒ det Mat(e) (e′ ) = 1.

PC∗ – Lycée Marcelin Berthelot


3.7

Proposition 2.6 — La relation R est une relation d’équivalence qui possède deux classes d’équivalence distinctes.

Définition. — Orienter l’espace E, c’est choisir l’une de ces deux classes d’équivalence ; les bases orthonormées de
cette classe seront qualifiées de bases directes, les autres de bases indirectes.

Remarque. Pour orienter l’espace, il suffit de choisir une base (e) et la qualifier de directe. Une fois ce choix fait,
une base orthonormée (e′ ) sera directe si det(e) (e′ ) = 1, et indirecte si det(e) (e′ ) = −1.

Proposition 2.7 — Si l’espace E est orienté et si u ∈ O(E) est une isométrie vectorielle, alors u appartient à SO(E)
si et seulement si l’image par u d’une base orthonormée directe est une base orthonormée directe. Autrement dit, les
isométries directes sont celles qui préservent l’orientation de l’espace.

Une dernière conséquence de la notion de base orthonormée directe est le

Théorème 2.8 — Si (e) et (e′ ) sont deux bases orthonormées directes et (x1 , . . . , xp ) une famille de p vecteurs de E
alors det(e) (x1 , . . . , xp ) = det(e′ ) (x1 , . . . , xp ). Autrement dit, le déterminant d’une famille de vecteurs ne dépend pas du
choix de la base orthonormée directe dans laquelle on réalise le calcul.

2.2 Isométries vectorielles d’un plan euclidien


Dans cette section, E désigne !un plan euclidien orienté, (e1 , e2 ) une base orthonormée directe, et u ∈ O(E).
a c
Notons A = Mat(e) (u) = . A est une matrice orthogonale, ce qui se traduit par
b d
 2


 a + b2 = 1

 2

 c + d2 = 1


ac + bd = 0

La première égalité traduit l’existence d’un réel α (défini de manière unique modulo 2π) tel que a = cos α et
b = sin α. De même, la seconde égalité traduit l’existence d’un réel β pour lequel d = cos β et c = sin β.
La troisième égalité s’écrit alors cos α sin β + sin α cos β = 0, soit sin(α + β) = 0. Ainsi, nous avons β ≡ −α mod π,
ce qui laisse deux possibilités (sachant que β est unique modulo 2π) : β = −α ou β = π − α.
Les matrices de O2 (R) sont donc de deux types uniquement :
! !
cos α − sin α cos α sin α
A1 = (lorsque β = −α) ou A2 = (lorsque β = π − α).
sin α cos α sin α − cos α

det A1 = 1 et det A2 = −1 donc les isométries vectorielles directes sont associées aux matrices de type A1 , et les
isométries indirectes aux matrices de type A2 .

■ Isométries directes du plan euclidien orienté


!
n o cos α − sin α
Nous avons donc SO 2 (R) = R(α) α ∈ [0, 2π[ , où R(α) désigne la matrice .
sin α cos α

Proposition 2.9 — SO 2 (R) est un groupe commutatif, et R(α)R(β) = R(α + β).

Corollaire — Si Mat(e) (u) = Rα , la valeur de α est indépendante du choix de la base orthonormée directe (e) ; on dit
que u est la rotation d’angle α.

Remarque. Les matrices de SO 2 (R) sont aussi les matrices de passage d’une base orthonormée directe à une
autre ; ainsi nous venons de prouver que nous ne pouvons passer d’une base orthonormée directe à une autre
que par l’action d’une rotation.

PC∗ – Lycée Marcelin Berthelot


3.8 Espaces euclidiens

u(x)

α
x

Figure 2 – Action d’une rotation vectorielle d’angle α.

e2
e1′

e2′

α
e1

Figure 3 – Pasage d’une base orthonormée directe à une autre.

Comment mesurer l’angle d’une rotation ?


Si x est un vecteur non nul, il est toujours possible de construire une base orthonormée directe (e1 , e2 ) telle que
x
e1 = . On a alors u(e1 ) = cos αe1 + sin αe2 et
∥x∥
⟨e1 | u(e1 )⟩ = cos α et det(e1 , u(e1 )) = sin α

On en déduit deux formules qui permettent de calculer cos α et sin α et par leur intermédiaire de déterminer
l’angle d’une rotation à partir de l’image d’un vecteur non nul quelconque :
⟨x | u(x)⟩ det(x, u(x))
cos α = et sin α =
∥x∥2 ∥x∥2
ce dernier déterminant pouvant être calculé dans une base orthonormée directe quelconque.

■ Isométries indirectes du plan euclidien orienté


!
cos α sin α
Revenons à la matrice A2 = et cherchons à la diagonaliser.
sin α − cos α
On calcule sans peine χA2 (x) = x2 − 1 = (x − 1)(x + 1) donc Sp(A2 ) = {−1, 1} ; la matrice A2 est diagonalisable.
! !
cos(α/2) − sin(α/2)
On résout A2 X = X ⇐⇒ X ∈ Vect et A2 X = −X ⇐⇒ X ∈ Vect
sin(α/2) cos(α/2)
!
cos(α/2) − sin(α/2)
Posons P = ; P est la matrice de la rotation d’angle α/2 donc la base (e′ ) obtenue par
sin α/2) cos(α/2)
!
1 0
Mat(e) (e′ ) est une base orthonormée directe dans laquelle Mat(e′ ) (u) = . L’isométrie indirecte u ∈ O(E)
0 −1
est donc une symétrie orthogonale par rapport à la droite engendrée par le vecteur e2′ .
Nous avons donc prouvé que les isométries indirectes du plan euclidien orienté sont les réflexions, autrement
dir les symétries orthogonales par rapports aux droites.

2.3 Endomorphismes autoadjoints


Définition. — On dit qu’un endomorphisme u ∈ L(E) est autoadjoint lorsqu’il vérifie : ∀(x, y) ∈ E2 ,

⟨u(x) | y⟩ = ⟨x | u(y)⟩.

Théorème 2.10 — Si (e) est une base orthonormée de E et A = Mate (u), alors u est autoadjoint si et seulement si
AT = A, c’est à dire si et seulement si A est symétrique.

PC∗ – Lycée Marcelin Berthelot


3.9

e2
e2′ u(e1 )
D
e1′

α
e1

Figure 4 – Action d’une réflexion par rapport à la droite D.

Remarque. Pour cette raison, un endomorphisme autoadjoint est aussi appelé un endomorphisme symétrique,
mais cette appellation peut être trompeuse, car si (e) n’est pas une base orthonormée, la matrice associée dans
cette base à un endomorphisme autoadjoint peut ne pas être symétrique.

Adjoint d’un endomorphisme (hors programme)


Lorsque (e) est une base orthonormée de E, u ∈ L(E) et A = Mat(e) (u) on a

⟨u(x) | y⟩ = (AX)T Y = X T (AT Y) = ⟨x | u ∗ (y)⟩

où u ∗ est l’endomorphisme défini par Mat(e) (u ∗ ) = AT . Cet endomorphisme est appelé l’adjoint de l’endomor-
phisme u (il est facile de montrer que sa définition ne dépend pas du choix de la base orthonormée (e)). On
comprend dès lors la dénomination des endomorphismes autoadjoints : les endomorphismes u ∈ L(E) qui
vérifient u ∗ = u.

Proposition 2.11 — L’ensemble S(E) des endomorphismes autoadjoints de E est un sous-espace vectoriel de L(E), de
p(p + 1)
dimension .
2

Exercice 5
Soient u et v deux endomorphismes autoadjoints. Montrer que u◦v est autoadjoint si et seulement si u◦v = v◦u.

■ Réduction des endomorphismes autoadjoints


De nombreuses applications des endomorphismes autoadjoints résultent du fait que ce sont les seuls endo-
morphismes diagonalisables dans les bases orthonormées, résultat que nous allons nous attacher à prouver
maintenant.

Proposition 2.12 — Si u est un endomorphisme autoadjoint, ses sous-espaces propres sont en somme directe
orthogonale.

Proposition 2.13 — Soit H un espace vectoriel stable par un endomorphisme autoadjoint u. Alors H⊥ est aussi
stable par u.

Lemme — Un endomorphisme autoadjoint possède au moins une valeur propre réelle.

Théorème 2.14 (théorème spectral) — Un endomorphisme autoadjoint est diagonalisable dans une base orthonor-
mée.

Corollaire — Si A est une matrice symétrique, il existe une matrice diagonale D et une matrice orthogonale P telles
que A = PDPT (rappelons que P−1 = PT ).

Exercice 6 
 2 −1 2 

Diagonaliser sur une base orthonormée la matrice A = −1 2 2 .
 
2 2 −1
 

PC∗ – Lycée Marcelin Berthelot


3.10 Espaces euclidiens

2.4 Formes bilinéaires symétriques


Nous allons maintenant revenir à la définition d’un produit scalaire : une forme bilinéaire, symétrique, définie
positive.
Commençons par considérer une forme bilinéaire b : E × E → R, où E est un espace euclidien.
Xp p
X
Si (e) est une base orthonormée de E, posons x = xi ei et y = yj ej . Alors :
i=1 j=1
p X
X p
b(x, y) = xi yj b(ei , ej ) = X T BY avec B = (b(ei , ej ))1⩽i,j⩽p
i=1 j=1

Si on suppose de plus b symétrique alors b(ei , ej ) = b(ej , ei ) donc B ∈ Sp (R).


Notons u ∈ S(E) l’endomorphisme autoadjoint défini par Mat(e) (u) = B. Nous avons démontré que toute forme
bilinéaire symétrique de E s’écrit de manière unique sous la forme (x, y) 7→ ⟨x | u(y)⟩ avec u ∈ S(E).
D’après le théorème spectral, il existe une base orthonormée (e′ ) formée de vecteurs propres de u. En notant
P ∈ Op (R) la matrice de passage de (e) vers (e′ ) et en posant X′ = PT X et Y′ = PT Y on a b(x, y) = X′T DY′ avec
Xp
D = Mat(e′ ) (u) = diag(λ1 , . . . , λp ) soit b(x, y) = λk xk′ yk′ .
p
X k=1
En particulier, b(x, x) = λk xk′2 donc :
k=1
– b est positive lorsque pour tout k ∈ ⟦1, p⟧, λk ⩾ 0, soit Sp(u) ⊂ R+ ;
– b est définie positive lorsque pour tout k ∈ ⟦1, p⟧, λk > 0, soit Sp(u) ⊂ R∗+ .

Définition. — Un endomorphisme autoadjoint u ∈ S(E) est dit positif lorsque pour tout x ∈ E, ⟨x | u(x)⟩ ⩾ 0 ; un
endomorphisme autoadjoint u ∈ S(E) est dit défini positif lorsque pour tout x ∈ E \ {0E }, ⟨x | u(x)⟩ > 0.

On note S + (E) l’ensemble des endomorphismes autoadjoints positifs et S ++ (E) celui des endomorphismes
autoadjoints définis positifs.

Théorème 2.15 — Soit u ∈ S(E) un endomorphisme autoadjoint. Alors :


– u est positif si et seulement si Sp(u) ⊂ R+ ;
– u est défini positif si et seulement si Sp(u) ⊂ R∗+ .

Traduits matriciellement ces résultats donnent :

Théorème 2.16 — Soit A ∈ Sp (R) une matrice symétrique. Alors :


 
– ∀X ∈ Rp , X T AX ⩾ 0 si et seulement si Sp(A) ⊂ R+ ;
 
– ∀X ∈ Rp \ {0}, X T AX > 0 si et seulement si Sp(A) ⊂ R∗+ .

On note Sp+ (R) l’ensemble des matrices symétriques positives, et Sp++ (R) celui des matrices symétriques définies
positives.

Application à la réduction d’une forme quadratique


R2 −→ R
!
Considérons une forme quadratique q : . Nous aurons besoin dans le
(x1 , x2 ) 7−→ ax12 + 2bx1 x2 + cx22
chapitre consacré aux fonctions à plusieurs variables de déterminer si une telle fonction garde un signe constant
ou non. ! !
T x1 a b
Observons que q(x1 , x2 ) = X AX où X = et A = . La matrice A étant symétrique se diagonalise dans
x2 b c
x1′
!
T ′ T
une base orthonormée : A = PDP où P ∈ O2 (R) et D = diag(λ1 , λ2 ). En posant X = P X = ′ on a alors
x2
′ 2 ′ 2
q(x1 , x2 ) = λ1 (x1 ) + λ2 (x2 ) donc :

PC∗ – Lycée Marcelin Berthelot


3.11

– si A ∈ S2++ (R), pour tout (x1 , x2 ) ∈ R2 \ {(0, 0)}, q(x1 , x2 ) > 0 ;


– si A ∈ S2+ (R), pour tout (x1 , x2 ) ∈ R2 , q(x1 , x2 ) ⩾ 0.

Matrices de Gram (hors programme)


On appelle matrice de Gram toute matrice A ∈ Mp (R) qui s’écrit A = M T M avec M ∈ Mp (R).
Une matrice de Gram est bien évidemment symétrique : AT = (M T M)T = M T M = A ; de plus, ses valeurs propres
sont positives. En effet, pour tout x ∈ Rn , ⟨Ax | x⟩ = (Ax)T x = x T Ax = x T M T Mx = ∥Mx∥2 ⩾ 0.
Le fait remarquable réside dans la réciproque :

Proposition 2.17 — Une matrice A ∈ Mp (R) est symétrique positive si et seulement s’il existe M ∈ Mp (R) telle que
A = M T M. De plus, A est définie positive si et seulement si M ∈ GLp (R).

PC∗ – Lycée Marcelin Berthelot


3.12

PC∗ – Lycée Marcelin Berthelot


Chapitre IV 4.1

Suites et séries numériques


Outil de base en analyse, la notion de suite numérique apparaît très tôt dans l’histoire des sciences, accompagnée
de l’idée intuitive de la convergence. Cependant, il faut attendre le XIXe siècle et les travaux de Cauchy et
de Weierstrass pour substituer aux concepts intuitifs qui avaient prévalu jusque là les définitions que nous
connaissons.

1. Suites réelles ou complexes


1.1 Convergence des suites numériques
On qualifiera de suite numérique toute suite à valeurs dans R ou C.

Définition. — Une suite numérique (un ) est dite bornée lorsqu’il existe un réel B ⩾ 0 tel que pour tout n ∈ N,
|un | ⩽ B.

Dans le cas réel, cette définition est équivalente à dire que la suite est majorée et minorée. Cependant on lui
préférera en général la définition ci-dessus, qui présente deux avantages :
– cette définition est valable aussi bien dans R que dans C (et, au prix d’une modification mineure, dans le cas
des espaces vectoriels) ;
– elle traduit le concept à l’aide d’une inégalité entre nombres positifs, ce qui évite de nombreuses erreurs de
manipulations d’inégalités.

Définition. — On dit qu’une suite (un ) numérique converge vers une limite finie ℓ lorsque la distance de un à ℓ
tend vers 0 : lim |un − ℓ| = 0. Ceci revient donc à écrire :
n→+∞

∀ϵ > 0, ∃N ∈ N n ⩾ N ⇒ |un − ℓ| ⩽ ϵ

Autrement dit, il existe un rang à partir duquel tous les termes de la suite (un ) sont à une distance de ℓ inférieure
à une quantité arbitrairement petite ϵ.
Exercice 1
Démontrer les propriétés suivantes :
a. toute suite convergente est bornée ;
b. toute suite convergente possède une unique limite ;
c. toute suite extraite d’une suite convergente converge vers la même limite.

Théorème 1.1 (Cesàro) — Soit (un ) une suite numérique qui converge vers une limite ℓ. Pour tout n ∈ N on pose
n
1 X
vn = uk . Montrer que la suite (vn ) converge vers ℓ.
n+1
k=0

Exercice 2
Déduire du théorème de Cesàro le lemme de l’escalier : si une suite numérique (un ) vérifie : lim(un+1 − un ) = ℓ
u
alors lim n = ℓ.
n

PC∗ – Lycée Marcelin Berthelot


4.2 Suites et séries numériques

1.2 Le cas particulier des suites réelles


Contrairement à C, R est muni d’une relation d’ordre. Celle-ci confère aux suites réelles des propriétés uniques
qui n’ont pas d’équivalent dans C, ainsi que dans les autres ensembles dans lesquels nous étendrons le concept
de limite.

Limites infinies
La première particularité des suites réelles est de caractériser deux cas particuliers de divergence : la divergence
vers −∞ et vers +∞ :

Définition. — Une suite réelle (un ) diverge vers +∞ lorsque : ∀A ∈ R, ∃N ∈ N n ⩾ N ⇒ un ⩾ A.


Une suite réelle (un ) diverge vers −∞ lorsque : ∀A ∈ R, ∃N ∈ N n ⩾ N ⇒ un ⩽ A.

Autrement dit, une suite (un ) diverge vers +∞ lorsque un est, à partir d’un certain rang, supérieure à une
quantité arbitrairement grande A.

Proposition 1.2 — Une suite réelle qui diverge vers +∞ est minorée mais pas majorée.

De même, une suite qui diverge vers −∞ est majorée mais non minorée.

Compatibilité avec la relation d’ordre


Proposition 1.3 (passage à la limite dans une inégalité) — Si (un ) et (vn ) sont deux suites réelles convergeant
respectivement vers α et β et vérifiant : ∀n ∈ N, un ⩽ vn , alors α ⩽ β.

Théorème 1.4 (encadrement) — Soient (un ), (vn ) et (wn ) trois suites réelles telles que pour tout n ∈ N, un ⩽ vn ⩽ wn .
On suppose que (un ) et (wn ) convergent vers la même limite ℓ. Alors (vn ) converge vers ℓ.

Théorème 1.5 (minoration) — Soient (un ) et (vn ) deux suites réelles telles que pour tout n ∈ N, un ⩽ vn . On suppose
que (un ) diverge vers +∞. Alors (vn ) diverge vers +∞.

■ Suites monotones
Théorème 1.6 — Une suite croissante et majorée converge ; une suite croissante et non majorée diverge vers +∞.

• • • •
• un •

N
n

Figure 1 – La limite d’une suite croissante et majorée est la borne supérieure de la suite.

Remarque. Bien entendu, une suite décroissante est convergente lorsque elle est minorée, et diverge vers −∞
dans le cas contraire.

Enfin, à la notion de suite monotone est attaché le concept de suites adjacentes, utile car fournissant une
approximation par défaut et par excès de leut limite commune.

PC∗ – Lycée Marcelin Berthelot


4.3

Définition. — Deux suites (un ) et (vn ) sont dites adjacentes lorsque (un ) est croissante, (vn ) décroissante, et
lim(vn − un ) = 0.
+∞

Théorème 1.7 — Si (un ) et (vn ) sont adjacentes, alors ∀n ∈ N, un ⩽ vn , et ces deux suites convergent vers la même
limite ℓ ; ℓ est l’unique réel tel que pour tout n ∈ N, un ⩽ ℓ ⩽ vn .

R


v
• • n • • • • •

δn
• • • •
• •
• un


N
n

Figure 2 – L’écart entre deux suites adjacentes tend vers 0 en décroissant.

Exercice 3
n
X 1 1
On pose an = et bn = an + . Montrer que les deux suites (an ) et (bn ) sont adjacentes, puis montrer que
k! n.n!
k=0
leur limite commune est irrationnelle.
Remarque. Nous aurons l’occasion de prouver plus tard dans l’année que la limite commune aux deux suites
de cet exercice est le nombre de Neper e (la base du logarithme naturel). Les deux suites (an ) et (bn ) permettent
donc d’obtenir une approximation par défaut et par excès de cette quantité, en utilisant le script Python suivant.

from math import factorial

n = 1
a = 2
while 1 / (n * factorial(n)) > 1e−12:
n += 1
a += 1 / factorial(n)
b = a + 1 / (n * factorial(n))

In [1]: a, b
Out[1]: (2.71828182845823, 2.7182818284590495)

Si on fait abstraction des erreurs de calcul inhérentes à la manipulation des flottants en machine, nous
pouvons affirmer que 2,718 281 828 458 23 < e < 2,718 281 828 459 049 5, ce qui fournit les première décimales
de e ≈ 2,718 281 828 45 · · · .

1.3 Comparaison asymptotique


Peut-on dire qu’une suite converge lentement ou rapidement ? Dans l’absolu, cette question n’a pas de sens,
puisque la notion de vitesse est une notion relative. Il importe donc d’avoir des éléments de comparaison,
composés à la fois de suites de référence et d’outils de comparaison.

PC∗ – Lycée Marcelin Berthelot


4.4 Suites et séries numériques

■ Les notations de Landau


Soient (un ) et (vn ) deux suites numériques telles que
 : ∀n ∈ N, vn , 0.
u
On dit que un est dominée par vn lorsque la suite n est bornée. On note dans ce cas un = O(vn ).
vn
u
On dit que un est négligeable devant vn lorsque lim n = 0. On note dans ce cas un = o(vn ).
+∞ vn
u
On dit que (un ) et (vn ) sont équivalentes lorsque lim n = 1. On note dans ce cas un ∼ vn .
+∞ vn

On peut noter que les suites (un ) et (vn ) sont équivalentes si et seulement si un = vn + o(vn ).

Suites de références
Ces notations n’ont d’intérêt que pour comparer des infiniment petits (des suites qui tendent vers 0) ou des
infiniment grands (des suites qui tendent vers +∞) entre eux. Si deux suites (un ) et (vn ) convergent vers
une limite commune ℓ, on comparera les suites (un − ℓ) à (vn − ℓ) entre elles pour mesurer leurs vitesses de
convergence relatives.
En outre, dans la pratique la suite (vn ) est le plus souvent une suite de référence, c’est-à-dire une suite dont on
connait le comportement. En ce qui nous concerne, les suites de références au voisinage de +∞ seront composées
des fonctions (ln n)α (avec α > 0), nβ (avec β > 0) et eγn (avec γ > 0). À ce sujet, rappelons le principe dit des
croissances comparées :
∀α, β, γ > 0, (ln n)α = o(nβ ) et nβ = o(eγn )

Les suites de référence au voisinage de 0 sont les inverses des trois suites précédentes. Ainsi,

1 1 1
   
e−γn = o β et = o .
n nβ (ln n)α

Exercice 4
Ordonner les suites ci-dessous à l’aide de la relation « est négligeable devant » :

n3 en √ n2
n2 en n ln2 n + n2 n + ln n n2 ln2 n
ln n n ln n n + ln n

■ Comparaison logarithmique
La notion que nous allons introduire consiste à comparer deux suites positives (concrètement une suite à étudier
et une suite de référence) par le biais du quotient de deux termes consécutifs de ces suites. Cette technique
repose sur le résultat suivant :

un+1 vn+1
Lemme — Si (un ) et (vn ) sont deux suites de réels strictement positifs telles qu’à partir d’un certain rang, ⩽ ,
un vn
alors un = O(vn ).

Dans la pratique, nous nous contenterons de prendre pour l’une de ces deux suites une suite géométrique :

Proposition 1.8 (comparaison à une suite géométrique) — Soit (un ) une suite de réels strictement positifs. On
u
suppose l’existence d’un réel positif a tel qu’à partir d’un certain rang, n+1 ⩽ a. Alors un = O(an ).
un
u
De même, s’il existe un rang à partir duquel a ⩽ n+1 alors an = O(un ).
un

Exercice 5
Montrer que si a < e < b alors nn b−n = O(n!) et n! = O(nn a−n ).

PC∗ – Lycée Marcelin Berthelot


4.5

2. Séries numériques
2.1 Généralités
À une suite réelle ou complexe (un ) on associe la suite (Sn ) dont le terme général est défini par :
n
X
∀n ∈ N, Sn = uk .
k=0
X
La suite (Sn ) est la suite des sommes partielles associée à la série un de terme général un .
X
Définition. — On dit que la série un converge lorsque la suite (Sn ) converge, et qu’elle diverge dans le cas
+∞
X n
X
contraire. En cas de convergence, on pose : S = lim Sn , et on écrira : S = uk = lim uk .
+∞ n→+∞
k=0 k=0
+∞
X
Enfin, lorsque qu’une série converge, on appelle reste d’ordre n la quantité : Rn = S − Sn = uk . On définit
ainsi une suite (Rn ) qui converge vers 0. k=n+1

Exemple. Séries géométriques.


n
X 1 − an+1
Soit a ∈ C, et un = an . Si a , 1 on a Sn = ak = ; si a = 1 on a Sn = n + 1.
1−a
k=0
+∞
X X 1
– Lorsque |a| < 1, lim an+1 = 0 donc la série ak converge, et ak = ;
+∞ 1−a
k=0
X
– Lorsque |a| ⩾ 1, la série ak diverge en vertu de la proposition 2.1.

Attention. Les résultats concernant les opérations sur les limites permettent de prouver que la somme de
deux séries convergentes est encore convergente, ou que le produit par un scalaire d’une X
série convergente est
encore convergente. Attention néanmoins à ne pas commettre l’erreur suivante : la série (un + vn ) peut être
X X
convergente sans que les séries un et vn le soient. Autrement dit, avant d’écrire que :

+∞
X +∞
X +∞
X
(un + vn ) = un + vn
n=0 n=0 n=0

il faudra prendre la peine de vérifier que ces séries sont effectivement convergentes.

■ Correspondance fondamentale entre suites et séries


X
Nous avons associé à une suite (un ) la suite (Sn ) des sommes partielles de la série un de terme général un .
Réciproquement, si (Sn ) est une suite quelconque on peut, en posant : u0 = S0 et ∀n ∈ N∗ , un = Sn − Sn−1 , la faire
apparaitre comme la X suite des sommes partielles d’une certaine série. Cette égalité permet de déduire des
propriétés de la série (Sn − Sn−1 ) certains résultats qui concernent la suite (Sn ), à commencer par la
X
Proposition 2.1 — Si la série un converge, la suite (un ) tend vers 0.

Attention. Ce critère que nous venons d’énoncer n’assure pas à lui seul la convergence de la série ; il existe en
effet de nombreuses séries divergentes dont le terme général tend vers 0. Il suffit pour cela que la suite (Sn )
diverge et que la suite (Sn − Sn−1 ) tende vers 0. C’est le cas par exemple lorsque Sn = ln n.
X1
Mais l’exemple le plus connu est sans conteste la série harmonique . Les méthodes pour prouver la
n
divergence de cette série sont très nombreuses, et nous verrons plus loin (dans la section « comparaison à une

PC∗ – Lycée Marcelin Berthelot


4.6 Suites et séries numériques

intégrale ») une méthode plus simple. Dans l’immédiat, nous allons raisonner par l’absurde en supposant la
convergence de cette série. Dans ces conditions, la suite S2n − Sn converge vers 0. Mais

2n 2n
X 1 X 1 1
S2n − Sn = ⩾ =
k 2n 2
k=n+1 k=n+1

ce qui est contradictoire.

Égalité télescopique n
X
Lorsqu’on remplace uk par Sk − Sk−1 pour k ⩾ 1 dans la relation Sn = uk on obtient :
k=0
n
X
∀n ∈ N, Sn = S0 + (Sk − Sk−1 ).
k=1

Cette relation, lorsqu’elle est mise en évidence, permet le calcul de certaines sommes, comme par exemple dans
l’exercice suivant.

Exercice 6 +∞
X 1
Prouver la convergence et calculer la somme .
n(n + 1)
n=1

2.2 Séries de nombres réels positifs


Considérons maintenant une suite (un ) de nombres réels positifs. Pour tout n ∈ N on a : Sn+1 − Sn = un+1 ⩾ 0,
donc la suite des sommes partielles (Sn ) est croissante. En conséquence :
X
la série un est convergente si et seulement si la suite (Sn ) des sommes partielles est majorée.

Nous allons tirer plusieurs conséquences de cette constatation :

Théorème 2.2 (comparaison) — Soient X (un ) et (vn ) deux suitesXde nombres réels positifsX telles que : ∀n
X∈ N,
0 ⩽ un ⩽ vn . Alors la convergence de la série vn entraîne celle de un , et la divergence de un celle de vn .

Remarque. On peut remplacer l’hypothèse : un ⩽ vn par l’hypothèse : un = O(vn ). En effet, cette nouvelle
hypothèse
X implique
X l’existence d’un réel B > 0 tel que un ⩽ Bvn , et il suffit alors d’appliquer le théorème aux
séries un et Bvn . On peut donc énoncer le :

Corollaire X— Soient (un ) et (vnX


) deux suites de nombres réels
X positifs telles
Xque : un = O(vn ). Alors la convergence
de la série vn entraîne celle de un , et la divergence de un celle de vn .

X n n 1 1
  X
Exemples. La série converge car = O et converge.
3n 3n 2 n 2n
X ln n 1

ln n
 X1
La série diverge car = O et diverge.
n n n n
X X
Corollaire — Deux séries un et vn à terme général positif vérifiant : un ∼ vn ont même nature 5 .

Attention. Ce résultat peut être mis en défaut lorsque les suites ne sont pas de signes constants. Cette erreur,
très commune, à même été commise par Cauchy dans un article de 1823 consacré aux séries trigonométriques !

5. la nature d’une série est le fait pour elle d’être convergente ou divergente

PC∗ – Lycée Marcelin Berthelot


4.7

Séries de référence
Ces deux derniers résultats nécessitent de posséder des séries de référence, c’est à dire des séries dont on connait
la nature et à qui on compare les autres séries. En ce qui nous concerne, nos séries de référence seront les séries
géométriques (étudiées à la section 2.1) et les séries de Riemann (étudiées à la section 2.3).

Exercice 7
En admettant le résultat du corollaire du théorème 2.4, étudier la nature des séries de terme général :

an √ ln n
un = 3 ln(n2 + 1) − 2 ln(n3 + 1), vn = (a > 0), wn = n
n − 1, xn = (α > 0).
1 + a2n nα
Enfin, la comparaison logarithmique à une série géométrique fournit le :

Théorème 2.3 (règle de d’Alembert)X — Soit (un ) une suite de nombres réels strictement positifs, telle que
un+1
lim = a. Alors : si a < 1, la série un converge ; si a > 1 elle diverge.
n→+∞ un

Attention. On ne peut rien conclure lorsque a = 1.


un+1
Cette règle s’avère particulièrement efficace dans le cas où le quotient présente des simplifications notables,
un
comme on pourra l’observer dans l’exercice suivant.

Exercice 8
2 × 4 × 6 × · · · × (2n)
Déterminer la nature de la série de terme général un = .
nn

2.3 Comparaison à une intégrale


X
Cette section concerne les séries de la forme f (n), où f : [0, +∞[ → R+ est une fonction positive, continue
par morceaux, et décroissante.

y y
y = f (x) y = f (x)

f (k) f (k)

x x
k−1 k k k+1
Z k Z k+1
∀k ⩾ 1, f (k) ⩽ f (t) dt ∀k ⩾ 0, f (t) dt ⩽ f (k)
k−1 k

Figure 3 – Minoration et majoration de l’intégrale d’une fonction décroissante.

Observons les deux graphes représentés figure 3. Dans les deux cas, on compare l’aire hachurée, égale à f (k),
avec l’aire colorée, qui se calcule par l’intermédiaire d’une intégrale.
Zk Zk
Pour tout t ∈ [k − 1, k], f (k) ⩽ f (t) donc f (k) = f (k) dt ⩽ f (t) dt.
k−1 k−1
Z k+1 Z k+1
Pour tout t ∈ [k, k + 1], f (t) ⩽ f (k) donc f (t) dt ⩽ f (k) dt = f (k).
k k

PC∗ – Lycée Marcelin Berthelot


4.8 Suites et séries numériques

La première inégalité n’est valable que pour k ⩾ 1 ; en sommant on obtient :

n
X n Z
X k n
X Z n
f (k) ⩽ f (t) dt et donc f (k) ⩽ f (0) + f (t) dt (1)
k=1 k=1 k−1 k=0 0

En revanche, la seconde égalité est valable pour k ⩾ 0 ; en sommant on obtient :

n Z
X k+1 n
X Z n+1 n
X
f (t) dt ⩽ f (k) et donc f (t) dt ⩽ f (k) (2)
k=0 k k=0 0 k=0

On en déduit :
X Z n 
Théorème 2.4 — La série f (n) converge si et seulement si la suite f (t) dt converge.
0
Z +∞
Remarque. Plus tard dans l’année nous dirons que l’intégrale f (t) dt converge.
0

Séries de Riemann
1
L’application de ce théorème aux fonctions x 7→ donne nos principales séries de référence :

X 1
Corollaire (Séries de Riemann) — La série converge si et seulement si α > 1.

2.4 Équivalent des sommes partielles et des restes


Lorsque une série numérique converge, la suite des restes tend vers 0 (c’est un infiniment petit) ; il est donc
légitime de chercher un équivalent simple du reste.
Lorsque une série à terme général positif diverge, la suite de ses sommes partielles diverge vers +∞ (c’est un
infiniment grand) ; il est donc légitime de chercher un équivalent simple de la somme partielle.
La technique de comparaison à une intégrale permet dans certains cas de répondre à ces questions.
Z k+1 Zk
dt 1 dt
Exemple. Nous avons : ∀k ⩾ 1, 2
⩽ 2
⩽ 2
, donc en sommant :
k t k k−1 t

Z N+1 N ZN N
dt X 1 dt 1 1 X 1 1 1
2
⩽ 2
⩽ 2
ce qui donne : − ⩽ 2
⩽ − .
n+1 t k n t n+1 N+1 k n N
k=n+1 k=n+1

+∞ +∞
1 X 1 1 X 1 1
En faisant tendre N vers +∞ on obtient : ⩽ ⩽ et donc : ∼ . Nous avons obtenu un
n+1 k2 n k2 n
X 1 k=n+1 k=n+1

équivalent du reste de la série convergente .


n2
Exercice 9
Appliquer de nouveau la technique de comparaison à une intégrale, mais cette fois-ci pour encadrer une
n
X 1
somme partielle d’une série divergente : Sn = .
k
k=1
En déduire un équivalent de cette somme lorsque n tend vers +∞.
Remarque. Il est possible d’obtenir une formule plus précise que dans l’exercice précédent, en prouvant
n
X 1
l’existence d’une constante γ ≈ 0,577 · · · , appelée constante d’Euler vérifiant : = ln n + γ + o(1).
k
k=1

PC∗ – Lycée Marcelin Berthelot


4.9

■ Un complément (hors programme)


Le résultat qui suit donne une méthode alternative pour déterminer un équivalent du reste d’une série
convergente, ou de la somme partielle d’une série convergente, toujours dans le cadre d’une série à terme
général positif. Ce résultat étant hors-programme, il doit être démontré avant d’être utilisé.

Proposition 2.5 — Soient (un ) et (vn ) deux suites à terme général positif telles que un ∼ vn . Alors :
X X +∞
X +∞
X
– si un converge il en est de même de vn , et vk ∼ uk ;
n→+∞
k=n+1 k=n+1
X X n
X n
X
– si un diverge il en est de même de vn , et vk ∼ uk .
n→+∞
k=0 k=0

2.5 Séries alternées


Nous allons maintenant étudier un cas particulier de séries à terme général réel, mais qui ne sont plus de signe
constant. Nous adoptons la définition suivante :
X
Définition. — Une série alternée est une série de la forme (−1)n an , la suite (an ) étant formée de nombres réels
positifs.

L’intérêt de ces séries est que l’on dispose d’un critère très simple assurant leur convergence ; il s’agit du résultat
suivant :

Théorème X2.6 (Critère spécial des séries alternées) — Si (an ) est une suite décroissante qui tend vers 0, la série
alternée (−1)n an est une série convergente.

X (−1)n−1
Exemple. La série vérifie les conditions du critère spécial des séries alternées, donc converge. Nous
n
pouvons illustrer cette convergence en observant le comportement des sommes partielles présenté figure 4.

0.8

0.6

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30

(−1)n−1
Figure 4 – La suite des sommes partielles de la série de terme général .
n

Cette figure indique clairement comment procéder pour prouver ce théorème : montrer que les suites (S2n ) et
(S2n+1 ) sont adjacentes. Nous en déduirons aussi le résultat suivant :
X
Corollaire — Si la série (−1)n an vérifie les hypothèses du critère special des séries alternées, le reste rn =
+∞
X
(−1)k ak vérifie : |rn | ⩽ an+1 . De plus, rn est du signe de son premier terme, à savoir du signe de (−1)n+1 an+1 .
k=n+1

PC∗ – Lycée Marcelin Berthelot


4.10 Suites et séries numériques

X (−1)n−1
Remarque. Dans le cas particulier de la série il est possible, en séparant les termes pairs des termes
n
impairs, d’en calculer la somme.
2p p p p p
X (−1)n−1 X 1 X 1 X 1 X 1
En effet on a : S2p = = − = Ip − Jp , avec Ip = et Jp = .
n 2k − 1 2k 2k − 1 2k
n=1 k=1 k=1 k=1 k=1
2p p
X 1 1X1 1 γ
Par ailleurs, Ip + Jp = = ln(2p) + γ + o(1), et Jp = = ln p + + o(1) donc :
n 2 k 2 2
n=1 k=1

Ip − Jp = (Ip + Jp ) − 2Jp = ln(2p) + γ − ln p − γ + o(1) = ln 2 + o(1).


+∞
X (−1)n−1
En passant à la limite, = ln 2.
n
n=1

Exercice 10
(−1)n
 
Soit α > 0. Pour tout n ⩾ 1 on pose un = ln 1 + α . Effectuer un développement asymptotique à deux termes
n X
de un , puis expliquer comment l’utiliser pour prouver la convergence de la série un .

2.6 Séries absolument convergentes


Le critère spécial relatif aux séries alternées s’applique dans un cadre relativement étroit : il faut que le terme
général soit réel, de signe alterné et décroissante en valeur absolue, même si l’exercice 10 a montré comment il
pouvait être utilisé dans un cadre un peu plus général.
Pour prouver la convergence d’une série à terme général complexe, ou à terme général réel mais sans alternance
de signe, il ne reste alors (dans le cadre de notre programme) qu’une seule possibilité : l’absolue convergence,
qui repose sur le théorème suivant :
X X
Théorème 2.7 — Si la série de terme général positif |un | converge, il en est de même de la série un . On dit
X
alors que la série un est absolument convergente.
X
Remarque. Si la série un est absolument convergente, l’inégalité triangulaire se généralise en :
+∞
X +∞
X
un ⩽ |un |.
n=0 n=0

Exemple. La fonction zêta de Riemann et la fonction êta de Dirichlet sont respectivement définies pour une
+∞ +∞
X 1 X (−1)n−1
variable complexe z par : ζ(z) = et η(z) = .
nz nz
n=1 n=1
2 1 e−iy ln n 1 1
Si z = x + iy avec (x, y) ∈ R , on a z = donc z = x ; ainsi les fonction ζ et η sont (au moins) définies
n on nx n n
sur l’ensemble z ∈ C Re(z) > 1 .
Exercice 11
 
Démontrer que lorsque Re(z) > 1, η(z) = 1 − 21−z ζ(z).

■ Semi-convergence
Lorsque x ∈ R, le critère spécial des séries alternées permet de prouver que η(x) est définie pour x > 0. Plus
généralement, une technique hors-programme (la transformation d’Abel) permet de prouver que η(z) est définie
lorsque Re(z) > 0.
X (−1)n−1
Ainsi, lorsque 0 < x ⩽ 1, la série est un exemple de série convergente qui n’est pas absolument
nx
convergente. On parle alors de série semi-convergente.

PC∗ – Lycée Marcelin Berthelot


4.11

+∞
X (−1)n−1
Comme exemple type de semi-convergence on pourra donc citer η(1) = , qui est une série convergente
n
n=1
X1
d’après le critère spécial, mais qui n’est pas absolument convergente car la série harmonique diverge.
n

2.7 Produit de Cauchy de deux séries


X X X
Définition. — Le produit de Cauchy de deux séries un et vn est la série wn de terme général
X
wn = ui vj .
i+j=n

Remarque. L’expression de wn doit être comprise ainsi : on réalise la somme de tous les termes de la forme ui vj
pour lesquels les entiers i et j vérifient la condition i + j = n.
Xn
Cette condition est équivalente aux conditions i ∈ ⟦0, n⟧ et j = n − i donc on peut aussi écrire wn = ui vn−i .
Xn i=0
Si en revanche on observe que j ∈ ⟦0, n⟧ et i = n − j on écrira wn = un−j vj .
j=0

Attention. Si la suite (un ) n’est définie que pour n ⩾ 1, il faut adapter la définition : la suite wn ne sera définie
que pour n ⩾ 1 et la condition i + j = n se traduira par i ∈ ⟦1, n⟧ et j = n − i ou par j ∈ ⟦0, n − 1⟧ et i = n − j :
n
X n−1
X
∀n ⩾ 1, wn = ui vn−i = un−j vj .
i=1 j=0

De même, si (un ) et (vn ) ne sont définies que pour n ⩾ 1 la suite (wn ) ne sera définie que pour n ⩾ 2 par
n−1
X n−1
X
∀n ⩾ 2, wn = ui vn−i = un−j vj .
i=1 j=1

X X
Lemme — Soient an et bn deux séries à terme général positif (an ⩾ 0 et bn ⩾ 0) et convergentes. Alors leur
X
produit de Cauchy cn converge, et :
+∞
X +∞
X +∞
X 
cn = an bn .
n=0 n=0 n=0
X X X
Théorème 2.8 — Soient un et vn deux séries absolument convergentes. Alors leur produit de Cauchy wn
converge absolument, et
+∞
X +∞
X +∞
X 
wn = un vn .
n=0 n=0 n=0

Exercice 12
X
Soit (un ) une suite numérique telle que la série
un converge absolument. En faisant apparaître un produit
n
1 X k
de Cauchy, montrer que la série de terme général wn = n 2 uk converge absolument, puis exprimer sa
2
k=0
somme.

2.8 La formule de Stirling : un équivalent de n!


La formule de Stirling fournit un équivalent de n!. Cette formule a été démontrée en deux temps : De Moivre
√ n n
prouve
√ l’existence d’une constante C telle que n! ∼ C n e , puis Stirling trouve la valeur de cette constante,
C = 2π.

PC∗ – Lycée Marcelin Berthelot


4.12

Le résultat de Moivre
Exercice 13
n! un+1
  X
Pour tout n ⩾ 1 on pose un = √ et vn = ln . Prouver la convergence de la série vn et en déduire
nn e−n n un

l’existence d’une constante C > 0 telle que n! ∼ Cnn e−n n.
L’apport de Stirling
Z π/2
Il repose sur les intégrales de Wallis In = (sin t)n dt.
0
Exercice 14
a. À l’aide d’une intégration par parties, prouver que pour tout n ⩾ 2, nIn = (n − 1)In−2 et en déduire que pour
π (2p)! (2p p!)2
tout p ∈ N, I2p = et I 2p+1 = .
2 (2p p!)2 (2p + 1)!
I
b. Justifier que pour tout n ⩾ 2, In ⩽ In−1 ⩽ In−2 , et en déduire que lim n−1 = 1.
In
I2p √
c. Exprimer lim en fonction de la constante C et en déduire que C = 2π.
I2p+1
√  n
n
Les résultats combinés de ces deux exercices prouvent la formule de Stirling : n! ∼ 2πn . Cette formule est
e
à connaître mais la preuve n’est pas exigible.

PC∗ – Lycée Marcelin Berthelot


Chapitre V 5.1

Suites et séries de fonctions


C’est au XIXe siècle que les mathématiciens comprennent peu à peu l’importance qu’il y a à distinguer différents
types de convergence pour une suite de fonctions. Weierstrass, en 1840, est le premier à utiliser le terme de
convergence uniforme et à comprendre qu’il s’agit d’une des idées fondamentales de l’analyse.

Dans ce chapitre, nous allons considérer une suite de fonctions fn : I → K, n ∈ N et donner un sens à la notion
de convergence simple puis de convergence uniforme de la suite de fonctions (fn ). Ces notions seront ensuite
étendues aux séries de fonctions.

1. Convergence d’une suite de fonctions


Dans toute cette partie, on considère un intervalle I de R, et une suite de fonctions (fn ) définies sur I et à valeurs
dans K = R ou C.

1.1 Convergence simple


La première façon d’étudier la convergence de la suite de fonctions (fn ) consiste, pour chaque valeur x ∈ I, à
étudier la convergence de la suite numérique (fn (x)). Ceci conduit à la définition :

Définition. — On dit que la suite de fonctions (fn ) converge simplement vers f : I → K lorsque pour tout x ∈ I, la
suite numérique fn (x) converge vers f (x).
n∈N

Exemple. Considérons l’intervalle [0, π] et la suite de fonctions (fn ) définie par fn : x 7→ (sin x)n .
– Si x , π/2 on a sin x ∈ [0, 1[ donc lim (sin x)n = 0 ;
n→+∞
– Si x = π/2 on a sin x = 1 donc lim (sin x)n = 1.
n→+∞ 
0 si x , π/2


On en déduit que la suite (fn ) converge simplement sur l’intervalle [0, π] vers la fonction f : x 7→  .
1
 si x = π/2

1.0

0.8

0.6

0.4

0.2

0.0
0.0 0.5 1.0 1.5 2.0 2.5 3.0

Figure 1 – Le graphe des premières fonctions fn .

PC∗ – Lycée Marcelin Berthelot


5.2 Suites et séries de fonctions

On peut déjà faire une première observation : bien que toutes les fonctions fn soient continues sur [0, π], leur
limite simple f présente une discontinuité en π/2. C’est là un des défauts de la convergence simple sur lequel
on reviendra : les propriétés locales (continuité, limite, . . .) ne sont pas préservées par ce mode de convergence.

Exercice 1 
 x −n

 1− si x < n



Pour tout n ∈ N , on définit la fonction fn : [0, +∞[ → R par : fn (x) = 
 n .
Déterminer sa limite simple f . 0
 si x ⩾ n

Nous l’avons vu sur le premier exemple : la convergence simple ne préserve pas la continuité. Elle ne préserve
pas non plus le passage à la limite : en général, sous la seule hypothèse de convergence simple, lim lim fn (x) ,
x→a n→+∞
lim lim fn (x), comme le montre l’exercice ci-dessus (avec a = +∞).
n→+∞ x→a

En l’absence d’hypothèses supplémentaires, les seules propriétés préservées par la convergence simple sont
celles qui ne font pas intervenir le comportement local des fonctions, comme par exemple :

Proposition 1.1 — Soit (fn ) une suite de fonctions croissantes qui converge simplement sur l’intervalle I vers une
fonction f . Alors f est aussi croissante sur I.

Proposition 1.2 — Soit (fn ) une suite de fonctions positives qui converge simplement sur l’intervalle I vers une
fonction f . Alors f est aussi positive sur I.

Pour obtenir des propriétés plus fortes, il faut adopter une définition de la convergence plus exigeante.

1.2 Convergence uniforme


Définition. — Soient I et J deux intervalles tels que J ⊂ I, et f : I → K une fonction. Lorsque f est bornée sur J on
appelle norme uniforme de f sur J la quantité

n o
∥f ∥∞,J = sup |f (x)| x ∈ J

Dans le cas particulier où J = I (intervalle de définition de f ) on se contentera de noter ∥f ∥∞ au lieu de ∥f ∥∞,I .

Définition. — On dit que la suite de fonctions (fn ) converge uniformément sur J vers une fonction f : J → K
lorsque les fonctions fn − f sont bornées (à partir d’un certain rang) sur J et

lim ∥fn − f ∥∞,J = 0


n→+∞

La quantité ∥fn − f ∥∞,J doit être interprétée comme la distance (uniforme) entre fn et f sur l’intervalle J.

Proposition 1.3 — Si (fn ) converge uniformément vers f , elle converge aussi simplement vers f .

Ce résultat est important car il nous indique la démarche à suivre pour étudier la convergence d’une suite de
fonctions (fn ) :

(i) on détermine limite simple f ;


(ii) sur un intervalle J sur laquelle la fonction f est définie, on calcule (ou éventuellement on encadre)
∥fn − f ∥∞,J pour étudier la convergence uniforme.

Remarque. Si J1 ⊂ J2 on a ∥fn − f ∥∞,J1 ⩽ ∥fn − f ∥∞,J2 donc la convergence uniforme sur J2 entraîne la convergence
uniforme sur J1 . En particulier, s’il y a convergence uniforme sur I, il y a a fortiori convergence uniforme sur
tout intervalle inclus dans I.

PC∗ – Lycée Marcelin Berthelot


5.3

Exercice 2 √
∗ x n
Pour tout n ∈ N , on considère la fonction fn : x 7→ , définie sur l’intervalle [0, +∞[.
1 + nx2
a. Déterminer sa limite simple f sur [0, +∞[.
b. Former le tableau des variations de fn − f sur [0, +∞[, et en déduire la valeur de ∥fn − f ∥∞ sur cet intervalle.
La convergence est-elle uniforme sur [0, +∞[ ?
c. Considérons maintenant un réel α > 0 fixé. Former le tableau des variations de fn − f sur [α, +∞[ en
1 1
distinguant les cas n ⩽ 2 et n ⩾ 2 , et en déduire la valeur de ∥fn − f ∥∞,[α,+∞[ . La convergence est-elle
α α
uniforme sur [α, +∞[ ?

0.5

0.4

0.3

0.2

0.1

0.0
0.0 2.5 5.0 7.5 10.0 12.5 15.0 17.5 20.0

Figure 2 – Le graphe des premières fonctions fn de l’exercice 2.

1.3 Régularité de la limite uniforme


Nous allons maintenant passer en revue les principales propriétés de la convergence uniforme, c’est à dire les
propriétés des fonctions fn qui sont transmises à leur limite uniforme f .

Rappel. Une fonction f : I → K est continue en a ∈ I lorsque pour tout ϵ > 0 il existe un réel η > 0 tel que
pour tout x ∈ I,
|x − a| ⩽ η =⇒ |f (x) − f (a)| ⩽ ϵ.

Théorème 1.4 — Soit (fn ) une suite de fonctions convergeant uniformément vers une fonction f sur un intervalle I,
et a ∈ I un point en lequel toutes les fonctions fn sont continues. Alors f est aussi continue en a.

Corollaire — Une limite uniforme de fonctions continues sur I est aussi continue sur I.

Remarque. La continuité étant une notion locale, il n’est pas forcément nécessaire de prouver la convergence
uniforme sur I tout entier pour pouvoir justifier de la continuité de la fonction f .
Supposons par exemple I = [0, +∞[. S’il n’y a pas convergence uniforme sur I mais seulement sur tout intervalle
[0, α], la limite f sera néanmoins continue sur [0, +∞[. En effet, si on considère un réel a ⩾ 0, il suffit de choisir
un réel α > a et d’appliquer le théorème 1.4 sur l’intervalle [0, α] : puisqu’il y a convergence uniforme sur [0, α],
la fonction f est continue en a. Et puisque a est un réel quelconque de [0, +∞[, f est bien continue sur cet
intervalle.

PC∗ – Lycée Marcelin Berthelot


5.4 Suites et séries de fonctions

Le même cas se produit lorsque I = ]0, +∞[ et lorsqu’il y a convergence uniforme sur tout intervalle de la forme
[α, +∞[ avec α > 0 : tout réel a > 0 peut être englobé dans un intervalle de cette forme, et le théorème 1.4
appliqué sur l’intervalle [α, +∞[ permet alors de justifier la continuité de f en a.
Ce type de démarche sera appelée une preuve par recouvrement de la continuité de f sur I.

Exercice 3
Soit (fn ) une suite de fonctions continues qui converge uniformément
  vers f sur l’intervalle I, et (xn ) une suite
d’éléments de I qui converge vers ℓ ∈ I. Montrer que la suite fn (xn ) converge vers f (ℓ).
n∈N
Remarque. Ce théorème est un théorème d’interversion de limites : il montre qu’en cas de convergence
uniforme et lorsque les fonctions fn sont continues en a on a lim lim fn (x) = lim lim fn (x). Nous admettrons
x→a n→+∞ n→+∞ x→a
la propriété plus générale suivante :

Théorème 1.5 (théorème de la double limite) — Soit (fn ) une suite de fonctions qui converge uniformément vers
une fonction f sur I, et a un point adhérent à I (qui peut éventuellement être égal à ±∞). On suppose que pour tout
n ∈ N, la fonction fn possède une limite ℓn en a. Alors la suite (ℓn ) admet elle-même une limite ℓ, et lim f (x) = ℓ.
x→a

Autrement dit, ce théorème étend la relation lim lim fn (x) = lim lim fn (x) dans le cas où a est adhérent à I,
x→a n→+∞ n→+∞ x→a
en garantissant l’existence des limites.

■ Intégration d’une suite de fonctions


Théorème 1.6 — Soit (fn ) une suite de fonctions continues qui converge uniformément vers une fonction f sur un
Z b  Zb
segment [a, b]. Alors la suite numérique fn (t) dt converge vers f (t) dt. Autrement dit :
a a
Z b Z b
lim fn (t) dt = lim fn (t) dt.
n→+∞ a a n→+∞

Exercice 4
π
 
Étudier la convergence simple sur 0, de la suite (fn ) définie par fn (x) = n(cos x)n sin x, puis calculer
Z π Z π 2
2 2 π
 
lim fn (x) dx et lim fn (x) dx. La convergence est-elle uniforme sur 0, ?
0 n→+∞ n→+∞ 0 2

■ Dérivation d’une suite de fonctions


Observons figure 3 deux fonctions « proches » pour la norme uniforme. On constate que ces deux fonctions
délimitent également des aires algébriques proches, ce que traduit le théorème 1.6. En revanche, ces deux
mêmes fonctions peuvent avoir des dérivées très éloignées pour la norme uniforme. Il ne faut donc pas s’étonner
que le théorème de dérivation d’une suite de fonctions ait une hypothèse de convergence uniforme portant non
pas sur la suite (fn ) mais sur la suite des dérivées (fn′ ).

Théorème 1.7 — Soit (fn ) une suite de fonctions de classe C 1 sur I, telle que :
(i) (fn ) converge simplement vers une fonction f sur I ;
(ii) (fn′ ) converge uniformément vers une fonction g sur I.
Alors f est de classe C 1 sur I, et f ′ = g.

Remarque. À l’instar de la continuité, la dérivabilité est un propriété locale, ce qui permet d’effectuer une
preuve par recouvrement de la dérivabilité de la fonction f : pour prouver que f est de classe C 1 sur I, il suffit
de prouver que f est de classe C 1 sur un ensemble d’intervalles recouvrant I.

PC∗ – Lycée Marcelin Berthelot


5.5

Les graphes des fonctions f et g Les graphes des fonctions f ′ et g ′


1.4
0.6
1.2
0.4
1.0
0.2
0.8
0.0
0.6

0.4 0.2

0.2 0.4

0.0 0.6
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7

Figure 3 – Deux fonctions proches pour la norme uniforme, et leurs dérivées.

Extension aux fonctions de classe C k


On peut ajouter une conclusion supplémentaire au théorème 1.7 : non seulement f est de classe C 1 sur I, mais
en plus, la convergence de (fn ) vers f est uniforme sur tout segment.
Considérons alors une suite de fonctions (fn ) de classes C 2 sur I vérifiant :
(i) (fn ) converge simplement vers une fonction f sur I ;
(ii) (fn′ ) converge simplement vers une fonction g sur I ;
(iii) (fn′′ ) converge uniformément vers une fonction h sur I.
Compte tenu du théorème 1.7 et de son complément, les propriétés (ii) et (iii) prouvent :
(iv) la fonction g est de classe C 1 sur I, g ′ = h et la convergence de (fn′ ) vers g est uniforme sur tout segment
inclus dans I.
Mais alors, le théorème 1.7 associé aux propriétés (i) et (iv) prouve que f est de classe C 2 sur I, que f ′ = g et
donc que f ′′ = h.
En généralisant on obtient :

Proposition 1.8 — Soit (fn ) une suite de fonctions de classes C k telle que :
(i) (fn ) converge simplement vers une fonction f sur I ;
(i)
(ii) pour tout i ∈ ⟦1, k − 1⟧, (fn ) converge simplement vers une fonction gi sur I ;
(k)
(iii) (fn ) converge uniformément vers une fonction gk sur I.
Alors f est de classe C k , et pour tout i ∈ ⟦1, k⟧, f (i) = gi .

2. Convergence d’une série de fonctions


Nous allons maintenant adapter les définitions et résultats précédents au cas des séries de fonctions.

2.1 Convergence simple et absolue


Dans cette partie, on considère un intervalle I et une suite de fonctions (fn ) définies sur I.
X
Définition. — On dit que la série de fonctions fn converge simplement lorsque pour tout x ∈ I, la série
X X
numérique fn (x) converge, et qu’elle converge absolument lorsque pour tout x ∈ I, la série numérique |fn (x)|
converge.

PC∗ – Lycée Marcelin Berthelot


5.6 Suites et séries de fonctions

Nous avons déjà vu dans le chapitre consacré aux séries numériques que la convergence absolue entraine la
convergence simple. X
Dans le cas où la série fn converge simplement, on définit une fonction S : I → K en posant :

+∞
X
∀x ∈ I, S(x) = fn (x).
n=0

2.2 Convergence uniforme et normale


X
Définition. — On dit que la série de fonction fn converge uniformément vers une fonction S : I → K lorsque la
suite des sommes partielles converge uniformément vers S sur I, c’est à dire :
n
X
lim S − fk = 0.
n→+∞ ∞,I
k=0

Nous savons déjà que la convergence uniforme entraîne la convergence simple. Si cette dernière est déjà acquise,
nous pouvons définir la fonction reste au rang n en posant :
n
X +∞
X
∀x ∈ I, Rn (x) = S(x) − fk (x) = fk (x)
k=0 k=n+1

ce qui permet de retenir comme définition alternative le résultat suivant :


X
Proposition 2.1 — La série de fonction fn converge uniformément sur I lorsque :
X
(i) la série de fonctions fn converge simplement sur I ;
(ii) lim ∥Rn ∥∞,I = 0.
n→+∞

Nous allons maintenant introduire une notion spécifique aux séries de fonctions et qui va constituer un cas
particulier de convergence uniforme, en adoptant la définition suivante :
X
Définition. — On dit que la série de fonctions fn converge normalement (= au sens de la norme) sur I lorsque
X
la série numérique ∥fn ∥∞,I converge.

Le fait majeur, qui donne tout son intérêt à la notion de convergence normale, est le

Théorème 2.2 — Toute série normalement convergente est uniformément convergente.

Remarque. On peut résumer les 4 modes de convergence possible d’une série de fonctions par le schéma
suivant :
CV Normale CV Absolue

CV Uniforme CV Simple

Les modes qui nous sont utiles sont :


– la convergence simple pour définir la fonction S ;
– la convergence uniforme pour utiliser les théorèmes de régularité qui assureront la continuité, la dérivabi-
lité, etc., de la fonction S.
De ce fait, l’étude d’une série de fonctions suivra peu ou prou le modèle suivant :

PC∗ – Lycée Marcelin Berthelot


5.7

X
(1) établir la convergence simple de fn sur I ;
(2) si la convergence est absolue, calculer ∥fn ∥∞ pour prouver la convergence normale sur I ou sur tout
segment inclus dans I ;
(3) si la convergence n’est pas absolue, majorer ∥Rn ∥∞ en vue de prouver la convergence uniforme sur I ou
sur tout segment inclus dans I.
On notera que le point (3) intervient essentiellement dans le cadre du critère spécial relatif aux séries alternées,
critère qui donne une majoration du reste (revoir le cours sur les séries numériques).
+∞
X 1
Exemple. La fonction zêta de Riemann est définie par : ζ(x) = .
nx
1 n=1
Pour tout n ⩾ 1 et x > 0, posons fn (x) = x .
n X
La technique de comparaison à une intégrale permet de prouver la convergence simple de la série fn sur
]1, +∞[ ; ainsi la fonction ζ est définie sur ]1, +∞[.
Le tableau des variations de la fonction fn sur ]1, +∞[ est le suivant :
x 1 α +∞
1
fn (x) n
0
1 X1
Sur l’intervalle ]1, +∞[, nous avons ∥fn ∥∞ = , mais comme la série diverge, la convergence n’y est pas
n n 1
normale. En revanche, sur l’intervalle [α, +∞[ (avec un réel arbitraire α > 1) nous avons ∥fn ∥∞,[α,+∞[ = α , et
X 1 n
puisque la série α
converge, la convergence y est normale, donc uniforme. A fortiori, la convergence est
n
uniforme sur tout segment inclus dans ]1, +∞[.
+∞
X (−1)n−1
Exemple. La fonction êta de Dirichlet est définie par : η(x) = .
nx
n=1 X
Le critère spécial relatif aux séries alternées prouve la convergence simple de la série (−1)n−1 fn sur ]0, +∞[ ;
ainsi la fonction η est définie sur ]0, +∞[.
+∞
X 1
De plus, toujours d’après le critère spécial, |Rn (x)| = (−1)k−1 fk (x) ⩽ |fn+1 (x)| = x .
n
k=n+1
Sur l’intervalle ]0, +∞[ on en déduit que ∥Rn ∥∞ ⩽ 1, ce qui est insuffisant pour prouver la convergence uniforme.
1 1
En revanche, pour tout β > 0 nous avons sur l’intervalle [β, +∞[ : ∥Rn ∥∞,[β++∞[ ⩽ β et lim β = 0, ce qui
n n→+∞ n
prouve la convergence uniforme sur [β, +∞[. A fortiori, la convergence est uniforme sur tout segment inclus
dans ]0, +∞[.

Exercice 5
1 (−1)n X
Pour tout n ∈ N on définit les fonctions fn : x 7→ et gn : x 7 → . Montrer que les séries fn et
X 1 + n2 x 1 + nx
gn convergent simplement sur ]0, +∞[. Sur quels intervalles peut-on établir la convergence uniforme ?

2.3 Régularité de la somme d’une série de fonctions


Nous allons maintenant traduire les théorèmes relatifs aux suites de fonctions dans les cas particulier des séries,
en les appliquant à la suite des sommes partielles :
X
Théorème 2.3 — Si la série de fonctions fn converge uniformément sur I et si pour tout n ∈ N, la fonction fn est
continue en un point a de I, alors la somme S est continue en a. En particulier, si toutes les fonctions fn sont continues
sur I, il en est de même de leur somme.

Remarque. À l’instar des suites de fonctions, il est fréquent d’avoir à procéder par recouvrement pour prouver
la continuité d’une fonction définie par une série.

PC∗ – Lycée Marcelin Berthelot


5.8 Suites et séries de fonctions

Exemple. Compte tenu des deux exemples traités dans la section précédente, on peut affirmer que la fonction
zêta de Riemann est continue sur tout intervalle [α, +∞[ avec α > 1 donc par recouvrement sur ]1, +∞[. De
même, la fonction êta de Dirichlet est continue sur tout intervalle [α, +∞[ avec α > 0 donc par recouvrement sur
]0, +∞[.
X
Théorème 2.4 (théorème de la double limite) — Soit fn une série de fonctions qui converge uniformément sur
l’intervalle I, et a un point adhérent à I (qui peut éventuellement prendre la valeur ±∞). On suppose que pour tout
X +∞
X
n ∈ N la fonction fn possède une limite ℓn en a. Alors la série numérique ℓn converge, et lim S(x) = ℓn .
x→a
n=0
+∞
X +∞
X
Autrement dit, sous réserve de convergence uniforme sur I, lim fn (x) = lim fn (x).
x→a x→a
n=0 n=0

Exemple. La convergence uniforme sur l’intervalle [2, +∞[ permet grâce à ce théorème
 de calculer la limite en
+∞ +∞
X 1 X 1 1  1 si n = 1

+∞ de la fonction zêta : lim ζ(x) = lim = lim = 1 car lim x =  .
x→+∞ x→+∞ nx x→+∞ nx x→+∞ n 0 si n ⩾ 2

n=1 n=1
Il permet aussi de prouver que la convergence de cette même série ne peut être uniforme sur un intervalle de la
1 1 X1
forme ]1, α] avec α > 1 puisque pour tout n ∈ N, lim x = . S’il y avait convergence uniforme, la série
x→1 n n n
convergerait, ce qui n’est pas.

■ Intégration de la somme d’une série de fonctions


Le théorème d’intégration d’une suite de fonctions appliqué à la suite des sommes partielles d’une série de
fonctions fournit le résultat suivant :
X
Théorème 2.5 — Soit (fn ) une suite d’applications continues sur [a, b], telle que la série fn converge uniformément
XZ b
sur ce segment. Alors la série fn (t) dt converge, et :
a

+∞ Z
X b +∞
Z b X 
fn (t) dt = fn (t) dt.
n=0 a a n=0

Exercice 6 +∞
X
a. Montrer que la fonction S : x 7→ n e−nx est définie et continue sur ]0, +∞[.
Zx n=1
b. Calculer S(t) dt pour tout x > 0 et en déduire une expression de S(x) sans symbole de sommation.
1

■ Dérivation de la somme d’une série de fonctions


Théorème 2.6 — SoitX (fn ) une suite de fonctions de classe C 1 sur unX intervalle I, à valeurs réelles ou complexes.
On suppose que la série fn converge simplement sur I, et que la série fn′ converge uniformément sur I. Alors la
+∞
X X+∞
fonction x 7→ fn (x) est de classe C 1 sur I, et sa dérivée est la fonction x 7→ fn′ (x).
n=0 n=0

Remarque. Comme pour la continuité, il est fréquent de devoir procéder par recouvrement.
Exemple. Pour montrer que la fonction ζ de Riemann est de classe C 1 sur son intervalle de définition ]1, +∞[,
X X ln n
nous devons considérer la série des dérivées fn′ (x) = − x .
n
′ ln n
Sur tout intervalle [α, +∞[ nous avons ∥fn ∥∞,[α,+∞[ = α . Si β désigne un réel vérifiant : 1 < β < α, nous avons
n
1
  X
′ ′
∥fn ∥∞,[α,+∞[ = o β , donc la série ∥fn ∥∞,[α,+∞[ converge.
n

PC∗ – Lycée Marcelin Berthelot


5.9

X
La convergence de la série des dérivées fn′ est normale, donc uniforme, sur l’intervalle [α, +∞[ ; on peut donc
affirmer que la fonction ζ est de classe C 1 sur cet tout intervalle de la forme [α, +∞[, puis par recouvrement sur
]1, +∞[, et que :
+∞
X ln n
∀x > 1, ζ′ (x) = − .
nx
n=1

Extension aux fonctions de classe C k


Enfin, à l’instar des suites de fonctions, on établit par récurrence un résultat permettant de prouver directement
que la somme d’une série de fonctions est de classe C k , k ⩾ 2 :

Proposition 2.7 — soit (fn ) une suite de fonctions de classe C k sur I, telles que :
X
(i) fn converge simplement sur I ;
X (i)
(ii) pour tout i ∈ ⟦1, k − 1⟧, fn converge simplement sur I ;
X (k)
(iii) fn converge uniformément sur I.
+∞ +∞
(i)
X X
Alors la fonction S : x 7→ fn (x) est de classe C k sur I, et pour tout i ∈ ⟦1, k⟧, S(i) (x) = fn (x).
n=0 n=0

Exercice 7 +∞
X e−nx
On considère la fonction S : x 7→ . Montrer que S est continue sur [0, +∞[ et de classe C 2 sur ]0, +∞[,
n2 + 1
n=0
puis établir une équation différentielle d’ordre 2 vérifiée par S sur l’intervalle ]0, +∞[.

PC∗ – Lycée Marcelin Berthelot


5.10

PC∗ – Lycée Marcelin Berthelot


Chapitre VI 6.1

Séries entières
X
Les séries entières sont des séries numériques de la forme an z n , où (an ) est une suite réelle ou complexe, et z
un élément de R ou C (la série est dite entière du fait qu’elle ne fait intervenir que des puissances entières). Ces
séries possèdent des propriétés de convergence remarquables, que nous allons étudier dans la première partie.
Dans un second temps, nous étudierons les propriétés de la fonction d’une variable réelle :
+∞
X
x 7−→ an x n .
n=0

L’extension de ces propriétés au cas d’une variable complexe constitue la théorie des fonctions analytiques, le
pilier central de l’analyse complexe.

1. Rayon de convergence
1.1 Définition d’une série entière
Définition. — Étant donnée une suite (an ) de nombres complexes, on appelle série entière la série de fonctions
X
an z n de la variable complexe z. Son domaine de convergence est l’ensemble des nombres z ∈ C pour lesquels cette
série converge.

Nous allons commencer par étudier le domaine de convergence d’une série entière dans un cas simple, en
faisant deux hypothèses supplémentaires :
(i) il existe un rang N à partir duquel an , 0 ;
a
(ii) la suite n+1 converge vers une limite ℓ > 0.
an
L’objectif de ces deux hypothèses est de permettre l’application du critère de d’Alembert :
un+1 a u
si un = |an z n | alors = |z| n+1 donc lim n+1 = ℓ|z|.
un an un

Ainsi :
1 X X
– si |z| <, la série positive un converge donc la série an z n converge absolument ;

1 X
– si |z| > , la suite positive (un ) diverge vers +∞ donc la série an z n diverge grossièrement.

1
En posant R = nous avons mis en évidence dans le plan complexe l’existence d’un disque D de centre 0 et de

rayon R tel que :
X
– lorsque z est à l’intérieur du disque D, la convergence de la série entière an z n est absolue ;
X
– lorsque z est à l’extérieur du disque D, la divergence de la série entière an z n est grossière ;
– lorsque z est sur le bord de D (c’est-a-dire |z| = R) on ne peut pas conclure.
(illustration figure 1.)
X X zn X zn
Exemple. Considérons les trois séries entières zn, et
. Elles vérifient toutes trois les hypothèses
n2
n
(i) et (ii) avec ℓ = 1 donc dans les trois cas le disque D est de rayon R = 1.
X
– Pour |z| = 1, la série z n diverge (son terme général ne tend pas vers 0). Le domaine de convergence est
le disque ouvert.

PC∗ – Lycée Marcelin Berthelot


6.2 Séries entières

iR

?
?
CV absolue
R DV CV absolue DV
−R 0 R

DV grossière

Figure 1 – Le disque de convergence et sa restriction au cas réel.

X zn X 1
– Pour |z| = 1, la série converge absolument car la série converge. Son domaine de convergence
n2 n2
est le disque fermé.
X zn X zn
– Pour z = 1, la série diverge, pour z = −1 la série converge (par application du critère spécial),
n n
et pour |z| = 1 et z , ±1 on ne sait pas étudier la convergence de la série. Le domaine de convergence est
« entre » le disque ouvert et le disque fermé.
Ces trois exemples montrent qu’il n’y a pas à espérer une règle générale concernant les valeurs de z pour
lesquelles |z| = R.
Pour résumer, qu’avons-nous observé ?
lorsqu’une série entière vérifie les hypothèses (i) et (ii), il existe un disque D tel que la série converge
absolument à l’intérieur de ce disque et diverge grossièrement à l’extérieur de ce disque.
Nous allons maintenant montrer que nous pouvons nous affranchir des hypothèses (i) et (ii), et que cette
propriété est une propriété générale des séries entières.

1.2 Le lemme d’Abel


La généralisation du résultat que nous cherchons à obtenir repose sur le lemme suivant :

Lemme
X (Abel) — Soit z0 ∈ C \ {0} tel que la suite (an z0n ) soit bornée. Alors pour tout z ∈ C tel que |z| < |z0 | la série
an z n est absolument convergente.
n o
Considérons alors l’ensemble A = ρ ∈ R+ la suite (an ρn ) est bornée et R = sup A ∈ R+ ∪ {+∞} (autrement dit,
on convient que si A n’est pas majoré alors R = +∞). On dispose du :
X
Théorème 1.1 — Soit an z n une série entière, et R = sup A. Alors :
– Si R = 0, le domaine de convergence se réduit à {0} ;
– si R = +∞, le domaine de convergence est égal à C tout entier ;
– si 0 < R < +∞, on a :
X
– lorsque |z| < R, la série an z n converge absolument ;
X
– lorsque |z| > R, la série an z n diverge.

PC∗ – Lycée Marcelin Berthelot


6.3

iR
z0

CV absolue
R

Figure 2 – Illustration du lemme d’Abel.

On appelle disque ouvert de convergence le disque de centre 0 et de rayon R. Le réel R est le rayon de convergence
de la série entière.

Attention. Rappelons encore une fois qu’on ne peut rien dire a priori de la convergence sur le cercle de rayon R.
X
Exemple. Pour tout α ∈ R, le rayon de convergence de la série entière nα z n est égal à 1.

Exercice 1
On considère deux réels α et β vérifiant : 0 < α < β, ainsi que la suite (an ) définie par :

∀p ∈ N, a2p = α2p et a2p+1 = β2p+1 .


X
Déterminer l’ensemble A puis la valeur du rayon de convergence de la série entière an z n .
Remarque. Nous avons vu dans la section précédente que lorsque certaines hypothèses sont réalisées le critère
de d’Alembert permet d’obtenir facilement la valeur du rayon de convergence. C’est le cas par exemple pour
l’exercice suivant :
Exercice 2
X nn
À l’aide du critère de d’Alembert, déterminer le rayon de convergence de la série entière zn.
n!
Cette démarche est séduisante car facile d’utilisation, mais il ne faut pas en faire une utilisation systématique,
car les hypothèses nécessaires peuvent aisément être mises en défaut ! C’est par exemple le cas de l’exercice 1 :
 2p  2p+1
a β α
la suite n+1 vaut β lorsque n = 2p, et α lorsque n = 2p + 1, donc :
an α β
a2p+1 a2p+2
lim = +∞ et lim = 0.
+∞ a2p +∞ a2p+1

an+1 z n+1
 
La suite ne possède donc pas de limite.
an z n
On s’autorisera néanmoins à utiliser directement le résultat suivant :
a
Proposition 1.2 — Soit (an ) une suite numérique ne s’annulant pas, telle que le quotient n+1 possède une limite
an
X
n 1 1 1
ℓ ∈ R+ ∪ {+∞}. Alors le rayon de convergence de an z est égal à (avec la convention = +∞ et = 0).
ℓ 0 +∞

Exercice 3
X (1 + i)n
Calculer à l’aide du critère de d’Alembert le rayon de convergence de z 3n .
n

PC∗ – Lycée Marcelin Berthelot


6.4 Séries entières

■ Comparaison du rayon de convergence de deux série entières


Notons pour finir que la comparaison de l’ordre de grandeur des termes généraux à une conséquence sur les
rayons de convergence :
X X
Théorème 1.3 — Soit an z n et bn z n deux séries entières de rayons de convergence respectifs Ra et Rb , et telles
que an = O(bn ). Alors Ra ⩾ Rb .
X X
Corollaire — Soit an z n et bn z n deux séries entières de rayons de convergence respectifs Ra et Rb , et telles
que |an | ∼ |bn |. Alors Ra = Rb .

Exercice 4 X
Soit (an ) une suite vérifiant : lim an = 0. Que dire du rayon de convergence de la série entière an z n ?

1.3 Opérations algébriques sur les séries entières


■ Somme de deux séries entières
X X
Théorème 1.4 — Soient an z n et
b z n deux séries entières, Ra et Rb leurs rayons de convergence respectifs.
Xn
Alors le rayon de convergence de la série (an + bn )z n est supérieur ou égal à min(Ra , Rb ), et :

+∞
X +∞
X +∞
X
∀z ∈ C, |z| < min(Ra , Rb ) =⇒ an z n + bn z n = (an + bn )z n .
n=0 n=0 n=0
X X
Remarque. Supposons Ra < Rb et considérons z ∈ C tel que Ra < |z| < Rb . Alors an z n diverge et bn z n
X
converge donc (an + bn )z n diverge. Ceci prouve que R ⩽ Ra = min(Ra , Rb ), et donc que lorsque Ra , Rb , alors
R = min(Ra , Rb ).

■ Produit de deux séries entières


X X
Considérons deux séries entières an z n et bn z n de rayons de convergences respectifs Ra et Rb . Le produit
de Cauchy de ces deux séries a pour terme général :
X X 
(ap xp )(bq xq ) = ap b q x n
p+q=n p+q=n

Il s’agit du terme général d’une série entière. En appliquant le théorème prouvé dans le chapitre consacré au
séries numériques on obtient :
X X
Théorème 1.5 — Soient an z n et bn z n deux séries entières de rayons de convergences respectifs Ra et Rb . Alors
X X 
la série entière ap bq z n a un rayon de convergence supérieur ou égal au min(Ra , Rb ). En outre, pour tout
p+q=n
+∞
X +∞
X  X+∞  X 
z ∈ C tel que |z| < min(Ra , Rb ) on a : an z n bn z n = ap b q z n .
n=0 n=0 n=0 p+q=n

Exercice 5 X
On considère une série entière an z n de rayon de convergence Ra > 0, et on définit la suite (bn ) en posant :
Xn X
∀n ∈ N, bn = ak . Que dire du rayon de convergence Rb de la série entière bn z n ?
k=0 +∞
X +∞
X
Donner une relation liant les sommes an z n et bn z n au voisinage de 0.
n=0 n=0

PC∗ – Lycée Marcelin Berthelot


6.5

■ Dérivation formelle
Terminons avec un résultat qui nous sera utile dans la suite de ce chapitre (pour prouver le théorème 2.2) :
X X
Proposition 1.6 — La série entière nan z n a même rayon de convergence que la série an z n .

2. Séries entières d’une variable réelle


X
Nous allons désormais considérer une suite réelle ou complexe (an ) telle que la série entière an z n ait un
rayon de convergence R > 0 ; ceci permet de définir une fonction numérique S : ]−R, R[ → C (éventuellement
+∞
X
définie en −R et en R) à l’aide de l’égalité : ∀x ∈ ]−R, R[, S(x) = an x n .
n=0
L’intervalle ]−R, R[ sera appelé l’intervalle ouvert de convergence (sachant que S peut en outre être définie en ±R).

2.1 Convergence normale


X
Théorème 2.1 — Soit an xn une série entière de rayon de convergence R. Alors la convergence est normale sur
tout segment [−r, r] avec r < R.

Attention. Rappelons que ceci ne signifie pas qu’il


X y ait convergence normale (ou même uniforme) sur l’intervalle
ouvert ]−R, R[. Il suffit de considérer la série xn pour s’en convaincre.

+∞
X
Corollaire — La fonction S : x 7→ an xn est continue sur l’intervalle ouvert de convergence.
n=0

Attention. Même si la fonction S est définie en ±R, cela n’implique pas sa continuité en ces points.

2.2 Dérivation et intégration d’une série entière


X
Théorème 2.2 — La fonction S est de classe C 1 sur ]−R, R[ et pour tout x ∈ ]−R, R[, S′ (x) = nan xn−1 .
n⩾1

Exercice 6 +∞
X
Calculer sur l’intervalle ouvert de convergence la somme nxn .
n=1

Corollaire — La fonction S est de classe C ∞ sur l’intervalle ]−R, R[, et les dérivées successives s’obtiennent par
S(n) (0)
dérivation terme à terme. De plus, pour tout n ∈ N, an = .
n!

Cette dernière formule va avoir une conséquence importante :

Proposition 2.3 — Deux séries entières dont les rayons de convergence sont non nuls ont des sommes égales si et
seulement si tous leurs coefficients sont égaux.
En particulier, une série entière de rayon de convergence non nul aura une somme non identiquement nulle dès lors
que l’un au moins de ses coefficients sera non nul.

En appliquant le théorème 2.2 à la série primitive, on obtient le résultat suivant :


+∞
X an n+1
Proposition 2.4 — La fonction T : x 7→ x définit l’unique primitive s’annulant en zéro de S sur l’inter-
n+1
valle ]−R, R[. n=0

PC∗ – Lycée Marcelin Berthelot


6.6 Séries entières

2.3 Développement en série entière


Considérons une fonction f : ]−r, r[ → C de classe C ∞ sur son intervalle de définition.

Définition.
X — On dit que f est développable en série entière au voisinage de 0 lorsqu’il existe une série entière
an z n de rayon de convergence R ⩾ r telle que :

+∞
X
∀x ∈ ]−r, r[ , f (x) = an xn .
n=0

D’après ce qui a été dit à la section précédente, si f est développable en série entière alors pour tout n ∈ N,
f (n) (0)
an = , mais ceci n’est pas suffisant pour assurer l’existence de ce développement. En revanche, cette
n!
formule nous permet d’affirmer que si un tel développement existe, ce dernier est unique et coïncide avec la série
de Taylor de f .

Pour prouver qu’une fonction est développable en série entière, différentes possibilités s’offrent à nous : une
méthode fréquemment utilisée consiste à considérer un problème de Cauchy dont la fonction f est l’unique
solution, et à déterminer les solutions de ce système qui peuvent s’écrire sous forme d’une somme de série
entière. C’est ce que nous ferons pour déterminer le développement en série entière des fonctions exponentielle
et x 7→ (1 + x)α . Une autre possibilité consiste à effectuer des manipulations à base de somme ou de produit
de séries usuelles (par exemple pour obtenir le développement des fonctions trigonométriques) ou encore
en utilisant les propriétés d’intégration et de dérivation des développements usuels ; nous procéderons par
exemple ainsi pour obtenir les développements des fonctions x 7→ arctan x et x 7→ ln(1 + x).

■ Développements usuels
La fonction exponentielle
Nous admettrons que pour tout α ∈ C, la fonction f : x 7→ eαx est l’unique solution sur R du problème de
Cauchy :
( ′
y (x) = αy(x)
y(0) = 1
+∞
X
Cherchons une solution de ce problème sous forme d’une série entière y(x) = an xn de rayon de convergence
R>0: n=0
y est solution si et seulement si :
 +∞
X +∞
X  +∞
X +∞
X
n−1 n n
αan xn
 
∀x ∈ ]−R, R[ , na x = α a x ∀x ∈ ]−R, R[ , (n + 1)a x =
 
n n n+1

 

⇐⇒
 


 n=1 n=0 

 n=0 n=0
 
a0 = 1 a0 = 1
 

αn
(
∀n ∈ N, (n + 1)an+1 = αan
⇐⇒ ⇐⇒ ∀n ∈ N, an = .
a0 = 1 n!

Le critère de d’Alembert nous permet de déterminer que cette série entière a un rayon de convergence infini, ce
+∞ n
X α n
qui permet de conclure, en invoquant l’unicité de la solution d’u problème de Cauchy : ∀x ∈ R, eαx = x .
n!
n=0
En prenant α = 1 puis α = −1 on obtient en particulier :

+∞ +∞
X 1 n X (−1)n
∀x ∈ R, ex = x et ∀x ∈ R, e−x = xn .
n! n!
n=0 n=0

PC∗ – Lycée Marcelin Berthelot


6.7

Les fonctions trigonométriques


ex + e−x ex − e−x
Sachant que pour tout x ∈ R, ch x = et sh x = on en déduit :
2 2
+∞ +∞
X x2p X x2p+1
∀x ∈ R, ch x = et ∀x ∈ R, sh x = .
(2p)! (2p + 1)!
p=0 p=0

En prenant cette fois α = i puis α = −i, on obtient de même :

+∞ +∞
X (−1)p X (−1)p 2p+1
∀x ∈ R, cos x = x2p et ∀x ∈ R, sin x = x .
(2p)! (2p + 1)!
p=0 p=0

Les sommes géométriques


La formule déjà connue de sommation des sommes géométriques donne :

+∞ +∞
1 X 1 X
∀x ∈ ]−1, 1[, = xn et ∀x ∈ ]−1, 1[, = (−1)n xn
1−x 1+x
n=0 n=0

On en déduit en intégrant :

+∞ n +∞
X x X (−1)n−1
∀x ∈ ]−1, 1[, ln(1 − x) = − et ∀x ∈ ]−1, 1[, ln(1 + x) = xn
n n
n=1 n=1

et enfin :
+∞
X (−1)p x2p+1
∀x ∈ ]−1, 1[, arctan x = .
2p + 1
p=0

La fonction x 7→ (1 + x)α
Enfin, pour obtenir le développement en série entière de la fonction x 7→ (1 + x)α (avec α ∈ C) nous allons de
nouveau admettre que cette fonction est l’unique solution sur l’intervalle ]−1, 1[ du problème de Cauchy :

(1 + x)y ′ (x) = αy(x)


(

y(0) = 1

Exercice 7
Chercher l’unique série entière qui soit solution de ce problème de Cauchy sur l’intervalle ]−1, 1[, calculer son
rayon de convergence, et en déduire la formule ci-dessous.

+∞ ! !
X α n α α(α − 1) · · · (α − n + 1)
∀x ∈ ]−1, 1[, (1 + x)α = x en ayant noté = .
n n n!
n=0

Attention. Malgré les apparences il ne s’agit pas ici d’un coefficient binomial puisqu’en général α n’est pas
un nombre entier. Lorsque vous utilisez cette notation, il faut prendre garde à ne pas appliquer la fonction
factorielle à des arguments non entiers.
Exercice 8
1
À l’aide de cette formule, obtenir le développement en série entière de la fonction x 7→ √ sur l’intervalle
]−1, 1[. 1+x
Remarque. Les formules que nous venons d’établir ne vous sont pas inconnues : elles coïncident avec les
développements limités usuels appris en première année. Ce n’est pas étonnant puisque série de Taylor et
polynômes de Taylor partagent les mêmes coefficients. D’ailleurs, les développements limités peuvent être
établis à partir du développement en série entière en utilisant le résultat ci-dessous.

PC∗ – Lycée Marcelin Berthelot


6.8

X
Proposition 2.5 — Soit an xn une série entière de rayon de convergence R > 0, et S sa fonction somme. Alors S
admet pour tout entier n ∈ N un développement limité d’ordre n en zéro donné par :
n
X
S(x) = ak xk + o(xn ).
0
k=0

2.4 Séries géométrique et exponentielle d’une variable complexe


Le cours de première année a défini l’exponentielle d’un nombre complexe : si z = x+iy ∈ C, alors exp(z) (ou ez ) =
ex eiy = ex (cos y + i sin y). À la section précédente nous avons obtenu un développement de eαx pour α ∈ C et
x ∈ R. En posant α = z et x = 1 on obtient :

+∞ n
X z
∀z ∈ C, ez = .
n!
n=0

Il est intéressant d’observer que la propriété fondamendale de la fonction exponentielle, à savoir : ∀(z, z ′ ) ∈ C2 ,
exp(z + z ′ ) = exp(z) × exp(z ′ ) peut être prouvée à partir de cette expression. En effet, la convergence absolue de
cette série autorise un produit de Cauchy :
+∞  +∞ +∞ X
n  +∞ n +∞
z p X z ′q
!
1 1 1 X n p ′n−p X 1
X  X  X
′ ′
ez × e z = = × z p z ′n−p = z z = (z + z ′ )n = ez+z .
p! q! p! (n − p)! n! p n!
p=0 q=0 n=0 p=0 n=0 p=0 n=0

Similairement, les sommes géométriques étudiées en première année fournissent un deuxième exemple de
fonction définie sur une partie du plan complexe et développables en série entière :

+∞
1 X
∀z ∈ C, |z| < 1 =⇒ = zn.
1−z
n=0

Notons que les différents développement en série entière des fonctions réelles que nous avons obtenus pourraient
être utilisés pour prolonger les fonctions correspondantes dans le plan complexe (ou le disque unité suivant les
cas), mais nous ne nous aventurerons pas plus loin dans cette direction. Nous nous contenterons d’admettre le
résultat suivant :
X
Proposition 2.6 — Soit an z n une série entière complexe de rayon de convergence R > 0 et de somme S(z). Alors
n o
la fonction S est continue sur le disque ouvert z ∈ C |z| < R .

PC∗ – Lycée Marcelin Berthelot


Chapitre VII 7.1

Probabilités
La théorie mathématique des probabilités nait au XVIe siècle sous l’impulsion de Jérôme Cardan puis de Blaise
Pascal qui analysent les jeux de hasard. Des avancées majeures sont ensuite réalisées par Kolmogorov au début
du XXe siècle, qui fait la connexion entre la théorie de la mesure de Borel, l’intégration de Lebesgue et les
probabilités, donnant à ces dernières des fondements incontestés.

1. Ensembles dénombrables et familles sommables


1.1 Ensembles dénombrables
Le cours de première année s’est restreint aux variables aléatoires à valeurs dans un ensemble fini ; cette année,
nous allons étendre nos connaissances aux variables aléatoires à valeurs dans un ensemble infini, mais pas à
n’importe lesquels : seuls les plus « simples » des ensembles infinis seront abordés, les ensembles dits dénombrables
c’est-à-dire ceux qui peuvent être mis en bijection avec N.

Définition. — On dit d’un ensemble E qu’il est :


– fini lorsqu’il existe un entier n ∈ N tel que E est en bijection avec ⟦1, n⟧ ;
– dénombrable lorsqu’il est en bijection avec N ;
– discret s’il est fini ou dénombrable. On dira aussi que E est au plus dénombrable.

Si E est un ensemble dénombrable, il existe donc une bijection φ : N → E. En posant pour tout n ∈ N, xn = φ(n)
il devient possible de définir E en extension, c’est-à-dire sous la forme : E = {xn | n ∈ N}.
Exemple. L’ensemble 2N des entiers pairs est dénombrable, puisqu’il peut être défini en extension :
2N = {2n | n ∈ N}, ce qui correspond à la bijection φ : N → 2N, φ(n) = 2n.
Il en est bien entendu de même de l’ensemble 2N + 1 des entiers impairs : 2N + 1 = {2n + 1 | n ∈ N}.
Plus généralement, on dispose du résultat suivant :

Proposition 1.1 — Toute partie d’un ensemble dénombrable est finie ou dénombrable.

Par exemple, l’ensemble P des nombres premiers est infini (vous avez du démontrer ceci en première année)
donc dénombrable puisqu’inclus dans N. Il existe donc une suite (pn ) telle que P = {pn | n ∈ N}.

Proposition 1.2 — Soit E un ensemble dénombrable et F un ensemble au plus dénombrable. Alors E ∪ F est
dénombrable.

Corollaire — Z est un ensemble dénombrable.

Proposition 1.3 — Soit E un ensemble dénombrable et F un ensemble non vide au plus dénombrable. Alors le produit
cartésien E × F est dénombrable.

■ Réunion et intersection dénombrables


[ \
Définition. — Soit (An )n∈N une suite de parties d’un même ensemble E. On définit les ensembles An et An
par : [ \ n∈N n∈N
x∈ An ⇐⇒ ∃n ∈ N x ∈ An et x∈ An ⇐⇒ ∀n ∈ N, x ∈ An
n∈N n∈N

Proposition 1.4 — Une union finie ou dénombrable d’ensembles dénombrables est dénombrable.

PC∗ – Lycée Marcelin Berthelot


7.2 Probabilités

14

13
9

8 12
5

4 7 11
2

N
0 1 3 6 10

Figure 1 – N × N est dénombrable car on peut énumérer ses éléments.

Corollaire — Q est un ensemble dénombrable.

Jusqu’à présent, nous n’avons vu que des ensembles dénombrables, pour la bonne et simple raison qu’il est
plus facile de prouver qu’un ensemble est dénombrable que de prouver qu’il ne l’est pas. C’est Cantor qui le
premier a donné des exemples d’ensembles non dénombrables, en utilisant une méthode qui maintenant porte
son nom : l’argument de la diagonale de Cantor. Nous admettrons le résultat suivant :

Théorème 1.5 — L’ensemble P (N) des parties de N n’est pas dénombrable. R n’est pas dénombrable. L’ensemble
{0, 1}N des suites à valeurs dans {0, 1} n’est pas dénombrable.
Les ensembles cités sont d’une certaine manière « trop gros » pour être dénombrables.

1.2 Familles sommables de réels positifs


Étant donné une famille de réels positifs (xi )i∈IX
indexée par un ensemble I, nous allons chercher à déterminer
s’il est possible de donner un sens à la somme xi de ces derniers.
i∈I
Lorsque I est un ensemble fini : I = {i1 , . . . , in }, cette question ne parait guère intéressante : la commutativité
de l’addition implique que la somme xi1 + · · · + xin reste inchangée quel que soit la manière de permuter ses
éléments. Mais ceci n’a plus rien d’évident lorsque I est un ensemble infini.
Attention. Il ne s’agit pas ici du concept de série numérique : dans le cas d’une série numérique, les éléments
de la famille ont été ordonnés au préalable, et on détermine ensuite la convergence ou la divergence de la suite
des sommes partielles. Nous cherchons ici à nous affranchir de l’ordre des éléments dans la somme.

Définition. — Soit (xi )i∈I une famille de réels positifs. Cette famille est dite sommable lorsque l’ensemble
(X )
xi J ⊂ I et J finie
i∈J
X
est majoré. Dans ce cas, on note xi la borne supérieure de cet ensemble.
i∈I
X
Remarque. Lorsque la famille de réels positifs (xi )i∈I n’est pas sommable, on notera par commodité xi = +∞.
i∈I
n o
Proposition 1.6 — Si la famille (xi )i∈I est sommable, l’ensemble i ∈ I xi , 0 est au plus dénombrable.

Il résulte de la proposition ci-dessus que dans la pratique, on pourra toujours supposer, lorsque la famille est
sommable, que I est un ensemble fini ou dénombrable.

PC∗ – Lycée Marcelin Berthelot


7.3

■ Lien avec les séries numériques


Théorème 1.7 — Soit (xn )n∈N une suite de nombres réels positifs. Alors la famille (xn )n∈N est sommable si et
X X +∞
X
seulement si la série numérique xn converge, et dans ce cas, xn = xn .
n∈N n=0

Ce résultat nous donne une manière très simple d’étudier la sommabilité d’une famille dénombrable de réels
positifs : il suffit de les ordonner d’une manière arbitraire puis d’étudier la convergence de la série numérique
afférente.

Maintenant que nous avons trouvé un moyen de nous affranchir de l’ordre de sommation d’une famille de réels
positifs, il nous reste à énoncer deux formules couramment utilisées dans les calculs :

Théorème 1.8 (sommation par paquets) — Soit (In )n∈N une partition dénombrable de I, et (xi )i∈I une famille
X +∞ X !
X
sommable de réels positifs. Alors xi = xi .
i∈I n=0 i∈In

Théorème 1.9 (Fubini) — Soit (xi,j )(i,j)∈I×J une famille sommable de réels positifs. Alors
X XX XX
xi,j = xi,j = xi,j
(i,j)∈I×J i∈I j∈J j∈J i∈I

Remarque.X Nous l’avons dit, lorsqu’une famille (xi )i∈I de réels positifs n’est pas sommable, on s’autorisera
à écrire xi = +∞. Ceci a pour conséquence que les deux théorèmes ci-dessus peuvent s’appliquer sans
i∈I
justification préalable de la sommabilité. Obtenir à la fin des calculs une somme finie justifiera a posteriori la
sommabilité de la famille, et au contraire obtenir une somme divergente prouvera la non sommabilité de cette
famille.

1.3 Familles sommables de réels quelconques


Définition. — Une famille (xi )i∈I est dite sommable lorsque la famille de réels positifs (|xi |)i∈I est sommable.

Une fois cette définition posée, on définit la somme à l’aide du résultat suivant :

Théorème 1.10 — Soit (xi )i∈I une famille sommable de réels quelconques. Pour tout i ∈ I on pose xi+ = max(xi , 0) et
xi− = max(0, −xi ). Alors les familles de réels positifs (xi+ )i∈I et (xi− )i∈I sont sommables, et on pose par définition :
X X X
xi = xi+ − xi−
i∈I i∈I i∈I

On dispose alors des résultats suivants, que nous admettrons. Notez cependant que contrairement aux familles
sommables de réels positifs pour lesquels l’obtention d’un résultat fini à la fin des calculs justifie a posteriori la
sommabilité de la famille, il est indispensable, dans le cas d’une famille de réels quelconques, de justifier la
sommabilité en préalable à tout calcul.
X X
Proposition 1.11 — Soit (xi )i∈I une famille sommable. Alors xi ⩽ |xi |.
i∈I i∈I

Proposition 1.12 — soient (xi )i∈I et (yi )i∈I deux familles de nombres réels telles que pour tout i ∈ I, |xi | ⩽ yi . Alors
la sommabilité de (yi )i∈I entraîne celle de (xi )i∈I .

PropositionX 1.13 — Soit (xX i )i∈I et X


(yi )i∈I deux familles sommables, et λ ∈ R. Alors la famille (λxi + yi )i∈I est
sommable, et (λxi + yi ) = λ xi + yi .
i∈I i∈I i∈I

PC∗ – Lycée Marcelin Berthelot


7.4 Probabilités

Théorème 1.14 (sommation par paquets) — Soit (In )n∈N une partition dénombrable de I, et (xi )i∈I une famille
X +∞ X !
X
sommable. Alors xi = xi .
i∈I n=0 i∈In

X XX XX
Théorème 1.15 (Fubini) — Soit (xi,j )(i,j)∈I×J une famille sommable. Alors xi,j = xi,j = xi,j .
(i,j)∈I×J i∈I j∈J j∈J i∈I

2. Espaces probabilisés
2.1 Expérience aléatoire et univers
Définition. — On appelle expérience aléatoire une expérience qui, reproduite dans des conditions identiques, peut
conduire à des résultats différents non prévisibles à l’avance. L’ensemble des résultats possibles de cette expérience est
appelé univers et est classiquement noté Ω.

Exemples. Examinons tout d’abord quelques expériences aléatoires et l’univers qui leur est associé :
– on lance trois dés à 6 faces. Dans ce cas, on choisira pour univers Ω = ⟦1, 6⟧3 .
– on lance une pièce de monnaie jusqu’à obtenir Face. Ici pourra choisir Ω = N ∪ {+∞} si on choisit de
représenter une expérience par le nombre d’essais infructueux.
– on casse une baguette de bois en trois et on mesure les
n longueurs des trois morceaux.o En fixant à 1 la longueur
3
de la baguette, l’univers peut être représenté par Ω = (x, y, z) ∈ ]0, 1[ x + y + z = 1 .
Le premier exemple correspond à un univers fini, le second à un univers dénombrable, le troisième à un univers
non dénombrable.
On observera que la description de l’univers ne nous indique pas la façon dont l’expérience est réalisée : les dés,
la pièce, sont-ils pipés ou non ? Suivant quel protocole la baguette est-elle brisée ? Ce sont ces informations qui
vont conditionner le choix de la probabilité que nous allons associer à cet univers.

2.2 Tribu et événements


Considérons un univers Ω. Lorsque ce dernier est fini, on appelle événement toute partie de Ω. En conjonction
avec le vocabulaire de la théorie des ensembles, ont été définies les notions suivantes :
– un événement est dit élémentaire si c’est un singleton ;
– l’événement certain est l’événement Ω ;
– l’événement impossible est l’événement € ;
– l’événement non A, contraire de l’événement A, est l’événement A = Ω \ A (le résultat de l’expérience
n’appartient pas à A) ;
– si A et B sont des événements, l’événement Aet B est l’événement A ∩ B (le résultat de l’expérience se
trouve dans A et dans B) ;
– si A et B sont des événements, l’événement Aou B est l’événement A ∪ B (le résultat de l’expérience se
trouve dans A ou dans B) ;
– les événements A et B sont dits incompatibles lorsque A ∩ B = € (le résultat de l’expérience ne peut se
trouver à la fois dans A et dans B) ;
– Si A et B sont deux événements, on dit que A entraîne B lorsque A ⊂ B (si le résultat de l’expérience se
trouve dans A, il se trouve aussi dans B).
3
Exemple.
n Considérons le lancer
o de trois dés associé à l’univers Ω = ⟦1, 6⟧ .
A = (x, y, z) ∈ Ω x + y + z ⩽ 10 est l’événement : « la somme des trois dés est inférieure ou égale à 10 ».
n o
B = (x, y, z) ∈ Ω x + y + z ⩾ 10 est l’événement : « la somme des trois dés est supérieure ou égale à 10 ».
Aou B est l’événement certain ; Aet B est l’événement : « la somme des trois dés est égale à 10 ». Enfin, non A
est l’événement « la somme des trois dés est strictement supérieure à 10 » donc non A entraîne B.

PC∗ – Lycée Marcelin Berthelot


7.5

Une fois la notion d’événement définie, l’étape suivante dans la construction d’un espace probabilisé consiste
à définir une probabilité P(A) mesurant la chance de réalisation d’un événement A. Or lorsque l’univers Ω
est infini, il n’est en général pas possible de définir cette probabilité pour toutes les parties de Ω ; il faut
se restreindre à un sous-ensemble A de P (Ω) qu’on appelle une tribu, et qui en quelque sorte contient les
événements dont on pourra mesurer la probabilité de réussite.
Plus formellement nous adopterons la définition suivante :

Définition. — Si Ω est un ensemble, on appelle tribu sur Ω une partie A de P (Ω) vérifiant :
– Ω ∈ A (l’événement certain appartient à la tribu) ;
– pour tout A ∈ A , l’événement contraire A appartient à A ;
[
– A est stable par réunion dénombrable, c’est-à-dire que si (An )n∈N est une suite d’éléments de A alors An
appartient à A . n∈N

Désormais, le terme d’événement désignera un élément d’une tribu A , supposée définie précédemment.

Proposition 2.1 — Si A est une tribu sur l’univers Ω, alors :


– € ∈ A (l’événement impossible appartient à la tribu) ;
– si A et B sont deux événements de la tribu A , il en est de même de A ∪ B et de A ∩ B ;
\
– A est stable par intersection dénombrable, c’est-à-dire que si (An )n∈N est une suite d’éléments de A alors An
appartient à A . n∈N

Exemple. {€, Ω} est une tribu, appelée tribu triviale puisqu’elle ne mesure que deux événements : l’événement
certain et l’événement impossible.
Exemple. À l’inverse, P (Ω) est la tribu la plus fine qui soit. Cependant, à l’exception des univers finis ou
dénombrables, cette tribu ne peut engendrer que des espaces probabilisés sans intérêt.
Exemple. Considérons de nouveau l’expérience consistant à jeter une pièce jusqu’à obtenir Face, mais choi-
sissons cette fois l’univers Ω = {0, 1}N (autrement dit, dans l’univers des possibles on joue à Pile ou Face
indéfiniment). Cet univers n’est pas dénombrable, il est donc nécessaire de définir une tribu sur laquelle on
pourra ensuite définir une probabilité. Compte tenu du problème qui nous intéresse on admet l’existence d’une
tribu A dans laquelle « Face apparaît pour la première fois e
[au n tirage » est un événement noté An .
Compte tenu des propriétés des tribus, l’événement A = An appartient à A (il s’agit de l’événement « Face
n∈N∗
apparaît au moins une fois ») ainsi que l’événement contraire A (« la pièce tombe indéfiniment sur Pile »). Tous
les événements nécessaires à l’étude de l’expérience sont bien présents dans la tribu.
Exercice 1
Soit A une tribu de R contenant toutes les demi-droites [a, +∞[, a ∈ R. Montrer que cette tribu contient tous
les intervalles de R.

2.3 Définition d’une probabilité


Nous sommes maintenant en mesure de donner la définition générale d’une probabilité.

Définition. — Soit Ω un univers et A une tribu sur Ω. On appelle probabilité sur (Ω, A ) une application
P : A → [0, 1] vérifiant :
– P(Ω) = 1 ;
X
– pour toute suite dénombrable (An )n∈N d’événements de A deux-à-deux incompatibles la série P(An ) converge,
[  X +∞
et P An = P(An ).
n∈N n=0
On appelle espace probabilisé le triplet (Ω, A , P) constitué d’un univers, d’une tribu sur Ω et d’une probabilité sur
(Ω, A ).

PC∗ – Lycée Marcelin Berthelot


7.6 Probabilités

Commençons par observer que les propriétés sur les univers finis qui ont été établies dans le cours de première
année restent vérifiées :

Proposition 2.2 — Une probabilité vérifie les propriétés suivantes :


– P(€) = 0 ;
– si A et B sont deux événements incompatibles, P(A ∪ B) = P(A) + P(B) ;
– si A est un événement, P(A) = 1 − P(A) ;
– si A et B sont deux événements , P(A ∩ B) + P(A ∪ B) = P(A) + P(B) ;
– si A ⊂ B sont deux événements, alors P(A) ⩽ P(B).

Exemple. Lorsque l’univers Ω est fini et A = P (Ω) il existe une unique probabilité, appelée probabilité uniforme
1 card A
telle que pour tout ω ∈ Ω, P({ω}) = . Dans ce cas, pour tout événement A, P(A) = .
card Ω card Ω
Exemple. Revenons maintenant sur l’expérience consistant à jeter une pièce de monnaie jusqu’à obtenir Face.
Nous avons admis qu’on pouvait définir une tribu A sur l’univers Ω = {0, 1}N qui contient tous les événements
An : « Face apparaît pour la première fois au ne tirage ».
Si on note p ∈ ]0, 1[ la probabilité pour la pièce de tomber sur Face, les éléments de l’univers sont des suites
d’épreuves de Bernoulli indépendantes de paramètre p, et les éléments de An les suites qui débutent par n − 1
échecs suivis d’une réussite donc P(An ) = (1 − p)n−1 p.
[  X +∞
Les événements An étant deux à deux incompatibles (i , j =⇒ Ai ∩ Aj = €) on a P An = P(An ) =
n∈N n=1
+∞
X 1 [
(1−p)n−1 p = p × = 1. L’événement A = An (« Face apparaît au moins une fois ») vérifie P(A) = 1,
1 − (1 − p) ∗
n=1 n∈N
l’événement A (« la pièce tombe indéfiniment sur Pile ») vérifie P(A) = 1 − P(A) = 0.
L’événement A est dit « quasi-impossible », ou « négligeable » : bien qu’il soit un événement envisageable (il n’est
pas égal à l’événement impossible €) sa probabilité est nulle. À l’inverse, l’événement A est dit « quasi-certain »,
ou « presque sûr ».

Voyons maintenant quelques résultats propres aux univers infinis :

Théorème 2.3 (limite monotone) — Soit (Ω, A , P) un espace probabilisé. Alors :


– pour toute suite d’événements (An ) croissante au sens de l’inclusion (An ⊂ An+1 ), la suite (P(An )) converge, et
[ 
P An = lim P(An ) ;
n∈N

– pour toute suite d’événements (An ) décroissante au sens de l’inclusion (An+1 ⊂ An ), la suite (P(An )) converge, et
\ 
P An = lim P(An ).
n∈N

Remarque. Lorsque la suite (An ) n’est pas monotone au sens de l’inclusion, on peut néanmoins appliquer le
théorème de la limite monotone à la suite des « union partielles » ou la suite des « intersections partielles ».
n
[ [  [ 
En effet, la suite Bn = Ak est croissante donc P An = P Bn = lim P(Bn ).
k=0 n∈N n∈N
\n \  \ 
De même la suite Cn = Ak est décroissante donc P An = P Cn = lim P(Cn ).
k=0 n∈N n∈N

Proposition 2.4 (sous-additivité) — Soit (Ω, A , P) un espace probabilisé. Pour toute suite d’événements (An ),
[  X +∞
P An ⩽ P(An ) (cette somme peut éventuellement être égale à +∞).
n∈N n=0

PC∗ – Lycée Marcelin Berthelot


7.7

Exercice 2 [Lemme de Borel-Cantelli]


[ \
Soit (An ) une suite d’événements ; pour tout p ∈ N on pose Bp = An puis A∗ = Bp .
n⩾p p∈N
X
On suppose que la série P(An ) converge. Montrer que P(A∗ ) = 0.

■ Probabilité sur un univers dénombrable


Considérons maintenant un univers dénombrable Ω, que l’on peut donc décrire par extension : Ω = {ωn | n ∈ N}.
Nous allons prouver le résultat suivant, qui montre qu’il est toujours possible de définir une probabilité sur
(Ω, P (Ω)) à partir de la valeur de P sur les singletons :

X +∞
X
Théorème 2.5 — Soit (pn ) une suite de réels positifs telle que la série pn converge et pn = 1. Alors il existe
n=0
une unique probabilité P sur (Ω, P (Ω)) telle que pour tout n ∈ N, P({ωn }) = pn .
+∞ +∞ n
θn X X θ
Exemple. Soit θ > 0 et pn = e−θ . Il est facile de vérifier que 0 ⩽ pn ⩽ 1 et que pn = e−θ = 1. La suite
n! n
n!
θ n=0 n=0
(pn ) définit donc une probabilité sur (N, P (N)) en posant P({n}) = e−θ , appelée loi de Poisson de paramètre θ.
n!
Nous aurons l’occasion d’y revenir.
Exercice 3
a. Soit P une probabilité sur (N, P (N)). Montrer que lim P({n}) = 0.
b. Soit (an ) une suite strictement décroissante de réels positifs de limite nulle. Déterminer une constante
λ > 0 pour qu’il existe une probabilité P sur (N, P (N)) vérifiant : P(⟦n, +∞⟦) = λan .

2.4 Conditionnement et indépendance


Dans toute la suite du cours, (Ω, A , P) désigne un espace probabilisé.

■ Probabilité conditionnelle
Définition. — Si A et B sont deux événements tels que P(B) > 0, on appelle probabilité conditionnelle de A
P(A ∩ B)
sachant B le réel PB (A) = , réel qu’on pourra aussi noter P(A | B).
P(B)

Théorème 2.6 — PB est une probabilité sur (Ω, A ).

Remarque. On dispose donc de l’égalité P(A ∩ B) = P(B)P(A | B) lorsque P(B) , 0. Lorsque P(B) = 0, on peut
observer que cette égalité garde un sens (celui de « 0 = 0 ») même si P(A | B) n’est pas formellement défini
puisque A ∩ B ⊂ B ⇒ 0 ⩽ P(A ∩ B) ⩽ P(B) = 0.
Si A est B sont deux événements quelconques, la formule P(A ∩ B) = P(B)P(A | B) est appelée formule des
probabilités composées.

Définition. — On appelle système complet d’événements[ toute famille (Bi )i∈I finie ou dénombrable d’événements
deux-à-deux incompatibles (i , j ⇒ Bi ∩ Bj = €) et telle que Bi = Ω.
i∈I

En d’autres termes, la famille (Bi )i∈I constitue une partition finie ou dénombrable de Ω.

Théorème 2.7 (formule des probabilités totales) — Soit A un événement et (Bi )i∈I un système complet d’événements.
X
Alors P(A) = P(Bi )P(A | Bi ).
i∈I

PC∗ – Lycée Marcelin Berthelot


7.8 Probabilités

X [
Remarque. La formule reste valable lorsque P(Bi ) = 1, autrement dit lorsque l’événement Bi est presque
i∈I i∈I
sûr. On parle alors de système quasi-complet d’événements.

Proposition 2.8 (Formule de Bayes) — Soit (Bi )i∈I un système complet d’événements tel que pour tout i ∈ I,
P(B )P(A | Bi )
P(Bi ) > 0, et A un événement tel que P(A) > 0. Alors P(Bi | A) = P i .
P(Bj )P(A | Bj )
j∈I

Remarque. Cette formule est souvent utilisée lorsque le système complet est constitué des deux seuls événe-
P(B)P(A | B)
ments B et B. Dans ce cas, la formule devient : P(B | A) = .
P(B)P(A | B) + P(B)P(A | B)
Exercice 4
Un QCM propose 4 réponses pour chaque question. Soit p la probabilité qu’un étudiant connaisse la bonne
réponse à une question donnée. S’il ignore la réponse, il choisit au hasard l’une des réponses proposées. Quel
est la probabilité qu’un étudiant connaisse vraiment la bonne réponse lorsqu’il a correctement répondu à une
question ?
Remarque. La formule de Bayes a longtemps été appelée formule de probabilité des causes. Elle permet en
effet de calculer la probabilité d’une cause (ici le fait d’avoir pris le dé pipé) connaissant celle de sa conséquence
(le nombre de 6 obtenus).

Exercice 5
On dépose dans une urne vide une boule blanche puis on joue à Pile ou Face avec une pièce non pipée. Tant
que la pièce retombe sur Pile, on ajoute une boule noire dans l’urne. Lorsqu’on obtient Face pour la première
fois on tire au hasard une boule de l’urne. Celle-ci est blanche. Quelle est la probabilité qu’il n’y ait aucune
boule noire dans l’urne ?

■ Indépendance
De manière informelle, deux événements A et B sont indépendants lorsque le fait de savoir que A est réalisé ne
donne aucune information sur la réalisation de B, et réciproquement. Ainsi, lorsque P(A) > 0 et P(B) > 0 on
P(A ∩ B) P(B ∩ A)
souhaite que P(A | B) = P(A) et P(B | A) = P(B), ce qui se traduit par = P(A) et = P(B). Ces
P(B) P(A)
deux égalités sont identiques, et pour pouvoir s’abstraire des hypothèses P(A) > 0 et P(B) > 0 on adoptera la
définition suivante :

Définition. — Deux événements A et B sont dits indépendants lorsque P(A ∩ B) = P(A)P(B).

Proposition 2.9 — Si A et B sont indépendants, il en est de même de A et B, de A et B, de A et B.

La notion d’indépendance se généralise à une suite finie ou infinie d’événements de la manière suivante :

Définition. — Une famille finie ou dénombrable (Ai )i∈I d’événements est dite indépendante lorsque pour tout
entier p ⩽ card I, pour toute p-liste (i1 , . . . ip ) ∈ Ip d’indices deux-à-deux distincts, P(Ai1 ∩ · · · ∩ Aip ) = P(Ai1 ) · · · P(Aip )
(on dit aussi que les événements Ai sont mutuellement indépendants).

On observera que cette définition est très délicate à mettre en œuvre. Ne serait-ce que pour trois événements A,
B et C il faut vérifier chacune des égalités :

P(A ∩ B ∩ C) = P(A)P(B)P(C), P(A ∩ B) = P(A)P(B), P(B ∩ C) = P(B)P(C), P(C ∩ A) = P(C)P(A).

En particulier, les trois dernières égalités, qui traduisent le fait que ces trois événements sont deux-à-deux
indépendants, ne sont pas suffisantes pour s’assurer que les trois événements sont indépendants.

PC∗ – Lycée Marcelin Berthelot


7.9

Exercice 6
[ \
Soit (An ) une suite d’événements indépendants ; pour tout p ∈ N on pose Bp = An puis A∗ = Bp .
n⩾p p∈N
n 
Y 

a. Justifier que P(A ) = lim P(Bp ) et que P(Bp ) = 1 − lim 1 − P(Ak ) .
p→+∞ n→+∞
k=p
n 
Y   Xn  X
b. Montrer que 1 − P(Ak ) ⩽ exp − P(Ak ) et en déduire que si la série P(An ) diverge, P(A∗ ) = 1.
k=p k=p

Remarque. Le résultat ci-dessus, associé au lemme de Borel-Cantelli (voir page 7) constitue la loi du zéro-un de
Borel : si (An ) est une suite d’événements indépendants, la probabilité qu’une infinité d’entre eux se réalise est :
X
– égale à 0 si la série P(An ) converge ;
X
– égale à 1 si la série P(An ) diverge.

3. Variables aléatoires
3.1 Définition d’une variable aléatoire
Jusqu’à présent, nous avons beaucoup parlé des événements, autrement dit adopté un point de vue ensembliste
sur les probabilités. Nous allons maintenant changer de point de vue en choisissant un point de vue fonctionnel
à l’aide de la notion de variable aléatoire qui, contrairement à ce que pourrait laisser supposer son nom, n’est pas
une variable mais une fonction. De manière informelle, une variable aléatoire est une grandeur qui dépend du
résultat de l’expérience ; ce peut être par exemple :
– le nombre de 6 obtenus dans un lancé de trois dés ;
– le temps d’attente avant d’obtenir Face dans un lancer de pièce ;
– la longueur du plus grand des deux morceaux lorsqu’on brise une baguette de bois en deux.

Définition. — Si (Ω, A ) est un espace probabilisable et E un ensemble, on appelle variable aléatoire toute fonction
X : Ω → E telle que pour tout e ∈ E, X−1 ({e}) ∈ A (autrement dit, X−1 ({e}) est un événement).
Lorsque E = R, la variable aléatoire X sera dite réelle.
Lorsque X(Ω) (l’ensemble des valeurs que peut prendre X) est fini ou dénombrable, la variable aléatoire X sera dite
discrète.
−1
Rappel. La o désigne l’image réciproque de e, c’est-à-dire l’ensemble des antécédents de e :
n notation X ({e})
−1
X ({e}) = ω ∈ Ω X(ω) = e .
Exemples.
– Pour l’expérience consistant à lancer trois dés et à compter le nombre de 6, nous pouvons choisir Ω = ⟦1, 6⟧3 ,
E = N et X : Ω → N définie par X(e1 , e2 , e3 ) = card{i ∈ ⟦1, 3⟧ | ei = 6}.
X(Ω) = {0, 1, 2, 3} donc la variable aléatoire X est discrète (finie).
– Pour l’expérience consistant à lancer une pièce jusqu’à obtenir Face, nous pouvons choisir Ω = {0, 1}N ,
E = N ∪ {+∞} et X : Ω → E définie par X((un )) = min{n ∈ N∗ | un = 0}. Ici X est une variable aléatoire discrète
(dénombrable).
– Pour l’expérience consistant à casser une baguette de deux pour mesurer le plus grand des deux morceaux,
nous avons Ω = ]0, 1[, E = ]0, 1[ et X(x) = max(x, 1 − x). Dans cet exemple, X n’est pas une variable aléatoire
discrète car X(Ω) = [1/2, 1[ n’est pas dénombrable.
Dans la suite de ce cours nous ne prendrons en considération que des variables aléatoires discrètes.

Proposition 3.1 — Lorsque X est une variable aléatoire discrète, pour tout U ⊂ X(Ω), X−1 (U) ∈ A (autrement dit,
X−1 (U) est un événement).

PC∗ – Lycée Marcelin Berthelot


7.10 Probabilités

Remarque. On introduit la notion de variable aléatoire pour s’intéresser aux chances de réalisation des valeurs
de X plutôt qu’aux chances de réalisation des résultats de l’expérience. Autrement dit, cette notion permet
d’une certaine façon d’« oublier » l’espace probabilisable (Ω, A ) (qui reste présent, mais dont on se contentera
le plus souvent d’admettre son existence) au profit des valeurs prises par X.
Par la suite, l’événement X−1 (U) sera noté plus simplement [X ∈ U].
Par exemple, pour le jeté de trois dés, [X = 2] désigne l’événement « deux des trois dés ont donné un 6 ». Pour le
lancer d’une pièce jusqu’à obtenir Face, [X ⩾ 3] désigne l’événement « il a fallu au moins trois lancers avant
d’obtenir un Face ».
L’intérêt du résultat précédent est que puisque [X ∈ U] est un événement, il est possible de lui associer une
probabilité. Il s’agit du résultat suivant :

Théorème 3.2 — Soit (Ω, A , P) un espace probabilisé et X : Ω → E une variable aléatoire discrète.
 Alors l’application

PX : P (X(Ω)) → [0, 1] définie par PX (U) = P(X−1 (U)) = P(X ∈ U) est une probabilité sur X(Ω), P (X(Ω)) , appelée
loi de la variable X, ou encore distribution de X.

Exercice 7
Une urne contient initialement une boule blanche et une boule noire. On tire au hasard une de ces boules, on
note sa couleur et on la replace dans l’urne accompagnée d’une seconde boule de la même couleur. On réalise
ce processus n fois, et on note Xn la variable aléatoire égale au nombre de boules blanches tirées durant ce
processus. Déterminer la loi de Xn .
Ce résultat définit la loi de la variable aléatoire discrète X à partir de la loi de probabilité sur Ω. Il existe une
réciproque de ce résultat : il est possible de choisir a priori la loi de X et d’en déduire une probabilité sur X(Ω).
De manière plus formelle :

Théorème 3.3 — Soit (Ω, A ) un espace probabilisable et X : Ω → E une variableX aléatoire discrète. On note
X(Ω) = {xi | i ∈ I} et
 on considère une
 famille discrète (p )
i i∈I de réels positifs telle que pi = 1. Alors il existe une
probabilité PX sur X(Ω), P (X(Ω)) telle que pour tout i ∈ I, PX (X = xi ) = pi . i∈I

L’intérêt de ce résultat est qu’il sera souvent suffisant de raisonner directement à partir de PX sans véritablement
avoir besoin d’expliciter formellement l’espace probabilisé (Ω, A , P).

3.2 Lois discrètes classiques


Certaines lois interviennent régulièrement dans les problèmes de probabilités ; il est donc intéressant de les
connaître afin de ne pas refaire à chaque fois les mêmes calculs. Nous allons maintenant passer en revue celles
que vous devez connaître.
Remarque. Deux variables aléatoires X et Y qui suivent la même loi seront notées X ∼ Y. On notera que si
X ∼ Y alors pour toute fonction f on a f (X) ∼ f (Y).

■ Loi uniforme
L’expérience type consiste à considérer une urne contenant n boules numérotées de 1 à n et à effectuer un tirage
équiprobable. La variable aléatoire X est le numéro de la boule obtenue.

Définition. — Soit n ∈ N∗ . On dit qu’une variable aléatoire réelle X suit une loi uniforme de paramètre n lorsque
1
X(Ω) = ⟦1, n⟧ et si pour tout k ∈ ⟦1, n⟧, P(X = k) = . On note dans ce cas X ∼ U (n).
n

■ Loi de Bernoulli
L’expérience type consiste à tirer dans une urne contenant une proportion p de boules blanches. On note X la
variable aléatoire égale à 1 si on tire une boule blanche, et 0 sinon. On peut aussi tirer à pile ou face avec une
pièce truquée ayant la probabilité p de tomber sur Face et poser X = 0 lorsque la pièce tombe sur Pile, et X = 1
lorsque la pièce tombe sur Face.

PC∗ – Lycée Marcelin Berthelot


7.11

Définition. — Soit p ∈ ]0, 1[. On dit qu’une variable aléatoire réelle X suit une loi de Bernoulli de paramètre p
lorsque X(Ω) = {0, 1} et P(X = 0) = 1 − p, P(X = 1) = p. On note dans ce cas X ∼ B (p).

Remarque. Pour des raisons de symétrie il est fréquent d’introduire la quantité q = 1 − p.

Variable indicatrice associée à un événement


À tout événement A ∈ A on peut associer la variable aléatoire 1A définie par :

1 si ω ∈ A


∀ω ∈ Ω, 1A (ω) = 
0
 sinon

Cette variable aléatoire 1A est appelée l’indicatrice de A ; elle suit une loi de Bernoulli de paramètre p = P(A).

■ Loi géométrique
L’expérience type consiste en une succession infinie d’expériences de Bernoulli indépendantes de paramètre p.
On note X le rang du premier succès.

Définition. — Soit p ∈ ]0, 1[. On dit qu’une variable aléatoire réelle X suit une loi géométrique de paramètre p
lorsque X(Ω) = N∗ et pour tout k ∈ N∗ , P(X = k) = pqk−1 avec q = 1 − p. On note dans ce cas X ∼ G (p).

Proposition 3.4 — Soit X ∼ G (p). Alors pour tout (m, n) ∈ (N∗ )2 , P(X > m + n | X > n) = P(X > m).

Ce résultat traduit le fait qu’une loi géométrique est sans mémoire : après n expériences les variables X − n et X
suivent le même loi : les expériences passées n’influent pas sur les succès futurs. C’est la raison pour laquelle le
fait qu’un nombre ne soit pas sorti depuis longtemps au loto n’augmente pas la probabilité qu’il sorte au tirage
suivant.
Exercice 8
Soit X une variable aléatoire sans mémoire à valeurs dans N∗ . Montrer que X suit une loi géométrique.

■ Loi binomiale
L’expérience type consiste à effectuer n fois une expérience de Bernoulli et à noter X le nombre de succès.

Définition. — Soit n ∈ N∗ et p ∈ ]0, 1[. On dit qu’une variable aléatoire réelle X suit une loi binomiale de
!
n k n−k
paramètres (n, p) lorsque X(Ω) = ⟦0, n⟧ et pour tout k ∈ ⟦0, n⟧, P(X = k) = p q avec q = 1 − p. On note dans
k
ce cas X ∼ B (n, p).

■ Loi de Poisson
La dernière loi que nous allons définir est un peu différente des précédentes, dans le sens où elle ne correspond
pas à la modélisation d’une expérience précise mais apparaît (dans un certain sens) comme limite des lois
binomiales.

Théorème 3.5 (loi des événements rares) — Soit (Xn ) une suite de variables aléatoires réelles telle que pour tout
λ λk −λ
n ∈ N, Xn ∼ B (n, pn ). On suppose pn ∼ avec λ > 0. Alors pour tout k ∈ N, lim P(Xn = k) = e .
n n→+∞ k!

Définition. — Soit λ > 0. On dit qu’une variable aléatoire réelle X suit une loi de Poisson de paramètre λ lorsque
λk −λ
X(Ω) = N et pour tout k ∈ N, P(X = k) = e . On note dans ce cas X ∼ P (λ).
k!

PC∗ – Lycée Marcelin Berthelot


7.12 Probabilités

Remarque. Concrètement, ce résultat affirme que si des événements indépendants ont une très faible probabilité
d’apparition, leur distribution, qui suit en principe une loi binomiale, est dans la pratique très voisine d’une loi
de Poisson. On estime souvent qu’on peut utiliser l’approximation de B (n, p) par P (λ) (avec λ = np) dès lors
que n ⩾ 50 et np < 10. Dans le cadre de cette approximation les calculs numériques s’en trouvent grandement
simplifiés.
Exemple. Un central téléphonique possède 5 lignes. On estime à n = 1 200 le nombre de personnes susceptibles
d’appeler le standard sur une journée de huit heures, les appels étant répartis uniformément durant la journée
et d’une durée de deux minutes en moyenne.
On souhaite calculer la probabilité que le standard soit saturé à un instant donné. Pour cela, on note X la
variable aléatoire égale au nombre de personnes en train de téléphoner à un instant donné et on cherche à
5
X
calculer P(X > 5) = 1 − P(X = k).
k=0
1 1
Un appel au standard à un instant donné est une éventualité de probabilité p = = . La variable
8 × 30 240
aléatoire X suit donc une loi binomiale de paramètres (n, p), et on est dans le cadre de l’approximation par une
loi de Poisson de paramètre λ = np = 5. Effectuons le calcul avec ces deux lois :

from [Link] import binom, poisson

print(1−sum([[Link](k, 1200, 1/240) for k in range(6)]))


print(1−sum([[Link](k, 5) for k in range(6)]))

0.384039090245462
0.38403934516693705

Les deux formules donnent effectivement des réponses très proches : de l’ordre de 38,4%.
Exercice 9
Soit X une variable aléatoire suivant une loi de Poisson de paramètre λ > 0. Est-il plus probable que la valeur
de X soit paire ou impaire ?

3.3 Couple de variables aléatoires


Définition. — Si X et Y sont deux variables aléatoires sur un même espace probabilisable (Ω, A ), on note (X, Y) la
variable aléatoire ω 7→ (X(ω), Y(ω)). On appelle loi conjointe de X et de Y la loi de (X, Y), autrement dit la loi P(X,Y)
définie par :
∀(x, y) ∈ X(Ω) × Y(Ω), P(X,Y) (x, y) = P(X = x et Y = y).

À l’inverse, si (X, Y) est un couple de variables aléatoires, on appelle lois marginales de (X, Y) les lois de X et de Y.

Connaissant la loi conjointe de X et Y il est facile de retrouver les lois marginales :


X X
P(X = x) = P(X = x et Y = y) et P(Y = y) = P(X = x et Y = y).
y∈Y(Ω) x∈X(Ω)

À l’inverse, la connaissance des lois marginales ne permet pas en général de déterminer la loi conjointe, car en
général les événements {X = x} et {Y = y} n’ont aucune raison d’être indépendants. C’est la raison pour laquelle
on adopte la définition suivante :

Définition. — Deux variables aléatoires X et Y sur un même espace probabilisable (Ω, A ) sont dites indépendantes
lorsque pour tout x ∈ X(Ω) et tout y ∈ Y(Ω) les événements {X = x} et {Y = y} sont indépendants. On a dans ce cas :
P(X = x et Y = y) = P(X = x) · P(Y = y). L’indépendance des deux variables aléatoires X et Y sera notée X ⊥
⊥ Y.

Proposition 3.6 — Soient X et Y deux variables aléatoires indépendantes d’un même espace probabilisable (Ω, A ).
Alors pour toutes parties A dans X(Ω) et B dans Y(Ω) on a : P(X ∈ A et Y ∈ B) = P(X ∈ A) · P(Y ∈ B).

PC∗ – Lycée Marcelin Berthelot


7.13

Proposition 3.7 — Soient X et Y deux variables aléatoires indépendantes d’un même espace probabilisable (Ω, A ),
et f et g deux fonctions de R dans R. Alors les variables aléatoires f (X) et g(Y) sont indépendantes. Autrement dit,

X⊥
⊥ Y =⇒ f (X) ⊥
⊥ g(Y)

Exercice 10
Soient X ∼ P (λ) et Y ∼ P (µ) deux variables aléatoires indépendantes. Montrer que X + Y ∼ P (λ + µ).
Remarque. Lorsque deux variables X et Y ne sont pas indépendantes, on utilise une probabilité conditionnelle
pour calculer la probabilité de l’événement {X = x et Y = y} : P(X = x et Y = y) = P(X = x | Y = y) · P(Y = y).

Exercice 11
Soit X une variable aléatoire qui suit une loi de Poisson de paramètre λ, Y une variable aléatoire qui, lorsque
X = n, suit une loi binomiale B (n, p). On pose enfin Z = X − Y.
Déterminer les lois de Y et de Z. Les variables Y et Z sont-elles indépendantes ?

Indépendance mutuelle
Définition. — Soit (Xi )i∈I une famille finie ou dénombrable de variables aléatoires d’un même espace probabilisable
(Ω, A ). On dit que ces variables sont mutuellement indépendantes si et seulement si pour toute p-liste (i1 , . . . , ip ) ∈ Ip
d’indices deux-à-deux distincts, et toute p-liste (xi1 , . . . , xip ) ∈ Xi1 (Ω) × · · · × Xip (Ω), les événements {Xik = xik } sont
indépendants.

À l’instar de l’indépendance d’une famille finie ou dénombrable d’événements, cette définition est particulière-
ment malcommode à vérifier. En particulier, on notera qu’il n’est pas équivalent de se contenter de vérifier que
les variables sont deux-à-deux indépendantes.

Exemple. Si (Xk )1⩽k⩽n est une famille finie de variables aléatoires mutuellement indépendantes suivant toutes
Xn
la même loi de Bernoulli de paramètre p, alors Sn = Xk suit une loi binomiale de paramètre (n, p).
k=1
Plus généralement, nous rencontrerons fréquemment des familles de variables aléatoires (Xn )n∈N indépendantes
suivant toutes la même loi. Une telle suite de variables aléatoires sera dite identiquement distribuée.

Pour finir, nous admettrons le résultat suivant :

Théorème 3.8 (lemme des coalitions) — Soient X1 , . . . , Xn une famille de n variables aléatoires mutuellement
indépendantes, et p ∈ ⟦1, n⟧. Soit f : Rp → R et g : Rn−p → R deux fonctions. Alors les variables f (X1 , . . . , Xp ) et
g(Xp+1 , . . . , Xn ) sont indépendantes.

On peut bien entendu étendre ce résultat à plus de deux coalitions.

3.4 Espérance
Lorsque X(Ω) est fini, l’espérance d’une variable aléatoire réelle est la moyenne des
Xvaleurs qu’elle est susceptible
de prendre pondérées par la probabilité d’apparition de ces valeurs : E(X) = xP(X = x).
x∈X(Ω)
Lorsque X(Ω) est infini, nous avons vu dans la première partie de ce chapitre que pour pouvoir donner un sens
à cette expression, il fallait pouvoir s’assurer que cette expression ne dépend pas de l’ordre d’indexation choisi
pour X(Ω). Ceci nous conduit à la :

Définition. — On dit qu’une variable aléatoire réelle et discrète X est d’espérance finie lorsque la famille de
nombres réels xP(X = x) est sommable, et on appelle dans ce cas on appelle espérance de X la quantité
x∈X(Ω)
X
E(X) = xP(X = x).
x∈X(Ω)

PC∗ – Lycée Marcelin Berthelot


7.14 Probabilités

n o
Remarque. Lorsqu’on décrit par compréhension l’ensemble X(Ω) = xn n ∈ N , X admet une espérance si et
X
seulement si la série xn P(X = xn ) est absolument convergente.
Remarque.
X Lorsque la variable aléatoire X est à valeurs positives, nous avons vu que l’on pouvait noter
xP(X = x) = +∞ lorsque cette famille n’est pas sommable. On notera alors E(X) = +∞ dans ce cas de
x∈X(Ω)
figure (attention, ceci n’est pas valable lorsque X n’est pas à valeurs positives).
Exemple. Considérons une fois de plus le problème du lancer de pièce jusqu’à obtenir Face. Nous avons montré
que si X désigne la variable aléatoire qui compte le nombre de lancers nécessaires nous avons P(X = n) =
p(1 − p)n−1 où p désigne la probabilité
X d’obtenir un Face lors d’un lancer.
Puisque 1 − p ∈ ]0, 1[ la série n(1 − p)n−1 converge donc E est d’espérance finie, et
n⩾1 +∞
X p 1
E(X) = np(1 − p)n−1 = 2
=
(1 − (1 − p)) p
n=1

 3.9 — Soit X une variable aléatoire presque sûrement bornée (autrement dit, il existe M > 0 et que
Proposition

P |X| ⩽ M = 1). Alors X est d’espérance finie.

Notons qu’il existe une formule équivalente pour l’espérance d’une variable aléatoire à valeurs dans N ∪ {+∞} :
X+∞
Proposition 3.10 — Si X est une variable aléatoire à valeurs dans N ∪ {+∞} alors E(X) = P(X ⩾ n).
n=1
Les principaux résultats de l’espérance sont les suivants :

Théorème 3.11 (de transfert) —  Si f une application


 à valeurs réelles définie sur X(Ω), alors X
f (X) est d’espérance
finie si et seulement si la famille f (x)P(X = x) est sommable, et dans ce cas, E(f (X)) = f (x)P(X = x).
x∈X(Ω)
x∈X(Ω)

Corollaire — X est d’espérance finie il en est de même de |X|, et E(X) ⩽ E(|X|).

Proposition 3.12 — Soient X et Y deux variables aléatoires d’espérances finies. Alors :


(i) pour tout λ ∈ R, λX + Y est d’espérance finie, et E(λX + Y) = λE(X) + E(Y) (linéarité de l’espérance) ;
(ii) et si, de plus, X et Y sont indépendantes, alors XY est d’espérance finie et E(XY) = E(X)E(Y).

Corollaire — Soient X et Y deux variables aléatoires d’espérances finies. Alors :


(i) si X est à valeurs positives, E(X) ⩾ 0 (positivité de l’espérance) ;
(ii) si X ⩽ Y alors E(X) ⩽ E(Y) (croissance de l’espérance).

■ Espérances des lois usuelles


Toutes les lois que nous avons étudiées à la section 3.2 sont d’espérance finie, et la valeur de leur espérance doit
être connue.

n+1
Loi uniforme Si X ∼ U (n), alors E(X) = .
2
Loi de Bernoulli Si X ∼ B (p), alors E(X) = p.
1
Loi géométrique Si X ∼ G (p) alors E(X) = .
p
Loi binomiale Si X ∼ B (n, p) alors E(X) = np.
Loi de Poisson Si X ∼ P (λ) alors E(X) = λ.

Remarque. La loi binomiale étant la somme de n loi de Bernoulli (indépendantes) on a bien E(B (n, p)) =
n × E(B (p)).

PC∗ – Lycée Marcelin Berthelot


7.15

3.5 Variance et écart type


Définition. — On dit qu’une variable aléatoire réelle X possède un moment d’ordre 1 lorsque X est d’espérance
finie, et un moment d’ordre 2 lorsque X2 est d’espérance finie.

Théorème 3.13 — Si la variable aléatoire X possède un moment


 d’ordre
 2 alors X possède un moment d’ordre
p 1, et
dans ce cas, on appelle variance de X la quantité V (X) = E (X − E(X))2 , et écart type la quantité σ(X) = V (X).

Proposition 3.14 (Formule de Koenig-Huyghens) — Lorsque X possède un moment d’ordre 2,

V (X) = E(X2 ) − E(X)2 .

Proposition 3.15 — Si a et b sont deux réels et X une variable aléatoire réelle possédant un moment d’ordre 2, alors
V (aX + b) = a2 V (X) et σ(aX + b) = |a|σ(X).

Théorème 3.16 — Si X et Y sont deux variables aléatoires indépendantes admettant un moment d’ordre 2, il en est
de même de X + Y, et V (X + Y) = V (X) + V (Y).

Exercice 12
Soit X une variable aléatoire possédant un moment d’ordre 2. Quelle est la valeur minimale de la fonction
t 7→ E((X − t)2 ) ?

■ Variance des lois usuelles


Toutes les lois que nous avons étudiées à la section 3.2 possèdent une variance (à connaître) :

n2 − 1
Loi uniforme Si X ∼ U (n), alors V (X) = .
12
Loi de Bernoulli Si X ∼ B (p), alors V (X) = pq = p(1 − p).
q 1−p
Loi géométrique Si X ∼ G (p) alors V (X) = 2 = 2 .
p p
Loi binomiale Si X ∼ B (n, p) alors V (X) = npq.
Loi de Poisson Si X ∼ P (λ) alors V (X) = λ.

■ Moment d’une variable aléatoire


Espérance et variance se généralisent avec la notion de moment : étant donné un entier r ∈ N, on dit qu’une
variable aléatoire réelle X possède un moment d’ordre r lorsque E(Xr ) existe, et un moment centré d’ordre
r lorsque E((X − E(X))r ) existe. Ainsi, l’espérance est un moment d’ordre 1 et la variance un moment centré
d’ordre 2.
Remarque (Variable centrée réduite). Si X est une variable aléatoire possédant un moment d’ordre 2, la
X − E(X)
variable aléatoire Y = possède une espérance nulle (on dit qu’elle est centrée) et un écart type égal à 1
σ(X)
(on dit qu’elle est réduite).

L’application (X, Y) 7→ E(XY) est une application bilinéaire, symétrique et positive. En conséquence de quoi il
est possible d’établir le résultat suivant :

Théorème 3.17 (Inégalité de Cauchy-Schwarz) — Si X et Y possèdent des moments d’ordre 2, alors XY possède un
moment d’ordre 1, et E(XY)2 ⩽ E(X2 )E(Y2 ).

Remarque. Il y a égalité dans l’inégalité de Cauchy-Schwarz si et seulement s’il existe (λ, µ) ∈ R2 tel que λX +µY
est quasi-sûrement nul, autrement dit lorsque P(λX + µY = 0) = 1.

PC∗ – Lycée Marcelin Berthelot


7.16 Probabilités

3.6 Covariance
Nous avons démontré à la proposition 3.12 que lorsque X et Y sont deux variables aléatoires indépendantes,
E(XY) = E(X)E(Y). Lorsque X et Y ne sont pas indépendantes, on peut considérer que la quantité E(XY)−E(X)E(Y)
mesure le « défaut d’indépendance » de ces deux variables. Pour des raisons pratiques (liées à l’inégalité de
Cauchy-Schwarz, voir plus loin), nous allons introduire cette quantité sous une forme légèrement différente. En
effet,

E((X − E(X))(Y − E(Y))) = E(XY − E(X)Y − XE(Y) + E(X)E(Y)) = E(XY) − E(X)E(Y) − E(X)E(Y) + E(X)E(Y)
= E(XY) − E(X)E(Y).

Ceci conduit à la définition suivante :

Définition. — Soient X et Y deux variables aléatoires réelles. Sous réserve d’existence on appelle covariance de X et
 
de Y la quantité cov(X, Y) = E (X − E(X))(Y − E(Y)) .

Le théorème 3.17 nous permet d’énoncer :

Proposition 3.18 — Si X et Y sont deux variables aléatoires réelles possédant un moment d’ordre 2 alors cov(X, Y)
existe.

et le calcul réalisé ci-dessus nous permet d’affirmer :

Proposition 3.19 — Lorsque X et Y sont deux variables aléatoires réelles indépendantes possédant un moment
d’ordre 2, alors cov(X, Y) = 0. On dira que X et Y ne sont pas corrélées.

Attention. La réciproque de ce résultat est fausse : deux variables aléatoires peuvent ne pas être corrélées sans
pour autant être indépendantes.

Proposition 3.20 (propriétés de la covariance) — Soient X Y et Z trois variables aléatoires réelles possédant des
moments d’ordre 2. Alors :
– cov(X, Y) = E(XY) − E(X)E(Y) ;
– cov(X, Y) = cov(Y, X) ;
– cov(X, 1) = 0 ;
– ∀(a, b) ∈ R2 , cov(X, aY + bZ) = a cov(X, Y) + b cov(X, Z).

Théorème 3.21 — Soient X et Y deux variables aléatoires réelles possédant des moments d’ordre 2. Alors

V (X + Y) = V (X) + 2 cov(X, Y) + V (Y).

En particulier, lorsque ces deux variables aléatoires sont indépendantes, on retrouve le fait que V (X + Y) = V (X)+V (Y).

n
X  Xn X
Remarque. Cette formule se généralise au cas de n variables aléatoires : V Xk = V (Xk )+2 cov(Xi , Xj ).
k=1 k=1 i<j
En particulier on retiendra le :

Corollaire — Lorsque X1 , . . . , Xn sont des variables aléatoires possédant des moments d’ordre 2 et deux-à-deux
indépendantes, V (X1 + · · · + Xn ) = V (X1 ) + · · · + V (Xn ).

3.7 Inégalités de concentration


Dans la théorie des probabilités, les inégalités de concentration fournissent des bornes sur la probabilité qu’une
variable aléatoire dévie d’une certaine valeur (généralement l’espérance de cette variable aléatoire).

PC∗ – Lycée Marcelin Berthelot


7.17

Théorème 3.22 (inégalité de Markov) — Soit X une variable aléatoire positive possédant un moment d’ordre 1, et
E(X)
a > 0. Alors P(X ⩾ a) ⩽ .
a

Théorème 3.23 (inégalité de Bienaymé-Tchebychev) — Soit X une variable aléatoire réelle admettant un moment
  V (X) σ(X)2
d’ordre 2, et α > 0. Alors P X − E(X) ⩾ α ⩽ = .
α2 α2

Que signifie cette inégalité ? La probabilité calculée mesure le risque de s’écarter de l’espérance d’une quantité
supérieure à α. La majorant obtenu montre que plus l’écart type est faible, plus ce risque est négligeable. Ainsi,
un écart type faible caractérise une faible dispersion autour de l’espérance. À l’inverse, un écart type important
dénote une grande dispersion des valeurs.

■ Loi faible des grands nombres


Le théorème que nous allons énoncer ensuite va justifier la démarche expérimentale qu’on utilise pour estimer
empiriquement une espérance : on réalise un grand nombre d’expérience (en général par le biais d’une
simulation numérique) puis on calcule la moyenne des valeurs qu’a prise la variable aléatoire X. Par exemple,
pour estimer l’espérance d’une loi géométrique de paramètre 1/10 on réalise le script suivant :

def experience():
s = 1
while True:
if [Link]() < .1:
return s
s += 1

n = 100000 # nombre d'expériences


v = 0 # somme des variables aléatoires

for _ in range(n):
v += experience()
print(v / n)

10.02955

Nous obtenons effectivement une valeur proche de l’espérance théorique égale à 10. Le théorème qui suit donne
une justification à cet état de fait :

Théorème 3.24 (loi faible des grands nombres) — Soit (Xn )n⩾1 une suites de variables aléatoires deux-à-deux
indépendantes et de même loi admettant un moment d’ordre 2. On pose Sn = X1 + X2 + · · · + Xn . Alors pour tout ϵ > 0,

1 V (X)
 
P Sn − E(X) ⩾ ϵ ⩽ .
n nϵ2

1
 
Remarque. Avec les mêmes hypothèses on en déduit que : lim P Sn − E(X) ⩾ ϵ = 0.
n→+∞ n
En d’autres termes, plus on réalise un grand nombre d’expériences, plus le risque que la moyenne s’écarte de
l’espérance de plus de ϵ est faible.
Exemple. Dans l’exemple numérique ci-dessus nous avons pris n = 100 000 et nous avons E(X) = 10 et V(X) = 90.
V (X)
Pour ϵ = 0,1 nous avons = 0,09 donc il y a plus de 91% de chance que le résultat obtenu diffère de
nϵ2
l’espérance théorique de moins de 0,1.

PC∗ – Lycée Marcelin Berthelot


7.18 Probabilités

3.8 Séries génératrices


Définition. — X Soit X une variable aléatoire à valeurs dans N. On appelle série génératrice de X la série entière
X
GX (t) = E(t ) = P(X = n)t n .
n∈N

Pourquoi s’intéresser à cette série entière ? Nous savons que les coefficients d’une série entière de rayon de
convergence R > 0 sont définis de manière unique, aussi pouvons-nous affirmer que si R > 0 la série génératrice
d’une variable aléatoire caractérise cette dernière. On peut donc espérer utiliser la souplesse d’utilisation des
séries entières pour calculer plus facilement certaines caractéristiques de X, telles l’espérance ou la variance.

Lemme — La série génératrice GX de X est au moins définie sur [−1, 1].

Corollaire — Si deux variables aléatoires ont même série génératrice sur ]−1, 1[ alors ces deux variables aléatoires
suivent la même loi.
+∞
X
Supposons maintenant R > 1. GX est de classe C ∞ sur ]−R, R[ et G′X (t) = nP(X = n)t n−1 . On voit immédiate-
n=1
ment qu’en posant t = 1 on obtient G′X (1) = E(X). Nous admettrons que ce résultat reste vrai lorsque R = 1 à
condition que GX soit dérivable en 1, ce qui nous permet d’énoncer le

Théorème 3.25 — X admet un moment d’ordre 1 (une espérance) si et seulement si GX est dérivable en 1, et dans ce
cas, E(X) = G′X (1).
+∞
X
Voyons comment obtenir la variance. Si on suppose toujours R > 1 nous avons G′′X (1) = n(n − 1)P(X = n).
n=1
+∞
X +∞
X +∞
X
Par ailleurs, V (X) = E(X2 ) − E(X)2 = n2 P(X = n) − E(X)2 = n(n − 1)P(X = n) + nP(X = n) − E(X)2
n=1 n=1 n=1
= G′′X (1) + G′X (1) − G′X (1)2 .
Nous admettrons que sous réserve d’existence cette formule reste vraie lorsque R = 1, ce qui donne le

Théorème 3.26 — X admet un moment d’ordre 2 si et seulement si GX est deux fois dérivable en 1, et dans ce cas,
V (X) = G′′X (1) + G′X (1) − G′X (1)2 .

■ Séries génératrices les lois usuelles

1
Loi uniforme Si X ∼ U (n), alors GX (t) = (t + t 2 + · · · + t n ).
n
Loi de Bernoulli Si X ∼ B (p), alors GX (t) = pt + q avec q = 1 − p.
pt
Loi géométrique Si X ∼ G (p) alors GX (t) = avec q = 1 − p.
1 − qt
Loi binomiale Si X ∼ B (n, p) alors GX (t) = (pt + q)n avec q = 1 − p.
Loi de Poisson Si X ∼ P (λ) alors GX (t) = eλt−λ .

Exercice 13
À l’aide des séries génératrices ci-dessus, retrouver l’espérance et la variance des lois usuelles.

■ Série génératrice d’une somme de deux variables aléatoires indépendantes


Considérons pour finir deux variables aléatoires indépendantes X et Y à valeurs dans N.

PC∗ – Lycée Marcelin Berthelot


7.19

+∞
X +∞
X
Nous avons GX (t) = P(X = n)t n et GY (t) = P(Y = n)t n et
n=0 n=0

+∞
X +∞ X
X n  +∞ X
X n 
GX+Y (t) = P(X + Y = n)t n = P(X = k et Y = n − k) t n = P(X = k)P(Y = n − k) t n .
n=0 n=0 k=0 n=0 k=0

On reconnaît un produit de Cauchy donc


+∞
X +∞
 X 
GX+Y (t) = P(X = n)t n · P(Y = n)t n = GX (t)GY (t).
n=0 n=0

Nous avons prouvé le :

Théorème 3.27 — Si X et Y sont deux variables aléatoires indépendantes à valeur entières, alors

∀t ∈ ]−1, 1[ , GX+Y (t) = GX (t)GY (t).

Exemple.
– Si Xi ∼ B (p) (1 ⩽ i ⩽ n) sont des variables aléatoires indépendantes et S leur somme, alors S ∼ B (n, p).
– Si X ∼ B (m, p) et Y ∼ B (n, p) sont deux variables aléatoires indépendantes, alors X + Y ∼ B (m + n, p).
En effet, (pt + q)m · (pt + q)n = (pt + q)m+n .
– Si X ∼ P (λ) et Y ∼ P (µ) sont deux variables aléatoires indépendantes, alors X + Y ∼ P (λ + µ).
En effet, eλt−λ · eµt−µ = e(λ+µ)t−(λ+µ) .

PC∗ – Lycée Marcelin Berthelot


7.20

PC∗ – Lycée Marcelin Berthelot


Chapitre VIII 8.1

Intégration
L’intégration est un concept fondamental en mathématiques, issu du calcul des aires. À ce titre, on peut
considérer que ses racines se trouvent parmi les premiers calculs d’aires et de volumes de l’antiquité. Mais c’est à
Leibniz, au XVIIe siècle qu’on doit les fondements de la théorie de l’intégration, en particulier par l’introduction
R
d’un symbolisme reliant intégration et dérivation. C’est d’ailleurs lui qui est à l’origine du symbole .
Il faut néanmoins attendre Riemann (en 1854) pour avoir une première théorie de l’intégration complète, c’est à
dire une définition précise de ce qu’est une fonction intégrable. Par la suite, d’autres théories, plus élaborées, ont
vu le jour, telles l’intégrale de Lebesgue (1902), ou encore l’intégrale de Kurzweil-Henstock (1950).

1. Intégration des fonctions continues par morceaux


1.1 Fonctions continues par morceaux
■ Subdivision d’un intervalle
Définition. — Une subdivision d’un segment [a, b] est une suite finie σ = (t0 , t1 , . . . , tn ) vérifiant :

a = t0 < t1 < · · · < tn−1 < tn = b.


n o
Le pas de la subdivision est le réel p(σ) = max ti+1 − ti i ∈ ⟦0, n − 1⟧ . La subdivision est dite régulière lorsque
b−a
∀i ∈ ⟦0, n − 1⟧, ti+1 − ti = p(σ), soit encore : ∀i ∈ ⟦0, n⟧, ti = a + i .
n

a p(σ) b
R
t0 t1 t2 t3 tn−1 tn

Figure 1 – Une subdivision du segment [a, b].

Définition. — Une fonction numérique f : [a, b] → K est dite continue par morceaux s’il existe une subdivision
σ = (t0 , . . . , tn ) de [a, b] telle que f soit sur tous les intervalles ]tk , tk+1 [ la restriction d’une fonction continue sur
[tk , tk+1 ]. Une telle subdivision sera dite adaptée à f .

Remarque. Concrètement, ceci signifie que pour tout i ∈ ⟦0, n − 1⟧, f possède une limite (finie) à droite en ti
et à gauche en ti+1 . Notons en outre que la fonction f peut être continue en ti , mais qu’à l’inverse toutes les
discontinuités de f (qui doivent être en nombre fini) font partie des points de la subdivision σ (illustration
figure 2).
Remarque. On dit qu’une subdivision σ ′ est plus fine qu’une subdivision σ lorsque σ est une sous-suite de σ ′ ,
en conséquence de quoi toute subdivision plus fine qu’une subdivision adaptée à f est encore adaptée à f .
Il est alors intéressant d’observer que si σ et σ ′ sont deux subdivisions quelconques de [a, b], alors σ ∪ σ ′ est une
subdivision à la fois plus fine que σ et que σ ′ .
Qu’est ce qui peut empêcher une fonction définie sur un segment d’être continue par morceaux ?
– Cette fonction peut présenter un point en lequel il n’y a pas de limite à gauche ou à droite ; c’est par exemple
le cas de la fonction f : x 7→ sin(1/x) sur le segment [−1, 1], quelle que soit la valeur de f (0) ;
1
– cette fonction peut présenter une limite infinie en un point ; c’est par exemple le cas de la fonction f : x 7→
x
sur le segment [−1, 1], quelle que soit la valeur de f (0) ;

PC∗ – Lycée Marcelin Berthelot


8.2 Intégration

x
t0 t1 t2 t3 t4 t5

Figure 2 – Un exemple de fonction continue par morceaux et d’une subdivision (non minimale) qui lui est
adaptée.

– cette fonction peut présenter un nombre infini de discontinuités ; c’est par exemple le cas de la fonction
f : x 7→ x⌊1/x⌋ prolongée par f (0) = 1, bien qu’elle possède en tout point une limite à gauche et à droite.

Proposition 1.1 — Toute fonction continue par morceaux sur un segment est bornée.

Théorème 1.2 — L’ensemble Cm0 ([a, b], K) des fonctions continues par morceaux est un sous-espace vectoriel de
l’espace B ([a, b], K) des fonctions bornées sur [a, b]. De plus, si f et g sont continues par morceaux sur [a, b], il en est
de même de leur produit f g.

Remarque. Rappelons qu’une fonction φ : [a, b] → K est dite en escalier lorsqu’il existe une subdivision
σ = (t0 , t1 , . . . , tn ) telle que f soit constante sur chaque intervalle ]ti , ti+1 [, 0 ⩽ i ⩽ n − 1. Bien entendu, toute
fonction en escalier sur [a, b] est continue par morceaux sur cet intervalle, et par une preuve analogue à celle du
théorème précédent on montre que les fonctions en escalier constituent un sous-espace vectoriel du K-espace
vectoriel des fonctions continues par morceaux sur [a, b].

Fonctions continues par morceaux sur un intervalle quelconque


Définition. — Soit I un intervalle quelconque. Une fonction f : I → K est dite continue par morceaux lorsque
pour tout segment [a, b] inclus dans I, la restriction de f à [a, b] est continue par morceaux sur [a, b].

Exemple. La fonction x 7→ ⌊x⌋ est continue par morceaux sur R : elle possède en tout point une limite finie
à gauche et à droite et, bien que ses discontinuités soient en nombre infini, ne possède qu’un nombre fini de
discontinuité sur tout segment. Pour ces mêmes raisons, la fonction f : x 7→ x⌊1/x⌋ est continue par morceaux sur
]0, 1]. Elle n’est en revanche pas continue par morceaux sur [0, 1], bien qu’elle soit prolongeable par continuité
en 0 !

1.2 Intégrale sur un segment d’une fonction continue par morceaux


Ceci étant posé, définir la valeur de l’intégrale d’une fonction continue par morceaux sur un segment ne pose
pas de problème :

Définition. — Soit f : [a, b] → K une fonction continue par morceaux, et σ = (t0 = a, t1 , . . . , tn = b) une subdivision
adaptée à f . L’intégrale de f sur [a, b] est alors la quantité :
Z Z b n−1 Z
X tk+1
f = f (t) dt = f (t) dt.
[a,b] a k=0 tk

Remarque. Pour valider cette définition, il faut montrer que cette valeur ne dépend pas du choix de la
subdivision subordonnée à f , mais ceci ne présente pas difficulté.

PC∗ – Lycée Marcelin Berthelot


8.3

Cas d’une fonction en escalier


Si φ : [a, b] → K est une fonction en escalier et σ une subdivision qui lui est adaptée, si vk ∈ K désigne la valeur
Z n−1
X
que prend φ sur l’intervalle ]tk , tk+1 [, alors : φ= (tk+1 − tk )vk .
[a,b] k=0
Lorsque vk ∈ R+ , cette quantité peut être interprétée comme l’aire délimitée par l’axe des abscisses et la fonction
φ (illustration figure 3).

aire = (tk+1 − tk )vk

vk

x
a tk tk+1 b

Figure 3 – Interprétation graphique de l’intégrale d’une fonction en escalier.

Nous admettrons que cette interprétation graphique reste pertinente pour une fonction continue par morceaux.
Rappelons aussi que cette interprétation est à la base d’un résultat du cours de première année : la notion de
somme de Riemann.

Théorème 1.3 (Sommes de Riemann) — Si f : [a, b] → K est une fonction continue sur le segment [a, b] alors

n−1   Zb
b−a X b−a
lim f a+k = f (t) dt.
n→+∞ n n a
k=0

Exercice 1 n
X 1
Déterminer la limite suivante : lim √ .
n→+∞ n2 + 2kn
k=1

1.3 Propriétés de l’intégrale


Les propriétés suivantes, établies en première année dans le cas des fonctions continues, s’étendent au cas des
fonctions continues par morceaux.

Proposition 1.4 — L’application qui à une fonction continue Z par morceauxZassocie son
Z intégrale sur [a, b] est
linéaire : si f et g sont continues par morceaux sur [a, b], alors (λf + g) = λ f+ g.
[a,b] [a,b] [a,b]
Z Z
Proposition 1.5 — Soit f : [a, b] → K une fonction continue par morceaux. Alors : f ⩽ |f |.
[a,b] [a,b]

Remarque. La proposition 1.5 appliquée à une fonction à valeurs réelles positives implique le résultat suivant,
dite propriété de positivité de l’intégrale :
Z
si f : [a, b] → R+ est continue par morceaux, alors f ⩾ 0.
[a,b]

Une conséquence immédiate de ce résultat est la propriété dite de croissance de l’intégrale :


Z Z
si f et g sont deux fonctions réelles continues par morceaux sur [a, b] et telles que f ⩽ g, alors f ⩽ g.
[a,b] [a,b]

PC∗ – Lycée Marcelin Berthelot


8.4 Intégration

Z
Corollaire — Si f : [a, b] → K est continue par morceaux, alors : f ⩽ |b − a|.∥f ∥∞,[a,b] .
[a,b]

Enfin, sur le même sujet on rappellera un résultat important du cours de première année, mais qui ne s’applique
pas aux fonctions continues par morceaux :

Proposition 1.6 — Une fonction continue et à valeurs positives sur [a, b] est nulle si et seulement si son intégrale est
nulle.

1.4 Dérivation et intégration


Nous allons maintenant rappeler un résultat vu en première année, souvent connu comme le théorème fonda-
mental de l’analyse (le théorème 1.7 de ce document). Ce dernier établit un lien entre intégration et dérivation
(un résultat en général attribué à Isaac Newton). Plus précisément, il affirme que le calcul d’une intégrale d’une
fonction continue se ramène à la recherche d’une primitive de cette fonction.

■ Primitives et intégrale d’une fonction continue


Z x 1.7 — Soit I un intervalle, f : I → K une fonction continue, et a ∈ I. Pour tout réel x ∈ I, on note
Théorème
F(x) = f (t) dt. Alors F est de classe C 1 sur I, et F′ = f .
a

Ce théorème ramène le calcul d’une intégrale à la recherche d’une primitive. Commençons par rappeler la
définition suivante :

Définition. — Soit f une fonction continue sur I. On dit qu’une application g : I → K est une primitive de f
lorsque g est de classe C 1 , et lorsqu’en tout point de I, g ′ (x) = f (x).

Les primitives sur un intervalle sont définies « à une constante près » :

Proposition 1.8 — Si g1 et g2 sont deux primitives de f , il existe une constante λ telle que g2 = g1 + λ.

Nous pouvons donc préciser le résultat du théorème 1.7 en énonçant le résultat suivant :

Proposition
Zx 1.9 — Soit f une fonction continue sur I, et a ∈ I. On définit une fonction F sur I en posant : ∀x ∈ I,
F(x) = f (t) dt. Alors F est l’unique primitive de f qui s’annule en a.
a

Voici enfin le résultat qui permet de calculer une intégrale en recherchant une primitive :
Z b
2
Corollaire — Si f est continue et g une primitive quelconque de f , alors : ∀(a, b) ∈ I , f (t) dt = g(b) − g(a).
a

Exercice 2
Soit f : [0, +∞[ → [0, +∞[ une application strictement croissante de classe C 1 , telle que f (0) = 0. Montrer, en
appliquant le théorème 1.7, que :
Z x Z f (x)
∀x ∈ [0, +∞[ , xf (x) = f (t) dt + f −1 (t) dt.
0 0

Donner une interprétation graphique de ce résultat.

PC∗ – Lycée Marcelin Berthelot


8.5

1.5 Changement de variable et intégration par parties


Théorème 1.10 (changement de variable) — Soit f : I → K une fonction continue, [α, β] un segment et φ : [α, β] → I
une fonction de classe C 1 . Alors :
Z φ(β) Zβ  
f (t) dt = f φ(u) φ′ (u) du.
φ(α) α

Mise en œuvre pratique


Il y a deux façons d’utiliser cette formule : partir de l’expression de droite pour obtenir celle de gauche, ou
procéder dans le sens contraire.
Utiliser la formule de la droite vers la gauche nécessite de reconnaître dans l’expression de l’intégrale à
Zβ  
calculer g(u) du un terme de la forme g(u) = f φ(u) φ′ (u) (il faut donc « deviner » f et φ).
α
Dans ce cas, il faut donc identifier les expressions t = φ(u) et dt = φ′ (u) du.

sin u
Exemple. Soit I = du. On pose t = cos u de manière à avoir dt = − sin u du. Ainsi,
0 3 + cos2 u
Z cos π Z1
1 1  t 1
Z
− dt dt dt 1 2 1 π

I= 2
= 2
= √ = √ arctan √ = √ arctan √ = √ .
cos 0 3 + t −1 3 + t 3 −1 1 + (t/ 3)2 3 3 −1 3 3 3 3
Utiliser la formule de la gauche vers la droite est souvent utilisé pour faire apparaître une simplification dans
l’expression initiale. Une fois posés t = φ(u) et dt = φ′ (u) du il faut trouver des antécédents par φ des bornes de
l’intégrale initiale.
Z 1√
π
Exemple. Soit I = 1 − t 2 dt. On pose t = sin u et dt = cos u du. On choisit α = 0 et β = pour avoir sin α = 0
0 2
et sin β = 1. Ainsi :
Z π Z π Z π  π2
2 2 2 1 − cos(2u) u 1 π
p 
2 2
I= cos u 1 − sin u du = (cos u) du = du = − sin(2u) = .
0 0 0 2 2 4 0 4

Théorème 1.11 (intégration par parties) — Soient f et g deux fonctions de classe C 1 sur [a, b]. Alors :
Zb  b Z b
f (t)g ′ (t) dt = f (t)g(t) − f ′ (t)g(t) dt.
a a a

Cette formule peut être représentée par le schéma suivant :

+ f (t) g ′ (t)

− f ′ (t) g(t)

Le terme de gauche de la formule se retrouve sur la première ligne, le terme entre crochets sur la diagonale, et
le reste intégral sur la dernière ligne :

+ f (t) g ′ (t) + f (t) g ′ (t) + f (t) g ′ (t)

− f ′ (t) g(t) − f ′ (t) g(t) − f ′ (t) g(t)

Z b  b Z b
f (t)g ′ (t) dt = f (t)g(t) + − f ′ (t)g(t) dt
a a a

L’intérêt de ce schéma est de permettre d’effectuer plusieurs intégrations par parties successives en une seule
étape ; voici par exemple les schémas pour effectuer deux puis trois intégrations par parties successives, et les
formules correspondantes :

PC∗ – Lycée Marcelin Berthelot


8.6 Intégration

+ f (t) g ′′ (t)
Z b  b Z b
− f ′ (t) g ′ (t) ′′ ′ ′
f (t)g (t) dt = f (t)g (t) − f (t)g(t) + f ′′ (t)g(t) dt
a a a
+ f ′′ (t) g(t)

+ f (t) g (3) (t)

− f ′ (t) g ′′ (t) Z b  b Z b
f (t)g (3) (t) dt = f (t)g ′′ (t) − f ′ (t)g ′ (t) + f ′′ (t)g(t) − f (3) (t)g(t) dt
+ f ′′ (t) g ′ (t) a a a

− f (3) (t) g(t)

Exercice 3 Z π
2
En effectuant autant d’intégrations par parties que nécessaire, calculer l’intégrale t 3 sin t dt.
0

1.6 Formules de Taylor


Z b
1
Lorsque f : [a, b] → K est de classe C sur [a, b], on peut écrire : f (b) − f (a) = f ′ (t) dt.
a
Cette relation va avoir plusieurs conséquences, à commencer par le résultat suivant :

Théorème 1.12 (Inégalité des accroissements finis) — Soit f : [a, b] → K une fonction numérique de classe C 1 sur
[a, b]. On suppose l’existence d’un réel k tel que : ∀t ∈ [a, b], |f ′ (t)| ⩽ k. Alors :

|f (b) − f (a)| ⩽ k|b − a|

La généralisation de cette majoration va passer par plusieurs intégrations par parties successives. En effet, si on
adopte le schéma suivant on obtient :

+ f ′ (t) 1 Z b Z b
′ ′
f (b) = f (a) + f (t) dt = f (a) + (b − a)f (a) + (b − t)f ′′ (t) dt
− f ′′ (t) t−b a a

En réitérant ce procédé, ceci nous amène au théorème suivant :

Proposition 1.13 (Formule de Taylor avec reste intégral) — Soit f : I → K une fonction de classe C n+1 , et a ∈ I.
n Zx
X (x − a)k (k) (x − t)n (n+1)
Alors : ∀x ∈ I, f (x) = f (a) + f (t) dt.
k! a n!
k=0

n
X (x − a)k
Remarque. Tn : x 7→ f (k) (a) est une fonction polynomiale, appelée polynôme de Taylor d’ordre n de f
k!
k=0
en a. C’est un polynôme
Zx dont les dérivées successives jusqu’au rang n coïncident au point a avec celles de f . La
(x − t)n (n+1)
quantité Rn (x) = f (t) dt est l’expression intégrale de l’erreur qu’on commet en approchant f (x)
a n!
par Tn (x).
Pour majorer cette erreur, on utilise le résultat suivant :

Théorème 1.14 (inégalité de Taylor-Lagrange) — Soit f : I → K une fonction de classe C n+1 , et a ∈ I. On suppose
l’existence d’un réel M vérifiant : ∀t ∈ I, |f (n+1) (t)| ⩽ M. Alors :

|x − a|n+1
f (x) − Tn (x) ⩽ M
(n + 1)!

PC∗ – Lycée Marcelin Berthelot


8.7

Exercice 4 +∞
X (−1)k
Appliquer l’inégalité de Taylor-Lagrange entre 0 et 1 à la fonction x 7→ ln(1 + x) et en déduire : = ln 2.
k+1
k=0

Notons pour finir que la fonction f (n+1) (étant supposée continue) est bornée au voisinage de a, ce qui nous
permet de déduire de l’inégalité de Taylor-Lagrange le résultat suivant :

Corollaire (Formule de Taylor-Young) — Soit I un intervalle, a ∈ I et f : I → K une fonction de classe C n+1 .


Alors f admet au voisinage de a le développement limité suivant :

n
X (x − a)k  
f (x) = f (k) (a) + O (x − a)n+1 .
a k!
k=0

2. Intégration sur un intervalle


La notion d’intégrale que nous avons définie présente des limitations : l’intervalle d’intégration doit-être un
segment, et la fonction, continue par morceaux. Dans le cadre des fonctions à valeurs positives, ceci permet
d’interpréter l’intégrale comme étant l’aire délimitée par le graphe de la fonction.
Lorsque l’intervalle d’intégration n’est plus un segment, le domaine délimité par la fonction peut ne plus
être borné. Nous allons voir cependant que dans certains cas il reste possible de donner un sens à l’aire de ce
domaine, par le biais d’un passage à la limite dans des intégrales : c’est la notion d’intégrale généralisée.

y y

x x

I = [a, +∞[ I = [a, b[

Figure 4 – Deux exemples de domaines non bornés, soit parce que l’une des deux bornes est infinie, soit parce
que f n’admet pas de limite finie en une des deux bornes.

Nous verrons que cette intégrale généralisée partage un certain nombre de propriétés avec l’intégrale définie,
avant d’étudier un théorème d’interversion limite-intégrale adapté aux intégrales généralisées : le théorème de
convergence dominée.

Dans toute cette partie, I désigne un intervalle quelconque de R, et f : I → Z K une fonction continue par
morceaux. L’objectif est de donner un sens, lorsque c’est possible, à l’intégrale f ; on parlera alors d’intégrale
généralisée, ou encore d’intégrale impropre. I

2.1 Intégrales convergentes


Si I n’est pas un segment, I ne peut prendre qu’une des trois formes suivantes : [a, b[, ]a, b], ]a, b[, avec a ∈ R∪{−∞}
et b ∈ R ∪ {+∞}. Nous allons traiter séparément chacun des trois cas.

■ Le cas où I = [a, b[, b ∈ R ∪ {+∞} Z x


Pour tout x ∈ [a, b[, f est continue par morceaux sur le segment [a, x], donc f (t) dt a bien un sens.
a

PC∗ – Lycée Marcelin Berthelot


8.8 Intégration

Z b Z x
Définition. — On dira que l’intégrale f (t) dt est convergente lorsque f (t) dt possède une limite finie quand
a a
x tend vers b en restant dans [a, b[. On notera alors :
Z b Z x
f (t) dt = lim f (t) dt.
a x→b a

On notera que lorsque f est prolongeable par continuité en b, cette définition est en cohérence avec la notion
Z x
d’intégrale sur le segment [a, b] puisque dans ce cas, la fonction x 7→ f (t) dt est une application définie et
a
continue sur [a, b], et en particulier en b. Dans ces conditions, on dira que l’intégrale est faussement impropre,
puisqu’elle ne correspond pas à l’aire d’un domaine non borné : en prolongeant par continuité la fonction f en
b on retrouve l’intégrale d’une fonction continue par morceaux sur un segment.
Remarque. On ne manquera pas de noter la similitude de la démarche avec celle utilisée pour définir la somme
Zx n
X
d’une série : à la fonction x 7→ f (t) dt correspondent les sommes partielles n 7→ uk , et il s’agit dans les
a k=0
deux cas de déterminer si ces expressions possèdent une limite (l’une en b, l’autre en +∞).
Exemples.
Z +∞
dt
– L’intégrale de Rieman est convergente si et seulement si α > 1.
1 tα
Z +∞
– Pour tout α ∈ R, l’intégrale e−αt dt est convergente si et seulement si α > 0.
0
Pour étudier la convergence des deux exemples précédents, il a été nécessaire de calculer les « intégrales
partielles » puis de passer à la limite. En revanche, il n’est pas nécessaire de procéder à ce calcul dans le cas
Z1
de l’intégrale suivante : (t − 1) ln(1 − t) dt puisqu’il s’agit d’une intégrale faussement impropre : en effet,
0
lim(t − 1) ln(1 − t) = 0. Comme on peut le constater sur le graphe ci-dessous, le domaine délimité par le graphe
t→1
de la fonction est borné :

0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
0.0 0.2 0.4 0.6 0.8 1.0

Figure 5 – Le graphe de la fonction t 7→ (t − 1) ln(1 − t).

Exercice 5 Z +∞
dt
Discuter en fonction de la valeur de β > 0 la convergence de l’intégrale .
2 t(ln t)β

■ Le cas où I = ]a, b], a ∈ {−∞} ∪ R


Z b Z b
Définition. — De manière symétrique, on dira que l’intégrale f (t) dt est convergente lorsque f (t) dt possède
a x
une limite finie quand x tend vers a en restant dans ]a, b]. On notera alors :

PC∗ – Lycée Marcelin Berthelot


8.9

Z b Z b
f (t) dt = lim f (t) dt.
a x→a x

Exemples.
Z 1
dt
– L’intégrale de Rieman est convergente si et seulement si α < 1.
0 tα
Z 1
– L’intégrale ln(t) dt est convergente (et est égale à −1).
0
Z 2π
sin(t) sin(t)
En revanche, l’intégrale dt est faussement impropre, car lim = 1.
0 t t→0 t

Exercice 6 Z 2
dt
Étudier la convergence de l’intégrale √ .
1 t2 − 1

■ Le cas où I = ]a, b[
Dans ce dernier cas, nous allons utiliser la relation de Chasles pour nous ramener aux deux cas précédents.
Considérons en effet un point c de l’intervalle ]a, b[.
Z b Z c Z b
Définition. — On dira que l’intégrale f (t) dt est convergente lorsque les deux intégrales f (t) dt et f (t) dt
a a c
sont convergentes, et on posera alors :

Z b Z c Z b
f (t) dt = f (t) dt + f (t) dt.
a a c

x
a c b

Figure 6 – Étude de la convergence d’une intégrale lorsque I =]a, b[

Il est aisé de vérifier que cette définition ne dépend pas du choix du point c ∈ ]a, b[ (illustration figure 6).

Remarque. Pour chacun des trois types d’intervalles, une intégrale qui n’est pas convergente sera bien entendu
dite divergente.
Z +∞ Z1
dt dt
Par exemple, l’intégrale α
est toujours divergente, puisque α
ne converge que si α < 1, alors que
Z +∞ 0 t 0 t
dt
α
ne converge que si α > 1.
1 t

Remarque. Cette définition permet d’étendre sans peine au cas des intégrales convergentes la relation de
Chasles, la propriété de linéarité des intégrales, ainsi que les propriétés de croissance et de positivité.

PC∗ – Lycée Marcelin Berthelot


8.10 Intégration

Exercice 7
Soit f : [0, +∞[→ R une fonction continue.
Z +∞ Z x+1
a. Montrer que si l’intégrale f (t) dt converge, alors lim f (t) dt = 0.
0 x→+∞ x
b. Si on suppose de plus f décroissante, en déduire que lim f (x) = 0.
x→+∞
1
 
c. Toujours en supposant f décroissante, montrer que f (x) = o .
+∞ x

■ Intégration par parties et changement de variable


Une intégration par parties sur un intervalle
Z Z qui n’est pas un segment peut conduire à une erreur : l’intégrale
′ ′
u v peut être convergente sans que uv le soit. Il convient donc de procéder avec prudence, en utilisant le
I I
résultat suivant :
1
Théorème 2.1 — Soient u et v deux fonctions Z C sur un intervalle I, telles que les limites aux bornes de I
Z de classe
du produit uv existent. Alors les intégrales u ′ v et uv ′ ont même nature, et en cas de convergence,
I I
Z b b Z b 

u (t)v(t) dt = u(t)v(t) − u(t)v ′ (t) dt
a a a

où a et b désignent les bornes de I.

Remarque. Une autre possibilité consiste à effectuer l’intégration par parties sur un segment (par exemple sur
[a, x] lorsque I = [a, b[), puis, une fois tous les calculs effectués, passer à la limite (ici en faisant tendre x vers b).
Z +∞
Exemple. Pour tout n ∈ N, l’intégrale : t n e−t dt est convergente et vaut n!.
0
Exercice 8 Z +∞
1
 
Justifier la convergence et calculer la valeur de l’intégrale ln 1 + 2 dt.
0 t
En ce qui concerne le changement de variable, on possède le résultat suivant :
1
Théorème 2.2 — Soient I et J deux intervalles,
Z Zφ : J → I une bijection de classe C , et f : I → C une fonction
continue par morceaux. Alors les intégrales f et (f ◦ φ) × φ′ ont même nature, et en cas de convergence,
I J
Z φ(b) Z b
f (u) du = f ◦ φ(t)φ′ (t) dt
φ(a) a

lorsque a et b désignent les extrémités de J et φ(a) et φ(b) les limites respectives de φ en a et en b.


Z 1
Exemple. Pour tout n ∈ N, l’intégrale (ln u)n du est convergente et vaut (−1)n n!.
0
Exercice 9 Z +∞ √
t
Justifier la convergence et calculer la valeur de l’intégrale e− dt.
0

2.2 Fonctions à valeurs positives


L’inconvénient de la démarche que nous avonsZsuivi jusqu’à présent est de nécessiter le calcul d’une primitive
de f pour déterminer la nature de l’intégrale f ; or cela n’est pas toujours possible. Nous allons donc tenter
I
de nous affranchir de cette contrainte, en commençant par nous intéresser aux fonctions à valeurs positives.

PC∗ – Lycée Marcelin Berthelot


8.11

En effet,Z lorsque f : [a, b[ → R+ est une fonction continue par morceaux et à valeurs positives, l’application
x
F : x 7→ f (t) dt est une fonction croissante. Elle possède donc une limite lorsque x tend vers b si et seulement
a
si elle est majorée 6 .
De la même façon, lorsque f : ]a, b] → R+ est continue par morceaux et à valeurs positives, l’application
Zb
F : x 7→ f (t) dt est décroissante et possède donc une limite lorsque x tend vers a si et seulement si elle est
x
majorée.
Comme pour les séries, ces résultats vont engendrer plusieurs théorèmes de comparaison, qui reposent tous sur
le résultat suivant :

Théorème 2.3 (comparaison) — Soient f et g deux fonction continues par morceaux sur Zl’intervalle I, et à valeurs
Z
positives. On suppose que pour tout t ∈ I, 0 ⩽ f (t) ⩽ g(t). Alors la convergence de l’intégrale g entraîne celle de f.
I I

De ce théorème vont résulter deux corollaires, qui vont permettre de comparer la nature des intégrales que
nous allons rencontrer par la suite à la nature d’intégrales de référence. Ces deux corollaires seront énoncés
dans le cas où I = [a, b[, mais leur énoncé s’adapte sans problème au cas symétrique où I = ]a, b].

Corollaire (domination) — Soit f : [a, b[ → R+ et g : [a, b[ → R+ deux fonctions continues par morceaux, à valeurs
  Zb Zb
positives, telles que f (t) = O g(t) . Alors la convergence de g(t) dt entraîne celle de f (t) dt.
b a a

Corollaire (équivalence) — Soit f : [a, b[ → R+ et g : [a, b[ → R+ deux fonctions continues par morceaux, à
Zb Zb
valeurs positives, telles que f (t) ∼ g(t). Alors les intégrales g(t) dt et f (t) dt ont même nature.
b a a

Remarque. Les intégrales de référence que nous utiliserons sont les suivantes :
Z +∞ Z 1 Z +∞
dt dt
converge ssi α > 1, converge ssi α < 1, e−at dt converge ssi a > 0.
1 tα 0 tα 0
Z 1
On pourra rajouter à cette liste le résultat suivant : (ln t) dt converge.
0
Exercice 10 Z +∞
dt
À l’aide du théorème d’équivalence, prouver que l’intégrale √ converge.
2 t2 + 4
Z0 +∞(t + 1)
ln t
À l’aide du théorème de domination, prouver que l’intégrale dt converge.
1 t2
Z 1
dt
À l’aide d’un changement de variable, prouver que l’intégrale √ converge.
0 1 − t2

■ L’exemple de la fonction Γ Z +∞
La fonction Γ est une fonction mathématique définie sur une partie de R par la formule : Γ (x) = e−t t x−1 dt.
Z1 0
−t x−1 1 −t x−1
– Au voisinage de 0, e t ∼ 1−x , donc (théorème d’équivalence) e t dt converge si et seulement
0 t 0
si x > 0.
Z +∞
−t x−1
– Au voisinage de +∞, e t = O(e−t/2
), donc (théorème de domination) e−t t x−1 dt converge pour
+∞ 1
tout x ∈ R.
6. On ne manquera Xpas de faire l’analogie avec les séries à terme général positif : lorsque (un ) est une suite positive, la suite des sommes
partielles de la série un est croissante, et la série converge si et seulement si la suite des sommes partielles est majorée.

PC∗ – Lycée Marcelin Berthelot


8.12 Intégration

On en déduit que la fonction Γ est définie sur l’intervalle ]0, +∞[.

La propriété la plus simple de la fonction Γ est de vérifier la relation : Γ (x + 1) = xΓ (x), qui résulte d’une
intégration par parties :
Z v  v Z v Z v
−t x −t x x−1 x −v x
e t dt = − e t + −t
e xt dt = e −u
u −e v +x e−t t x−1 dt
u u u u

qui conduit en faisant tendre u vers 0 et v vers +∞ à : Γ (x + 1) = 0 − 0 + xΓ (x).


Sachant que Γ (1) = 1 on en déduit aisément la relation : ∀n ∈ N∗ , Γ (n) = (n − 1)! ; d’une certaine façon, la fonction
Γ prolonge donc la fonction factorielle à une partie de R.

2.3 Absolue convergence et fonctions intégrables


La section précédente nous a donné des outils pour prouver la convergence des intégrales des fonctions à
valeurs positives. Dans le cas général, nous allons nous y ramener à l’aide de la notion d’absolue convergence,
notion semblable à celle que l’on connait déjà dans le cadre des séries numériques.
Z
Théorème 2.4 — Soit f : I → K une
Z fonction continue par morceaux, telle que l’intégrale : |f | soit convergente.
I
Alors il en est de même de l’intégrale f . On dira que cette dernière intégrale est absolument convergente, et que la
I
fonction f est intégrable sur I.

Remarque. Lorsque I = [a, b[ une fonction intégrable sur I sera aussi dite intégrable en b. De même, une fonction
intégrable sur ]a, b] sera aussi dite intégrable en a.

Théorème 2.5 — L’espace L1 (I, K) des fonctions intégrables de I vers K est un K-espace vectoriel.

Nous pouvons traduire le théorème 2.3 et ses corollaires en termes d’intégrabilité :

Théorème 2.6 — Soit f : I → C et g : I →ZR+ deux Z fonctions continues par morceaux, telles que 0 ⩽ |f | ⩽ g. Si g est
intégrable sur I, il en est de même de f , et f ⩽ g.
I I

cos t cos t 1
Exemple. La fonction t 7→ est intégrable sur [1, +∞[ (ou encore intégrable en +∞) car ⩽ 2.
t2 t2 t

Corollaire — Soit f : [a, b[ → C et g : [a, b[ → R+ deux fonctions continues par morceaux telles que |f (t)| = O(g(t)).
b
Alors si g est intégrable sur [a, b[, il en est de même de f .

Corollaire — Soit f : [a, b[ → C et g : [a, b[ → R+ deux fonctions continues par morceaux telles que |f (t)| ∼ g(t).
b
Alors si g est intégrable sur [a, b[, il en est de même de f .

Les deux derniers résultats s’étendent bien entendu au cas de l’intervalle ]a, b].

■ Fonctions de carré intégrable


Une fonction f : I → K est dite de carré intégrable lorsque la fonction f 2 est intégrable sur I. Ces fonctions
constituent elles aussi un espace vectoriel, mais ce résultat passe par l’obtention du résultat suivant :

Lemme — Si f et g sont deux fonctions de carré intégrable, alors f g est intégrable.

Théorème 2.7 — L’espace L2 (I, K) des fonctions de carré intégrable de I vers K est un K-espace vectoriel.

PC∗ – Lycée Marcelin Berthelot


8.13

Z
Remarque. Le résultat du lemme permet en outre d’observer que l’application (f , g) 7→ f g est une application
I
bilinéaire, symétrique et positive définie sur L2 (I, R). Ceci conduit naturellement à :

Théorème 2.8 (Inégalité de Cauchy-Schwarz) — Si f et g sont deux fonctions de carré intégrables, alors
Z Z Z !1/2
2 2
|f g| ⩽ |f | |g|
I I I

■ Un exemple de semi-convergence
La notion d’intégrabilité que nous venons de définir est la seule qui généralise de manière pertinente la notion
d’intégration sur un segment ; en effet nous verrons dans la section suivante que les différents théorèmes relatifs
aux intégrales à paramètre exigent une hypothèse d’intégrabilité. Z
Cependant, il existe des intégrales
Z qui sont convergentes sans être absolument
Z convergentes : l’intégrale f
I
converge mais l’intégrale |f | diverge. On dit dans ce cas que l’intégrale f est semi-convergente. Attention,
I I
dans ce cas la fonction f n’est pas intégrable sur I (tout en possédant une intégrale, ce qui peut paraître
paradoxal).
L’étude de la semi-convergence n’est pas un objectif du programme, aussi nous nous contenterons de voir un
seul exemple :
Z +∞
sin t
Proposition 2.9 — L’intégrale de Dirichlet dt est semi-convergente.
0 t

3. Le théorème de convergence dominée


Nous avons vu dans le chapitre sur les suites de fonctions que sous réserve d’une hypothèse de convergence
uniforme sur le segment [a, b], on pouvait intervertir passage à la limite et intégration :
Z b Z b
lim fn (t) dt = lim fn (t) dt
n→+∞ a a n→+∞

Malheureusement, ce théorème ne s’étend pas au cas de l’intégration sur un intervalle quelconque, comme le
montre l’exemple suivant :
Pour tout n ∈ N∗ , fn : [0, +∞[ → R est la fonction continue et affine par morceaux dont le graphe est donné
ci-dessous :
y

1/n
x
n 2n
1
Puisque ∥fn ∥∞ = , la suite (fn ) converge uniformement vers la fonction nulle sur [0, +∞[. Pourtant, pour tout
Z +∞ n Z +∞ Z +∞
n ∈ N on a fn = 1, donc lim fn , lim fn .
0 n→+∞ 0 0 n→+∞
Nous allons maintenant étudier un théorème permettant de faire une telle interversion dans le cadre d’un
intervalle quelconque, segment ou pas. Cependant, la preuve de ce résultat sera admise, car inaccessible à ce
niveau.

PC∗ – Lycée Marcelin Berthelot


8.14 Intégration

3.1 Le théorème de convergence dominée


Ce théorème s’applique aux fonctions à valeurs réelles ou complexes.

Théorème 3.1 (Théorème de convergence dominée) — Soit (fn ) une suite de fonctions à valeurs réelles ou
complexes, continues par morceaux sur I. On suppose que :
(i) (fn ) converge simplement sur I vers une fonction f continue par morceaux sur I ;
(ii) il existe une fonction φ intégrable sur I, telle que :

∀n ∈ N, |fn | ⩽ φ (hypothèse de domination).


Z Z
Alors les fonctions fn et f sont intégrables sur I, et : f = lim fn .
I n→+∞ I

Remarque. IL n’est pas difficile de justifier l’intégrabilité des fonctions fn : il s’agit d’une application directe
du théorème 2.6. De même, l’hypothèse de convergence simple permet le passage à la limite dans l’inégalité :
∀t ∈ I, |fn (t)| ⩽ φ(t) pour obtenir : ∀t ∈ I, |f (t)| ⩽ φ(t), ce qui permet d’appliquer de nouveau le théorème 2.6
pour justifier l’intégrabilité de f . En revanche, nous admettrons l’égalité encadrée.
Z π
2
Exemple. Considérons les intégrales de Wallis (cos t)n dt. La suite de fonctions fn : t 7→ (cos t)n converge
0
π
 
simplement vers la fonction f : t 7→ 0 sur l’intervalle 0, . Les fonctions fn sont dominées par la fonction
2 Z π Z π
2 2
intégrable φ : t 7→ 1, donc le théorème de convergence dominée s’applique : lim (cos t)n dt = f (t) dt = 0.
n→+∞ 0 0
Z +∞
n n
Exemple. Considérons pour n ⩾ 1 les intégrales e−t dt. La suite de fonctions fn : t 7→ e−t converge
 0


 1 si t ∈ [0, 1[
 −1
simplement vers la fonction f : t 7→  e si t = 1 . Les fonctions fn sont dominées par la fonction inté-



0

si t > 1
 Z +∞
1 si t ∈ [0, 1]
 n
e−t dt =

grable φ : t 7→  , donc le théorème de convergence dominée s’applique : lim
e−t si t > 1
 n→+∞ 0
Z +∞
f (t) dt = 1.
0
Exercice 11 Z +∞
∗ h(t)
Soit h : [0, +∞[ → R une fonction continue et bornée, et, pour n ∈ N , un = dt.
0 1 + n2 t 2
Déterminer la limite de la suite (un ).
Lorsque h(0) , 0 et l’aide du changement de variable x = nt, déterminer un équivalent de un .

3.2 Intégration terme à terme d’une série de fonctions


Pour inverser série et intégrale, nous allons là encore être obligés d’admettre le résultat suivant :

Théorème 3.2 — Soit (fn ) une suite de fonctions intégrables sur I. On suppose que :
X +∞
X
(i) la série de fonctions fn converge simplement et la somme S = fn est continue par morceaux ;
XZ n=0
(ii) la série |fn | est convergente.
I Z +∞ Z
X
Alors la fonction S est intégrable sur I, et S = fn .
I n=0 I
XZ Z Z
Remarque. On peut observer que la série fn converge absolument puisque fn ⩽ |fn |.
I I I

PC∗ – Lycée Marcelin Berthelot


8.15

Z 1
ln(1 + x)
Exemple. Nous allons calculer l’intégrale dx à l’aide d’un développement en série.
0 x
+∞ +∞
X xn ln(1 + x) X xn−1
∀x ∈ ]0, 1[, ln(1 + x) = (−1)n−1 donc = (−1)n−1 .
n x n
n=1 n=1
xn−1 X ln(1 + x)
Notons fn : x 7→ (−1)n−1 . La série de fonctions fn converge simplement, et la somme S : x 7→ est
n x
continue. Z
1
xn−1 1 X 1
On calcule (−1)n−1 dx = 2 ; sachant que la série converge, le théorème d’intégration terme à
0 n n n2
Z1 +∞
ln(1 + x) X (−1)n−1 π2
terme s’applique : dx = = .
0 x n2 12
n=1

Exemple. Considérons un réel α > 0 et, pour n ∈ N∗ , les fonctions fn : x 7→ xα−1 e−nx . Il s’agit de fonctions
+∞
X xα−1
continues et intégrables sur ]0, +∞[. Pour tout x > 0, xα−1 e−nx = x et (en posant y = nx) :
e −1
n=1
Z +∞ Z +∞
1 Γ (α)
xα−1 e−nx dx = y α−1 e−y dy = .
0 nα 0 nα
X 1 xα−1
La série converge dès lors que α > 1. On en déduit que la fonction x 7 → est intégrable sur ]0, +∞[
nα ex −1
lorsque α > 1 (résultat qu’on pouvait obtenir directement), et dans ce cas :
+∞ +∞
xα−1
Z X 1
x
dx = Γ (α) = Γ (α)ζ(α).
0 e −1 nα
n=1

+∞ +∞
π2
Z X 1
x
Par exemple, pour α = 2 on obtient : dx = = .
0 ex −1 n2 6
n=1

Exercice 12 +∞
Z 1 X (−1)n
ln t
La constante de Catalan est le réel : K = − 2
dt. Établir l’égalité : K = .
0 1+t (2n + 1)2
n=0

■ Une démarche alternative


+∞
X (−1)n
Considérons l’exemple suivant : on cherche à calculer en utilisant la suite de calculs suivante :
n+1
n=0

+∞ +∞ 1 +∞
Z 1X 1
(−1)n
Z Z
X X ? dt
= (−1)n t n dt = (−1)n t n dt = = ln 2.
n+1 0 0 n=0 0 1+t
n=0 n=0

Il nous faut justifier la deuxième égalité de ce calcul.


Essayons d’utiliser le théorème 3.2 en notant fn : t 7→ (−1)n t n sur I = [0, 1[. L’hypothèse (i) est bien vérifiée, mais
X 1
pas l’hypothèse (ii) car la série diverge. Dans ce cas, la solution consiste à utiliser le théorème 3.1 à la
n+1
suite des restes. On écrit :
1 N 1 1 N 1 +∞
(−1)n
Z Z Z Z
dt X X X
= (−1)n t n dt + RN (t) dt = + RN (t) dt avec RN (t) = (−1)n t n .
0 1+t 0 0 n+1 0
n=0 n=0 n=N+1

D’après le critère spécial relatif aux séries alternées, |RN (t)| ⩽ t N+1 ⩽ 1, ce qui permet d’appliquer le théorème
Z1 Z1 Z1 +∞
dt X (−1)n
de convergence dominée : lim RN (t) dt = lim RN (t) dt = 0 et ainsi conclure : = .
N→+∞ 0 0 N→+∞ 0 1+t n+1
n=0

PC∗ – Lycée Marcelin Berthelot


8.16 Intégration

3.3 Intégrales dépendant d’un paramètre


Considérons maintenant une fonction à deux variables f : A × I → K telle que pour tout x ∈ A, la fonction
t 7→ f (x, t) soit continue par morceaux et intégrable sur I. On peut alors définir une application g : A → K en
posant : Z
∀x ∈ A, g(x) = f (x, t) dt.
I
La continuité de f vis-à-vis de sa variable x permet-elle d’en déduire celle de g ? La réponse est malheureusement
négative. Considérons à cet effet l’application :
Z +∞
f : (x, t) 7→ x e−tx et g : x 7→ x e−xt dt.
0
Pour tout x ⩾ 0, l’application f (x, ·) est intégrable sur [0, +∞[, donc g est bien définie.
Il est aisé de calculer : g(0) = 0 et ∀x > 0, g(x) = 1, aussi g est discontinue en 0 bien que f soit continue vis-à-vis
de x.
Pour en déduire la continuité de la fonction g, il va donc être nécessaire d’avoir une hypothèse supplémentaire :
ce sera une hypothèse de domination.

■ Continuité sous le signe intégral


Théorème 3.3 — Soit f : A × I → K une fonction telle que :
(i) pour tout x ∈ A, la fonction t 7→ f (x, t) est continue par morceaux ;
(ii) pour tout t ∈ I, la fonction x 7→ f (x, t) est continue sur A ;
(iii) il existe une application φ intégrable sur I telle que :
∀(x, t) ∈ A × I,|f (x, t)| ⩽ φ(t) (hypothèse de domination).
Z
Alors l’application g : A → K définie par : ∀x ∈ A, g(x) = f (x, t) dt est définie et continue en tout point de A.
I
Z +∞
Exemple. Rappelons que la fonction Γ : x 7→ t x−1 e−t dt est définie sur ]0, +∞[. Nous alons prouver qu’elle
y est continue. 0
Notons f (x, t) = t x−1 e−t et considérons deux réels 0 < a < b. Pour tout x ∈ [a, b] on a : ∀t ∈ ]0, 1], 0 ⩽ t x−1 e−t ⩽
t a−1 e−t et pour tout t ∈ [1, +∞[, 0 ⩽ t x−1 e−t ⩽ t b−1 e−t . Ainsi, pour tout t > 0 on a |f (x, t) ⩽ φ(t) avec

a−1 −t
t e si t ⩽ 1


φ(t) = 
t b−1 e−t si t ⩾ 1

L’application φ est intégrable sur ]0, +∞[ et domine f , donc Γ est continue sur [a, b], puis par recouvrement sur
]0, +∞[.
Remarque. Comme nous venons de le voir sur cet exemple, il est possible de procéder par recouvrement, en
prouvant par exemple la continuité sur tout segment inclus dans I.

■ Limites aux bornes de l’intervalle de définition


La notion de caractérisation séquentielle permet d’obtenir une version continue du théorème de convergence
dominée, sous la forme :

Théorème 3.4 — Soit f : A × I → K une fonction telle que :


(i) pour tout x ∈ A, la fonction t 7→ f (x, t) est continue par morceaux ;
(ii) pour tout t ∈ I, f (x, t) −→ ℓ(t), la fonction ℓ étant continue par morceaux sur I ;
x→a
(iii) il existe une application φ intégrable sur I telle que :
∀(x, t) ∈ A × I, |f (x, t)| ⩽ φ(t) (hypothèse de domination).
Z Z
Alors ℓ est intégrable sur I, et f (x, t) dt → ℓ(t) dt.
I x→a I

PC∗ – Lycée Marcelin Berthelot


8.17

■ Dérivation sous le signe intégral


Théorème 3.5 — Soit f : A × I → K une application vérifiant les hypothèses suivantes :
(i) pour tout x ∈ A, la fonction t 7→ f (x, t) est continue par morceaux et intégrable sur I ;
(ii) pour tout t ∈ I, x 7→ f (x, t) est de classe C 1 sur A ;
∂f
(iii) pour tout x ∈ A la fonction t 7→ (x, t) est continue par morceaux sur I ;
∂x
(iv) il existe une application φ continue par morceaux, positive et intégrable sur I telle que :

∂f
∀(x, t) ∈ A × I, (x, t) ⩽ φ(t) (hypothèse de domination).
∂x
Z Z
∂f
Alors la fonction g : x 7→ f (x, t) dt est de classe C 1 sur A, et : ∀x ∈ A, g ′ (x) = (x, t) dt.
I I ∂x

Remarque. À l’instar de la continuité, il est fréquent d’avoir à procéder par recouvrement, par exemple en
prouvant à l’aide de ce théorème que g est de classe C 1 sur tout segment inclus dans J.

Exercice 13 +∞ 2
e−xt
Z
On considère la fonction g : x 7−→ dt.
0 1 + t2
a. Montrer que g est définie et continue sur [0, +∞[.
b. Montrer que g est de classe C 1 sur ]0, +∞[ et solution sur cet intervalle de l’équation différentielle :
r
′ π
y −y = .
4x

Extension au cas des fonctions de classe C k


Enfin, nous admettrons l’extension de ce théorème, à l’instar du théorème équivalent pour les séries de
fonctions :

Proposition 3.6 — Soit f : A × I → K une application vérifiant les hypothèses suivantes :


(i) pour tout x ∈ A, la fonction t 7→ f (x, t) est continue par morceaux et intégrable sur I ;
(ii) pour tout t ∈ I, x 7→ f (x, t) est de classe C k sur A ;
∂i f
(iii) pour tout x ∈ A et tout i ∈ ⟦1, k − 1⟧, la fonction t 7→ (x, t) est continue par morceaux et intégrable sur I ;
∂xi
∂k f
(iv) pour tout x ∈ A la fonction t 7→ (x, t) est continue par morceaux sur I ;
∂xk
(v) il existe une application φ continue par morceaux, positive et intégrable sur I telle que :

∂k f
∀(x, t) ∈ A × I, (x, t) ⩽ φ(t) (hypothèse de domination).
∂xk

∂i f
Z Z
Alors la fonction g : x 7→ f (x, t) dt est de classe C k sur A, et : ∀x ∈ A, ∀i ∈ ⟦1, k⟧, g (i) (x) = i
(x, t) dt.
I I ∂x

PC∗ – Lycée Marcelin Berthelot


8.18

PC∗ – Lycée Marcelin Berthelot


Chapitre IX 9.1

Espaces vectoriels normés


Au tournant du XXe siècle, les travaux de Hilbert et de Banach relatifs aux espaces de fonctions étendent
la notion de limite, initialement restreinte aux suites et fonctions réelles, à un cadre plus vaste : les espaces
vectoriels normés, ouvrant ainsi la porte à l’analyse fonctionnelle, notion maintenant omniprésente dans toutes les
branches des mathématiques.

1. Espaces vectoriels normés


1.1 Normes et distances
En géométrie, la norme est une extension de la valeur absolue des nombres aux vecteurs. Elle permet de mesurer
la longueur d’un vecteur, mais définit aussi, nous le verrons, une distance entre deux vecteurs. Cette distance
nous permettra de définir la notion de suite convergente, puis de limite d’une fonction à valeurs vectorielles.

Dans tout le chapitre, E désigne un K-espace vectoriel, avec K = R ou C.

Définition. — On appelle norme sur E toute application N : E → R+ vérifiant :


(i) N(x) = 0 =⇒ x = 0E ;
(ii) pour tout x ∈ E, pour tout λ ∈ K, N(λx) = |λ|N(x) ;
(iii) pour tout (x, y) ∈ E2 , N(x + y) ⩽ N(x) + N(y) (inégalité triangulaire).
On appelle espace vectoriel normé tout espace vectoriel muni d’une norme.

En général, on conviendra d’utiliser la notation usuelle N(x) = ∥x∥.

Proposition 1.1 (seconde inégalité triangulaire) — Pour tout (x, y) ∈ E2 , ∥x∥ − ∥y∥ ⩽ ∥x − y∥.

Remarque. Le terme de norme ne vous est pas p inconnu : à tout produit scalaire défini sur un espace vectoriel
réel est associée une norme définie par : ∥x∥ = ⟨x | x⟩. Ce type de norme respecte la définition que nous venons
de donner, et de telles normes seront qualifiées de norme euclidienne.
Mais attention : dans le cas général une norme n’est pas forcément issue d’un produit scalaire.

Exemples. Lorsque E = Rp on utilise souvent l’une des normes suivantes : si x = (x1 , . . . , xp ) ∈ Rp ,

p
X p
X 1/2
 
∥x∥∞ = max |x1 |, |x2 |, . . . , |xp | ∥x∥1 = |xk | ∥x∥2 = xk2
k=1 k=1

Remarquons que les deux premières normes peuvent être aussi définies sur Cp .

Exemples.
• Sur l’espace B(I, R) des fonctions bornées de I dans R, la norme infinie ∥f ∥∞,I = sup f (x) est une norme ;
x∈I
Z
• sur l’espace L1 (I, R) des fonctions continues et intégrables sur I, ∥f ∥1 = |f (t)| dt est une norme ;
I
sZ
• sur l’espace L2 (I, R) des fonctions continues et de carré intégrable sur I, ∥f ∥2 = f (t)2 dt est une norme
euclidienne. I

PC∗ – Lycée Marcelin Berthelot


9.2 Espaces vectoriels normés

■ Distance entre deux vecteurs


Définition. — Lorsque E est un espace vectoriel normé et (x, y) ∈ E2 , on appelle distance entre x et y le réel
d(x, y) = ∥y − x∥.

Cette notion de distance est importante ; c’est elle qui nous permettra de généraliser en dimension supérieure
les notions d’analyse que sont la convergence des suites, la continuité des fonctions, . . .
À chaque norme est associé une distance différente, mais toutes les distances ont en commun les propriétés
suivantes :

Proposition 1.2 — Si d est une distance de E, alors :


– ∀(x, y) ∈ E2 , d(x, y) = 0 ⇐⇒ x = y (séparation) ;
2
– ∀(x, y) ∈ E , d(x, y) = d(y, x) (symétrie) ;
3
– ∀(x, y, z) ∈ E , d(x, z) ⩽ d(x, y) + d(y, z) (inégalité triangulaire).

Définition. — On appelle sphère de centre a ∈ E et de rayon r > 0 l’ensemble des vecteurs x ∈ E vérifiant : d(a, x) = r.
Autrement dit, n o
S(a, r) = x ∈ E ∥x − a∥ = r .

Exercice 1
Dessiner la sphère unité (c’est-à-dire la sphère de centre 0E de rayon 1) pour chacune des trois normes ∥ · ∥∞ ,
∥ · ∥1 et ∥ · ∥2 dans R2 .
Par analogie aux intervalles ouverts et fermés de R, on adopte en outre les définitions suivantes :

Définition. — On appelle boule ouverte de centre a ∈ E et de rayon r > 0 l’ensemble des vecteurs x ∈ E vérifiant :
d(a, x) < r. Autrement dit, n o
B̊(a, r) = x ∈ E ∥x − a∥ < r .
On appelle boule fermée de centre a ∈ E et de rayon r > 0 l’ensemble des vecteurs x ∈ E vérifiant : d(a, x) ⩽ r.
Autrement dit, n o
B(a, r) = x ∈ E ∥x − a∥ ⩽ r .

Remarque. Les intervalles sont les seules parties convexes de R, c’est-à-dire vérifiant la propriété :

∀(a, b) ∈ A2 , [a, b] ⊂ A.

Dans le cas d’un espace vectoriel, on définit la notion de segment en posant :


n o
∀(a, b) ∈ E2 , [a, b] = (1 − t)a + tb t ∈ [0, 1]

On peut dès lors définir la notion de convexité dans un espace vectoriel :

Définition. — Une partie A d’un espace vectoriel (normé) E est dite convexe lorsque :

∀(a, b) ∈ A2 , [a, b] ⊂ A.

Proposition 1.3 — Les boules ouvertes et les boules fermées sont des parties convexes d’un espace vectoriel normé.

C’est notion de boule permet d’étendre certaines propriétés topologiques de R au cas d’un espace vectoriel
normé. Prenons par exemple la notion de partie bornée. Dans le cas réel, une partie bornée est définie ainsi :
« une partie A de R est dite bornée lorsqu’il existe un réel M > 0 tel que A ⊂ [−M, M] ». Dans le cadre des espaces
vectoriels normés, cette définition devient :

Définition. — Soit E un K-espace vectoriel de dimension finie muni d’une norme ∥ · ∥. Une partie A de E est dite
bornée lorsqu’il existe M > 0 tel que A ⊂ B(0E , M), autrement dit tel que : ∀x ∈ A, ∥x∥ ⩽ M.

PC∗ – Lycée Marcelin Berthelot


9.3

Normes équivalentes
Nous avons vu dans l’exercice 1 que la forme des boules dépend de la norme choisie, en conséquence de quoi la
notion de partie bornée dépend a priori du choix de la norme. Cependant, on peut constater que dans R2 et
pour les trois normes que nous avons pris en exemple, ce n’est pas le cas : si une partie A est bornée pour une
de ces trois norme, elle le sera pour les deux autres (illustration figure 1).

Figure 1 – Une partie bornée pour la norme ∥ · ∥∞ l’est aussi pour les normes ∥ · ∥1 et ∥ · ∥2 .

Cette propriété résulte des inégalités suivantes. Pour tout x ∈ R2 ,


– ∥x∥1 ⩽ 2∥x∥∞ donc toute partie bornée pour la norme ∥ · ∥∞ l’est aussi pour la norme ∥ · ∥1 ;
– ∥x∥∞ ⩽ ∥x∥1 donc toute partie bornée pour la norme ∥ · ∥1 l’est aussi pour la norme ∥ · ∥∞ ;
Et de même,

– ∥x∥2 ⩽ 2∥x∥∞ donc toute partie bornée pour la norme ∥ · ∥∞ l’est aussi pour la norme ∥ · ∥2 ;
– ∥x∥∞ ⩽ ∥x∥2 donc toute partie bornée pour la norme ∥ · ∥2 l’est aussi pour la norme ∥ · ∥∞ ;

Définition. — Deux normes N1 et N2 sont dites équivalentes lorsqu’il existe deux réels α > 0 et β > 0 tels que pour
tout x ∈ E, N1 (x) ⩽ αN2 (x) et N2 (x) ⩽ βN1 (x).

Proposition 1.4 — Si deux normes N1 et N2 sont équivalentes, toute partie bornée pour l’une de ces deux normes
l’est aussi pour l’autre.

Nous admettrons le résultat notable suivant :

Théorème 1.5 — Dans un K-espace vectoriel de dimension finie, toutes les normes sont équivalentes.

avec pour conséquence immédiate :

Corollaire — Dans un espace vectoriel de dimension finie, la notion de partie bornée est indépendante du choix de
la norme.

Attention. On prendra bien garde au fait que l’équivalence des normes n’est valable qu’en dimension finie. Cette
hypothèse est primordiale, et a pour conséquence que les différentes notions d’analyse réelle qu’on prolonge au
cas d’un espace vectoriel de dimension finie (à commencer par la convergence des suites au paragraphe suivant)
ne dépendent pas du choix de la norme utilisée. En revanche, ce théorème est mis en défaut en dimension
infinie, avec pour conséquence que dans ces espaces une partie peut être bornée pour une certaine norme, et
pas pour d’autres.

PC∗ – Lycée Marcelin Berthelot


9.4 Espaces vectoriels normés

1.2 Normes d’opérateurs (notion hors programme)


On appelle norme matricielle toute norme sur Mn (K) qui vérifie en plus la propriété :

∀(A, B) ∈ Mn (K)2 , ∥AB∥ ⩽ ∥A∥.∥B∥.

la manière usuelle de définir une norme matricielle consiste à interpréter A ∈ Mn (K) comme un endomorphisme
de Kn : à partir d’une norme ∥ · ∥ sur Kn on définit sur Mn (K) la norme :

∥Ax∥
|||A||| = sup = sup ∥Ax∥.
x∈Kn \{0} ∥x∥ ∥x∥=1

Une telle norme est appelée une norme d’opérateur, puisqu’on interprète A comme un opérateur linéaire de Kn
dans lui-même. Certains auteurs parlent de norme subordonnée (au choix de la norme sur Kn ).

Proposition 1.6 — L’application A 7→ |||A||| définit une norme matricielle sur Mn (K).
n
X
Exemple. La norme d’opérateur associée à la norme ∥ · ∥∞ de Kn est définie par : |||A||| = max |aij |.
1⩽i⩽n
j=1

1.3 Suites dans un espace vectoriel normé


Définition. — On dit qu’une suite (un ) d’éléments d’un espace vectoriel normé E converge vers ℓ ∈ E lorsque la
distance de un à ℓ tend vers 0 : lim ∥un − ℓ∥ = 0.
n→+∞

Géométriquement, cette dernière propriété se traduit ainsi : pour tout ϵ > 0 il existe un rang à partir duquel
tous les termes de la suite (un ) sont dans la boule fermée de centre ℓ de rayon ϵ.

ℓ u0
ϵ

uN

Figure 2 – À partir d’un certain rang, tous les termes de la suite (un ) sont dans B(ℓ, ϵ).

Exercice 2
Soit E un espace vectoriel normé, et (un ) une suite de vecteurs de E qui converge vers ℓ ∈ E. Prouver les
propriétés suivantes :
a. la suite réelle (∥un ∥) converge vers ∥ℓ∥ ;
b. la suite (un ) est bornée.
Remarque. la définition de la convergence dépend a priori du choix de la norme utilisée. Cependant, si deux
normes sont équivalentes, la convergence pour l’une est équivalente à la convergence pour l’autre. Compte tenu
du théorème 1.5, on en déduit :

Théorème 1.7 — Dans un K-espace vectoriel de dimension finie, la convergence d’une suite et la valeur de la limite
ne dépendent pas du choix de la norme.

PC∗ – Lycée Marcelin Berthelot


9.5

Remarque. Ce théorème le suggère en creux : en dimension infinie, la notion de convergence dépend du choix
de la norme. Et en effet, il est possible de donner des exemples de suites en dimension infinie qui vont converger
pour une norme et diverger pour l’autre, voire des exemples de suites qui convergent vers des limites différentes
suivant le choix de la norme !

Proposition 1.8 — Soit E un K-espace vectoriel de dimension finie, (e1 , . . . , ep ) une base de E, (un ) une suite de
vecteurs et ℓ ∈ E un vecteur. On pose :
p
X Xp
∀n ∈ N, un = un,k ek et ℓ = ℓk ek .
k=1 k=1

Alors (un ) converge vers ℓ si et seulement si pour tout k ∈ ⟦1, p⟧, la suite (un,k ) converge vers ℓk .

Autrement dit, en dimension finie l’étude de la convergence d’une suite se ramène à celle de ses coordonnées
dans une base.
Exercice 3
Soit A ∈ Mp (K) telle que la suite (An ) converge vers une matrice L. Montrer que L est une matrice de projection.

2. Topologie d’un espace vectoriel normé


Dans toute cette partie, nous considérons un espace vectoriel E muni d’une norme notée ∥ · ∥.

2.1 Ouverts et fermés


Un ensemble ouvert, aussi appelé une partie ouverte ou, plus fréquemment, un ouvert, est, de manière informelle,
une partie O de E qui possède la propriété suivante : si a appartient à cet ensemble, O contiendra aussi tous les
points suffisamment proches de a. Quant aux fermés, même si nous ne les définirons pas ainsi, nous verrons
qu’il s’agit des parties complémentaires des ouverts.
C’est la notion de boule, que nous avons déjà rencontrée, qui permet de définir la notion de proximité, ou encore
de voisinage, dont nous avons besoin pour définir les ouverts.

Définition. — Soit A une partie de E, et a un point de A. Lorsque A contient une boule (ouverte ou fermée) centrée
en a, on dit que a est intérieur à A.

Le point a est intérieur à A, mais pas le point b : quel


a b que soit le rayon de la boule centrée en b, celle-ci ne
sera pas incluse dans A.

Définition. — Un élément a ∈ E est dit adhérent à une partie A de E lorsque toute boule (ouverte ou fermée) centrée
en a contient au moins un point de A : ∀r > 0, B(a, r) ∩ A , €.

c
A

a Les points a et b sont adhérents à A, mais pas le point c.


b

PC∗ – Lycée Marcelin Berthelot


9.6 Espaces vectoriels normés

Remarque. Tout point de A est bien entendu adhérent à A.


Exercice 4
n o
Soit A une partie de E et x ∈ E. On pose d(x, A) = inf ∥x − a∥ a ∈ A . Montrer que x est adhérent à A si et
seulement si d(x, A) = 0.

Théorème 2.1 (caractérisation séquentielle) — Un point a ∈ E est adhérent à A si et seulement s’il existe une suite
(un ) d’éléments de A qui converge vers a.

■ Intérieur, adhérence et frontière


Définition. — Lorsque A est une partie quelconque de E, on appelle
– intérieur de A l’ensemble Å des points intérieurs à A ;
– adhérence de A l’ensemble A des points adhérents à A ;
– frontière de A l’ensemble Fr(A) = A \ Å.

Exemple. Si A est une boule (ouverte ou fermée) de centre a de rayon r, Å est la boule ouverte B̊(a, r), A est la
boule fermée B(a, r), Fr(A) est la sphère S(a, r).
Exemples. L’adhérence de Q dans R est égal à R car tout nombre réel est limite d’une suite de nombres
rationnels. L’intérieur de Q dans R est égal à l’ensemble vide car toute boule de rayon r > 0 contient des
irrationnels.
Remarque. A l’instar de Q dans R, une partie A d’un espace vectoriel normé E sera dite dense dans E lorsque
A = E.

■ Ouverts et fermés
Définition. — Une partie O de E est dite ouverte lorsque tous ses points sont intérieurs, c’est à dire :

∀x ∈ O, ∃r > 0 B(x, r) ⊂ O.

Autrement dit, un ouvert est une partie égale à son intérieur.


Exemples.
– Les intervalles ouverts sont des ouverts de R ;
– toute boule ouverte est un ouvert ;
– € et E sont des ouverts ;
– l’intersection ou la réunion de deux ouverts est un ouvert.

Définition. — Une partie F de E est dite fermée lorsque tout point adhérent à F appartient à F , soit encore lorsque
toute suite d’éléments de F convergeant dans E a sa limite dans F .

Autrement dit, un fermé est une partie égale à son adhérence.


Exemple.
– Les intervalles fermés de R sont des fermés ;
– toute boule fermée est un fermé ;
n o
– toute sphère S(a, r) = x ∈ E ∥x − a∥ = r est un fermé ;
– € et E sont des fermés ;
– la réunion ou l’intersection de deux fermés est un fermé.

Proposition 2.2 — Dans un espace vectoriel de dimension finie, les sous-espaces vectoriels de E sont des fermés.

Enfin, le résultat qui suit établit que les notions d’ouvert et de fermé sont indissociables :

PC∗ – Lycée Marcelin Berthelot


9.7

Théorème 2.3 — Une partie F de E est fermée si et seulement si la partie complémentaire O = E \ F est ouverte.

Exercice 5
Soit A une partie d’un espace vectoriel normé E.
a. Montrer que A est ouvert si et seulement si A ∩ Fr(A) = € ;
b. Montrer que A est fermé si et seulement si Fr(A) ⊂ A.

2.2 Limite et continuité


Dans cette section, E et F désignerons deux R-espaces vectoriels normés de dimensions finies, la norme étant
notée ∥ · ∥ indépendamment de l’espace.
U désignera une partie de E, et f : U → F une fonction.

■ Étude locale d’une application


Définition. — Si a désigne un point de E adhérent à U , on dit que f (x) admet ℓ ∈ F pour limite lorsque x tend vers
a lorsque :

∀ϵ > 0, ∃η > 0 ∀x ∈ U , ∥x − a∥ ⩽ η ⇒ ∥f (x) − ℓ∥ ⩽ ϵ.

On notera dans ce cas : lim f (x) = ℓ.


x→a

L’existence d’une limite, et la valeur de cette limite, sont des notions qui ne dépendent pas des normes utilisées
si on remplace une norme par une norme équivalente, ce qui est toujours le cas en dimension finie.
Les théorèmes généraux relatifs aux opérations algébriques sur les limites se généralisent sans peine, ainsi que
celui relatif à la limite d’une application composée.
Enfin, on peut faire le lien avec les suites de vecteurs :

Théorème 2.4 (caractérisation séquentielle) — f (x) admet ℓ pour  limite


 lorsque x tend vers a si et seulement si
pour toute suite (an ) d’éléments de U qui converge vers a, la suite f (an ) converge vers ℓ.

Ce résultat, associé à la proposition 1.8, permet d’en déduire le

Corollaire — f (x) admet ℓ pour limite si et seulement si chacune des composantes de f (x) dans une base arbitraire
de E admet pour limite la composante de ℓ dans cette même base.

■ Relations de comparaison
Soit a un point adhérent à U , et φ : U → R une fonction à valeurs réelles ne s’annulant pas en dehors de a.
 f est dominée par φ au voisinage de a lorsque f /φ est bornée au voisinage de a ; on note alors
On dit que
f (x) = O φ(x) .
a
f (x)  
On dit que f est négligeable devant φ au voisinage de a lorsque lim = 0 ; on note alors : f (x) = o φ(x) .
x→a φ(x) a

Exemples. f (x) = O(1) traduit le fait que f est bornée au voisinage de a.


a
f (x) = ℓ + o(1) traduit le fait que lim f (x) = ℓ.
a x→a

■ Continuité
Définition. — f est dite continue en a ∈ U lorsque lim f (x) = f (a), autrement dit lorsque :
x→a

∀ϵ > 0, ∃η > 0 ∀x ∈ U , ∥x − a∥ ⩽ η ⇒ ∥f (x) − f (a)∥ ⩽ ϵ.

PC∗ – Lycée Marcelin Berthelot


9.8 Espaces vectoriels normés

On notera que la décomposition dans une base de F permet de ramener l’étude de la continuité à des fonctions
à valeurs réelles : si (e1 , . . . , en ) est une base de F et f = f1 e1 + · · · + fn en , f est continue en a si et seulement si les
fonctions à valeurs réelles f1 , . . . , fn sont continues en a.

Continuité sur une partie


Une fonction f : U ⊂ E → F est dite continue sur U lorsque f est continue en tout point de U . Bien entendu
les propriétés usuelles de la continuité (opérations algébriques, composition, . . .) se prolongent sans réelle
modification au cas des espaces vectoriels normés.

Théorème 2.5 — On considère une fonction f : E → R une fonction continue à valeurs réelles ou complexes.
n o
– Si O désigne une partie ouverte de R, alors : f −1 (O) = x ∈ E f (x) ∈ O est un ouvert de E.
n o
– Si F désigne une partie fermée de R, alors : f −1 (F ) = x ∈ E f (x) ∈ F est un fermé de E.

Ce résultat permet en particulier de donner des exemplesn simples de parties


o ouvertes ou fermées.n Par exemple, sio
f : E → R est une fonction continue, et α ∈ R, la partie x ∈ E f (x) > α est ouverte et les parties x ∈ E f (x) ⩾ α
n o
et x ∈ E f (x) = α fermées.
n o
Exemple. L’ensemble O = (x, y) ∈ R2 0 < xy < 1 est un ouvert de R2 .
y

R2
!
−→ R O
En effet, l’application est continue et ]0, 1[ est un x
(x, y) 7−→ xy
ouvert de R.

Exercice 6
n o
Soit A = (x1 , . . . , xn ) ∈ Rn i , j =⇒ xi , xj . Montrer que A est un ouvert de Rn .
Nous avons vu que les parties ouvertes possédaient un certain nombre de propriétés communes avec les
intervalles ouverts ; il en est de même des parties fermées et des intervalles fermés.
De la même façon, les parties fermées et bornées possèdent des propriétés communes avec les segments,
notament le résultat suivant, que nous admettrons :

Théorème 2.6 (Théorème de la borne atteinte) — Soit K une partie fermée et bornée d’un K-espace vectoriel normé
E de dimension finie, et f : K → R une fonction continue. Alors f est bornée et atteint ses bornes.

■ Fonctions lipschitziennes
Une application lipschitzienne est une application possédant une propriété de régularité plus forte que la
continuité.

Définition. — Soient E et F deux K-espaces vectoriels normés, U une partie de E, et k > 0. Une application f : U → F
est dite k-lipschitzienne lorsque :

∀(x, y) ∈ U 2 , ∥f (y) − f (x)∥ ⩽ k∥y − x∥.

Théorème 2.7 — Toute application lipschizienne est continue sur son ensemble de définition.

Exemple. La seconde inégalité triangulaire : ∥y∥ − ∥x∥ ⩽ ∥y − x∥ traduit le fait que l’application x 7→ ∥x∥ est une
application 1-lipschitzienne de E ; il s’agit donc d’une application continue.

PC∗ – Lycée Marcelin Berthelot


9.9

2.3 Le cas des applications linéaires


Parmi les applications d’un espace vectoriel vers un autre se trouve en particulier les applications linéaires.
Il est légitime de se poser la question de leur continuité. Cette section y répond, en montrant mieux : toute
application linéaire est, en dimension finie, lipschitzienne.
Mais tout d’abord, constatons que la définition de cette notion se simplifie dans le cas d’une application linéaire
u ∈ L(E, F) : en effet, u est k-lipschitzienne si et seulement si :

∀(x, y) ∈ E2 , ∥u(y) − u(x)∥ ⩽ k∥y − x∥


⇐⇒ ∀(x, y) ∈ E2 , ∥u(y − x)∥ ⩽ k∥y − x∥
⇐⇒ ∀z ∈ E, ∥u(z)∥ ⩽ k∥z∥

Nous pouvons maintenant démontrer le :

Théorème 2.8 — Soient E et F deux espaces vectoriels normés de dimensions finies, et u ∈ L(E, F). Alors u est
lipschitzienne, et donc continue.

■ Applications bilinéaires
Pour finir, un bref mot sur les applications bilinéaires, qui, de manière analogue aux applications linéaires, sont
des applications continues en dimension finie.

Lemme — Soient E, F, G trois espaces vectoriels normés de dimensions finies, et B : E × F → G une application
bilinéaire. Alors il existe une constante k telle que :

∀(x, y) ∈ E × F, ∥B(x, y)∥ ⩽ k∥x∥.∥y∥.

Proposition 2.9 — Soient E, F, G trois espaces vectoriels normés de dimensions finies, et B : E × F → G une forme
bilinéaire. Alors B est continue.

Exemple. Si E est un espace euclidien, l’application (x, y) → ⟨x | y⟩ est une application continue.
Remarque. Ce résultat s’étend aux fonctions n-linéaires, et en particulier, le déterminant est une application
continue de Mn (K) vers K.

3. Fonctions vectorielles
Dans cette dernière partie, nous allons restreindre l’espace de départ à un intervalle I de R. Ainsi, nous allons
nous intéresser plus spécifiquement aux fonctions f : I ⊂ R → E, où E est un espace vectoriel normé de dimension
finie. De telles fonctions sont appelées des fonctions vectorielles, et cette restriction va nous permettre d’étendre
le concept de dérivabilité à de telles fonctions.

3.1 Dérivation des fonctions à valeurs vectorielles


Définition. — On dit qu’une fonction vectorielle f : I → E admet une dérivée en t0 ∈ I lorsqu’il existe un vecteur
f (t) − f (t0 )
ℓ ∈ E tel que : ℓ = lim . On pose alors f ′ (t0 ) = ℓ.
t→t0 t − t0

f (t0 + h) − f (t0 )
On a bien entendu de manière équivalente : f ′ (t0 ) = lim .
h→0 h
Les notations de Landau permettent enfin d’exprimer cette définition de la manière suivante : f admet ℓ pour
dérivée en t0 ∈ I lorsque : f (t) = f (t0 ) + (t − t0 )f ′ (t0 ) + o(t − t0 ).
t0

Proposition 3.1 — Si f est dérivable en t0 , alors f est continue en t0 .

PC∗ – Lycée Marcelin Berthelot


9.10 Espaces vectoriels normés

Tout comme la continuité, le recours aux fonctions composantes permet de ramener la dérivation d’une fonction
vectorielle à la dérivation des fonctions à valeurs numériques :

Proposition 3.2 — Soit (e1 , . . . , ep ) une base de E, et f1 , . . . , fp les fonctions coordonnées de f dans cette base. Alors f
est dérivable en t0 si et seulement si les fonctions f1 , . . . , fp le sont, et dans ce cas :
f ′ (t0 ) = f1′ (t0 )e1 + · · · + fp′ (t0 )ep .

Exemples.
– Une fonction à valeurs complexes f : I → C est dérivable en t0 si et seulement si les fonctions Re f et Im f le
sont.
– En cinématique, on obtient les composantes dans une base quelconque du vecteur accélération en dérivant
les composantes du vecteur vitesse 7 .

Proposition 3.3 — Soit f : I → E une  fonction dérivable en t0 , et u ∈ L(E, F) une application linéaire. Alors u ◦ f
est dérivable en t0 , et (u ◦ f )′ (t0 ) = u f ′ (t0 ) .

De manière analogue, on peut démontrer le résultat suivant :

Proposition 3.4 — Soient f : I → E et g : I → F deux applications vectorielles dérivables en t0 , et B : E × F → G une


application bilinéaire. Alors B(f , g) est dérivable en t0 , et :
   
B(f , g)′ (t0 ) = B f ′ (t0 ), g(t0 ) + B f (t0 ), g ′ (t0 )

Exemple. Cette formule généralise bien entendu la formule de dérivation d’un produit f g de deux fonctions à
valeurs numériques, mais s’utilise aussi pour dériver une expression faisant intervenir un produit scalaire :
lorsque B est un produit scalaire, on a : ⟨f | g⟩′ (t0 ) = ⟨f ′ (t0 ) | g(t0 )⟩ + ⟨f (t0 ) | g ′ (t0 )⟩.
Exercice 7
Soit E un espace euclidien et f : I → E une fonction vectorielle dérivable en tout point de I, et telle que ∀t ∈ I,
∥f (t)∥ = 1. Montrer que pour tout t ∈ I, les vecteurs f (t) et f ′ (t) sont orthogonaux.
Remarque. On peut encore généraliser cette formule au cas d’une application n-linéaire, ce qui est le cas en
particulier du déterminant. Ainsi, si f1 , . . . , fp sont des fonctions définies de I dans E et dérivables en t0 et (e)
 
une base de E, l’application φ : t 7→ dete f1 (t), . . . , fp (t) est dérivable en t0 , et :
p
X  

φ (t0 ) = dete f1 (t0 ), . . . , fk−1 (t0 ), fk′ (t0 ), fk+1 (t0 ), . . . , fp (t0 ) .
k=1

Exercice 8
Soit A ∈ Mn (R) une matrice, et f : R → R la fonction définie par f (t) = det(In + tA).
Justifier que f est dérivable en 0, et calculer f ′ (0).
Enfin, concernant la composée, nous avons :

Proposition 3.5 — Soit I et J deux intervalles, t0 ∈ I, φ : I → R une fonction dérivable en t0 tel que φ(I) ⊂ J, et
f : J → E une fonction vectorielle dérivable en φ(t0 ). Alors f ◦ φ est dérivable en t0 , et :
 
(f ◦ φ)′ (t0 ) = φ′ (t0 ) × f ′ φ(t0 ) .

■ Fonction dérivée
Définition. — Lorsque f est dérivable en tout point de I, on définit une fonction f ′ : I → E, appelée fonction
dérivée de f . Si f ′ est à son tour dérivable, on note f ′′ (ou f (2) ) sa dérivée, et plus généralement : on note f (0) = f , et
si f (n) est dérivable, on note f (n+1) sa dérivée.
7. Il faut bien entendu que la base ne soit pas mobile, c’est-à-dire que les vecteurs qui la composent soient indépendants du temps.

PC∗ – Lycée Marcelin Berthelot


9.11

df dk f
On pourra aussi noter D(f ) ou en lieu et en place de f ′ , et Dk (f ) ou pour f (k) .
dt dt k
(n)
Pour tout entier n ∈ N∗ , on note C n (I, E) l’ensemble des fonctions f n fois dérivables\ sur I, telles que f soit
continue. Pour tout entier n ∈ N, on a : C n+1 (I, E) ⊂ C n (I, E). On pose C ∞ (I, E) = C n (I, E).
n∈N

Théorème 3.6 — Si f et g sont des fonctions vectorielles de classe C n sur I et B une forme bilinéaire, B(f , g) est
aussi de classe C n , et :
n !
(n)
X n
B(f , g) = B(f (k) , g (n−k) ).
k
k=0

Proposition 3.7 — Soit I et J deux intervalles, φ : I → R une fonction numérique de classe C n telle que φ(I) ⊂ J, et
f : J → E une fonction vectorielle de classe C n . Alors la fonction vectorielle f ◦ φ : I → E est aussi de classe C n .

PC∗ – Lycée Marcelin Berthelot


9.12

PC∗ – Lycée Marcelin Berthelot


Chapitre X 10.1

Calcul différentiel
Jusqu’à présent, nous nous sommes cantonnés à l’étude de fonctions d’une variable, d’abord à valeurs réelles
ou complexes puis à valeurs vectorielles (dans Rn ), ces fonctions étaient systématiquement définies sur un
intervalle I de R. Nous allons maintenant nous intéresser aux fonctions de plusieurs variables, c’est à dire définies
sur une partie U de Rp , à valeurs dans Rn :

U ⊂ Rp −→ Rn
!
f :  
x = (x1 , . . . , xp ) 7−→ f (x) = f1 (x1 , . . . , xp ), . . . , fn (x1 , . . . , xp )

Dans ce cours, nous aurons l’occasion, comme pour les fonctions vectorielles, de montrer que l’étude d’une telle
fonction se ramène à celle de ses fonctions coordonnées f1 , . . . , fn et ainsi nous ramener à l’étude des fonctions à
valeurs réelles (autrement dit prendre n = 1). Pour des raisons pratiques, nos exemples se cantonnerons le plus
souvent à des fonctions à deux ou trois variables (p = 2 ou 3).
Ainsi, lorsque l’on a p = 2 et n = 1, le graphe z = f (x, y) d’une telle fonction est une nappe paramétrée que l’on
peut visualiser et ainsi fournir un support à une interprétation géométrique :
!
n o U −→ R
Exemple. U = (x, y) ∈ R2 x2 + y 2 < 1 , et f :
(x, y) 7−→ x2 + y 2

z = f (x, y)

D’un point de vue historique, on peut noter que la notion de fonction à plusieurs variables apparaît très tôt en
physique, où l’on étudie souvent des quantités dépendants de plusieurs paramètres. Citons par exemple :
– en mécanique des fluides, la pression p est un champ 8 scalaire qui associe à un point du fluide la pression en
ce point ; mathématiquement, cela correspond à une application d’une partie U de R3 (ou de R4 , si on tient
compte du temps) dans R : !
U −→ R
p:
M = (x, y, z) 7−→ p(M)

– en électromagnétisme, la densité de courant ⃗ȷ est un champ vectoriel qui associe à tout point de l’espace
considéré un vecteur qui décrit le courant électrique qui circule à l’échelle locale ; mathématiquement, cela
correspond à une application d’une partie U de R3 dans R3 :

U −→ R3
!
⃗ȷ :
M = (x, y, z) 7−→ ⃗ȷ (M)

Mais avant de débuter l’étude du concept de différentiabilité, nous allons revenir un instant sur les notions de
limite et de continuité, déjà abordées dans le chapitre consacré aux espaces vectoriels normés.
8. en mathématiques, un champ est une application qui associe aux points de l’espace une valeur, scalaire ou vectorielle.

PC∗ – Lycée Marcelin Berthelot


10.2 Calcul différentiel

1. Calcul différentiel
Dans cette section, E et F désignerons deux R-espaces vectoriels normés de dimensions finies, la norme étant
notée ∥ · ∥ indépendamment de l’espace, mais le plus souvent nous auront E = R2 ou R3 et F = R.
U désignera une partie de E (le plus souvent un ouvert), et f : U → F une fonction à plusieurs variables.

1.1 Étude locale d’une application


Dans le chapitre consacré aux espaces vectoriels normés nous avons donné la définition de la limite de f en un
point adhérent à U :

f (x) admet ℓ ∈ F pour limite lorsque x tend vers a lorsque :

∀ϵ > 0, ∃η > 0 ∀x ∈ U , ∥x − a∥ ⩽ η ⇒ ∥f (x) − ℓ∥ ⩽ ϵ

En outre, lorsque a ∈ U et ℓ = f (a), f est dite continue en a.

Observons sur deux exemples comment se traduit cette définition dans le cadre des fonctions à plusieurs
variables.
2 x2 y
Exemple. Considérons la fonction f1 : Rq \ {(0, 0)} → R définie par f1 (x, y) = 2 , et utilisons la norme
x + y2
2 2 2
euclidienne canonique sur R : ∥(x, y)∥2 = x + y .
Sachant que |x| ⩽ ∥(x, y)∥ et |y| ⩽ ∥(x, y)∥, nous pouvons affirmer que |f1 (x, y)| ⩽ ∥(x, y)∥, ce qui implique :
lim f1 (x, y) = 0.
(x,y)→(0,0)
x2 y
Exemple. Considérons la fonction f2 : R2 \ {(0, 0)} → R définie par f2 (x, y) = .
x4 + y 2
Supposons que cette fonction possède une limite ℓ en (0, 0). Les théorèmes de composition des limites impliquent
que pour tout fonction vectorielle φ : I ⊂ R → U pour laquelle lim φ(t) = (0, 0) nous avons : lim f2 ◦ φ(t) = ℓ.
t→0 t→0
t 1
Or lim f2 (t, t) = lim 2 = 0 et lim f2 (t, t 2 ) = . Ainsi f2 ne possède pas de limite en (0, 0).
t→0 t→0 t + 1 t→0 2
Exercice 1
Déterminer si les fonctions suivantes, définies sur R2 \ {(0, 0)}, ont une limite finie en (0, 0) :

x2 − y 2 |x + y| 1
 
f (x, y) = , g(x, y) = , h(x, y) = (x + y) sin .
x2 + y 2 x2 + y 2 x2 + y 2

1.2 Applications différentiables


Pour comprendre comment nous allons généraliser la notion de dérivée aux fonctions à plusieurs variables,
observons l’interprétation géométrique qu’on peut faire de la dérivée en a ∈ I d’une fonction à une variable
f : I → R.
y y = f (a) + f ′ (a)(x − a)

x
a
y = f (x)

PC∗ – Lycée Marcelin Berthelot


10.3

Au voisinage de a, le graphe de f est approché par une droite, sa tangente. Autrement dit, f est localement
approchée par la fonction affine x 7→ f (a) + f ′ (a)(x − a), ce qui se traduit par le développement limité suivant :

f (x) = f (a) + f ′ (a)(x − a) + o(x − a).


a

qu’on peut écrire de façon équivalente :

f (a + h) = f (a) + f ′ (a)h + o(h).


0

Cette approximation affine est formée d’une constante f (a) et d’une application linéaire h 7→ f ′ (a)h. Ceci nous
conduit à adopter la définition suivante :

Définition. — Soient E et F deux R-espaces vectoriels normés de dimensions finies, U un ouvert de E et f : U → F


une application.
On dira que f est différentiable en a ∈ U lorsqu’il existe une application linéaire u ∈ L(E, F) telle que :
 
f (a + h) = f (a) + u(h) + o ∥h∥ .
0E

Dans ce cas, l’application linéaire u est appelée la différentielle de f en a, et sera notée df (a). Ainsi, on écrira :
   
f (a + h) = f (a)+ df (a).h + o ∥h∥ . ou encore : f (x) = f (a)+ df (a).(x − a) + o ∥x − a∥
0E a

Notons que la différentiabilité de f en a entraîne a fortiori la continuité de f en a, puisqu’une application


linéaire est continue (en dimension finie).
Exemple. Dans le cas où E = R2 et F = R, les fonctions affines prennent la forme suivante :

R2 7−→ R
!
ũ :
(x, y) 7−→ α + βx + γy

et le graphe de cette fonction affine est le plan affine d’équation z = α + βx + γy. Autrement dit, la nappe
d’équation z = f (x, y) est localement approchée par un plan.
z

z = f (x, y)

z = f (ax , ay )+ df (a).(x − ax , y − ay )

x • a = (ax , ay )

Exercice 2
Soit f : Mn (R) → Mn (R) l’application définie par f (M) = M2 . Montrer que f est différentiable en tout point
A ∈ Mn (R), et déterminer l’application linéaire df (A).
Remarque. Lorsque f est une application linéaire, l’égalité f (x) = f (a) + f (x − a) montre que sa différentielle en
a est égale à elle-même : pour tout a ∈ E, df (a) = f .

PC∗ – Lycée Marcelin Berthelot


10.4 Calcul différentiel

différence entre dérivée et différentielle


Dans le cas des fonctions numériques, la dérivée de f en a est le réel f ′ (a), alors que la différentielle de f en
a est l’application linéaire x 7→ f ′ (a)x. En effet, les applications linéaires de R dans R s’écrivent de manière
unique sous la forme : x 7→ λx, avec λ ∈ R.

On peut se rapprocher encore de la notion de dérivée lorsque F = R : dans ce cas, la différentielle df (a) de f en
a est une application linéaire de E dans R, c’est à dire une forme linéaire. Or lorsque E est un espace euclidien,
nous avons vu que les formes linéaires sur E s’écrivent de manière unique sous la forme x 7→ ⟨ℓ | x⟩, avec ℓ ∈ E.
Cela conduit à la définition :

Définition. — Lorsque f : U ⊂ E → R est différentiable en a ∈ E, il existe un unique vecteur de E, noté ∇f (a) tel
que :
∀h ∈ E, df (a).h = ⟨∇f (a) | h⟩.

Le vecteur ∇f (a) est appelé le gradient de f en a.

Exercice 3
Soit E un espace euclidien, et f : E → R défini par f (x) = ⟨x | x⟩. Montrer que f est différentiable en tout a ∈ E,
et déterminer le vecteur ∇f (a).

1.3 Dérivée directionnelle et dérivées partielles


Nous allons maintenant nous attacher à voir comment calculer une différentielle (ou un gradient) dans le cas où
E = Rp et F = R. L’idée que nous allons suivre est d’essayer, autant que faire se peut, de se ramener à des calculs
de dérivées de fonctions d’une seule variable.
Sachant que f est définie sur un ouvert U de Rp , l’application partielle t 7→ f (a + tv) est, quel que soit le vecteur
v ∈ Rp , v , 0E , une fonction vectorielle définie au voisinage de 0. Lorsque cette fonction est dérivable en 0, on
note Dv f (a) cette quantité, qu’on appelle la dérivée en a selon le vecteur v.
En particulier, lorsque v = ek est le k e vecteur de la base canonique de Rp , cette application prend la forme
suivante :
t 7→ f (a1 , a2 , . . . , ak−1 , ak + t, ak+1 , . . . , ap )

∂f
et sa dérivée en 0 est notée ∂k f (a) ou (a), quantité qu’on appelle la k e dérivée partielle d’ordre 1 de f en a.
∂xk
Autrement dit :
f (a1 , . . . , ak + t, . . . , ap ) − f (a1 , . . . , ak , . . . , ap )
∀k ∈ ⟦1, p⟧, ∂k f (a) = lim .
t→0 t

Proposition 1.1 — Lorsque f est différentiable en a, f admet en a des dérivées partielles d’ordre 1 et pour tout
p
X  
h = (h1 , . . . , hp ) ∈ Rp , df (a).h = ∂k f (a)hk . Autrement dit, ∇f (a) = ∂1 f (a), . . . , ∂p f (a) .
k=1

La réciproque de ce résultat est fausse : une fonction peut posséder des dérivées partielles en a sans être
différentiable en ce point. Cependant, en renforçant un peu les hypothèses on dispose du résultat suivant, avec
lequel nous allons maintenant justifier l’existence de la différentielle :

Théorème 1.2 — Soit U un ouvert de Rp , et f : U → R une fonction. On suppose que :


(i) f possède pour tout k ∈ ⟦1, p⟧ et en tout point a de U une dérivée partielle ∂k f (a) ;
(ii) pour tout k ∈ ⟦1, p⟧, l’application ∂k f : U → R est continue sur U .
Alors f est différentiable en tout point a de U .

Une application f vérifiant ces hypothèses sera dorénavant dite de classe C 1 sur U .

PC∗ – Lycée Marcelin Berthelot


10.5

∂f
Exemple. Soit f : R2 → R défini par f (x, y) = x2 y. f admet en tout point (x, y) des dérivées partielles (x, y) =
∂x
∂f
2xy et (x, y) = x2 à l’évidence continues, donc f est de classe C 1 et ∇f (x, y) = 2xy⃗e1 + x2⃗e2 .
∂y
La différentielle s’écrit donc df (x, y) : (h1 , h2 ) 7→ 2xyh1 + x2 h2 .
Exercice 4
x2 y
On considère la fonction f : R2 → R définie par f (x, y) = si (x, y) , (0, 0) et f (0, 0) = 0. La fonction f
x2 + y 2
est-elle de classe C 1 ?

Expression de la dérivée directionnelle pour une fonction de classe C 1


Lorsque f est de classe C 1 , on a donc f (a + tv) = f (a)+ df (a).(tv) + o(∥tv∥) = f (a) + t df (a).(v) + o(t) donc
t→0 t→0

f (a + tv) − f (a)
Dv f (a) = lim = df (a).(v)
t→0 t

1.4 Règle de la chaîne


Considérons une fonction f : U ⊂ Rp → R de classe C 1 , I un intervalle et xk : I → R, 1 ⩽ k ⩽ p des fonctions elles
aussi de classe C 1 telles que pour tout t ∈ I, (x1 (t), . . . , xp (t)) ∈ U . On peut dès lors définir la fonction φ : I → R
 
par φ(t) = f x1 (t), . . . , xp (t) .
Le résultat suivant, appelé règle de la dérivation en chaîne, ou plus simplement règle de la chaîne, donne la règle
de dérivation d’une telle fonction.

Théorème 1.3 (règle de la chaîne) — Si f et toutes les fonctions x1 , . . . , xp sont de classe C 1 , il en est de même de la
fonction φ, et

p p

X   X ∂f  
∀t ∈ I, φ (t) = xk′ (t)∂k f x1 (t), . . . , xp (t) = xk′ (t) x1 (t), . . . , xp (t) .
∂xk
k=1 k=1

Exercice 5
Soit f : R2 → R une fonction de classe C 1 , et g : R2 → R définie par : ∀(r, θ) ∈ R2 , g(r, θ) = f (r cos θ, r sin θ).
Calculer les dérivées partielles de g en fonction de celles de f , et en déduire l’expression du gradient en
coordonnées polaires.

Proposition 1.4 — Soit U un ouvert convexe de Rp , et f : U → R une fonction de classe C 1 . Alors f est constante
sur U si et seulement si pour tout a ∈ U , df (a) = 0, autrement dit si et seulement si les fonctions ∂1 f , . . . , ∂p f sont
nulles sur U .

1.5 Dérivées partielles d’ordre deux


∂f
Soit U un ouvert de Rp , et f : U → R une fonction de classe C 1 . Les applications ∂i f =
sont des applications
∂xi
1
définies et continues de U dans R et à ce titre peuvent être elles-mêmes de classe C . Lorsque c’est le cas, on
∂2 f
note ∂j ∂i f = la dérivée partielle par rapport à la j e variable de ∂i f .
∂xj ∂xi
∂2 f
Remarque. Dans le cas particulier où i = j on utilisera plutôt la notation ∂2i f ou .
∂xi2

Définition. — Une application f : U → R est dite de classe C 2 lorsqu’elle est de classe C 1 et lorsque pour tout
i ∈ ⟦1, p⟧, ∂i f est de classe C 1 sur U .

PC∗ – Lycée Marcelin Berthelot


10.6 Calcul différentiel

A priori, l’expression ∂j ∂i f signifie que l’on dérive d’abord par rapport à xi , puis par rapport à xj . cependant, le
théorème suivant, que nous admettrons, montre qu’il n’en est rien dans le cas d’une fonction de classe C 2 .

Théorème 1.5 (Théorème de Schwarz) — Soit f : U ⊂ Rp → R une fonction de classe C 2 . Alors pour (i, j) ∈ ⟦1, p⟧2 ,
∂j ∂i f = ∂ i ∂j f .

Exercice 6
Soit f : R2 → R une fonction de classe C 2 , et g : R2 → R définie par : ∀(r, θ) ∈ R2 , g(r, θ) = f (r cos θ, r sin θ).
a. Calculer les dérivées partielles secondes de g en fonction de celles de f .
∂2 f ∂2 f
On appelle laplacien de f la quantité : ∆f = + .
∂x2 ∂y 2
b. Déduire des calculs précédents l’expression du laplacien en coordonnées polaires (c’est à dire en fonction
des dérivées de g).

■ Équations aux dérivées partielles


En sciences physiques il est fréquent d’avoir à résoudre une équation mêlant les dérivées partielles d’ordre 1 ou
2 d’une même fonction. Le phénomène de propagation des ondes peut par exemple être modélisé par l’équation
1 ∂2 f ∂2 f 1 ∂2 f
de d’Alembert ∆f − 2 2 = 0. En dimension 1, cette équation s’écrit 2
(x, t) − 2 2 (x, t) = 0.
c ∂t ∂x c ∂t
Il n’y a pas de méthode générale de résolution, mais celle-ci passe le plus souvent par l’utilisation d’un
changement de variable.
On appelle changement de variable de classe C k une application bijective φ : U → V entre deux ouverts U et V de
Rp telle que φ et φ−1 soient toutes deux de classe C k . Nous nous restreindrons à deux types de changement de
variable : les changements de variables affines et le changement(de variable en coordonnées polaires.
u = ax + by + e
Un changement de variable affine ! consiste! simplement à poser v = cx + dy + f qui se traduit matriciellement
a b e
par Y = AX + B avec A = et B = . Pour qu’il soit bijectif, il faut et il suffit que det A , 0, et il s’agit alors
c d f
d’un changement de variable de classe C ∞ .
(
u = x + ct
Par exemple, pour résoudre l’équation de propagation en dimension 1, on posera et g(u, v) = f (x, t).
v = x − ct
Cette dernière équation introduit une nouvelle fonction inconnue g, et peut être comprise de deux façons :
u +v u −v
 
– g(u, v) = f , (pour définir g à partir de f ) ;
2 2c
– f (x, t) = g(x + ct, x − ct) (pour retrouver f une fois déterminé g).
On calcule successivement à l’aide de la règle de la chaîne :

∂f ∂g ∂g ∂f ∂g ∂g
(x, t) = (x + ct, x − ct) + (x + ct, x − ct) (x, t) = c (x + ct, x − ct) − c (x + ct, x − ct)
∂x ∂u ∂v ∂t ∂u ∂v
∂2 f ∂2 g ∂2 g ∂2 g ∂2 f ∂2 g ∂2 g ∂2 g
(x, t) = (u, v) + 2 (u, v) + 2 (u, v) (x, t) = c2 2 (u, v) − 2c2 (u, v) + c2 2 (u, v)
∂x2 ∂u 2 ∂u∂v ∂v ∂t 2 ∂u ∂u∂v ∂v
∂2 f 1 ∂2 f ∂2 g
et alors : (x, t) − (x, t) = 0 ⇐⇒ 4 (u, v) = 0.
∂x2 c2 ∂t 2 ∂u∂v
∂g
Cette équation est maintenant aisément résoluble : la fonction est indépendante de u donc ne dépend que
∂v
de v. La fonction g s’écrit donc sous la forme g(u, v) = φ(u) + ψ(v), où φ et ψ sont deux fonctions quelconques de
classe C 2 . Il reste à revenir à f en concluant que f (x, t) = φ(x + ct) + ψ(x − ct).

PC∗ – Lycée Marcelin Berthelot


10.7

Le changement de variables en coordonnées polaires


(
x = r cos θ
En toute rigueur, pour que le changement de variable soit bijectif et de classe C ∞ ainsi que sa
y = r sin θ
réciproque, il est nécessaire d’imposer r ∈ ]0, +∞[ et θ ∈ ]α, α + 2π[, ce qui restreint (x, y) à R2 \ Dα , où Dα est la
demi-droite fermée issue de l’origine et d’angle α par rapport à l’axe Ox.
Une fois ceci précisé, l’équation f (x, y) = g(r, θ) peut s’écrire g(r, θ) = f (r cos θ, r sin θ). En revanche, on observera
que faute d’une expression simple de θ en fonction de x et de y, il sera plus difficile d’exprimer f (x, y) en
fonction de g, x et y, aussi va-t-on dans ce cas calculer les dérivées partielles de g en fonction de celles de f :

∂g ∂f ∂f ∂g ∂f ∂f
(r, θ) = cos θ (x, y) + sin θ (x, y) et (r, θ) = −r sin θ (x, y) + r cos θ (x, y)
∂r ∂x ∂y ∂θ ∂x ∂y

∂f ∂f ∂g
Par exemple, l’équation aux dérivées partielles y (x, y) − x (x, y) = 0 s’écrit (r, θ) = 0 en coordonnées
∂x ∂y q ∂θ
 
polaires, soit g(r, θ) = φ(r) où φ est une fonction de classe C 1 , et f (x, y) = φ x2 + y 2 .
∂f ∂f ∂g
De même, l’équation x (x, y) + y (x, y) = 0 s’écrit r (r, θ) = 0 en coordonnées polaires, soit g(r, θ) = ψ(θ)
∂x ∂y ∂r
1
où ψ est une fonction de classe
 C . Ici, faute d’une expression convenable pour la fonction θ, on se contentera
de conclure que f (x, y) = ψ θ(x, y) .

■ Matrice Hessienne
Nous avons montré que la formule f (a + h) = f (a) + hf ′ (a) + o(h) valable pour une fonction numérique de
h→0
classe C 1 se généralise au cas d’une fonction f : U ⊂ Rp → R de classe C 1 par la formule :

f (a + h) = f (a) + ⟨∇f (a) | h⟩ + o(∥h∥) = f (a) + ∇f (a)T h + o(∥h∥)


h→0 h→0

en identifiant les vecteurs de Rp et les matrices colonnes de Mp,1 (R).


h2
Nous admettrons que la formule f (a + h) = f (a) + hf ′ (a) + f ′′ (a) + o(h2 ) se généralise pour une fonction
h→0 2
f : U ⊂ Rp → R de classe C 2 par la formule :

1
f (a + h) = f (a) + ∇f (a)T h + hT Hf (a)h + o(∥h∥2 )
h→0 2

où Hf (a) ∈ Mp (R) est la matrice des dérivées partielles secondes de f en a, autrement dit :

[Hf (a)]i,j = ∂i ∂j f (a)

On notera que cette matrice, appelée matrice hessienne de f en a, est une matrice symétrique (d’après le théorème
de Schwarz).

1.6 Extremums locaux


Dans cette section, nous considérons un domaine (non nécessairement ouvert) U de Rp ainsi qu’une fonction
f : U ⊂ E → R.

Définition. — On dit que f présente en un point a ∈ U un maximum local lorsqu’il existe un réel r > 0 tel que
pour tout x ∈ B(a, r) ∩ U , f (x) ⩽ f (a).
On dit que f présente en a ∈ U un maximum global lorsque pour tout x ∈ U , f (x) ⩽ f (a).

On définit de la même façon les notions de minimum local et de minimum global.

PC∗ – Lycée Marcelin Berthelot


10.8 Calcul différentiel

Remarque. De cette définition il résulte immédiatement que tout extremum global est un extremum local, la
réciproque n’étant bien évidemment pas vraie.

Théorème 1.6 — Soit U un ouvert de Rp , f : U → R une fonction de classe C 1 , et a ∈ U un point en lequel f


présente un extremum local. Alors : df (a) = 0 (la forme linéaire nulle).

Remarque. La condition df (a) = 0, qui peut s’écrire ∇f (a) = 0E , est donc une condition nécessaire mais non
suffisante pour que f présente un extremum local en a dans l’ouvert U .
Un point a en lequel ∇f (a) = 0E est appelé un point critique de f .
Évidemment, la question de la réciproque se pose : un point critique est-il nécessairement un extremum local ?
La réponse est négative : ne serait-ce q’un dimension 1, la fonction t 7→ t 3 présente en 0 un point critique qui
n’est pas un extremum local.
Il va néanmoins être possible par l’affirmative dans certains cas, grâce à la formule de Taylor à l’ordre 2. Ainsi,
supposons f de classe C 2 , et considérons un point critique a ∈ U de f . Nous avons alors :

1
f (a + h) = f (a) + hT Hf (a)h + o(∥h∥2 )
2
Nous savons par ailleurs que la matrice hessienne Hf (a) est symétrique ; elle est donc ortho-diagonalisable. Soit
donc (e) une base orthonormée formée de vecteurs propres de Hf (a). Si on décompose le vecteur h dans cette
p
X p
X
T
base : h = hk ek alors h Hf (a)h = λk h2k .
k=1 k=1

Théorème 1.7 — Si f est de classe C 2 et a un point critique de f , alors :


– si Sp(Hf (a)) ⊂ R∗+ (autrement dit si Hf (a) ∈ Sp++ (R)), f présente en a un minimum local strict ;
– si Sp(Hf (a)) ⊂ R∗− , f présente en a un maximum local strict ;
– si Hf (a) possède deux valeurs propres de signes différents alors f ne présente pas d’extremum en a.

Remarque. Notons que cette étude n’est pas exhaustive ; en particulier lorsque la matrice hessienne n’est pas
inversible, Hf (a) admet 0 pour valeur propre et on ne peut conclure.

Le cas de la dimension 2
!
r s
Lorsque p = 2, posons Hf (a) = ; autrement dit r = ∂21 f (a), s = ∂1 ∂2 f (a) et t = ∂22 f (a).
s t
Les deux valeurs propres λ et µ de Hf (a) vérifient λ + µ = tr Hf (a) = r + t et λµ = det Hf (a) = rt − s2 donc ces deux
valeurs propres sont non nulles et de même signe si et seulement si det Hf (a) > 0. Ainsi, f présente en a un
extremum local strict si et seulement si det Hf (a) > 0, et cet extremum est :
– un minimum si tr Hf (a) > 0 ;
– un maximum si tr Hf (a) < 0.

Exemple. Considérons la fonction f : R2 → R définie par f (x, y) = x3 + y 3 − 3xy.


Ses points critiques vérifient : 
2
3x − 3y = 0
(
∂1 f (x, y) = 0 

⇐⇒ 
∂2 f (x, y) = 0 3y 2 − 3x = 0

et la résolution de ce système donne deux points critiques a = (0, 0) et b = (1, 1). ! !


0 −3 6 −3
On calcule ∂21 f (x, y) = 6x, ∂1 ∂2 f (x, y) = 6y et ∂22 f (x, y) = −3 donc Hf (a) = et Hf (b) = .
−3 0 −3 6
Sp Hf (a) = {−3, 3} donc f ne présente pas d’extremum local en a (il s’agit d’un point selle).
Sp Hf (b) = {3, 9} donc f présente en b un minimum local.
Exercice 7
 
Déterminer les points critiques de la fonction f : (x, y) 7→ y x2 + (ln y)2 sur R × R∗+ , puis déterminer s’il s’agit
d’extremums locaux ou pas.

PC∗ – Lycée Marcelin Berthelot


10.9

■ Recherche d’extremums globaux sur une partie fermée bornée de Rp


Considérons maintenant une partie K fermée et bornée de Rp et une application f : K → R continue, sur K, de
classe C 1 sur K̊.
Dans le chapitre consacré aux espaces vectoriels normés, nous avons admis le résultat suivant, qui va nous être
de nouveau utile :

Rappel. Si K est une partie fermée et bornée de Rp et f : Rp → R une fonction continue, alors f est
bornée et atteint ses bornes sur K.

Ce résultat assure l’existence d’un minimum et d’un maximum global sur K. Ces deux extremums se trouvent ou
bien sur la frontière Fr(K) de K, ou bien dans l’intérieur K̊ = K \ Fr(K) de K. En d’autres termes, les extremums
globaux sont à chercher :
– sur la frontière de K ;
– et parmi les points critiques de l’intérieur de K.
Exercice 8
n o
Soit K = (x, y) ∈ R2 x ⩾ 0, y ⩾ 0, x + y ⩽ 1 , et f : K → R définie par f (x, y) = xy(1 − x − y). Déterminer la
valeur maximale prise par la fonction f .

PC∗ – Lycée Marcelin Berthelot

Vous aimerez peut-être aussi