Introduction aux espaces vectoriels
Introduction aux espaces vectoriels
Cours
Cours
Chapitre I 1.1
Espaces vectoriels
1. Structures vectorielles
La notion d’espace vectoriel naît conceptuellement de la géométrie affine avec l’introduction au XVIIe siècle
des coordonnées dans un repère du plan ou de l’espace usuel. Les vecteurs sont introduits progressivement
au cours de la première moitié du XIXe siècle, et en 1857, Cayley introduit la notation matricielle, qui permit
d’harmoniser les notations et de simplifier l’écriture des applications linéaires entre espaces vectoriels.
y x
x+y λx
x
Définition. (Produit de deux K-espaces vectoriels) — Si E et F sont deux K-espaces vectoriels, on munit leur
produit cartésien E × F d’une structure de K-espace vectoriel en définissant somme et produit externe de la façon
suivante :
(i) pour tout (x, y) et (x′ , y ′ ) dans E × F, (x, y) + (x′ , y ′ ) = (x + x′ , y + y ′ ) ;
(ii) pour tout (x, y) ∈ E × F et λ ∈ K, λ(x, y) = (λx, λy).
Cette définition s’étend naturellement au produit d’un nombre fini quelconque de K-espaces vectoriels.
y λx + y
H x λx
Pour prouver qu’une partie H est un sous-espace vectoriel de E, on utilise le plus souvent le résultat suivant :
Exercice 1
Soit E le R-espace vectoriel des applications de R dans R. parmi les sous-ensembles suivants, indiquez ceux
qui sont des sous-espaces vectoriels de E :
a. L’ensemble des fonctions 1-périodiques ;
b. l’ensemble des fonctions croissantes ;
c. l’ensemble des fonctions monotones ;
d. l’ensemble des fonctions majorées ;
e. l’ensemble des fonctions bornées ;
f. l’ensemble des fonctions lipschitziennes.
\
Proposition 1.2 — Soit E un K-espace vectoriel, et (Hi )i∈I une famille de sous-espaces vectoriels. Alors Hi est
un sous-espace vectoriel de E. i∈I
H2
H1 ∩ H2
H1
Attention. En revanche, la réunion de deux sous-espaces vectoriels n’est pas, sauf dans le cas trivial où l’un est
inclus dans l’autre, un sous-espace vectoriel.
Théorème 1.3 — L’ensemble des combinaisons linéaires des vecteurs de A forme un sous-espace vectoriel de E, que
l’on note Vect(A ) ou Vect(a1 , . . . , an ). C’est le sous-espace vectoriel engendré par la famille A .
À l’inverse, on dira que la famille A est une famille génératrice du sous-espace vectoriel Vect(A ). Lorsqu’on
parle de famille génératrice sans préciser le sous-espace vectoriel dont il est question, c’est qu’il s’agit d’une
famille génératrice de l’espace E tout entier.
Remarque. Vect(A ) est le plus petit (au sens de l’inclusion) des sous-espaces vectoriels contenant A .
n o
Remarque. Lorsque A = {a} est composé d’un seul vecteur, on peut écrire Vect(a) = λa λ ∈ K sous la forme
plus concise : Vect(a) = Ka.
Proposition 1.4 — H1 + H2 est un sous-espace vectoriel. En outre, si A1 et A2 sont des parties génératrices
respectivement de H1 et H2 , A1 ∪ A2 est une partie génératrice de H1 + H2 .
En d’autres termes, H1 + H2 est le plus petit sous-espace vectoriel (au sens de l’inclusion) contenant H1 et H2 .
H1 + H2
x2 x1 + x2
H1
x1
H2
Tout vecteur x de H1 + H2 peut donc se décomposer sous la forme x = x1 + x2 avec x1 ∈ H1 et x2 ∈ H2 , mais cette
décomposition est-elle unique ? Le résultat suivant a pour objet de répondre à cette question.
(i) ∀x ∈ H1 + H2 , ∃!(x1 , x2 ) ∈ H1 × H2 x = x1 + x2
(ii) H1 ∩ H2 = {0E }
Autrement dit, pour qu’il y ait unicité de la décomposition, il faut et il suffit que H1 ∩ H2 = {0E }. On dit dans ce cas
que la somme H1 + H2 est directe, et on la note : H1 ⊕ H2 .
Pour finir, notons que de cette notion de somme de deux sous-espaces vectoriels découle la notion de sous-
espaces supplémentaires :
Définition. — Lorsque H1 et H2 vérifient : E = H1 ⊕ H2 , on dit que ces deux sous-espaces sont supplémentaires.
Exercice 2
On considère l’espace vectoriel E = C 0 ([0, 1], R) des fonctions continues de [0, 1] dans R. On note H1 l’ensemble
Z1
des fonctions constantes et H2 l’ensemble des fonctions f ∈ E telles que f (t) dt = 0. Montrer que H1 et H2
0
sont deux sous-espaces vectoriels supplémentaires de E.
L’exemple de la division euclidienne
Considérons l’espace vectoriel E = K[X] des polynômes à coefficients dans K ; il s’agitn d’un K-espace vectoriel.
o
Si M est un polynôme non nul, l’ensemble des multiples de M, noté : M.K[X] = MQ Q ∈ K[X] , est un
sous-espace vectoriel de K[X]. En posant n = deg M, l’identité de la division euclidienne affirme pour tout
P ∈ K[X] l’existence d’un unique couple (Q, R) ∈ K[X]2 tel que :
P = MQ + R et deg R ⩽ n − 1.
Autrement dit, tout polynôme P se décompose de manière unique comme somme d’un polynôme MQ ∈ M.K[X]
et d’un polynôme R ∈ Kn−1 [X]. Ainsi, les sous-espaces vectoriels M.K[X] et Kn−1 [X] sont des sous-espaces
vectoriels supplémentaires de K[X]. On peut donc écrire K[X] = M.K[X] ⊕ Kn−1 [X] lorsque n = deg M.
■ Projections vectorielles
Considérons deux sous-espaces vectoriels supplémentaires H1 et H2 de E : E = H1 ⊕ H2 . Pour tout x ∈ E, il existe
un unique couple (x1 , x2 ) ∈ H1 × H2 tel que x = x1 + x2 . On définit l’application p : E → E qui à tout x ∈ E associe
p(x) = x1 ; il s’agit de la projection vectorielle sur H1 parallèlement à H2 .
On a H1 = Im p = Ker(p − IdE ) et H2 = Ker p donc on peut écrire : E = Ker p ⊕ Ker(p − IdE ).
H2
x
x − p(x)
p(x)
H1
Remarque. Si p est la projection vectorielle sur H1 parallèlement à H2 , alors IdE − p est la projection sur H2
parallèlement à H1 .
Théorème 1.6 — Un endomorphisme p ∈ L(E) est une projection vectorielle si et seulement si p ◦ p = p. Dans ce cas,
p est la projection sur Im p = Ker(p − IdE ) parallèlement à Ker p.
Exercice 3
On considère deux projections p et q d’un même espace vectoriel E.
Montrer que Im p = Im q si et seulement si p ◦ q = q et q ◦ p = p.
Donner une condition analogue pour caractériser l’égalité Ker p = Ker q.
Lorsque la décomposition d’un vecteur x ∈ H1 + H2 + · · · + Hp est unique, on dira que cette somme est directe, et
on la notera H1 ⊕ H1 ⊕ · · · ⊕ Hp .
Comment caractériser une somme directe ? Pour répondre à cette question, on peut adopter une démarche
récursive en écrivant : x = (x1 + x2 + · · · + xp−1 ) + xp
| {z } |{z}
∈ H1 +H2 +···+Hp−1 ∈ Hp
Ainsi, la somme est directe si et seulement si les sommes H = H1 + H2 + · · · + Hp−1 et H + Hp sont directes. Cela
conduit au résultat suivant :
Attention. Il n’existe pas de critère simple pour vérifier qu’une somme de n ⩾ 3 sous-espaces vectoriels est
directe. Ou bien on justifie l’unicité de la décomposition directement, ou bien on procède récursivement à
l’aide du résultat précédent. Par exemple, pour prouver qu’une somme H1 + H2 + H3 est directe il faut prouver
successivement les deux égalités : H1 ∩ H2 = {0E } puis (H1 ⊕ H2 ) ∩ H3 = {0E }.
x3 x
H1 ⊕ H2
x2
x1 H2
H1
■ Familles libres
Définition. — Une famille finie (a1 , . . . , an ) de vecteurs non nuls de E est dite libre lorsque la somme Ka1 + · · · + Kan
est directe, c’est à dire lorsque tout vecteur x appartenant à cette somme se décompose de manière unique sous la
forme :
Xn
x= λ i ai .
i=1
On dit encore que les vecteurs a1 , . . . , an sont linéairement indépendants. Une famille qui n’est pas libre est dite liée.
Il existe essentiellement trois manières de prouver la liberté d’une famille de vecteurs : on peut bien entendu
recourir à la définition en justifiant l’unicité de la décomposition, ou utiliser l’un des deux résultats suivants.
Proposition 1.8 — La famille (a1 , . . . , an ) est libre si et seulement si elle vérifie la propriété :
n
X
(i) ∀(λ1 , . . . , λn ) ∈ Kn , λi ai = 0E =⇒ λ1 = · · · = λn = 0.
i=1
Exercice 4
Soit E un espace vectoriel, et f ∈ L(E). On suppose l’existence d’un vecteur x ∈ E et d’un entier n tel que
f n−1 (x) , 0E et f n (x) = 0E . Montrer que la famille (x, f (x), f 2 (x), . . . , f n−1 (x)) est libre.
Le second résultat adopte une approche récursive :
Proposition 1.9 — Soit (a1 , . . . , an ) une famille libre, et an+1 ∈ E. Alors (a1 , . . . , an+1 ) est libre si et seulement si
an+1 < Vect(a1 , . . . , an ).
Autrement dit, pour prouver que la famille (a1 , . . . , an ) est libre il suffit de prouver que (a1 , . . . , an−1 ) est libre puis
que an n’est pas combinaison linéaire des vecteurs a1 , . . . , an−1 .
Exercice 5
On considère n réels ordonnés α1 < α2 < · · · < αn ainsi que les fonctions fi = x 7→ eαi x de F (R, R). Prouver par
récurrence que les fonctions (f1 , f2 , . . . , fn ) forment une famille libre.
Ainsi, le caractère générateur de la famille (e) traduit l’existence de la décomposition de tout vecteur de E, le
caractère libre, l’unicité de cette décomposition.
Remarque. Les liens entre base et décomposition de l’espace en somme directe sont profonds : si on dispose
d’une décomposition de E en somme directe E = H1 ⊕ H2 ⊕ · · · ⊕ Hp , on obtient une base de (e) en réunissant des
bases de chacun des sous-espaces vectoriels H1 , H2 , . . . , Hp .
Plus formellement, si (e1 , . . . , ei1 ) est une base de H1 , (ei1 +1 , . . . , ei2 ) une base de H2 , . . . , (eip−1 −1 , . . . , ep ) une base
de Hp , alors (e1 , . . . , ep ) est une base de E. Une telle base sera dite adaptée à la décomposition en somme directe
E = H1 ⊕ · · · ⊕ Hp .
À l’inverse, à partir d’une base (e1 , . . . , ep ) de E on peut obtenir une décomposition en somme directe de E en
fractionnant cette base. Si on considère par exemple un entier k ∈ ⟦1, p − 1⟧ et si on pose H1 = Vect(e1 , . . . , ek ) et
H2 = Vect(ek+1 , . . . , ep ) on obtient une décomposition de E en somme directe de deux sous-espaces supplémen-
taires E = H1 ⊕ H2 .
Proposition 1.10 — Si E est un K-espace vectoriel de dimension p, toute famille libre (respectivement génératrice)
de cardinal p est une base.
En outre, toute famille génératrice contient au moins p éléments, et toute famille libre contient au plus p éléments.
Théorème 1.11 (de la base incomplète) — Soit (e) une famille libre et (g) une famille génératrice d’un espace
vectoriel E. Alors il existe une base (b) telle que (e) ⊂ (b) ⊂ (e ∪ g). Autrement dit, on peut « compléter » une famille
libre par certains éléments d’une famille génératrice pour former une base.
Cet énoncé possède une version simplifiée (en prenant pour (g) l’ensemble des vecteurs de E, puis en prenant
pour (e) l’ensemble vide) :
Corollaire — Toute famille libre peut être complétée pour former une base de E (théorème de la base incomplète) ;
de toute famille génératrice on peut extraire une base de E (théorème de la base extraite).
Une application fréquente du théorème de la base incomplète consiste, à partir d’une base (e1 , . . . , ek ) d’un
sous-espace vectoriel H de E, à compléter celle-ci pour obtenir une base (e1 , . . . , ek , ek+1 , . . . , ep ) de E. Une telle
base est dite adaptée à H.
Proposition 1.12 — Si E et F sont deux K-espaces vectoriels de dimensions finies, il en est de même de E × F, et
dim(E × F) = dim(E) + dim(F).
Corollaire — On en déduit par une récurrence immédiate que si E1 , E2 , . . . , Ek sont des K-espaces vectoriels de
k
X
dimensions finies, il en est de même de E1 × · · · × Ek , et dim(E1 × · · · × Ek ) = dim Ei .
i=1
Proposition 1.13 (Formule de Grassmann) — Si H1 et H2 sont deux sous-espaces vectoriels d’un K-espace vectoriel
de dimension finie, alors dim(H1 + H2 ) = dim H1 + dim H2 − dim(H1 ∩ H2 ).
Il existe une formule qui généralise la formule de Grassmann au cas d’une somme de k sous-espaces vectoriels,
mais elle est trop compliquée pour être utilisable en pratique. On se contentera donc du résultat suivant :
Proposition 1.14 — Si H1 , . . . , Hk sont des sous-espaces vectoriels de dimensions finies, il en est de même de leur
Xk Xk
somme, et dim Hi ⩽ dim Hi , avec égalité si et seulement si la somme est directe.
i=1 i=1
Remarque. Ceci donne un moyen alternatif pour prouver qu’une somme est directe, pour peut qu’on sache
calculer la dimension de la somme.
Le rang de la famille (x1 , . . . , xk ) est la dimension de l’espace vectoriel qu’ils engendrent ; on a donc rg(x1 , . . . , xk ) =
rg(X1 , . . . , Xk ) = rg A.
Exemple. Considérons E = R4 et notons (e) la base canonique. Définissons les quatre vecteurs :
et posons H = Vect(a, b, c, d). Quelle est la dimension de H ? Pour répondre à cette question, posons A =
Mat(e) (a, b, c, d) et calculons rg(A) en appliquant la méthode de Gauss-Jordan sur les colonnes de A :
1 1 2 3
2 1 1 1
A =
3 1 1 0
4 3 1 3
1 0 0 0
2 −1 −3 −5
rg A = rg
3 −2 −5 −9
4 −1 −7 −9
1 0 0 0
2 −1 0 0
rg A = rg
3 −2 1 1
4 −1 −4 −4
Et enfin l’opération C4 ← C4 − C3 :
1 0 0 0
2 −1 0 0
rg A = rg
3 −2 1 0
4 −1 −4 0
Ainsi, H est un sous-espace vectoriel de dimension rg A = 3, et la famille (a, b, c, d) est une famille génératrice
qui n’est pas libre : il ne s’agit pas d’une base.
Pourquoi avoir agi sur les colonnes plutôt que sur les lignes 1 ? La matrice A est la matrice de quatre vecteurs de
H ; toute combinaison linéaire de ces vecteurs donne de nouveaux vecteurs de H. Ainsi, réaliser des opérations
élémentaires sur les colonnes de A crée de nouvelles familles de vecteurs de H sans en modifier le rang. Les vecteurs
qui apparaissent dans la matrice finale sont donc toujours des vecteurs générateurs de H, mais cette fois les
trois premiers forment une famille libre, et donc une base de H : la famille (a, b′ , c′ ) avec b′ = (0, −1, −2, −1) et
c′ = (0, 0, 1, −4) est une base de H.
1. Rappelons que les opérations élémentaires sur les lignes comme sur les colonnes ne modifient pas le rang.
Exercice 6
On considère l’espace vectoriel E = Kn [X] des polynômes de degré inférieur ou égal à n, ainsi que la famille
de vecteurs (P0 , . . . , Pn ) définie par : Pk = Xk (1 − X)n−k . Quelle forme particulière prend la matrice associée à la
famille (P) dans la base canonique ? En déduire que (P) est une base de E.
Par un raisonnement analogue, prouver que toute famille de polynômes (Q0 , . . . , Qn ) vérifiant deg Qk = k,
0 ⩽ k ⩽ n, est une base de E.
Matrice de passage entre deux bases
Considérons un K-espace vectoriel E de dimension finie p, et (e) et (e′ ) deux bases. Nous qualifierons la base (e)
d’ancienne base, et (e′ ) de nouvelle base.
Étant donné un vecteur x ∈ E, on souhaite exprimer ses nouvelles coordonnées X′ = Mat(e′ ) (x) en fonction de ses
anciennes coordonnées X = Mat(e) (x).
On suppose connaître l’expression des vecteurs de la nouvelle base (e′ ) dans l’ancienne base (e) :
p
X
∀j ∈ ⟦1, p⟧, ej′ = λij ei
i=1
ce qui revient à considérer la matrice P = Mate (e1′ , . . . , ep′ ) = (λij ) ∈ Mp (K). On dit que P est la matrice de passage
de (e) vers (e′ ).
Théorème 1.15 (formule de changement de base) — La matrice P = Mate (e′ ) est une matrice inversible, et la
formule de changement de base s’exprime sous la forme : X′ = P−1 X.
Remarque. De l’égalité X = PX′ = (P−1 )−1 X′ il résulte que P−1 est la matrice de passage de (e′ ) vers (e).
2. Applications linéaires
2.1 Rappels
Une application linéaire est une application entre deux espaces vectoriels qui respecte l’addition des vecteurs et
la multiplication scalaire, ou, en d’autre termes, qui préserve les combinaisons linéaires. On adoptera donc la
définition suivante :
Définition. — Soit E et F deux K-espaces vectoriels, et u : E → F une application. On dit que u est linéaire lorsque :
∀(x, y) ∈ E2 , ∀λ ∈ K, u(λx + y) = λu(x) + u(y).
On note L(E, F) le K-espace vectoriel des applications linéaires de E vers F ; si E et F sont de dimensions finies,
la dimension de cet espace vectoriel est égal à dim E × dim F.
Enfin, lorsque F = E on notera L(E) = L(E, E), et les éléments de L(E) seront appelés des endomorphismes.
Remarque. L’application φ : L(E, F) → Mnp (K) définie par φ(u) = Mate,f (u) établit un isomorphisme entre
L(E, F) et Mn,p (K) ; c’est ce résultat qui permet de justifier sans peine que dim L(E, F) = np = dim E × dim F.
Exercice 7
Soient E et F deux
n espaces vectoriels
o de dimensions finies, et u ∈ L(E, F).
On pose H = v ∈ L(F, E) v ◦ u = 0 .
Soit v ∈ H. Quelle particularité possède la matrice associée à v dans une base adaptée à Im u ? En déduire
l’expression de dim H en fonction des dimensions de E et de F et du rang de u.
L’application d’une application linéaire à un vecteur est lié au produit matriciel par le résultat suivant :
Théorème 2.1 — Si x ∈ E, on pose X = Mate (x) et Y = Matf u(x) . Alors Y = AX.
Il s’agit d’un cas particulier du précédent, avec : F = E, (f ) = (e), (f ′ ) = (e′ ). On obtient : A′ = P−1 AP.
Deux matrices A et A′ liées par une relation de ce type sont dites semblables. Garder toujours à l’esprit que deux
matrices semblables sont deux matrices qui peuvent être associées au même endomorphisme, mais exprimées
dans des bases différentes.
Exercice 8
Soit A ∈ Mn (K) une matrice vérifiant An = 0 et An−1 , 0. Montrer que la matrice A est semblable à la matrice
0 1 0 0
′
A =
0
1
0 0
2 2 −3 1 1 0
En déduire que les matrices A = 5 1 −5 et T = 0 1 1 sont semblables, puis calculer explicitement
−3 4 0 0 0 1
une matrice P vérifiant A = PTP−1 .
On définit ainsi une forme linéaire sur l’espace Mp (K) des matrices carrées d’ordre p, autrement dit une
application linéaire de Mp (K) dans K. Cette forme linéaire va pouvoir à son tour être définie sur l’espace
L(E) des endomorphismes d’un espace vectoriel E de dimension finie grâce au résultat suivant, et surtout son
corollaire :
Du corollaire précédent on déduit que si u ∈ L(E) et A = Mate (u), alors tr A ne dépend pas du choix de la base
(e). On peut donc définir la trace de u par l’intermédiaire de la trace d’une matrice associée à A dans une base
quelconque :
L’application u 7→ tr u est une forme linéaire sur L(E), autrement dit une application linéaire de L(E) dans K.
De la proposition 2.2 il résulte :
Corollaire — Si u et v sont deux endomorphismes d’un même K-espace vectoriel E, alors tr(u ◦ v) = tr(v ◦ u).
Il est bon de connaître la formule donnant le produit de deux matrices de cette forme ; c’est le résultat suivant :
Exercice 9
En utilisant la base canonique de Mp (K), prouver que toute forme linéaire φ : Mp (K) → K vérifiant :
∀(A, B) ∈ Mp (K)2 , φ(AB) = φ(BA) est proportionnelle à la trace.
Proposition 2.3 — Soit u : E → F une application linéaire, H1 et H2 des sous-espaces vectoriels respectivement de E
et F. Alors u(H1 ) et u −1 (H2 ) sont respectivement des sous-espaces vectoriels de F et de E.
Attention. Attention à la notation u −1 (H2 ), qui pourrait faire croire à tort que u est supposée bijective. Il n’en
est rien, il s’agit de la notion d’image réciproque définie par :
n o
u −1 (H2 ) = x ∈ E u(x) ∈ H2 .
Exemples. En appliquant cette propriété aux sous-espaces vectoriels H1 = E et H2 = {0F }, on définit image et
noyau d’une application linéaire :
n o
Im u = u(E) = y ∈ F ∃x ∈ E tel que u(x) = y est un sous-espace vectoriel de F (l’image de u) ;
n o
Ker u = u −1 {0F } = x ∈ E u(x) = 0F est un sous-espace vectoriel de E (le noyau de u).
Rappelons que ces deux sous-espaces vectoriels permettent de caractériser l’injectivité et la surjectivité d’une
application linéaire :
Remarque. Ces notions de noyau et d’image interviennent dans la résolution d’un système linéaire du type :
u(x) = y, d’inconnue x ∈ E :
cette équation possède une
n solution si eto seulement si y ∈ Im u, et dans ce cas, l’ensemble des
solutions prend la forme x0 + h h ∈ Ker u , où x0 est une solution particulière quelconque.
Définition. — Lorsque u est bijective, l’application u −1 est aussi linéaire. On dit alors que u est un isomorphisme,
et que E et F sont des espaces vectoriels isomorphes.
Lorsqu’ils sont de dimensions finies, deux espaces isomorphes sont de même dimension.
Nous allons maintenant aborder un théorème très important, qui lie image et supplémentaire du noyau. Il s’agit
du résultat suivant :
Théorème 2.4 (Théorème du rang - forme géométrique) — Soit u ∈ L(E, F) une application linéaire, et H un
supplémentaire de Ker u dans E. Alors la restriction de u à H réalise un isomorphisme entre H et Im u.
!
H −→ Im u
En d’autres termes, l’application uH : est un isomorphisme.
x 7−→ u(x)
Remarque. Lorsque E et F sont de dimensions finies, considérons une base (e1 . . . , er ) de H et une base
(er+1 , . . . , ep ) de Ker u. On obtient ainsi une base (e1 , . . . , er , er+1 , . . . , ep ) de E. Le théorème précédent nous permet
d’affirmer que f1 = u(e1 ), . . . , fr = u(er ) est une base de Im u, que l’on peut compléter pour former une base
(f1 , . . . , fr , fr+1 , . . . , fn ) de F. La matrice associée à u pour les bases (e) et (f ) est alors la matrice suivante :
1 0 0
!
= Ir O
1
0 0 O O
0 0
Corollaire (Théorème du rang) — Soit E un K-espace vectoriel de dimension finie, F un K-espace vectoriel, et
u ∈ L(E, F) une application linéaire. Alors Ker u et Im u sont de dimension finie, et :
En particulier, pour les endomorphismes en dimension finie, injectivité, surjectivité et bijectivité sont des notions
équivalentes.
Exercice 10
Soit E un K-espace vectoriel de dimension finie, et (u, v) ∈ L(E)2 . Montrer, en appliquant le théorème du rang
à la restriction de u à Im v, que : rg(u ◦ v) ⩾ rg u + rg v − dim E.
En déduire que dim(Ker u 2 ) ⩽ 2 dim(Ker u).
n
Y
Lemme — Le noyau de u est constitué des multiples du polynôme N = (X − xi ).
i=0
• y •
yk •
x
xk
Sachant que Kn [X] est un supplémentaire de N.K[X] (principe de la division euclidienne par N), on en déduit
que u réalise un isomorphisme entre Kn [X] et l’image de u. Mais alors dim(Im u) = n + 1, et puisque Im u ⊂ Kn+1
on a Im u = Kn+1 . Autrement dit, u est un endomorphisme surjectif, et :
Théorème 2.5 — Il existe un unique polynôme P de Kn [X] tel que : ∀k ∈ ⟦0, n⟧, P(xn ) = yn .
Nous venons donc de démontrer que le problème de l’interpolation de Lagrange possède une unique solution PL
de degré inférieur ou égal à N ; les autres solutions s’écrivent : P = PL + N.Q, où Q est un polynôme quelconque.
Mais tout ceci ne nous dit pas comment calculer PL . Pour ce faire, nous allons introduire une nouvelle base de
Kn [X], la base des polynômes d’interpolation de Lagrange, dans laquelle l’expression de PL sera très simple.
Y X−x
i
Théorème 2.6 — Posons pour tout entier k ∈ ⟦0, n⟧, Lk = . Ces polynômes forment une base de Kn [X]
xk − xi
i,k
n
X
pour laquelle : ∀P ∈ Kn [X], P = P(xk )Lk .
k=0
Exemple. Déterminons le polynôme d’interpolation de degré minimal répondant aux conditions d’interpola-
tion : P(−3) = 2, P(−1) = −1, P(1) = 1, P(2) = 2 (c’est celui représenté figure 7).
On commence par calculer les quatre polynômes de Lagrange associés aux réels −3, −1, 1, 2 :
(X + 1)(X − 1)(X − 2) 1
L0 = = − (X3 − 2X2 − X + 2)
(−3 + 1)(−3 − 1)(−3 − 2) 40
(X + 3)(X − 1)(X − 2) 1 3
L1 = = (X − 7X + 6)
(−1 + 3)(−1 − 1)(−1 − 2) 12
(X + 3)(X + 1)(X − 2) 1
L2 = = − (X3 + 2X2 − 5X − 6)
(1 + 3)(1 + 1)(1 − 2) 8
(X + 3)(X + 1)(X − 1) 1 3
L3 = = (X + 3X2 − X − 3)
(2 + 3)(2 + 1)(2 − 1) 15
1 1 9 1
P = 2L0 − L1 + L2 + 2L3 = − X3 + X2 + X −
8 4 8 4
■ Déterminant de Vandermonde
Adoptons maintenant une démarche naïve pour résoudre le problème de l’interpolation de Lagrange : posons
n−1
X
P= ak Xk , et considérons le système d’inconnues a0 , a1 , . . . , an−1 .
k=0
2 n−1
a0 + a1 x1 + a2 x1 + · · · + an−1 x1 = y1
2
a0 + a1 x2 + a2 x2 + · · · + an−1 x2n−1 = y2
...................................
a + a x + a x2 + · · · + a xn−1 = y
0 1 n 2 n n−1 n n
Il s’agit d’un système linéaire (bien noter que les inconnues sont a0 , . . . , an−1 ) dont la forme matricielle est :
La matrice carrée d’ordre n qui intervient dans ce système s’appelle la matrice de Vandermonde ; son déterminant
est appelé le déterminant de Vandermonde :
1 x1 x12 · · · x1n−1
1 x2 x22 · · · x2n−1
V(x1 , x2 , . . . , xn ) = . .. .. ..
.. . . .
1 xn xn2 ··· xnn−1
La résolution du problème de Lagrange nous permet d’ors et déjà d’affirmer que ce déterminant est non nul
lorsque les xi sont deux à deux distincts ; il est néanmoins possible de calculer explicitement ce déterminant :
j−1
n Y
Y
Théorème 2.7 — V(x1 , x2 , . . . , xn ) = (xj − xi ), formule qu’on retiendra sous la forme plus concise :
j=2 i=1
Y
V(x1 , x2 , . . . , xn ) = (xj − xi ).
i<j
Proposition 2.8 — L’application qui à P associe P(u) est une application linéaire qui vérifie :
L’intérêt de ce résultat est immédiat : aux factorisations polynomiales vont correspondre des factorisations
d’endomorphismes. Par exemple, si P se factorise sous la forme P = P1 P2 , on aura : P(u) = P1 (u) ◦ P2 (u).
Attention. Si P et Q sont deux polynômes vérifiants PQ = 0, on sait que l’on peut en déduire que P = 0 ou
Q = 0. Ce n’est pas le cas des polynômes d’un endomorphisme : on peut avoir (PQ)(u) = 0 sans pour autant en
déduire que P(u) = 0 ou Q(u) = 0.
Considérons par exemple une projection vectorielle u : on a u 2 − u = 0. Si on pose P = X et Q = X − 1 on a
PQ = X2 − X donc (PQ)(u) = 0, mais on a pas en général P(u) = 0 ou Q(u) = 0 (sauf si u = 0 ou u = Id).
Définition. — Si u ∈ L(E) et P ∈ K[X], on dit que P est un polynôme annulateur de u lorsque P(u) = 0.
Par exemple, X2 − X est un polynôme annulateur de toute projection vectorielle, X2 − 1 un polynôme annulateur
de toute symétrie vectorielle.
Proposition 2.9 — Lorsque E est un espace vectoriel de dimension finie, tout endomorphisme u ∈ L(E) possède un
polynôme annulateur.
Théorème 2.10 — Il existe un unique polynôme annulateur et unitaire de degré minimal ; il est appelé le polynôme
minimal de u.
Théorème 2.11 — Si M est le polynôme minimal de u, les polynômes annulateurs de u sont les multiples de M.
j p−j
mais le fait le plus remarquable est que le découpage par blocs est compatible avec la multiplication, pour peu
que les découpages conduisent à des produits « licites » de matrices :
B1 B2 j A B + A B A B + A B
1 1 i
2 3 1 2 2 4
si B = ∈ Mp,q (K) alors AB = ∈ Mn,q (K)
A3 B1 + A4 B3 A3 B2 + A4 B4
B3 B4
p − j n − i
k q−k k q−k
Autrement dit, les matrices définies par blocs se multiplient entre elles tout comme si les blocs étaient des
scalaires, à condition que chaque multiplication corresponde à une multiplication « légale » de matrices (en ce
qui concerne les dimensions).
Ces propriétés s’étendent par récurrence au cas d’un découpage des lignes et/ou des colonnes en un nombre
arbitraire de subdivisions.
Définition. — Une matrice carrée A ∈ Mp (K) est dite diagonale par bloc lorsqu’il existe une subdivision de ⟦1, p⟧
telle que :
A i1
11
A22 i2
A =
..
.
Akk ik
i1 i2 ... ik
(Tous les blocs sont nuls hormis les blocs diagonaux, qui sont tous carrés.)
Une matrice carrée A ∈ Mp (K) est dite triangulaire par bloc lorsqu’il existe une subdivision de ⟦1, p⟧ telle que :
A A12 A1k i1
11
A22 A2k i2
A =
..
.
Akk
ik
i1 i2 ... ik
(Tous les blocs diagonaux sont carrés, et les blocs situés sous la diagonale sont nuls.)
■ Sous-espaces stables
Définition. — Soit H un sous-espace vectoriel de E, et u ∈ L(E) un endomorphisme. On dit que H est stable par u
lorsque u(H) ⊂ H.
Considérons une base adaptée à un sous-espace vectoriel H, c’est-à-dire construite à partir d’une base (e1 , . . . , ek )
de H puis complétée pour former une base (e1 , . . . , ek , ek+1 , . . . , ep ) de E. Alors H est stable par u si et seulement si
la matrice associée à u dans cette base (e) est de la forme :
k A C
p − k
O D
k p−k
Lorsque H est stable par u, la restriction de u à H définit donc un endomorphisme uH de H dont la matrice
dans la base (e1 , . . . , ek ) est la matrice A. Cet endomorphisme s’appelle l’induit de u sur H.
Remarque. Dans une base (e1′ , . . . , ep′ ) de E pour laquelle ce sont les vecteurs (ep−k+1
′
, . . . , ep′ ) qui forment une
D O
C A
Exemple. Ker u et Im u sont des sous-espaces vectoriels stables de u. En effet, dans une base adaptée à Ker u, la
matrice associée à u prend la forme :
O C
O D
A C
O O
Exercice 12
Soit E un K-espace vectoriel, et p ∈ L(E) une projection vectorielle. Montrer que u ∈ L(E) commute avec p si et
seulement si Ker p et Im p sont stables par u.
A1
Mat(e) (u) =
A2
= A
Ak
k
X k
X
Remarque. Avec les notations ci-dessus, on a : rg A = rg Aj et tr A = tr Aj .
j=1 j=1
En outre, si v est un endomorphisme ayant aussi H1 , H2 , . . . , Hk comme sous-espaces stables, et si B = Mat(e) (v),
alors :
B1 A1 B1
B =
B2
et AB =
A2 B2
Bk
Ak Bk
Proposition 2.13 — Soit A ∈ Mn (K), et k ∈ ⟦1, n − 1⟧ un entier induisant la même partition des lignes et des
colonnes en deux sous-ensembles ⟦1, k⟧ et ⟦k + 1, n⟧. On suppose de plus le bloc correspondant aux indices de lignes
⟦k + 1, n⟧ et aux indices de colonnes ⟦1, k⟧ (autrement dit le bloc en bas à gauche) nul. Alors :
A1 A2
A = =⇒ det A = det(A1 ) × det(A4 ).
O A4
Corollaire — Le déterminant d’une matrice triangulaire par bloc est égal au produit des déterminants des blocs
diagonaux :
A22 A2k
= det A11 × det A22 × · · · × det Akk .
Akk
Exercice 13
Soient A, B, C, D quatre matrices
! de Mn (K).! On suppose que C et D commutent
! et que D est inversible.
A B D O A B
Calculer le produit et en déduire : det = det(AD − BC).
C D −C D−1 C D
Théorème 2.14 — Soit u un endomorphisme nilpotent d’indice p, et x ∈ E un vecteur vérifiant u p−1 (x) , 0E . Alors
la famille x, u(x), . . . , u p−1 (x) est libre.
Corollaire — Lorsque l’espace vectoriel est de dimension n, l’indice d’un endomorphisme nilpotent est inférieur ou
égal à n.
Exercice 14
Montrer que J et JT sont deux matrices semblables.
1. Introduction
Nous allons commencer par observer l’action de la réduction de Jordan sur un exemple, pour apprécier l’intérêt
qu’il y a à réduire un endomorphisme.
Exemple. Considérons l’endomorphisme u de E = R4 défini par sa matrice sur la base canonique (e) :
5 8 6 5
0 2 0 0
Mat(e) (u) = =A
−1 −4 0 −3
1 4 2 5
Nous allons effectuer le changement de base sur la base (e′ ) définie par la matrice de passage :
−1 0 1 −1
0 0 −1 −1
′
Mat(e) (e ) = =P
1 −1 0 1
1 1 1 1
Bien entendu, nous ne savons pas pour l’instant comment ont été choisis ces vecteurs formant la nouvelle base ;
c’est là tout l’enjeu de ce chapitre. Mais observons déjà le résultat de ce changement de base.
Nous l’avons déjà dit au chapitre précédent, calculer P−1 AP est la plus-part du temps une mauvaise option ; il
est préférable de calculer les vecteurs u(ek′ ), k ∈ {1, 2, 3, 4}, et chercher à les exprimer dans la base (e′ ). On calcule
donc :
Cette nouvelle matrice est constituée de deux blocs diagonaux, qui correspondent à la décomposition de l’espace
en deux sous-espaces stables : E = H1 ⊕ H2 avec H1 = Vect(e1′ , e2′ ), H2 = Vect(e3′ , e4′ ).
Sur le plan vectoriel H2 l’endomorphisme u agit comme une homothétie :
∀x ∈ H2 , u(x) = 2x.
Sur le plan vectoriel H1 , l’action de u est un peu plus compliquée : c’est l’addition d’une homothétie de rapport
4 et d’un endomorphisme nilpotent v défini par v(e1′ ) = 0E et v(e2′ ) = e1′ :
Il est beaucoup plus facile de travailler avec la base (e′ ) qu’avec la base (e) ; par exemple, le calcul de u n s’obtient
très simplement dans la base (e′ ) :
Exercice 1
1 1 1
3
On considère l’endomorphisme u ∈ L(K ) défini par la matrice A = 1 1 1.
−1 1 1
Déterminer les droites vectorielles stables par u, et en déduire une base (e) de K3 pour laquelle Mat(e) (u) est
diagonale.
2. Éléments propres
Dans l’exemple introductif que nous venons de traiter, sur deux des sous-espaces de la décomposition (H2 et H3 )
l’endomorphisme agit comme une homothétie. Ce sont ces sous-espaces particuliers qui vont nous intéresser.
Définition. — On dit qu’un scalaire λ ∈ K est une valeur propre d’un endomorphisme u ∈ L(E) lorsqu’il existe un
vecteur non nul x ∈ E tel que u(x) = λx. Dans ce cas, on dit que x est un vecteur propre associé à la valeur propre λ.
Définition. — Si λ est une valeur propre de u, on note Eλ (u) = Ker(u − λIdE ) ; il s’agit du sous-espace propre
associé à la valeur propre λ. C’est un sous-espace vectoriel de E stable par u.
Attention. Le vecteur nul n’est pas un vecteur propre ; les vecteurs propres associés à une valeur propre λ sont
les éléments non nuls du sous-espace propre Eλ (u), sous-espace qui est au moins de dimension 1.
Remarque. La restriction de u au sous-espace propre Eλ (u) est l’homothétie vectorielle de rapport λ.
Exercice 2
Soit E = C ∞ (R, R) le R-espace vectoriel des applications de classe C ∞ sur R, et D : f 7→ f ′ l’opérateur de
dérivation. Déterminer les éléments propres (valeurs et vecteurs propres) de D.
Théorème 2.1 — Si λ1 , . . . , λk sont des valeurs propres deux à deux distinctes de u, la somme Eλ1 (u) ⊕ · · · ⊕ Eλk (u)
est directe.
Corollaire — Si E est un espace vectoriel de dimension finie p, tout endomorphisme a au plus p valeurs propres
distinctes.
Définition. — Soit A ∈ Mp (K) une matrice carrée. Un scalaire λ ∈ K est une valeur propre de A lorsqu’il existe
un vecteur non nul x ∈ Kp tel que Ax = λx. Le vecteur x est un vecteur propre associé à la valeur propre λ. En outre,
on appelle sous-espace propre associé à la valeur propre λ le sous-espace vectoriel :
n o
Ker(A − λI) = x ∈ Kp Ax = λx .
D’après le corollaire du théorème 2.1, une matrice p × p ne peut avoir plus de p valeurs propres distinctes.
Il y a bien entendu parfaite équivalence entre éléments spectraux d’un endomorphisme et éléments spectraux
d’une matrice qui lui est associée par le choix d’une base.
Ce dernier résultat nous indique la démarche à suivre pour étudier les éléments propres en dimension finie :
Exercice 3
Déterminer les éléments propres des matrices suivantes et le cas échéant, former une base de vecteurs propres :
5 2 6 5 −3 −2 0 2 1
A1 = −4 −1 −8 A2 = −3 5 2 A3 = −4 6 1
0 0 2 6 −6 −2 4 −4 2
Théorème 2.3 — L’application x 7→ det(xI − A) est une fonction polynomiale ; le polynôme qui lui est associé est un
polynôme unitaire de degré p appelé polynôme caractéristique de la matrice A. Il est noté χA .
Remarque. Le déterminant d’un endomorphisme ne dépendant pas de la base choisie pour effectuer le calcul,
on définit de même le polynôme caractéristique d’un endomorphisme : le polynôme canoniquement associé à la
fonction polynomiale x 7→ det(xIdE − u).
!
a c
Exemple. Lorsque A = , son polynôme caractéristique est :
b d
x−a −c
χA(x) = −b x − d = (x − a)(x − d) − bc = x2 − (a + d)x + ad − bc = x2 − (tr A)x + det A.
Remarque. Pour une matrice A ∈ Mp (K) de taille p × p, le coefficient constant de χA est égal à (−1)p det A et le
coefficient de Xp−1 égal à − tr A.
Exercice 4
Soit E un espace vectoriel de dimension finie, et u ∈ L(E) un endomorphisme de rang 1. Déterminer son
polynôme caractéristique.
Proposition 2.4 — Lorsque le polynôme caractéristique est scindé, notons λ1 , . . . , λp les valeurs propres de u, en
p
Y Xp
répétant autant de fois que sa multiplicité chacune des valeurs propres. Alors det u = λk et tr u = λk .
k=1 k=1
Enfin, on notera qu’il existe un lien entre ordre de multiplicité de la valeur propre et la dimension du sous-espace
propre correspondant :
Théorème 2.5 — La dimension d’un sous-espace propre est inférieure ou égale à l’ordre de multiplicité de la valeur
propre correspondante.
Ce résultat a plusieurs conséquences intéressantes. Considérons par exemple une valeur propre simple (c’est à
dire de multiplicité égale à 1). Le sous-espace propre associé n’étant pas réduit à {0E }, on en déduit qu’il est
obligatoirement de dimension 1.
Nous verrons d’autres conséquences de ce résultat dans les sections suivantes.
Définition. — Un endomorphisme u ∈ L(E) est dit diagonalisable lorsqu’il existe une base (e) dans laquelle la
matrice Mat(e) (u) est diagonale.
Traduction matricielle
Considérons une base quelconque (e), et A = Mat(e) (u). u est diagonalisable s’il existe une base (e′ ) telle que
D = Mat(e′ ) (u) est diagonale. Si on note P = Mat(e) (e′ ) la matrice de passage de (e) vers (e′ ) nous disposons de la
relation : D = P−1 AP, qu’on peut écrire A = PDP−1 . Ceci conduit à la définition :
Définition. — Une matrice carrée A ∈ Mp (K) est dite diagonalisable lorsqu’il existe une matrice inversible
P ∈ GLp (K) telle que A = PDP−1 .
Exemple. Les matrice A1 et A2 de l’exercice 3 sont diagonalisables : nous avons dans les deux cas trouvé une
base formée de vecteurs propres.
Exercice 5
Soit A ∈ Mp (K) une matrice triangulaire supérieure dans laquelle tous les coefficients diagonaux sont égaux.
Peut-elle être diagonalisable ?
Remarque. Lorsqu’un endomorphisme u est diagonalisable, la base (e) pour laquelle Mat(e) (u) est diagonale
est constituée de vecteurs propres. Dès lors, on ne s’étonnera pas des nombreuses définitions équivalentes que
l’on va obtenir en faisant intervenir la théorie spectrale.
Théorème 2.6 — Soit u ∈ L(E) un endomorphisme de E, et Sp(u) = {λ1 , . . . , λk } le spectre de u. Alors u est
diagonalisable si et seulement si E = Eλ1 (u) ⊕ · · · ⊕ Eλk (u).
Corollaire — Soit u ∈ L(E) un endomorphisme de E, Sp(u) = {λ1 , . . . , λk } le spectre de u. Alors u est diagonalisable
k
X
si et seulement si dim Eλi (u) = dim E.
i=1
Exemple. La matrice A3 de l’exercice 3 n’est pas diagonalisable. Nous n’avons trouvé que deux sous-espaces
propres, chacun de dimension 1.
Corollaire — Un endomorphisme u de L(E) est diagonalisable si et seulement si son polynôme caractéristique est
scindé sur le corps de base K, et si pour toute valeur propre la dimension du sous-espace propre associé est égale à sa
multiplicité dans le polynôme caractéristique.
– le polynôme caractéristique de A1 est égal à (X − 1)(X − 2)(X − 3) ; A1 possède trois sous-espaces propres
de dimension 1 donc A1 est diagonalisable ;
Un cas particulier
Lorsque E est de dimension p et lorsque u possède p valeurs propres distinctes, chacun des sous-espaces propres
est de dimension au moins égale à 1 donc la somme des sous-espaces propres est au moins de dimension p. Ceci
prouve que la somme de ces sous-espaces propres est égale à E, donc u est diagonalisable, et indique en plus
que chacun de ces sous-espaces propres est de dimension 1. C’est le cas par exemple de la matrice A1 .
Cette situation n’est pas caractéristique de tous les endomorphismes diagonalisables (comme le montre par
exemple la matrice A2 ), mais quand elle se produit, nous donne une façon simple de justifier que l’endomor-
phisme est diagonalisable :
Proposition 2.7 — Si E est de dimension p et si u ∈ L(E) possède p valeurs propres distinctes alors u est diagonali-
sable.
Exercice 6
0 0
z
Soit z ∈ C. Montrer que la matrice M = 1 0 0 ∈ M3 (C) est diagonalisable, sauf pour deux valeurs de z
qu’on précisera. 1 1 0
Attention. Pour finir cette section, observons que la dernière caractérisation de la diagonalisation fait intervenir
le corps de base K. Lorsqu’il s’agit de diagonaliser un endomorphisme, le corps de base est imposé par l’espace
vectoriel, mais lorsqu’il s’agit de diagonaliser une matrice à coefficients réels, il est possible de la considérer
comme un élément de Mp (R) mais aussi comme un élément de Mp (C). En d’autres termes, une matrice à
coefficients réels peut être diagonalisable dans Mp (C) sans être diagonalisable dans Mp (R).
!
1 −1
Considérons par exemple la matrice A = . On calcule χA = (X −1)2 +1, donc A n’a pas de valeurs propres
1 1
réelles : elle n’est pas diagonalisable dans M2 (R). En revanche, elle dispose de deux valeurs propres complexes
distinctes 1 − i et 1 + i donc est diagonalisable dans M2 (C).
Considérons une projection vectorielle p ∈ L(E) sur H1 parallèlement à H2 : on a E = H1 ⊕ H2 , et dans une base
(e) adaptée à cette décomposition on a
1
Mat(e) (p) = 1
0
0
L’endomorphisme p est diagonalisable, Sp(p) = {0, 1}, et H1 = Ker(p − IdE ) et H2 = Ker p sont les sous-espaces
propres associés.
On peut de même considérer la symétrie vectorielle s ∈ L(E) par rapport à H1 , parallèlement à H2 : sur la même
base (e) on a cette fois
1
Mat(s) (s) = 1
−1
−1
L’endomorphisme s est diagonalisable, Sp(s) = {−1, 1}, H1 = Ker(s − IdE ) et H2 = Ker(s + IdE ).
Observons enfin que s = p−(IdE −p) = 1×p1 +(−1)×p2 , où p1 = p est la projection vectorielle sur H1 parallèlement
à H2 et p2 = IdE − p est la projection vectorielle sur H2 parallèlement à H1 .
La famille (p1 , . . . , pk ) associée à cette décomposition de l’espace est appelée la famille des projecteurs spectraux
M
de u. Rappelons que pour tout i ∈ ⟦1, k⟧, pi est la projection sur Eλi (u) parallèlement à Eλj (u). Ainsi,
j,i
0
0
1
i e bloc
Mate (pi ) =
1
0
0
k
X k
X
On dispose alors de manière évidente des égalités IdE = pj et u = λj pj , et plus généralement :
j=1 j=1
k
X
Proposition 2.8 — Pour tout entier n ∈ N on a u n = λnj pj .
j=1
Remarque. Lorsque u est inversible (c’est à dire lorsque 0 n’est pas valeur propre de u) cette formule s’étend
sur Z.
interprétation matricielle
1
Considérons la diagonalisation de la matrice A1 obtenue dans l’exercice 3 : A1 = PDP−1 avec D = 2 .
3
Dans la base de diagonalisation, les trois projecteurs spectraux sont associés aux matrices
1 0 0
0 , 1 , 0 .
0 0 1
Dans la base initiale, les trois projecteurs spectraux sont donc associés aux matrices
1 0 0
−1 −1 −1
U = P 0 P , V = P 1 P , W = P 0 P .
0 0 1
1
On a I = U + V + W, A1 = U + 2V + 3W, et plus généralement : ∀n ∈ N, An1 = P 2n P = U + 2n V + 3n W ;
−1
n
3
le calcul des matrices U, V et W permet donc d’exprimer aisément An1 .
Exercice 7
On considère la matrice A2 de l’exercice 3. Justifier l’existence (mais sans les calculer) de deux matrices U et V
telles que pour tout n ∈ N, An2 = 2n U + 4n V.
Montrer que ces matrices U et V peuvent s’exprimer en fonction des matrices I et A, et en déduire une
expression de An en fonction de I et de A.
Réciproquement, il est évident que ces deux matrices (et donc les endomorphismes u et v) commutent. Nous
avons donc prouvé la
Proposition 2.9 — Si u est un endomorphisme diagonalisable, les endomorphismes qui commutent avec u sont ceux
qui laissent stables les sous-espaces propres.
Corollaire — Lorsque le polynôme caractéristique de u est scindé à racines simples, le commutant est un espace de
dimension p = dim E, et les projecteurs spectraux de u en constituent une base.
Exercice 8
Soit A ∈ M2 (R) une matrice admettant −1 et 8 pour valeurs propres. Justifier l’existence d’une unique matrice
B ∈ M2 (R) vérifiant B3 = A, puis exprimer B en fonction de I et de A.
Nous venons de constater que lorsque u est diagonalisable, il existe un polynôme scindé à racines simples qui
annule u. Le fait remarquable est qu’il s’agit d’une équivalence, comme le prouve le théorème :
Théorème 2.10 — Soit u ∈ L(E) un endomorphisme de E. Alors u est diagonalisable si et seulement si u est annulé
par un polynôme scindé à racines simples.
Attention. Cette preuve ne permet pas d’affirmer que les λj sont les valeurs propres de u, car rien ne dit qu’on
a bien Eλj (u) , {0E }. Tout au plus peut-on affirmer que Sp(u) ⊂ {λ1 , . . . , λk }.
Notons en revanche que lorsqu’on connait les valeurs propres de u, on peut en déduire le résultat suivant :
Y
Corollaire — u est diagonalisable si et seulement s’il est annulé par le polynôme (X − λ).
λ∈Sp(u)
Proposition 2.11 — Si u est diagonalisable et si H est un sous-espace vectoriel stable par u, alors l’endomorphisme
induit par u sur H est aussi diagonalisable.
Exercice 9
Soit u ∈ L(E) un endomorphisme pour lequel il existe une famille libre (e) vérifiant : u(e1 ) = e1 et u(e2 ) = e1 + e2 .
L’endomorphisme u est-il diagonalisable ?
Ce résultat présente bien évidemment l’intérêt de nous fournir un polynôme annulateur de u, mais ce dernier
ne sera pas forcément de degré minimal (on se souvient néanmoins que le polynôme minimal de u se trouve
parmi ses diviseurs).
Définition. — Un endomorphisme u ∈ L(E) est dit trigonalisable s’il existe une base de E dans laquelle la matrice
associée à u est triangulaire supérieure.
Une matrice A est dite trigonalisable si et seulement si elle est semblable à une matrice triangulaire supérieure, c’est à
dire s’il existe une matrice triangulaire supérieure T et une matrice inversible P telles que A = PTP−1 .
Théorème 3.1 — Un endomorphisme u ∈ L(E) (ou une matrice A ∈ Mp (K)) est trigonalisable si et seulement si son
polynôme caractéristique est scindé.
Remarque. Puisque tout polynôme complexe est scindé, une conséquence importante de ceci est que toute
matrice est trigonalisable dans Mp (C), mais pas nécessairement dans Mp (R).
Espaces euclidiens
Élément important de calcul en géométrie euclidienne, le produit scalaire apparaît cependant assez tard dans
l’histoire des mathématiques. On en trouve trace chez Hamilton en 1843 lorsqu’il crée le corps des quaternions
ou encore chez Peano (associé à un calcul d’aire), et n’est initialement défini qu’à l’aide du cosinus d’un angle.
Sa qualité de forme bilinéaire symétrique ne sera exploitée en algèbre linéaire que plus tard et, de propriété,
deviendra définition.
Un espace muni d’un produit scalaire sera dit préhilbertien 2 , le terme euclidien étant réservé aux espaces de
dimensions finies.
1. Espaces préhilbertiens
1.1 Produit scalaire
Dans toute cette section, E désigne un R-espace vectoriel de dimension quelconque.
Remarque. Une forme bilinéaire symétrique qui vérifie seulement la propriété ∀x ∈ E, φ(x, x) ⩾ 0 sans être
nécessairement définie positive est dite positive. p
On notera par la suite les notations usuelles : φ(x, y) = ⟨x | y⟩, et ∥x∥ = ⟨x | x⟩, cette dernière expression
désignant la norme euclidienne associée au produit scalaire 4 .
Un R-espace vectoriel muni d’un produit scalaire est appelé un espace préhilbertien réel.
Proposition 1.1 — L’application (A, B) 7→ tr(AT B) est un produit scalaire sur Mn,p (R). Il s’agit du produit scalaire
canonique de Mn,p (R) : la base canonique est orthonormée pour ce produit scalaire.
Proposition 1.2 — Soit ω : [a, b] → R∗+ une fonction continue à valeurs strictement positives, et E l’ensemble des
Zb
fonctions continues f : [a, b] → R. Alors l’application (f , g) 7→ f (t)g(t)ω(t) dt un produit scalaire sur E.
a
Z 1
Exemple. L’application (P, Q) 7−→ P(t)Q(t) dt est un produit scalaire sur C 0 ([−1, 1], R), mais aussi sur R[X].
−1
Utilisation de la bilinéarité
En utilisant la bilinéarité et la symétrie du produit scalaire, on obtient les deux développements suivants :
Ces développements conduisent à diverses identités de polarisation, autrement dit des relations qui définissent le
produit scalaire à partir de la norme :
1 1 2 1
⟨x | y⟩ = ∥x + y∥2 − ∥x∥2 − ∥y∥2 ⟨x | y⟩ = ∥x∥ + ∥y∥2 − ∥x − y∥2 ⟨x | y⟩ = ∥x + y∥2 − ∥x − y∥2
2 2 4
2. Comme ce terme le laisse entendre, il existe aussi des espaces hilbertiens, mais leur étude n’est pas au programme.
3. Ces différents termes proviennent de l’étude générale des formes bilinéaires.
4. Il s’agit en effet d’une norme au sens topologique du terme.
On remarquera que ces identités impliquent qu’à une norme euclidienne donnée ne peut correspondre qu’un
seul produit scalaire.
Corollaire — Il y a égalité dans l’inégalité de Cauchy-Schwarz (autrement dit, |⟨x | y⟩| = ∥x∥ × ∥y∥) si et seulement
si la famille (x, y) est liée.
Exercice 1 n
X 2 n
X
Soit (x1 , x2 , . . . , xn ) ∈ Rn . Montrer que xk ⩽n xk2 . Dans quel cas y-a-t-il égalité ?
k=1 n=1
Remarque. Il y a égalité dans l’inégalité triangulaire lorsque ⟨x | y⟩ = ∥x∥ × ∥y∥, c’est à dire lorsqu’il y a égalité
dans l’inégalité de Cauchy-Schwarz et qu’en plus ⟨x | y⟩ ⩾ 0, ce qui impose x = 0E ou y = λx avec λ ⩾ 0.
1.2 Orthogonalité
Définition. — Soit E un espace préhilbertien réel.
(i) On dit que deux vecteurs x et y sont orthogonaux lorsque ⟨x | y⟩ = 0.
(ii) On dit qu’un vecteur x est orthogonal à un sous-espace vectoriel H lorsque ∀y ∈ H, ⟨x | y⟩ = 0.
(iii) Enfin, deux sous-espaces vectoriels H1 et H2 sont orthogonaux lorsque ∀(x, y) ∈ H1 × H2 , ⟨x | y⟩ = 0.
Remarque. On peut noter que deux sous-espaces vectoriels orthogonaux sont nécessairement en somme directe.
En effet, si x ∈ H1 ∩ H2 alors ⟨x | x⟩ = 0, ce qui impose x = 0E . On dit alors que la somme H1 ⊕ H2 est une somme
⊥
directe orthogonale, et on pourra éventuellement la noter H1 ⊕ H2 .
Nous pouvons noter que réciproquement, si nous avons ∥x1 + x2 ∥2 = ∥x1 ∥2 + ∥x2 ∥2 , alors x1 et x2 sont nécessaire-
ment orthogonaux.
Remarque. L’intérêt majeur de ce dernier résultat est qu’en dimension finie, déterminer l’orthogonal d’un
sous-espace vectoriel H revient à déterminer l’orthogonal d’une base de H.
Lorsque H est un sous-espace vectoriel, H⊥ est donc le plus grand des sous-espaces vectoriels (au sens de
l’inclusion) qui soit en somme directe orthogonale avec H : H ⊕ H⊥ .
Attention cependant, cela ne signifie pas pour autant que cette somme soit égale à E. Il faudra en effet supposer
en plus que E est de dimension finie pour pouvoir affirmer que H et H⊥ sont des sous-espaces supplémentaires.
Si H1 et H2 sont deux sous-espaces vectoriels de E, on dispose enfin des équivalences :
H1 et H2 sont orthogonaux ⇐⇒ H1 ⊂ H⊥ ⊥
2 ⇐⇒ H2 ⊂ H1 .
Proposition 1.7 — Un famille orthonormée est libre. En particulier, lorsque E est de dimension finie n, une famille
orthonormée constituée de n vecteurs est une base de E, dite base orthonormée.
On appelle espace euclidien tout espace préhilbertien réel de dimension finie. Le résultat précédent définit la
notion de base orthonormée, mais ne prouve pas l’existence de celles-ci. C’est l’objet du théorème suivant :
Nous reviendrons sur cette construction une fois définie la notion de projection orthogonale ; elle prendra alors le
nom de procédé d’orthonormalisation de Gram-Schmidt.
Proposition 1.9 — Toute forme linéaire de E s’écrit de manière unique : x 7−→ ⟨a | x⟩, où a est un vecteur de E.
Théorème 1.10 — Si E est un espace préhilbertien et H un sous-espace vectoriel de dimension finie ; alors E = H⊕ H⊥ .
Corollaire — Lorsque E est un espace euclidien et H un sous-espace vectoriel de E, on a dim(H⊥ ) = dim E − dim H
et H⊥⊥ = H.
Remarque. Dans un espace préhilbertien de dimension quelconque, on peut seulement affirmer que H ⊂ H⊥⊥ .
Définition. — On appelle projection orthogonale sur un sous-espace vectoriel H de dimension finie d’un espace
préhilbertien E la projection vectorielle sur H parallèlement à H⊥ .
k
X
∀x ∈ E, p(x) = ⟨ej | x⟩ej
j=1
H⊥
x
p(x)
H
Remarque. Dans le cas de la projection sur un hyperplan H on a dim H = dim E − 1 donc dim H⊥ = 1. Si a
est un vecteur unitaire de H⊥ , la projection orthogonale sur H⊥ s’écrit x 7→ ⟨a | x⟩a et celle sur H s’écrit donc
x 7→ x − ⟨a | x⟩a.
Lorsqu’on ne dispose pas d’une base orthonormée de H, on utilise pour caractériser le vecteur p(x) le résultat
suivant :
(
p(x) ∈ H
Proposition 1.11 — p(x) est l’unique vecteur de E vérifiant les conditions :
x − p(x) ∈ H⊥
Exercice 2
Soit E un espace euclidien de dimension 4, (e) une base orthonormée et u = 3e1 + 2e2 − e3 + e4 , v = 2e1 + 5e2 − e4 .
On note H = Vect(u, v). Calculer la distance de H au vecteur w = e1 + e2 + e3 + e4 .
Remarque. Nous reviendrons au chapitre IX sur la notion de distance, dans un cadre plus général, celui des
espaces vectoriels normés.
xj − pj (xj )
∀j ∈ ⟦1, k⟧, ej =
∥xj − pj (xj )∥
Exemple. Considérons l’espace euclidien R3 muni du produit scalaire usuel, ainsi que la famille de vecteurs
0 1 1
x1 = 1, x2 = 2 et x3 = 0, et appliquons lui la méthode de Gram-Schmidt :
2 3 1
0
x1 1
– e1 = donc e1 = √ 1.
∥x1 ∥ 5 2
0 5 5
8 1 1
– p(x2 ) = ⟨e1 | x2 ⟩e1 = 1 donc x2 − p(x2 ) = 2 et e2 = √ 2 .
5 5 30 −1
2 −1
1 1 1
2 1 1
– p(x3 ) = ⟨e1 | x3 ⟩e1 + ⟨e2 | x3 ⟩e2 = 1 donc x3 − p(x3 ) = −2 et e3 = √ −2.
3 3 6 1
1 1
Exercice 3
On muni R[X] d’un produit scalaire quelconque. À l’aide du procédé de Schmidt appliqué à la base canonique
de R[X], justifier l’existence d’une unique famille (Pn )n∈N telle que :
– pour tout n ∈ N, deg Pn = n ;
– pour tout n ∈ N, cdom(Pn ) = 1 ;
– pour tout i , j, ⟨Pi | Pj ⟩ = 0.
Une telle application est a fortiori compatible avec la norme euclidienne : en posant y = x on obtient ∀x ∈ E,
∥u(x)∥ = ∥x∥, ce qui explique leur nom. Le fait remarquable est que la réciproque est vraie :
Proposition 2.1 — u ∈ L(E) est une isométrie vectorielle si et seulement si ∀x ∈ E, ∥u(x)∥ = ∥x∥.
En conséquence de quoi une isométrie vectorielle est injective : en effet, lorsque u(x) = 0E nous avons ∥x∥ =
∥u(x)∥ = 0 et donc x = 0E . Et en particulier, lorsque E est de dimension finie, une isométrie vectorielle est
nécessairement inversible. Un endomorphisme inversible étant appelé un automorphisme, en dimension finie
les isométries vectorielles portent aussi le nom d’automorphisme orthogonal.
On notera O(E) l’ensemble des isométries vectorielles de E ; il est appelé le groupe orthogonal de E.
Exemple. On appelle symétrie orthogonale par rapport à un sous-espace vectoriel H la symétrie par rapport à H,
parallèlement à H⊥ . Il s’agit d’une isométrie vectorielle.
H⊥
x
s(x)
Posons x = x1 + x2 avec x1 ∈ H et x2 ∈ H⊥ . Alors ∥s(x)∥2 = ∥x1 ∥2 + ∥x2 ∥2 = ∥x∥2 donc s préserve la norme ; il s’agit
bien d’une isométrie vectorielle.
Attention. Une symétrie orthogonale est un automorphisme orthogonal (ie une isométrie vectorielle), mais ce
n’est pas le cas d’une projection orthogonale (qui, hormis l’identité, n’est pas inversible).
Remarque. Une symétrie orthogonale par rapport à un hyperplan (un sous-espace vectoriel de dimension p − 1)
est aussi appelée une réflexion. En dimension 2, les réflexions sont donc les symétries orthogonales par rapport
aux droites, en dimension 3 les symétries orthogonales par rapport aux plans.
Exercice 4
Soient a et b deux vecteurs non nuls distincts d’un espace euclidien E vérifiant ∥a∥ = ∥b∥. Montrer qu’il existe
une unique réflexion s telle que s(a) = b.
Proposition 2.2 — Soit E un espace euclidien, u ∈ O(E) une isométrie vectorielle, et H un sous-espace vectoriel de E
stable par u. Alors H⊥ est aussi stable par u.
Corollaire — Soit (e1 , . . . , en ) une base orthonormée, u ∈ L(E), et A = Mate (u). Alors u est une isométrie vectorielle
si et seulement si AT A = I.
Une matrice A ∈ Mp (R) vérifiant l’identité AT A = I est appelée une matrice orthogonale. On note Op (R)
l’ensemble des matrices orthogonales de Mp (R) ; ensemble qu’on appelle le groupe orthogonal d’ordre p.
Remarque. Si on observe que Mat(e) (u) = Mat(e) u(e1 ), u(e2 ), . . . , u(ep ) , on peut affirmer qu’une matrice ortho-
gonale est une matrice dont les colonnes forment une famille orthonormée pour le produit scalaire usuel.
C’est souvent par l’intermédiaire de cette propriété que l’on reconnait une matrice orthogonale. Une autre
conséquence de cette observation réside dans la :
Proposition 2.4 — La matrice de passage entre deux bases orthonormées est une matrice orthogonale.
Structure de groupe
Le vocable groupe a une signification particulière en mathématiques, et ce n’est pas par hasard s’il est employé
ici. Sans rentrer dans les détails, l’emploi de ce terme implique les propriétés suivantes :
(i) la matrice Ip est orthogonale : Ip ∈ Op (R) ;
(ii) si A et B sont orthogonales, AB est aussi orthogonale : (A, B) ∈ Op (R)2 =⇒ AB ∈ Op (R) ;
(iii) si A est orthogonale, A−1 aussi : A ∈ Op (R) =⇒ A−1 ∈ Op (R).
Proposition 2.5 — Soit u une isométrie vectorielle (respectivement A une matrice orthogonale). Alors det u ∈ {−1, 1}
(det A ∈ {−1, 1}).
Proposition 2.6 — La relation R est une relation d’équivalence qui possède deux classes d’équivalence distinctes.
Définition. — Orienter l’espace E, c’est choisir l’une de ces deux classes d’équivalence ; les bases orthonormées de
cette classe seront qualifiées de bases directes, les autres de bases indirectes.
Remarque. Pour orienter l’espace, il suffit de choisir une base (e) et la qualifier de directe. Une fois ce choix fait,
une base orthonormée (e′ ) sera directe si det(e) (e′ ) = 1, et indirecte si det(e) (e′ ) = −1.
Proposition 2.7 — Si l’espace E est orienté et si u ∈ O(E) est une isométrie vectorielle, alors u appartient à SO(E)
si et seulement si l’image par u d’une base orthonormée directe est une base orthonormée directe. Autrement dit, les
isométries directes sont celles qui préservent l’orientation de l’espace.
Théorème 2.8 — Si (e) et (e′ ) sont deux bases orthonormées directes et (x1 , . . . , xp ) une famille de p vecteurs de E
alors det(e) (x1 , . . . , xp ) = det(e′ ) (x1 , . . . , xp ). Autrement dit, le déterminant d’une famille de vecteurs ne dépend pas du
choix de la base orthonormée directe dans laquelle on réalise le calcul.
La première égalité traduit l’existence d’un réel α (défini de manière unique modulo 2π) tel que a = cos α et
b = sin α. De même, la seconde égalité traduit l’existence d’un réel β pour lequel d = cos β et c = sin β.
La troisième égalité s’écrit alors cos α sin β + sin α cos β = 0, soit sin(α + β) = 0. Ainsi, nous avons β ≡ −α mod π,
ce qui laisse deux possibilités (sachant que β est unique modulo 2π) : β = −α ou β = π − α.
Les matrices de O2 (R) sont donc de deux types uniquement :
! !
cos α − sin α cos α sin α
A1 = (lorsque β = −α) ou A2 = (lorsque β = π − α).
sin α cos α sin α − cos α
det A1 = 1 et det A2 = −1 donc les isométries vectorielles directes sont associées aux matrices de type A1 , et les
isométries indirectes aux matrices de type A2 .
Corollaire — Si Mat(e) (u) = Rα , la valeur de α est indépendante du choix de la base orthonormée directe (e) ; on dit
que u est la rotation d’angle α.
Remarque. Les matrices de SO 2 (R) sont aussi les matrices de passage d’une base orthonormée directe à une
autre ; ainsi nous venons de prouver que nous ne pouvons passer d’une base orthonormée directe à une autre
que par l’action d’une rotation.
u(x)
α
x
e2
e1′
e2′
α
e1
On en déduit deux formules qui permettent de calculer cos α et sin α et par leur intermédiaire de déterminer
l’angle d’une rotation à partir de l’image d’un vecteur non nul quelconque :
⟨x | u(x)⟩ det(x, u(x))
cos α = et sin α =
∥x∥2 ∥x∥2
ce dernier déterminant pouvant être calculé dans une base orthonormée directe quelconque.
⟨u(x) | y⟩ = ⟨x | u(y)⟩.
Théorème 2.10 — Si (e) est une base orthonormée de E et A = Mate (u), alors u est autoadjoint si et seulement si
AT = A, c’est à dire si et seulement si A est symétrique.
e2
e2′ u(e1 )
D
e1′
α
e1
Remarque. Pour cette raison, un endomorphisme autoadjoint est aussi appelé un endomorphisme symétrique,
mais cette appellation peut être trompeuse, car si (e) n’est pas une base orthonormée, la matrice associée dans
cette base à un endomorphisme autoadjoint peut ne pas être symétrique.
où u ∗ est l’endomorphisme défini par Mat(e) (u ∗ ) = AT . Cet endomorphisme est appelé l’adjoint de l’endomor-
phisme u (il est facile de montrer que sa définition ne dépend pas du choix de la base orthonormée (e)). On
comprend dès lors la dénomination des endomorphismes autoadjoints : les endomorphismes u ∈ L(E) qui
vérifient u ∗ = u.
Proposition 2.11 — L’ensemble S(E) des endomorphismes autoadjoints de E est un sous-espace vectoriel de L(E), de
p(p + 1)
dimension .
2
Exercice 5
Soient u et v deux endomorphismes autoadjoints. Montrer que u◦v est autoadjoint si et seulement si u◦v = v◦u.
Proposition 2.12 — Si u est un endomorphisme autoadjoint, ses sous-espaces propres sont en somme directe
orthogonale.
Proposition 2.13 — Soit H un espace vectoriel stable par un endomorphisme autoadjoint u. Alors H⊥ est aussi
stable par u.
Théorème 2.14 (théorème spectral) — Un endomorphisme autoadjoint est diagonalisable dans une base orthonor-
mée.
Corollaire — Si A est une matrice symétrique, il existe une matrice diagonale D et une matrice orthogonale P telles
que A = PDPT (rappelons que P−1 = PT ).
Exercice 6
2 −1 2
Diagonaliser sur une base orthonormée la matrice A = −1 2 2 .
2 2 −1
Définition. — Un endomorphisme autoadjoint u ∈ S(E) est dit positif lorsque pour tout x ∈ E, ⟨x | u(x)⟩ ⩾ 0 ; un
endomorphisme autoadjoint u ∈ S(E) est dit défini positif lorsque pour tout x ∈ E \ {0E }, ⟨x | u(x)⟩ > 0.
On note S + (E) l’ensemble des endomorphismes autoadjoints positifs et S ++ (E) celui des endomorphismes
autoadjoints définis positifs.
On note Sp+ (R) l’ensemble des matrices symétriques positives, et Sp++ (R) celui des matrices symétriques définies
positives.
Proposition 2.17 — Une matrice A ∈ Mp (R) est symétrique positive si et seulement s’il existe M ∈ Mp (R) telle que
A = M T M. De plus, A est définie positive si et seulement si M ∈ GLp (R).
Définition. — Une suite numérique (un ) est dite bornée lorsqu’il existe un réel B ⩾ 0 tel que pour tout n ∈ N,
|un | ⩽ B.
Dans le cas réel, cette définition est équivalente à dire que la suite est majorée et minorée. Cependant on lui
préférera en général la définition ci-dessus, qui présente deux avantages :
– cette définition est valable aussi bien dans R que dans C (et, au prix d’une modification mineure, dans le cas
des espaces vectoriels) ;
– elle traduit le concept à l’aide d’une inégalité entre nombres positifs, ce qui évite de nombreuses erreurs de
manipulations d’inégalités.
Définition. — On dit qu’une suite (un ) numérique converge vers une limite finie ℓ lorsque la distance de un à ℓ
tend vers 0 : lim |un − ℓ| = 0. Ceci revient donc à écrire :
n→+∞
∀ϵ > 0, ∃N ∈ N n ⩾ N ⇒ |un − ℓ| ⩽ ϵ
Autrement dit, il existe un rang à partir duquel tous les termes de la suite (un ) sont à une distance de ℓ inférieure
à une quantité arbitrairement petite ϵ.
Exercice 1
Démontrer les propriétés suivantes :
a. toute suite convergente est bornée ;
b. toute suite convergente possède une unique limite ;
c. toute suite extraite d’une suite convergente converge vers la même limite.
Théorème 1.1 (Cesàro) — Soit (un ) une suite numérique qui converge vers une limite ℓ. Pour tout n ∈ N on pose
n
1 X
vn = uk . Montrer que la suite (vn ) converge vers ℓ.
n+1
k=0
Exercice 2
Déduire du théorème de Cesàro le lemme de l’escalier : si une suite numérique (un ) vérifie : lim(un+1 − un ) = ℓ
u
alors lim n = ℓ.
n
Limites infinies
La première particularité des suites réelles est de caractériser deux cas particuliers de divergence : la divergence
vers −∞ et vers +∞ :
Autrement dit, une suite (un ) diverge vers +∞ lorsque un est, à partir d’un certain rang, supérieure à une
quantité arbitrairement grande A.
Proposition 1.2 — Une suite réelle qui diverge vers +∞ est minorée mais pas majorée.
De même, une suite qui diverge vers −∞ est majorée mais non minorée.
Théorème 1.4 (encadrement) — Soient (un ), (vn ) et (wn ) trois suites réelles telles que pour tout n ∈ N, un ⩽ vn ⩽ wn .
On suppose que (un ) et (wn ) convergent vers la même limite ℓ. Alors (vn ) converge vers ℓ.
Théorème 1.5 (minoration) — Soient (un ) et (vn ) deux suites réelles telles que pour tout n ∈ N, un ⩽ vn . On suppose
que (un ) diverge vers +∞. Alors (vn ) diverge vers +∞.
■ Suites monotones
Théorème 1.6 — Une suite croissante et majorée converge ; une suite croissante et non majorée diverge vers +∞.
• • • •
• un •
•
•
N
n
Figure 1 – La limite d’une suite croissante et majorée est la borne supérieure de la suite.
Remarque. Bien entendu, une suite décroissante est convergente lorsque elle est minorée, et diverge vers −∞
dans le cas contraire.
Enfin, à la notion de suite monotone est attaché le concept de suites adjacentes, utile car fournissant une
approximation par défaut et par excès de leut limite commune.
Définition. — Deux suites (un ) et (vn ) sont dites adjacentes lorsque (un ) est croissante, (vn ) décroissante, et
lim(vn − un ) = 0.
+∞
Théorème 1.7 — Si (un ) et (vn ) sont adjacentes, alors ∀n ∈ N, un ⩽ vn , et ces deux suites convergent vers la même
limite ℓ ; ℓ est l’unique réel tel que pour tout n ∈ N, un ⩽ ℓ ⩽ vn .
R
•
•
v
• • n • • • • •
δn
• • • •
• •
• un
•
•
N
n
Exercice 3
n
X 1 1
On pose an = et bn = an + . Montrer que les deux suites (an ) et (bn ) sont adjacentes, puis montrer que
k! n.n!
k=0
leur limite commune est irrationnelle.
Remarque. Nous aurons l’occasion de prouver plus tard dans l’année que la limite commune aux deux suites
de cet exercice est le nombre de Neper e (la base du logarithme naturel). Les deux suites (an ) et (bn ) permettent
donc d’obtenir une approximation par défaut et par excès de cette quantité, en utilisant le script Python suivant.
n = 1
a = 2
while 1 / (n * factorial(n)) > 1e−12:
n += 1
a += 1 / factorial(n)
b = a + 1 / (n * factorial(n))
In [1]: a, b
Out[1]: (2.71828182845823, 2.7182818284590495)
Si on fait abstraction des erreurs de calcul inhérentes à la manipulation des flottants en machine, nous
pouvons affirmer que 2,718 281 828 458 23 < e < 2,718 281 828 459 049 5, ce qui fournit les première décimales
de e ≈ 2,718 281 828 45 · · · .
On peut noter que les suites (un ) et (vn ) sont équivalentes si et seulement si un = vn + o(vn ).
Suites de références
Ces notations n’ont d’intérêt que pour comparer des infiniment petits (des suites qui tendent vers 0) ou des
infiniment grands (des suites qui tendent vers +∞) entre eux. Si deux suites (un ) et (vn ) convergent vers
une limite commune ℓ, on comparera les suites (un − ℓ) à (vn − ℓ) entre elles pour mesurer leurs vitesses de
convergence relatives.
En outre, dans la pratique la suite (vn ) est le plus souvent une suite de référence, c’est-à-dire une suite dont on
connait le comportement. En ce qui nous concerne, les suites de références au voisinage de +∞ seront composées
des fonctions (ln n)α (avec α > 0), nβ (avec β > 0) et eγn (avec γ > 0). À ce sujet, rappelons le principe dit des
croissances comparées :
∀α, β, γ > 0, (ln n)α = o(nβ ) et nβ = o(eγn )
Les suites de référence au voisinage de 0 sont les inverses des trois suites précédentes. Ainsi,
1 1 1
e−γn = o β et = o .
n nβ (ln n)α
Exercice 4
Ordonner les suites ci-dessous à l’aide de la relation « est négligeable devant » :
n3 en √ n2
n2 en n ln2 n + n2 n + ln n n2 ln2 n
ln n n ln n n + ln n
■ Comparaison logarithmique
La notion que nous allons introduire consiste à comparer deux suites positives (concrètement une suite à étudier
et une suite de référence) par le biais du quotient de deux termes consécutifs de ces suites. Cette technique
repose sur le résultat suivant :
un+1 vn+1
Lemme — Si (un ) et (vn ) sont deux suites de réels strictement positifs telles qu’à partir d’un certain rang, ⩽ ,
un vn
alors un = O(vn ).
Dans la pratique, nous nous contenterons de prendre pour l’une de ces deux suites une suite géométrique :
Proposition 1.8 (comparaison à une suite géométrique) — Soit (un ) une suite de réels strictement positifs. On
u
suppose l’existence d’un réel positif a tel qu’à partir d’un certain rang, n+1 ⩽ a. Alors un = O(an ).
un
u
De même, s’il existe un rang à partir duquel a ⩽ n+1 alors an = O(un ).
un
Exercice 5
Montrer que si a < e < b alors nn b−n = O(n!) et n! = O(nn a−n ).
2. Séries numériques
2.1 Généralités
À une suite réelle ou complexe (un ) on associe la suite (Sn ) dont le terme général est défini par :
n
X
∀n ∈ N, Sn = uk .
k=0
X
La suite (Sn ) est la suite des sommes partielles associée à la série un de terme général un .
X
Définition. — On dit que la série un converge lorsque la suite (Sn ) converge, et qu’elle diverge dans le cas
+∞
X n
X
contraire. En cas de convergence, on pose : S = lim Sn , et on écrira : S = uk = lim uk .
+∞ n→+∞
k=0 k=0
+∞
X
Enfin, lorsque qu’une série converge, on appelle reste d’ordre n la quantité : Rn = S − Sn = uk . On définit
ainsi une suite (Rn ) qui converge vers 0. k=n+1
Attention. Les résultats concernant les opérations sur les limites permettent de prouver que la somme de
deux séries convergentes est encore convergente, ou que le produit par un scalaire d’une X
série convergente est
encore convergente. Attention néanmoins à ne pas commettre l’erreur suivante : la série (un + vn ) peut être
X X
convergente sans que les séries un et vn le soient. Autrement dit, avant d’écrire que :
+∞
X +∞
X +∞
X
(un + vn ) = un + vn
n=0 n=0 n=0
il faudra prendre la peine de vérifier que ces séries sont effectivement convergentes.
Attention. Ce critère que nous venons d’énoncer n’assure pas à lui seul la convergence de la série ; il existe en
effet de nombreuses séries divergentes dont le terme général tend vers 0. Il suffit pour cela que la suite (Sn )
diverge et que la suite (Sn − Sn−1 ) tende vers 0. C’est le cas par exemple lorsque Sn = ln n.
X1
Mais l’exemple le plus connu est sans conteste la série harmonique . Les méthodes pour prouver la
n
divergence de cette série sont très nombreuses, et nous verrons plus loin (dans la section « comparaison à une
intégrale ») une méthode plus simple. Dans l’immédiat, nous allons raisonner par l’absurde en supposant la
convergence de cette série. Dans ces conditions, la suite S2n − Sn converge vers 0. Mais
2n 2n
X 1 X 1 1
S2n − Sn = ⩾ =
k 2n 2
k=n+1 k=n+1
Égalité télescopique n
X
Lorsqu’on remplace uk par Sk − Sk−1 pour k ⩾ 1 dans la relation Sn = uk on obtient :
k=0
n
X
∀n ∈ N, Sn = S0 + (Sk − Sk−1 ).
k=1
Cette relation, lorsqu’elle est mise en évidence, permet le calcul de certaines sommes, comme par exemple dans
l’exercice suivant.
Exercice 6 +∞
X 1
Prouver la convergence et calculer la somme .
n(n + 1)
n=1
Théorème 2.2 (comparaison) — Soient X (un ) et (vn ) deux suitesXde nombres réels positifsX telles que : ∀n
X∈ N,
0 ⩽ un ⩽ vn . Alors la convergence de la série vn entraîne celle de un , et la divergence de un celle de vn .
Remarque. On peut remplacer l’hypothèse : un ⩽ vn par l’hypothèse : un = O(vn ). En effet, cette nouvelle
hypothèse
X implique
X l’existence d’un réel B > 0 tel que un ⩽ Bvn , et il suffit alors d’appliquer le théorème aux
séries un et Bvn . On peut donc énoncer le :
X n n 1 1
X
Exemples. La série converge car = O et converge.
3n 3n 2 n 2n
X ln n 1
ln n
X1
La série diverge car = O et diverge.
n n n n
X X
Corollaire — Deux séries un et vn à terme général positif vérifiant : un ∼ vn ont même nature 5 .
Attention. Ce résultat peut être mis en défaut lorsque les suites ne sont pas de signes constants. Cette erreur,
très commune, à même été commise par Cauchy dans un article de 1823 consacré aux séries trigonométriques !
5. la nature d’une série est le fait pour elle d’être convergente ou divergente
Séries de référence
Ces deux derniers résultats nécessitent de posséder des séries de référence, c’est à dire des séries dont on connait
la nature et à qui on compare les autres séries. En ce qui nous concerne, nos séries de référence seront les séries
géométriques (étudiées à la section 2.1) et les séries de Riemann (étudiées à la section 2.3).
Exercice 7
En admettant le résultat du corollaire du théorème 2.4, étudier la nature des séries de terme général :
an √ ln n
un = 3 ln(n2 + 1) − 2 ln(n3 + 1), vn = (a > 0), wn = n
n − 1, xn = (α > 0).
1 + a2n nα
Enfin, la comparaison logarithmique à une série géométrique fournit le :
Théorème 2.3 (règle de d’Alembert)X — Soit (un ) une suite de nombres réels strictement positifs, telle que
un+1
lim = a. Alors : si a < 1, la série un converge ; si a > 1 elle diverge.
n→+∞ un
Exercice 8
2 × 4 × 6 × · · · × (2n)
Déterminer la nature de la série de terme général un = .
nn
y y
y = f (x) y = f (x)
f (k) f (k)
x x
k−1 k k k+1
Z k Z k+1
∀k ⩾ 1, f (k) ⩽ f (t) dt ∀k ⩾ 0, f (t) dt ⩽ f (k)
k−1 k
Observons les deux graphes représentés figure 3. Dans les deux cas, on compare l’aire hachurée, égale à f (k),
avec l’aire colorée, qui se calcule par l’intermédiaire d’une intégrale.
Zk Zk
Pour tout t ∈ [k − 1, k], f (k) ⩽ f (t) donc f (k) = f (k) dt ⩽ f (t) dt.
k−1 k−1
Z k+1 Z k+1
Pour tout t ∈ [k, k + 1], f (t) ⩽ f (k) donc f (t) dt ⩽ f (k) dt = f (k).
k k
n
X n Z
X k n
X Z n
f (k) ⩽ f (t) dt et donc f (k) ⩽ f (0) + f (t) dt (1)
k=1 k=1 k−1 k=0 0
n Z
X k+1 n
X Z n+1 n
X
f (t) dt ⩽ f (k) et donc f (t) dt ⩽ f (k) (2)
k=0 k k=0 0 k=0
On en déduit :
X Z n
Théorème 2.4 — La série f (n) converge si et seulement si la suite f (t) dt converge.
0
Z +∞
Remarque. Plus tard dans l’année nous dirons que l’intégrale f (t) dt converge.
0
Séries de Riemann
1
L’application de ce théorème aux fonctions x 7→ donne nos principales séries de référence :
xα
X 1
Corollaire (Séries de Riemann) — La série converge si et seulement si α > 1.
nα
Z N+1 N ZN N
dt X 1 dt 1 1 X 1 1 1
2
⩽ 2
⩽ 2
ce qui donne : − ⩽ 2
⩽ − .
n+1 t k n t n+1 N+1 k n N
k=n+1 k=n+1
+∞ +∞
1 X 1 1 X 1 1
En faisant tendre N vers +∞ on obtient : ⩽ ⩽ et donc : ∼ . Nous avons obtenu un
n+1 k2 n k2 n
X 1 k=n+1 k=n+1
Proposition 2.5 — Soient (un ) et (vn ) deux suites à terme général positif telles que un ∼ vn . Alors :
X X +∞
X +∞
X
– si un converge il en est de même de vn , et vk ∼ uk ;
n→+∞
k=n+1 k=n+1
X X n
X n
X
– si un diverge il en est de même de vn , et vk ∼ uk .
n→+∞
k=0 k=0
L’intérêt de ces séries est que l’on dispose d’un critère très simple assurant leur convergence ; il s’agit du résultat
suivant :
Théorème X2.6 (Critère spécial des séries alternées) — Si (an ) est une suite décroissante qui tend vers 0, la série
alternée (−1)n an est une série convergente.
X (−1)n−1
Exemple. La série vérifie les conditions du critère spécial des séries alternées, donc converge. Nous
n
pouvons illustrer cette convergence en observant le comportement des sommes partielles présenté figure 4.
0.8
0.6
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
(−1)n−1
Figure 4 – La suite des sommes partielles de la série de terme général .
n
Cette figure indique clairement comment procéder pour prouver ce théorème : montrer que les suites (S2n ) et
(S2n+1 ) sont adjacentes. Nous en déduirons aussi le résultat suivant :
X
Corollaire — Si la série (−1)n an vérifie les hypothèses du critère special des séries alternées, le reste rn =
+∞
X
(−1)k ak vérifie : |rn | ⩽ an+1 . De plus, rn est du signe de son premier terme, à savoir du signe de (−1)n+1 an+1 .
k=n+1
X (−1)n−1
Remarque. Dans le cas particulier de la série il est possible, en séparant les termes pairs des termes
n
impairs, d’en calculer la somme.
2p p p p p
X (−1)n−1 X 1 X 1 X 1 X 1
En effet on a : S2p = = − = Ip − Jp , avec Ip = et Jp = .
n 2k − 1 2k 2k − 1 2k
n=1 k=1 k=1 k=1 k=1
2p p
X 1 1X1 1 γ
Par ailleurs, Ip + Jp = = ln(2p) + γ + o(1), et Jp = = ln p + + o(1) donc :
n 2 k 2 2
n=1 k=1
Exercice 10
(−1)n
Soit α > 0. Pour tout n ⩾ 1 on pose un = ln 1 + α . Effectuer un développement asymptotique à deux termes
n X
de un , puis expliquer comment l’utiliser pour prouver la convergence de la série un .
Exemple. La fonction zêta de Riemann et la fonction êta de Dirichlet sont respectivement définies pour une
+∞ +∞
X 1 X (−1)n−1
variable complexe z par : ζ(z) = et η(z) = .
nz nz
n=1 n=1
2 1 e−iy ln n 1 1
Si z = x + iy avec (x, y) ∈ R , on a z = donc z = x ; ainsi les fonction ζ et η sont (au moins) définies
n on nx n n
sur l’ensemble z ∈ C Re(z) > 1 .
Exercice 11
Démontrer que lorsque Re(z) > 1, η(z) = 1 − 21−z ζ(z).
■ Semi-convergence
Lorsque x ∈ R, le critère spécial des séries alternées permet de prouver que η(x) est définie pour x > 0. Plus
généralement, une technique hors-programme (la transformation d’Abel) permet de prouver que η(z) est définie
lorsque Re(z) > 0.
X (−1)n−1
Ainsi, lorsque 0 < x ⩽ 1, la série est un exemple de série convergente qui n’est pas absolument
nx
convergente. On parle alors de série semi-convergente.
+∞
X (−1)n−1
Comme exemple type de semi-convergence on pourra donc citer η(1) = , qui est une série convergente
n
n=1
X1
d’après le critère spécial, mais qui n’est pas absolument convergente car la série harmonique diverge.
n
Remarque. L’expression de wn doit être comprise ainsi : on réalise la somme de tous les termes de la forme ui vj
pour lesquels les entiers i et j vérifient la condition i + j = n.
Xn
Cette condition est équivalente aux conditions i ∈ ⟦0, n⟧ et j = n − i donc on peut aussi écrire wn = ui vn−i .
Xn i=0
Si en revanche on observe que j ∈ ⟦0, n⟧ et i = n − j on écrira wn = un−j vj .
j=0
Attention. Si la suite (un ) n’est définie que pour n ⩾ 1, il faut adapter la définition : la suite wn ne sera définie
que pour n ⩾ 1 et la condition i + j = n se traduira par i ∈ ⟦1, n⟧ et j = n − i ou par j ∈ ⟦0, n − 1⟧ et i = n − j :
n
X n−1
X
∀n ⩾ 1, wn = ui vn−i = un−j vj .
i=1 j=0
De même, si (un ) et (vn ) ne sont définies que pour n ⩾ 1 la suite (wn ) ne sera définie que pour n ⩾ 2 par
n−1
X n−1
X
∀n ⩾ 2, wn = ui vn−i = un−j vj .
i=1 j=1
X X
Lemme — Soient an et bn deux séries à terme général positif (an ⩾ 0 et bn ⩾ 0) et convergentes. Alors leur
X
produit de Cauchy cn converge, et :
+∞
X +∞
X +∞
X
cn = an bn .
n=0 n=0 n=0
X X X
Théorème 2.8 — Soient un et vn deux séries absolument convergentes. Alors leur produit de Cauchy wn
converge absolument, et
+∞
X +∞
X +∞
X
wn = un vn .
n=0 n=0 n=0
Exercice 12
X
Soit (un ) une suite numérique telle que la série
un converge absolument. En faisant apparaître un produit
n
1 X k
de Cauchy, montrer que la série de terme général wn = n 2 uk converge absolument, puis exprimer sa
2
k=0
somme.
Le résultat de Moivre
Exercice 13
n! un+1
X
Pour tout n ⩾ 1 on pose un = √ et vn = ln . Prouver la convergence de la série vn et en déduire
nn e−n n un
√
l’existence d’une constante C > 0 telle que n! ∼ Cnn e−n n.
L’apport de Stirling
Z π/2
Il repose sur les intégrales de Wallis In = (sin t)n dt.
0
Exercice 14
a. À l’aide d’une intégration par parties, prouver que pour tout n ⩾ 2, nIn = (n − 1)In−2 et en déduire que pour
π (2p)! (2p p!)2
tout p ∈ N, I2p = et I 2p+1 = .
2 (2p p!)2 (2p + 1)!
I
b. Justifier que pour tout n ⩾ 2, In ⩽ In−1 ⩽ In−2 , et en déduire que lim n−1 = 1.
In
I2p √
c. Exprimer lim en fonction de la constante C et en déduire que C = 2π.
I2p+1
√ n
n
Les résultats combinés de ces deux exercices prouvent la formule de Stirling : n! ∼ 2πn . Cette formule est
e
à connaître mais la preuve n’est pas exigible.
Dans ce chapitre, nous allons considérer une suite de fonctions fn : I → K, n ∈ N et donner un sens à la notion
de convergence simple puis de convergence uniforme de la suite de fonctions (fn ). Ces notions seront ensuite
étendues aux séries de fonctions.
Définition. — On dit que la suite de fonctions (fn ) converge simplement vers f : I → K lorsque pour tout x ∈ I, la
suite numérique fn (x) converge vers f (x).
n∈N
Exemple. Considérons l’intervalle [0, π] et la suite de fonctions (fn ) définie par fn : x 7→ (sin x)n .
– Si x , π/2 on a sin x ∈ [0, 1[ donc lim (sin x)n = 0 ;
n→+∞
– Si x = π/2 on a sin x = 1 donc lim (sin x)n = 1.
n→+∞
0 si x , π/2
On en déduit que la suite (fn ) converge simplement sur l’intervalle [0, π] vers la fonction f : x 7→ .
1
si x = π/2
1.0
0.8
0.6
0.4
0.2
0.0
0.0 0.5 1.0 1.5 2.0 2.5 3.0
On peut déjà faire une première observation : bien que toutes les fonctions fn soient continues sur [0, π], leur
limite simple f présente une discontinuité en π/2. C’est là un des défauts de la convergence simple sur lequel
on reviendra : les propriétés locales (continuité, limite, . . .) ne sont pas préservées par ce mode de convergence.
Exercice 1
x −n
1− si x < n
∗
Pour tout n ∈ N , on définit la fonction fn : [0, +∞[ → R par : fn (x) =
n .
Déterminer sa limite simple f . 0
si x ⩾ n
Nous l’avons vu sur le premier exemple : la convergence simple ne préserve pas la continuité. Elle ne préserve
pas non plus le passage à la limite : en général, sous la seule hypothèse de convergence simple, lim lim fn (x) ,
x→a n→+∞
lim lim fn (x), comme le montre l’exercice ci-dessus (avec a = +∞).
n→+∞ x→a
En l’absence d’hypothèses supplémentaires, les seules propriétés préservées par la convergence simple sont
celles qui ne font pas intervenir le comportement local des fonctions, comme par exemple :
Proposition 1.1 — Soit (fn ) une suite de fonctions croissantes qui converge simplement sur l’intervalle I vers une
fonction f . Alors f est aussi croissante sur I.
Proposition 1.2 — Soit (fn ) une suite de fonctions positives qui converge simplement sur l’intervalle I vers une
fonction f . Alors f est aussi positive sur I.
Pour obtenir des propriétés plus fortes, il faut adopter une définition de la convergence plus exigeante.
n o
∥f ∥∞,J = sup |f (x)| x ∈ J
Définition. — On dit que la suite de fonctions (fn ) converge uniformément sur J vers une fonction f : J → K
lorsque les fonctions fn − f sont bornées (à partir d’un certain rang) sur J et
La quantité ∥fn − f ∥∞,J doit être interprétée comme la distance (uniforme) entre fn et f sur l’intervalle J.
Proposition 1.3 — Si (fn ) converge uniformément vers f , elle converge aussi simplement vers f .
Ce résultat est important car il nous indique la démarche à suivre pour étudier la convergence d’une suite de
fonctions (fn ) :
Remarque. Si J1 ⊂ J2 on a ∥fn − f ∥∞,J1 ⩽ ∥fn − f ∥∞,J2 donc la convergence uniforme sur J2 entraîne la convergence
uniforme sur J1 . En particulier, s’il y a convergence uniforme sur I, il y a a fortiori convergence uniforme sur
tout intervalle inclus dans I.
Exercice 2 √
∗ x n
Pour tout n ∈ N , on considère la fonction fn : x 7→ , définie sur l’intervalle [0, +∞[.
1 + nx2
a. Déterminer sa limite simple f sur [0, +∞[.
b. Former le tableau des variations de fn − f sur [0, +∞[, et en déduire la valeur de ∥fn − f ∥∞ sur cet intervalle.
La convergence est-elle uniforme sur [0, +∞[ ?
c. Considérons maintenant un réel α > 0 fixé. Former le tableau des variations de fn − f sur [α, +∞[ en
1 1
distinguant les cas n ⩽ 2 et n ⩾ 2 , et en déduire la valeur de ∥fn − f ∥∞,[α,+∞[ . La convergence est-elle
α α
uniforme sur [α, +∞[ ?
0.5
0.4
0.3
0.2
0.1
0.0
0.0 2.5 5.0 7.5 10.0 12.5 15.0 17.5 20.0
Rappel. Une fonction f : I → K est continue en a ∈ I lorsque pour tout ϵ > 0 il existe un réel η > 0 tel que
pour tout x ∈ I,
|x − a| ⩽ η =⇒ |f (x) − f (a)| ⩽ ϵ.
Théorème 1.4 — Soit (fn ) une suite de fonctions convergeant uniformément vers une fonction f sur un intervalle I,
et a ∈ I un point en lequel toutes les fonctions fn sont continues. Alors f est aussi continue en a.
Corollaire — Une limite uniforme de fonctions continues sur I est aussi continue sur I.
Remarque. La continuité étant une notion locale, il n’est pas forcément nécessaire de prouver la convergence
uniforme sur I tout entier pour pouvoir justifier de la continuité de la fonction f .
Supposons par exemple I = [0, +∞[. S’il n’y a pas convergence uniforme sur I mais seulement sur tout intervalle
[0, α], la limite f sera néanmoins continue sur [0, +∞[. En effet, si on considère un réel a ⩾ 0, il suffit de choisir
un réel α > a et d’appliquer le théorème 1.4 sur l’intervalle [0, α] : puisqu’il y a convergence uniforme sur [0, α],
la fonction f est continue en a. Et puisque a est un réel quelconque de [0, +∞[, f est bien continue sur cet
intervalle.
Le même cas se produit lorsque I = ]0, +∞[ et lorsqu’il y a convergence uniforme sur tout intervalle de la forme
[α, +∞[ avec α > 0 : tout réel a > 0 peut être englobé dans un intervalle de cette forme, et le théorème 1.4
appliqué sur l’intervalle [α, +∞[ permet alors de justifier la continuité de f en a.
Ce type de démarche sera appelée une preuve par recouvrement de la continuité de f sur I.
Exercice 3
Soit (fn ) une suite de fonctions continues qui converge uniformément
vers f sur l’intervalle I, et (xn ) une suite
d’éléments de I qui converge vers ℓ ∈ I. Montrer que la suite fn (xn ) converge vers f (ℓ).
n∈N
Remarque. Ce théorème est un théorème d’interversion de limites : il montre qu’en cas de convergence
uniforme et lorsque les fonctions fn sont continues en a on a lim lim fn (x) = lim lim fn (x). Nous admettrons
x→a n→+∞ n→+∞ x→a
la propriété plus générale suivante :
Théorème 1.5 (théorème de la double limite) — Soit (fn ) une suite de fonctions qui converge uniformément vers
une fonction f sur I, et a un point adhérent à I (qui peut éventuellement être égal à ±∞). On suppose que pour tout
n ∈ N, la fonction fn possède une limite ℓn en a. Alors la suite (ℓn ) admet elle-même une limite ℓ, et lim f (x) = ℓ.
x→a
Autrement dit, ce théorème étend la relation lim lim fn (x) = lim lim fn (x) dans le cas où a est adhérent à I,
x→a n→+∞ n→+∞ x→a
en garantissant l’existence des limites.
Exercice 4
π
Étudier la convergence simple sur 0, de la suite (fn ) définie par fn (x) = n(cos x)n sin x, puis calculer
Z π Z π 2
2 2 π
lim fn (x) dx et lim fn (x) dx. La convergence est-elle uniforme sur 0, ?
0 n→+∞ n→+∞ 0 2
Théorème 1.7 — Soit (fn ) une suite de fonctions de classe C 1 sur I, telle que :
(i) (fn ) converge simplement vers une fonction f sur I ;
(ii) (fn′ ) converge uniformément vers une fonction g sur I.
Alors f est de classe C 1 sur I, et f ′ = g.
Remarque. À l’instar de la continuité, la dérivabilité est un propriété locale, ce qui permet d’effectuer une
preuve par recouvrement de la dérivabilité de la fonction f : pour prouver que f est de classe C 1 sur I, il suffit
de prouver que f est de classe C 1 sur un ensemble d’intervalles recouvrant I.
0.4 0.2
0.2 0.4
0.0 0.6
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7
Proposition 1.8 — Soit (fn ) une suite de fonctions de classes C k telle que :
(i) (fn ) converge simplement vers une fonction f sur I ;
(i)
(ii) pour tout i ∈ ⟦1, k − 1⟧, (fn ) converge simplement vers une fonction gi sur I ;
(k)
(iii) (fn ) converge uniformément vers une fonction gk sur I.
Alors f est de classe C k , et pour tout i ∈ ⟦1, k⟧, f (i) = gi .
Nous avons déjà vu dans le chapitre consacré aux séries numériques que la convergence absolue entraine la
convergence simple. X
Dans le cas où la série fn converge simplement, on définit une fonction S : I → K en posant :
+∞
X
∀x ∈ I, S(x) = fn (x).
n=0
Nous savons déjà que la convergence uniforme entraîne la convergence simple. Si cette dernière est déjà acquise,
nous pouvons définir la fonction reste au rang n en posant :
n
X +∞
X
∀x ∈ I, Rn (x) = S(x) − fk (x) = fk (x)
k=0 k=n+1
Nous allons maintenant introduire une notion spécifique aux séries de fonctions et qui va constituer un cas
particulier de convergence uniforme, en adoptant la définition suivante :
X
Définition. — On dit que la série de fonctions fn converge normalement (= au sens de la norme) sur I lorsque
X
la série numérique ∥fn ∥∞,I converge.
Le fait majeur, qui donne tout son intérêt à la notion de convergence normale, est le
Remarque. On peut résumer les 4 modes de convergence possible d’une série de fonctions par le schéma
suivant :
CV Normale CV Absolue
CV Uniforme CV Simple
X
(1) établir la convergence simple de fn sur I ;
(2) si la convergence est absolue, calculer ∥fn ∥∞ pour prouver la convergence normale sur I ou sur tout
segment inclus dans I ;
(3) si la convergence n’est pas absolue, majorer ∥Rn ∥∞ en vue de prouver la convergence uniforme sur I ou
sur tout segment inclus dans I.
On notera que le point (3) intervient essentiellement dans le cadre du critère spécial relatif aux séries alternées,
critère qui donne une majoration du reste (revoir le cours sur les séries numériques).
+∞
X 1
Exemple. La fonction zêta de Riemann est définie par : ζ(x) = .
nx
1 n=1
Pour tout n ⩾ 1 et x > 0, posons fn (x) = x .
n X
La technique de comparaison à une intégrale permet de prouver la convergence simple de la série fn sur
]1, +∞[ ; ainsi la fonction ζ est définie sur ]1, +∞[.
Le tableau des variations de la fonction fn sur ]1, +∞[ est le suivant :
x 1 α +∞
1
fn (x) n
0
1 X1
Sur l’intervalle ]1, +∞[, nous avons ∥fn ∥∞ = , mais comme la série diverge, la convergence n’y est pas
n n 1
normale. En revanche, sur l’intervalle [α, +∞[ (avec un réel arbitraire α > 1) nous avons ∥fn ∥∞,[α,+∞[ = α , et
X 1 n
puisque la série α
converge, la convergence y est normale, donc uniforme. A fortiori, la convergence est
n
uniforme sur tout segment inclus dans ]1, +∞[.
+∞
X (−1)n−1
Exemple. La fonction êta de Dirichlet est définie par : η(x) = .
nx
n=1 X
Le critère spécial relatif aux séries alternées prouve la convergence simple de la série (−1)n−1 fn sur ]0, +∞[ ;
ainsi la fonction η est définie sur ]0, +∞[.
+∞
X 1
De plus, toujours d’après le critère spécial, |Rn (x)| = (−1)k−1 fk (x) ⩽ |fn+1 (x)| = x .
n
k=n+1
Sur l’intervalle ]0, +∞[ on en déduit que ∥Rn ∥∞ ⩽ 1, ce qui est insuffisant pour prouver la convergence uniforme.
1 1
En revanche, pour tout β > 0 nous avons sur l’intervalle [β, +∞[ : ∥Rn ∥∞,[β++∞[ ⩽ β et lim β = 0, ce qui
n n→+∞ n
prouve la convergence uniforme sur [β, +∞[. A fortiori, la convergence est uniforme sur tout segment inclus
dans ]0, +∞[.
Exercice 5
1 (−1)n X
Pour tout n ∈ N on définit les fonctions fn : x 7→ et gn : x 7 → . Montrer que les séries fn et
X 1 + n2 x 1 + nx
gn convergent simplement sur ]0, +∞[. Sur quels intervalles peut-on établir la convergence uniforme ?
Remarque. À l’instar des suites de fonctions, il est fréquent d’avoir à procéder par recouvrement pour prouver
la continuité d’une fonction définie par une série.
Exemple. Compte tenu des deux exemples traités dans la section précédente, on peut affirmer que la fonction
zêta de Riemann est continue sur tout intervalle [α, +∞[ avec α > 1 donc par recouvrement sur ]1, +∞[. De
même, la fonction êta de Dirichlet est continue sur tout intervalle [α, +∞[ avec α > 0 donc par recouvrement sur
]0, +∞[.
X
Théorème 2.4 (théorème de la double limite) — Soit fn une série de fonctions qui converge uniformément sur
l’intervalle I, et a un point adhérent à I (qui peut éventuellement prendre la valeur ±∞). On suppose que pour tout
X +∞
X
n ∈ N la fonction fn possède une limite ℓn en a. Alors la série numérique ℓn converge, et lim S(x) = ℓn .
x→a
n=0
+∞
X +∞
X
Autrement dit, sous réserve de convergence uniforme sur I, lim fn (x) = lim fn (x).
x→a x→a
n=0 n=0
Exemple. La convergence uniforme sur l’intervalle [2, +∞[ permet grâce à ce théorème
de calculer la limite en
+∞ +∞
X 1 X 1 1 1 si n = 1
+∞ de la fonction zêta : lim ζ(x) = lim = lim = 1 car lim x = .
x→+∞ x→+∞ nx x→+∞ nx x→+∞ n 0 si n ⩾ 2
n=1 n=1
Il permet aussi de prouver que la convergence de cette même série ne peut être uniforme sur un intervalle de la
1 1 X1
forme ]1, α] avec α > 1 puisque pour tout n ∈ N, lim x = . S’il y avait convergence uniforme, la série
x→1 n n n
convergerait, ce qui n’est pas.
+∞ Z
X b +∞
Z b X
fn (t) dt = fn (t) dt.
n=0 a a n=0
Exercice 6 +∞
X
a. Montrer que la fonction S : x 7→ n e−nx est définie et continue sur ]0, +∞[.
Zx n=1
b. Calculer S(t) dt pour tout x > 0 et en déduire une expression de S(x) sans symbole de sommation.
1
Remarque. Comme pour la continuité, il est fréquent de devoir procéder par recouvrement.
Exemple. Pour montrer que la fonction ζ de Riemann est de classe C 1 sur son intervalle de définition ]1, +∞[,
X X ln n
nous devons considérer la série des dérivées fn′ (x) = − x .
n
′ ln n
Sur tout intervalle [α, +∞[ nous avons ∥fn ∥∞,[α,+∞[ = α . Si β désigne un réel vérifiant : 1 < β < α, nous avons
n
1
X
′ ′
∥fn ∥∞,[α,+∞[ = o β , donc la série ∥fn ∥∞,[α,+∞[ converge.
n
X
La convergence de la série des dérivées fn′ est normale, donc uniforme, sur l’intervalle [α, +∞[ ; on peut donc
affirmer que la fonction ζ est de classe C 1 sur cet tout intervalle de la forme [α, +∞[, puis par recouvrement sur
]1, +∞[, et que :
+∞
X ln n
∀x > 1, ζ′ (x) = − .
nx
n=1
Proposition 2.7 — soit (fn ) une suite de fonctions de classe C k sur I, telles que :
X
(i) fn converge simplement sur I ;
X (i)
(ii) pour tout i ∈ ⟦1, k − 1⟧, fn converge simplement sur I ;
X (k)
(iii) fn converge uniformément sur I.
+∞ +∞
(i)
X X
Alors la fonction S : x 7→ fn (x) est de classe C k sur I, et pour tout i ∈ ⟦1, k⟧, S(i) (x) = fn (x).
n=0 n=0
Exercice 7 +∞
X e−nx
On considère la fonction S : x 7→ . Montrer que S est continue sur [0, +∞[ et de classe C 2 sur ]0, +∞[,
n2 + 1
n=0
puis établir une équation différentielle d’ordre 2 vérifiée par S sur l’intervalle ]0, +∞[.
Séries entières
X
Les séries entières sont des séries numériques de la forme an z n , où (an ) est une suite réelle ou complexe, et z
un élément de R ou C (la série est dite entière du fait qu’elle ne fait intervenir que des puissances entières). Ces
séries possèdent des propriétés de convergence remarquables, que nous allons étudier dans la première partie.
Dans un second temps, nous étudierons les propriétés de la fonction d’une variable réelle :
+∞
X
x 7−→ an x n .
n=0
L’extension de ces propriétés au cas d’une variable complexe constitue la théorie des fonctions analytiques, le
pilier central de l’analyse complexe.
1. Rayon de convergence
1.1 Définition d’une série entière
Définition. — Étant donnée une suite (an ) de nombres complexes, on appelle série entière la série de fonctions
X
an z n de la variable complexe z. Son domaine de convergence est l’ensemble des nombres z ∈ C pour lesquels cette
série converge.
Nous allons commencer par étudier le domaine de convergence d’une série entière dans un cas simple, en
faisant deux hypothèses supplémentaires :
(i) il existe un rang N à partir duquel an , 0 ;
a
(ii) la suite n+1 converge vers une limite ℓ > 0.
an
L’objectif de ces deux hypothèses est de permettre l’application du critère de d’Alembert :
un+1 a u
si un = |an z n | alors = |z| n+1 donc lim n+1 = ℓ|z|.
un an un
Ainsi :
1 X X
– si |z| <, la série positive un converge donc la série an z n converge absolument ;
ℓ
1 X
– si |z| > , la suite positive (un ) diverge vers +∞ donc la série an z n diverge grossièrement.
ℓ
1
En posant R = nous avons mis en évidence dans le plan complexe l’existence d’un disque D de centre 0 et de
ℓ
rayon R tel que :
X
– lorsque z est à l’intérieur du disque D, la convergence de la série entière an z n est absolue ;
X
– lorsque z est à l’extérieur du disque D, la divergence de la série entière an z n est grossière ;
– lorsque z est sur le bord de D (c’est-a-dire |z| = R) on ne peut pas conclure.
(illustration figure 1.)
X X zn X zn
Exemple. Considérons les trois séries entières zn, et
. Elles vérifient toutes trois les hypothèses
n2
n
(i) et (ii) avec ℓ = 1 donc dans les trois cas le disque D est de rayon R = 1.
X
– Pour |z| = 1, la série z n diverge (son terme général ne tend pas vers 0). Le domaine de convergence est
le disque ouvert.
iR
?
?
CV absolue
R DV CV absolue DV
−R 0 R
DV grossière
X zn X 1
– Pour |z| = 1, la série converge absolument car la série converge. Son domaine de convergence
n2 n2
est le disque fermé.
X zn X zn
– Pour z = 1, la série diverge, pour z = −1 la série converge (par application du critère spécial),
n n
et pour |z| = 1 et z , ±1 on ne sait pas étudier la convergence de la série. Le domaine de convergence est
« entre » le disque ouvert et le disque fermé.
Ces trois exemples montrent qu’il n’y a pas à espérer une règle générale concernant les valeurs de z pour
lesquelles |z| = R.
Pour résumer, qu’avons-nous observé ?
lorsqu’une série entière vérifie les hypothèses (i) et (ii), il existe un disque D tel que la série converge
absolument à l’intérieur de ce disque et diverge grossièrement à l’extérieur de ce disque.
Nous allons maintenant montrer que nous pouvons nous affranchir des hypothèses (i) et (ii), et que cette
propriété est une propriété générale des séries entières.
Lemme
X (Abel) — Soit z0 ∈ C \ {0} tel que la suite (an z0n ) soit bornée. Alors pour tout z ∈ C tel que |z| < |z0 | la série
an z n est absolument convergente.
n o
Considérons alors l’ensemble A = ρ ∈ R+ la suite (an ρn ) est bornée et R = sup A ∈ R+ ∪ {+∞} (autrement dit,
on convient que si A n’est pas majoré alors R = +∞). On dispose du :
X
Théorème 1.1 — Soit an z n une série entière, et R = sup A. Alors :
– Si R = 0, le domaine de convergence se réduit à {0} ;
– si R = +∞, le domaine de convergence est égal à C tout entier ;
– si 0 < R < +∞, on a :
X
– lorsque |z| < R, la série an z n converge absolument ;
X
– lorsque |z| > R, la série an z n diverge.
iR
z0
CV absolue
R
On appelle disque ouvert de convergence le disque de centre 0 et de rayon R. Le réel R est le rayon de convergence
de la série entière.
Attention. Rappelons encore une fois qu’on ne peut rien dire a priori de la convergence sur le cercle de rayon R.
X
Exemple. Pour tout α ∈ R, le rayon de convergence de la série entière nα z n est égal à 1.
Exercice 1
On considère deux réels α et β vérifiant : 0 < α < β, ainsi que la suite (an ) définie par :
an+1 z n+1
La suite ne possède donc pas de limite.
an z n
On s’autorisera néanmoins à utiliser directement le résultat suivant :
a
Proposition 1.2 — Soit (an ) une suite numérique ne s’annulant pas, telle que le quotient n+1 possède une limite
an
X
n 1 1 1
ℓ ∈ R+ ∪ {+∞}. Alors le rayon de convergence de an z est égal à (avec la convention = +∞ et = 0).
ℓ 0 +∞
Exercice 3
X (1 + i)n
Calculer à l’aide du critère de d’Alembert le rayon de convergence de z 3n .
n
Exercice 4 X
Soit (an ) une suite vérifiant : lim an = 0. Que dire du rayon de convergence de la série entière an z n ?
+∞
X +∞
X +∞
X
∀z ∈ C, |z| < min(Ra , Rb ) =⇒ an z n + bn z n = (an + bn )z n .
n=0 n=0 n=0
X X
Remarque. Supposons Ra < Rb et considérons z ∈ C tel que Ra < |z| < Rb . Alors an z n diverge et bn z n
X
converge donc (an + bn )z n diverge. Ceci prouve que R ⩽ Ra = min(Ra , Rb ), et donc que lorsque Ra , Rb , alors
R = min(Ra , Rb ).
Il s’agit du terme général d’une série entière. En appliquant le théorème prouvé dans le chapitre consacré au
séries numériques on obtient :
X X
Théorème 1.5 — Soient an z n et bn z n deux séries entières de rayons de convergences respectifs Ra et Rb . Alors
X X
la série entière ap bq z n a un rayon de convergence supérieur ou égal au min(Ra , Rb ). En outre, pour tout
p+q=n
+∞
X +∞
X X+∞ X
z ∈ C tel que |z| < min(Ra , Rb ) on a : an z n bn z n = ap b q z n .
n=0 n=0 n=0 p+q=n
Exercice 5 X
On considère une série entière an z n de rayon de convergence Ra > 0, et on définit la suite (bn ) en posant :
Xn X
∀n ∈ N, bn = ak . Que dire du rayon de convergence Rb de la série entière bn z n ?
k=0 +∞
X +∞
X
Donner une relation liant les sommes an z n et bn z n au voisinage de 0.
n=0 n=0
■ Dérivation formelle
Terminons avec un résultat qui nous sera utile dans la suite de ce chapitre (pour prouver le théorème 2.2) :
X X
Proposition 1.6 — La série entière nan z n a même rayon de convergence que la série an z n .
+∞
X
Corollaire — La fonction S : x 7→ an xn est continue sur l’intervalle ouvert de convergence.
n=0
Attention. Même si la fonction S est définie en ±R, cela n’implique pas sa continuité en ces points.
Exercice 6 +∞
X
Calculer sur l’intervalle ouvert de convergence la somme nxn .
n=1
Corollaire — La fonction S est de classe C ∞ sur l’intervalle ]−R, R[, et les dérivées successives s’obtiennent par
S(n) (0)
dérivation terme à terme. De plus, pour tout n ∈ N, an = .
n!
Proposition 2.3 — Deux séries entières dont les rayons de convergence sont non nuls ont des sommes égales si et
seulement si tous leurs coefficients sont égaux.
En particulier, une série entière de rayon de convergence non nul aura une somme non identiquement nulle dès lors
que l’un au moins de ses coefficients sera non nul.
Définition.
X — On dit que f est développable en série entière au voisinage de 0 lorsqu’il existe une série entière
an z n de rayon de convergence R ⩾ r telle que :
+∞
X
∀x ∈ ]−r, r[ , f (x) = an xn .
n=0
D’après ce qui a été dit à la section précédente, si f est développable en série entière alors pour tout n ∈ N,
f (n) (0)
an = , mais ceci n’est pas suffisant pour assurer l’existence de ce développement. En revanche, cette
n!
formule nous permet d’affirmer que si un tel développement existe, ce dernier est unique et coïncide avec la série
de Taylor de f .
Pour prouver qu’une fonction est développable en série entière, différentes possibilités s’offrent à nous : une
méthode fréquemment utilisée consiste à considérer un problème de Cauchy dont la fonction f est l’unique
solution, et à déterminer les solutions de ce système qui peuvent s’écrire sous forme d’une somme de série
entière. C’est ce que nous ferons pour déterminer le développement en série entière des fonctions exponentielle
et x 7→ (1 + x)α . Une autre possibilité consiste à effectuer des manipulations à base de somme ou de produit
de séries usuelles (par exemple pour obtenir le développement des fonctions trigonométriques) ou encore
en utilisant les propriétés d’intégration et de dérivation des développements usuels ; nous procéderons par
exemple ainsi pour obtenir les développements des fonctions x 7→ arctan x et x 7→ ln(1 + x).
■ Développements usuels
La fonction exponentielle
Nous admettrons que pour tout α ∈ C, la fonction f : x 7→ eαx est l’unique solution sur R du problème de
Cauchy :
( ′
y (x) = αy(x)
y(0) = 1
+∞
X
Cherchons une solution de ce problème sous forme d’une série entière y(x) = an xn de rayon de convergence
R>0: n=0
y est solution si et seulement si :
+∞
X +∞
X +∞
X +∞
X
n−1 n n
αan xn
∀x ∈ ]−R, R[ , na x = α a x ∀x ∈ ]−R, R[ , (n + 1)a x =
n n n+1
⇐⇒
n=1 n=0
n=0 n=0
a0 = 1 a0 = 1
αn
(
∀n ∈ N, (n + 1)an+1 = αan
⇐⇒ ⇐⇒ ∀n ∈ N, an = .
a0 = 1 n!
Le critère de d’Alembert nous permet de déterminer que cette série entière a un rayon de convergence infini, ce
+∞ n
X α n
qui permet de conclure, en invoquant l’unicité de la solution d’u problème de Cauchy : ∀x ∈ R, eαx = x .
n!
n=0
En prenant α = 1 puis α = −1 on obtient en particulier :
+∞ +∞
X 1 n X (−1)n
∀x ∈ R, ex = x et ∀x ∈ R, e−x = xn .
n! n!
n=0 n=0
+∞ +∞
X (−1)p X (−1)p 2p+1
∀x ∈ R, cos x = x2p et ∀x ∈ R, sin x = x .
(2p)! (2p + 1)!
p=0 p=0
+∞ +∞
1 X 1 X
∀x ∈ ]−1, 1[, = xn et ∀x ∈ ]−1, 1[, = (−1)n xn
1−x 1+x
n=0 n=0
On en déduit en intégrant :
+∞ n +∞
X x X (−1)n−1
∀x ∈ ]−1, 1[, ln(1 − x) = − et ∀x ∈ ]−1, 1[, ln(1 + x) = xn
n n
n=1 n=1
et enfin :
+∞
X (−1)p x2p+1
∀x ∈ ]−1, 1[, arctan x = .
2p + 1
p=0
La fonction x 7→ (1 + x)α
Enfin, pour obtenir le développement en série entière de la fonction x 7→ (1 + x)α (avec α ∈ C) nous allons de
nouveau admettre que cette fonction est l’unique solution sur l’intervalle ]−1, 1[ du problème de Cauchy :
y(0) = 1
Exercice 7
Chercher l’unique série entière qui soit solution de ce problème de Cauchy sur l’intervalle ]−1, 1[, calculer son
rayon de convergence, et en déduire la formule ci-dessous.
+∞ ! !
X α n α α(α − 1) · · · (α − n + 1)
∀x ∈ ]−1, 1[, (1 + x)α = x en ayant noté = .
n n n!
n=0
Attention. Malgré les apparences il ne s’agit pas ici d’un coefficient binomial puisqu’en général α n’est pas
un nombre entier. Lorsque vous utilisez cette notation, il faut prendre garde à ne pas appliquer la fonction
factorielle à des arguments non entiers.
Exercice 8
1
À l’aide de cette formule, obtenir le développement en série entière de la fonction x 7→ √ sur l’intervalle
]−1, 1[. 1+x
Remarque. Les formules que nous venons d’établir ne vous sont pas inconnues : elles coïncident avec les
développements limités usuels appris en première année. Ce n’est pas étonnant puisque série de Taylor et
polynômes de Taylor partagent les mêmes coefficients. D’ailleurs, les développements limités peuvent être
établis à partir du développement en série entière en utilisant le résultat ci-dessous.
X
Proposition 2.5 — Soit an xn une série entière de rayon de convergence R > 0, et S sa fonction somme. Alors S
admet pour tout entier n ∈ N un développement limité d’ordre n en zéro donné par :
n
X
S(x) = ak xk + o(xn ).
0
k=0
+∞ n
X z
∀z ∈ C, ez = .
n!
n=0
Il est intéressant d’observer que la propriété fondamendale de la fonction exponentielle, à savoir : ∀(z, z ′ ) ∈ C2 ,
exp(z + z ′ ) = exp(z) × exp(z ′ ) peut être prouvée à partir de cette expression. En effet, la convergence absolue de
cette série autorise un produit de Cauchy :
+∞ +∞ +∞ X
n +∞ n +∞
z p X z ′q
!
1 1 1 X n p ′n−p X 1
X X X
′ ′
ez × e z = = × z p z ′n−p = z z = (z + z ′ )n = ez+z .
p! q! p! (n − p)! n! p n!
p=0 q=0 n=0 p=0 n=0 p=0 n=0
Similairement, les sommes géométriques étudiées en première année fournissent un deuxième exemple de
fonction définie sur une partie du plan complexe et développables en série entière :
+∞
1 X
∀z ∈ C, |z| < 1 =⇒ = zn.
1−z
n=0
Notons que les différents développement en série entière des fonctions réelles que nous avons obtenus pourraient
être utilisés pour prolonger les fonctions correspondantes dans le plan complexe (ou le disque unité suivant les
cas), mais nous ne nous aventurerons pas plus loin dans cette direction. Nous nous contenterons d’admettre le
résultat suivant :
X
Proposition 2.6 — Soit an z n une série entière complexe de rayon de convergence R > 0 et de somme S(z). Alors
n o
la fonction S est continue sur le disque ouvert z ∈ C |z| < R .
Probabilités
La théorie mathématique des probabilités nait au XVIe siècle sous l’impulsion de Jérôme Cardan puis de Blaise
Pascal qui analysent les jeux de hasard. Des avancées majeures sont ensuite réalisées par Kolmogorov au début
du XXe siècle, qui fait la connexion entre la théorie de la mesure de Borel, l’intégration de Lebesgue et les
probabilités, donnant à ces dernières des fondements incontestés.
Si E est un ensemble dénombrable, il existe donc une bijection φ : N → E. En posant pour tout n ∈ N, xn = φ(n)
il devient possible de définir E en extension, c’est-à-dire sous la forme : E = {xn | n ∈ N}.
Exemple. L’ensemble 2N des entiers pairs est dénombrable, puisqu’il peut être défini en extension :
2N = {2n | n ∈ N}, ce qui correspond à la bijection φ : N → 2N, φ(n) = 2n.
Il en est bien entendu de même de l’ensemble 2N + 1 des entiers impairs : 2N + 1 = {2n + 1 | n ∈ N}.
Plus généralement, on dispose du résultat suivant :
Proposition 1.1 — Toute partie d’un ensemble dénombrable est finie ou dénombrable.
Par exemple, l’ensemble P des nombres premiers est infini (vous avez du démontrer ceci en première année)
donc dénombrable puisqu’inclus dans N. Il existe donc une suite (pn ) telle que P = {pn | n ∈ N}.
Proposition 1.2 — Soit E un ensemble dénombrable et F un ensemble au plus dénombrable. Alors E ∪ F est
dénombrable.
Proposition 1.3 — Soit E un ensemble dénombrable et F un ensemble non vide au plus dénombrable. Alors le produit
cartésien E × F est dénombrable.
Proposition 1.4 — Une union finie ou dénombrable d’ensembles dénombrables est dénombrable.
14
13
9
8 12
5
4 7 11
2
N
0 1 3 6 10
Jusqu’à présent, nous n’avons vu que des ensembles dénombrables, pour la bonne et simple raison qu’il est
plus facile de prouver qu’un ensemble est dénombrable que de prouver qu’il ne l’est pas. C’est Cantor qui le
premier a donné des exemples d’ensembles non dénombrables, en utilisant une méthode qui maintenant porte
son nom : l’argument de la diagonale de Cantor. Nous admettrons le résultat suivant :
Théorème 1.5 — L’ensemble P (N) des parties de N n’est pas dénombrable. R n’est pas dénombrable. L’ensemble
{0, 1}N des suites à valeurs dans {0, 1} n’est pas dénombrable.
Les ensembles cités sont d’une certaine manière « trop gros » pour être dénombrables.
Définition. — Soit (xi )i∈I une famille de réels positifs. Cette famille est dite sommable lorsque l’ensemble
(X )
xi J ⊂ I et J finie
i∈J
X
est majoré. Dans ce cas, on note xi la borne supérieure de cet ensemble.
i∈I
X
Remarque. Lorsque la famille de réels positifs (xi )i∈I n’est pas sommable, on notera par commodité xi = +∞.
i∈I
n o
Proposition 1.6 — Si la famille (xi )i∈I est sommable, l’ensemble i ∈ I xi , 0 est au plus dénombrable.
Il résulte de la proposition ci-dessus que dans la pratique, on pourra toujours supposer, lorsque la famille est
sommable, que I est un ensemble fini ou dénombrable.
Ce résultat nous donne une manière très simple d’étudier la sommabilité d’une famille dénombrable de réels
positifs : il suffit de les ordonner d’une manière arbitraire puis d’étudier la convergence de la série numérique
afférente.
Maintenant que nous avons trouvé un moyen de nous affranchir de l’ordre de sommation d’une famille de réels
positifs, il nous reste à énoncer deux formules couramment utilisées dans les calculs :
Théorème 1.8 (sommation par paquets) — Soit (In )n∈N une partition dénombrable de I, et (xi )i∈I une famille
X +∞ X !
X
sommable de réels positifs. Alors xi = xi .
i∈I n=0 i∈In
Théorème 1.9 (Fubini) — Soit (xi,j )(i,j)∈I×J une famille sommable de réels positifs. Alors
X XX XX
xi,j = xi,j = xi,j
(i,j)∈I×J i∈I j∈J j∈J i∈I
Remarque.X Nous l’avons dit, lorsqu’une famille (xi )i∈I de réels positifs n’est pas sommable, on s’autorisera
à écrire xi = +∞. Ceci a pour conséquence que les deux théorèmes ci-dessus peuvent s’appliquer sans
i∈I
justification préalable de la sommabilité. Obtenir à la fin des calculs une somme finie justifiera a posteriori la
sommabilité de la famille, et au contraire obtenir une somme divergente prouvera la non sommabilité de cette
famille.
Une fois cette définition posée, on définit la somme à l’aide du résultat suivant :
Théorème 1.10 — Soit (xi )i∈I une famille sommable de réels quelconques. Pour tout i ∈ I on pose xi+ = max(xi , 0) et
xi− = max(0, −xi ). Alors les familles de réels positifs (xi+ )i∈I et (xi− )i∈I sont sommables, et on pose par définition :
X X X
xi = xi+ − xi−
i∈I i∈I i∈I
On dispose alors des résultats suivants, que nous admettrons. Notez cependant que contrairement aux familles
sommables de réels positifs pour lesquels l’obtention d’un résultat fini à la fin des calculs justifie a posteriori la
sommabilité de la famille, il est indispensable, dans le cas d’une famille de réels quelconques, de justifier la
sommabilité en préalable à tout calcul.
X X
Proposition 1.11 — Soit (xi )i∈I une famille sommable. Alors xi ⩽ |xi |.
i∈I i∈I
Proposition 1.12 — soient (xi )i∈I et (yi )i∈I deux familles de nombres réels telles que pour tout i ∈ I, |xi | ⩽ yi . Alors
la sommabilité de (yi )i∈I entraîne celle de (xi )i∈I .
Théorème 1.14 (sommation par paquets) — Soit (In )n∈N une partition dénombrable de I, et (xi )i∈I une famille
X +∞ X !
X
sommable. Alors xi = xi .
i∈I n=0 i∈In
X XX XX
Théorème 1.15 (Fubini) — Soit (xi,j )(i,j)∈I×J une famille sommable. Alors xi,j = xi,j = xi,j .
(i,j)∈I×J i∈I j∈J j∈J i∈I
2. Espaces probabilisés
2.1 Expérience aléatoire et univers
Définition. — On appelle expérience aléatoire une expérience qui, reproduite dans des conditions identiques, peut
conduire à des résultats différents non prévisibles à l’avance. L’ensemble des résultats possibles de cette expérience est
appelé univers et est classiquement noté Ω.
Exemples. Examinons tout d’abord quelques expériences aléatoires et l’univers qui leur est associé :
– on lance trois dés à 6 faces. Dans ce cas, on choisira pour univers Ω = ⟦1, 6⟧3 .
– on lance une pièce de monnaie jusqu’à obtenir Face. Ici pourra choisir Ω = N ∪ {+∞} si on choisit de
représenter une expérience par le nombre d’essais infructueux.
– on casse une baguette de bois en trois et on mesure les
n longueurs des trois morceaux.o En fixant à 1 la longueur
3
de la baguette, l’univers peut être représenté par Ω = (x, y, z) ∈ ]0, 1[ x + y + z = 1 .
Le premier exemple correspond à un univers fini, le second à un univers dénombrable, le troisième à un univers
non dénombrable.
On observera que la description de l’univers ne nous indique pas la façon dont l’expérience est réalisée : les dés,
la pièce, sont-ils pipés ou non ? Suivant quel protocole la baguette est-elle brisée ? Ce sont ces informations qui
vont conditionner le choix de la probabilité que nous allons associer à cet univers.
Une fois la notion d’événement définie, l’étape suivante dans la construction d’un espace probabilisé consiste
à définir une probabilité P(A) mesurant la chance de réalisation d’un événement A. Or lorsque l’univers Ω
est infini, il n’est en général pas possible de définir cette probabilité pour toutes les parties de Ω ; il faut
se restreindre à un sous-ensemble A de P (Ω) qu’on appelle une tribu, et qui en quelque sorte contient les
événements dont on pourra mesurer la probabilité de réussite.
Plus formellement nous adopterons la définition suivante :
Définition. — Si Ω est un ensemble, on appelle tribu sur Ω une partie A de P (Ω) vérifiant :
– Ω ∈ A (l’événement certain appartient à la tribu) ;
– pour tout A ∈ A , l’événement contraire A appartient à A ;
[
– A est stable par réunion dénombrable, c’est-à-dire que si (An )n∈N est une suite d’éléments de A alors An
appartient à A . n∈N
Désormais, le terme d’événement désignera un élément d’une tribu A , supposée définie précédemment.
Exemple. {, Ω} est une tribu, appelée tribu triviale puisqu’elle ne mesure que deux événements : l’événement
certain et l’événement impossible.
Exemple. À l’inverse, P (Ω) est la tribu la plus fine qui soit. Cependant, à l’exception des univers finis ou
dénombrables, cette tribu ne peut engendrer que des espaces probabilisés sans intérêt.
Exemple. Considérons de nouveau l’expérience consistant à jeter une pièce jusqu’à obtenir Face, mais choi-
sissons cette fois l’univers Ω = {0, 1}N (autrement dit, dans l’univers des possibles on joue à Pile ou Face
indéfiniment). Cet univers n’est pas dénombrable, il est donc nécessaire de définir une tribu sur laquelle on
pourra ensuite définir une probabilité. Compte tenu du problème qui nous intéresse on admet l’existence d’une
tribu A dans laquelle « Face apparaît pour la première fois e
[au n tirage » est un événement noté An .
Compte tenu des propriétés des tribus, l’événement A = An appartient à A (il s’agit de l’événement « Face
n∈N∗
apparaît au moins une fois ») ainsi que l’événement contraire A (« la pièce tombe indéfiniment sur Pile »). Tous
les événements nécessaires à l’étude de l’expérience sont bien présents dans la tribu.
Exercice 1
Soit A une tribu de R contenant toutes les demi-droites [a, +∞[, a ∈ R. Montrer que cette tribu contient tous
les intervalles de R.
Définition. — Soit Ω un univers et A une tribu sur Ω. On appelle probabilité sur (Ω, A ) une application
P : A → [0, 1] vérifiant :
– P(Ω) = 1 ;
X
– pour toute suite dénombrable (An )n∈N d’événements de A deux-à-deux incompatibles la série P(An ) converge,
[ X +∞
et P An = P(An ).
n∈N n=0
On appelle espace probabilisé le triplet (Ω, A , P) constitué d’un univers, d’une tribu sur Ω et d’une probabilité sur
(Ω, A ).
Commençons par observer que les propriétés sur les univers finis qui ont été établies dans le cours de première
année restent vérifiées :
Exemple. Lorsque l’univers Ω est fini et A = P (Ω) il existe une unique probabilité, appelée probabilité uniforme
1 card A
telle que pour tout ω ∈ Ω, P({ω}) = . Dans ce cas, pour tout événement A, P(A) = .
card Ω card Ω
Exemple. Revenons maintenant sur l’expérience consistant à jeter une pièce de monnaie jusqu’à obtenir Face.
Nous avons admis qu’on pouvait définir une tribu A sur l’univers Ω = {0, 1}N qui contient tous les événements
An : « Face apparaît pour la première fois au ne tirage ».
Si on note p ∈ ]0, 1[ la probabilité pour la pièce de tomber sur Face, les éléments de l’univers sont des suites
d’épreuves de Bernoulli indépendantes de paramètre p, et les éléments de An les suites qui débutent par n − 1
échecs suivis d’une réussite donc P(An ) = (1 − p)n−1 p.
[ X +∞
Les événements An étant deux à deux incompatibles (i , j =⇒ Ai ∩ Aj = ) on a P An = P(An ) =
n∈N n=1
+∞
X 1 [
(1−p)n−1 p = p × = 1. L’événement A = An (« Face apparaît au moins une fois ») vérifie P(A) = 1,
1 − (1 − p) ∗
n=1 n∈N
l’événement A (« la pièce tombe indéfiniment sur Pile ») vérifie P(A) = 1 − P(A) = 0.
L’événement A est dit « quasi-impossible », ou « négligeable » : bien qu’il soit un événement envisageable (il n’est
pas égal à l’événement impossible ) sa probabilité est nulle. À l’inverse, l’événement A est dit « quasi-certain »,
ou « presque sûr ».
– pour toute suite d’événements (An ) décroissante au sens de l’inclusion (An+1 ⊂ An ), la suite (P(An )) converge, et
\
P An = lim P(An ).
n∈N
Remarque. Lorsque la suite (An ) n’est pas monotone au sens de l’inclusion, on peut néanmoins appliquer le
théorème de la limite monotone à la suite des « union partielles » ou la suite des « intersections partielles ».
n
[ [ [
En effet, la suite Bn = Ak est croissante donc P An = P Bn = lim P(Bn ).
k=0 n∈N n∈N
\n \ \
De même la suite Cn = Ak est décroissante donc P An = P Cn = lim P(Cn ).
k=0 n∈N n∈N
Proposition 2.4 (sous-additivité) — Soit (Ω, A , P) un espace probabilisé. Pour toute suite d’événements (An ),
[ X +∞
P An ⩽ P(An ) (cette somme peut éventuellement être égale à +∞).
n∈N n=0
X +∞
X
Théorème 2.5 — Soit (pn ) une suite de réels positifs telle que la série pn converge et pn = 1. Alors il existe
n=0
une unique probabilité P sur (Ω, P (Ω)) telle que pour tout n ∈ N, P({ωn }) = pn .
+∞ +∞ n
θn X X θ
Exemple. Soit θ > 0 et pn = e−θ . Il est facile de vérifier que 0 ⩽ pn ⩽ 1 et que pn = e−θ = 1. La suite
n! n
n!
θ n=0 n=0
(pn ) définit donc une probabilité sur (N, P (N)) en posant P({n}) = e−θ , appelée loi de Poisson de paramètre θ.
n!
Nous aurons l’occasion d’y revenir.
Exercice 3
a. Soit P une probabilité sur (N, P (N)). Montrer que lim P({n}) = 0.
b. Soit (an ) une suite strictement décroissante de réels positifs de limite nulle. Déterminer une constante
λ > 0 pour qu’il existe une probabilité P sur (N, P (N)) vérifiant : P(⟦n, +∞⟦) = λan .
■ Probabilité conditionnelle
Définition. — Si A et B sont deux événements tels que P(B) > 0, on appelle probabilité conditionnelle de A
P(A ∩ B)
sachant B le réel PB (A) = , réel qu’on pourra aussi noter P(A | B).
P(B)
Remarque. On dispose donc de l’égalité P(A ∩ B) = P(B)P(A | B) lorsque P(B) , 0. Lorsque P(B) = 0, on peut
observer que cette égalité garde un sens (celui de « 0 = 0 ») même si P(A | B) n’est pas formellement défini
puisque A ∩ B ⊂ B ⇒ 0 ⩽ P(A ∩ B) ⩽ P(B) = 0.
Si A est B sont deux événements quelconques, la formule P(A ∩ B) = P(B)P(A | B) est appelée formule des
probabilités composées.
Définition. — On appelle système complet d’événements[ toute famille (Bi )i∈I finie ou dénombrable d’événements
deux-à-deux incompatibles (i , j ⇒ Bi ∩ Bj = ) et telle que Bi = Ω.
i∈I
En d’autres termes, la famille (Bi )i∈I constitue une partition finie ou dénombrable de Ω.
Théorème 2.7 (formule des probabilités totales) — Soit A un événement et (Bi )i∈I un système complet d’événements.
X
Alors P(A) = P(Bi )P(A | Bi ).
i∈I
X [
Remarque. La formule reste valable lorsque P(Bi ) = 1, autrement dit lorsque l’événement Bi est presque
i∈I i∈I
sûr. On parle alors de système quasi-complet d’événements.
Proposition 2.8 (Formule de Bayes) — Soit (Bi )i∈I un système complet d’événements tel que pour tout i ∈ I,
P(B )P(A | Bi )
P(Bi ) > 0, et A un événement tel que P(A) > 0. Alors P(Bi | A) = P i .
P(Bj )P(A | Bj )
j∈I
Remarque. Cette formule est souvent utilisée lorsque le système complet est constitué des deux seuls événe-
P(B)P(A | B)
ments B et B. Dans ce cas, la formule devient : P(B | A) = .
P(B)P(A | B) + P(B)P(A | B)
Exercice 4
Un QCM propose 4 réponses pour chaque question. Soit p la probabilité qu’un étudiant connaisse la bonne
réponse à une question donnée. S’il ignore la réponse, il choisit au hasard l’une des réponses proposées. Quel
est la probabilité qu’un étudiant connaisse vraiment la bonne réponse lorsqu’il a correctement répondu à une
question ?
Remarque. La formule de Bayes a longtemps été appelée formule de probabilité des causes. Elle permet en
effet de calculer la probabilité d’une cause (ici le fait d’avoir pris le dé pipé) connaissant celle de sa conséquence
(le nombre de 6 obtenus).
Exercice 5
On dépose dans une urne vide une boule blanche puis on joue à Pile ou Face avec une pièce non pipée. Tant
que la pièce retombe sur Pile, on ajoute une boule noire dans l’urne. Lorsqu’on obtient Face pour la première
fois on tire au hasard une boule de l’urne. Celle-ci est blanche. Quelle est la probabilité qu’il n’y ait aucune
boule noire dans l’urne ?
■ Indépendance
De manière informelle, deux événements A et B sont indépendants lorsque le fait de savoir que A est réalisé ne
donne aucune information sur la réalisation de B, et réciproquement. Ainsi, lorsque P(A) > 0 et P(B) > 0 on
P(A ∩ B) P(B ∩ A)
souhaite que P(A | B) = P(A) et P(B | A) = P(B), ce qui se traduit par = P(A) et = P(B). Ces
P(B) P(A)
deux égalités sont identiques, et pour pouvoir s’abstraire des hypothèses P(A) > 0 et P(B) > 0 on adoptera la
définition suivante :
La notion d’indépendance se généralise à une suite finie ou infinie d’événements de la manière suivante :
Définition. — Une famille finie ou dénombrable (Ai )i∈I d’événements est dite indépendante lorsque pour tout
entier p ⩽ card I, pour toute p-liste (i1 , . . . ip ) ∈ Ip d’indices deux-à-deux distincts, P(Ai1 ∩ · · · ∩ Aip ) = P(Ai1 ) · · · P(Aip )
(on dit aussi que les événements Ai sont mutuellement indépendants).
On observera que cette définition est très délicate à mettre en œuvre. Ne serait-ce que pour trois événements A,
B et C il faut vérifier chacune des égalités :
En particulier, les trois dernières égalités, qui traduisent le fait que ces trois événements sont deux-à-deux
indépendants, ne sont pas suffisantes pour s’assurer que les trois événements sont indépendants.
Exercice 6
[ \
Soit (An ) une suite d’événements indépendants ; pour tout p ∈ N on pose Bp = An puis A∗ = Bp .
n⩾p p∈N
n
Y
∗
a. Justifier que P(A ) = lim P(Bp ) et que P(Bp ) = 1 − lim 1 − P(Ak ) .
p→+∞ n→+∞
k=p
n
Y Xn X
b. Montrer que 1 − P(Ak ) ⩽ exp − P(Ak ) et en déduire que si la série P(An ) diverge, P(A∗ ) = 1.
k=p k=p
Remarque. Le résultat ci-dessus, associé au lemme de Borel-Cantelli (voir page 7) constitue la loi du zéro-un de
Borel : si (An ) est une suite d’événements indépendants, la probabilité qu’une infinité d’entre eux se réalise est :
X
– égale à 0 si la série P(An ) converge ;
X
– égale à 1 si la série P(An ) diverge.
3. Variables aléatoires
3.1 Définition d’une variable aléatoire
Jusqu’à présent, nous avons beaucoup parlé des événements, autrement dit adopté un point de vue ensembliste
sur les probabilités. Nous allons maintenant changer de point de vue en choisissant un point de vue fonctionnel
à l’aide de la notion de variable aléatoire qui, contrairement à ce que pourrait laisser supposer son nom, n’est pas
une variable mais une fonction. De manière informelle, une variable aléatoire est une grandeur qui dépend du
résultat de l’expérience ; ce peut être par exemple :
– le nombre de 6 obtenus dans un lancé de trois dés ;
– le temps d’attente avant d’obtenir Face dans un lancer de pièce ;
– la longueur du plus grand des deux morceaux lorsqu’on brise une baguette de bois en deux.
Définition. — Si (Ω, A ) est un espace probabilisable et E un ensemble, on appelle variable aléatoire toute fonction
X : Ω → E telle que pour tout e ∈ E, X−1 ({e}) ∈ A (autrement dit, X−1 ({e}) est un événement).
Lorsque E = R, la variable aléatoire X sera dite réelle.
Lorsque X(Ω) (l’ensemble des valeurs que peut prendre X) est fini ou dénombrable, la variable aléatoire X sera dite
discrète.
−1
Rappel. La o désigne l’image réciproque de e, c’est-à-dire l’ensemble des antécédents de e :
n notation X ({e})
−1
X ({e}) = ω ∈ Ω X(ω) = e .
Exemples.
– Pour l’expérience consistant à lancer trois dés et à compter le nombre de 6, nous pouvons choisir Ω = ⟦1, 6⟧3 ,
E = N et X : Ω → N définie par X(e1 , e2 , e3 ) = card{i ∈ ⟦1, 3⟧ | ei = 6}.
X(Ω) = {0, 1, 2, 3} donc la variable aléatoire X est discrète (finie).
– Pour l’expérience consistant à lancer une pièce jusqu’à obtenir Face, nous pouvons choisir Ω = {0, 1}N ,
E = N ∪ {+∞} et X : Ω → E définie par X((un )) = min{n ∈ N∗ | un = 0}. Ici X est une variable aléatoire discrète
(dénombrable).
– Pour l’expérience consistant à casser une baguette de deux pour mesurer le plus grand des deux morceaux,
nous avons Ω = ]0, 1[, E = ]0, 1[ et X(x) = max(x, 1 − x). Dans cet exemple, X n’est pas une variable aléatoire
discrète car X(Ω) = [1/2, 1[ n’est pas dénombrable.
Dans la suite de ce cours nous ne prendrons en considération que des variables aléatoires discrètes.
Proposition 3.1 — Lorsque X est une variable aléatoire discrète, pour tout U ⊂ X(Ω), X−1 (U) ∈ A (autrement dit,
X−1 (U) est un événement).
Remarque. On introduit la notion de variable aléatoire pour s’intéresser aux chances de réalisation des valeurs
de X plutôt qu’aux chances de réalisation des résultats de l’expérience. Autrement dit, cette notion permet
d’une certaine façon d’« oublier » l’espace probabilisable (Ω, A ) (qui reste présent, mais dont on se contentera
le plus souvent d’admettre son existence) au profit des valeurs prises par X.
Par la suite, l’événement X−1 (U) sera noté plus simplement [X ∈ U].
Par exemple, pour le jeté de trois dés, [X = 2] désigne l’événement « deux des trois dés ont donné un 6 ». Pour le
lancer d’une pièce jusqu’à obtenir Face, [X ⩾ 3] désigne l’événement « il a fallu au moins trois lancers avant
d’obtenir un Face ».
L’intérêt du résultat précédent est que puisque [X ∈ U] est un événement, il est possible de lui associer une
probabilité. Il s’agit du résultat suivant :
Théorème 3.2 — Soit (Ω, A , P) un espace probabilisé et X : Ω → E une variable aléatoire discrète.
Alors l’application
PX : P (X(Ω)) → [0, 1] définie par PX (U) = P(X−1 (U)) = P(X ∈ U) est une probabilité sur X(Ω), P (X(Ω)) , appelée
loi de la variable X, ou encore distribution de X.
Exercice 7
Une urne contient initialement une boule blanche et une boule noire. On tire au hasard une de ces boules, on
note sa couleur et on la replace dans l’urne accompagnée d’une seconde boule de la même couleur. On réalise
ce processus n fois, et on note Xn la variable aléatoire égale au nombre de boules blanches tirées durant ce
processus. Déterminer la loi de Xn .
Ce résultat définit la loi de la variable aléatoire discrète X à partir de la loi de probabilité sur Ω. Il existe une
réciproque de ce résultat : il est possible de choisir a priori la loi de X et d’en déduire une probabilité sur X(Ω).
De manière plus formelle :
Théorème 3.3 — Soit (Ω, A ) un espace probabilisable et X : Ω → E une variableX aléatoire discrète. On note
X(Ω) = {xi | i ∈ I} et
on considère une
famille discrète (p )
i i∈I de réels positifs telle que pi = 1. Alors il existe une
probabilité PX sur X(Ω), P (X(Ω)) telle que pour tout i ∈ I, PX (X = xi ) = pi . i∈I
L’intérêt de ce résultat est qu’il sera souvent suffisant de raisonner directement à partir de PX sans véritablement
avoir besoin d’expliciter formellement l’espace probabilisé (Ω, A , P).
■ Loi uniforme
L’expérience type consiste à considérer une urne contenant n boules numérotées de 1 à n et à effectuer un tirage
équiprobable. La variable aléatoire X est le numéro de la boule obtenue.
Définition. — Soit n ∈ N∗ . On dit qu’une variable aléatoire réelle X suit une loi uniforme de paramètre n lorsque
1
X(Ω) = ⟦1, n⟧ et si pour tout k ∈ ⟦1, n⟧, P(X = k) = . On note dans ce cas X ∼ U (n).
n
■ Loi de Bernoulli
L’expérience type consiste à tirer dans une urne contenant une proportion p de boules blanches. On note X la
variable aléatoire égale à 1 si on tire une boule blanche, et 0 sinon. On peut aussi tirer à pile ou face avec une
pièce truquée ayant la probabilité p de tomber sur Face et poser X = 0 lorsque la pièce tombe sur Pile, et X = 1
lorsque la pièce tombe sur Face.
Définition. — Soit p ∈ ]0, 1[. On dit qu’une variable aléatoire réelle X suit une loi de Bernoulli de paramètre p
lorsque X(Ω) = {0, 1} et P(X = 0) = 1 − p, P(X = 1) = p. On note dans ce cas X ∼ B (p).
Cette variable aléatoire 1A est appelée l’indicatrice de A ; elle suit une loi de Bernoulli de paramètre p = P(A).
■ Loi géométrique
L’expérience type consiste en une succession infinie d’expériences de Bernoulli indépendantes de paramètre p.
On note X le rang du premier succès.
Définition. — Soit p ∈ ]0, 1[. On dit qu’une variable aléatoire réelle X suit une loi géométrique de paramètre p
lorsque X(Ω) = N∗ et pour tout k ∈ N∗ , P(X = k) = pqk−1 avec q = 1 − p. On note dans ce cas X ∼ G (p).
Proposition 3.4 — Soit X ∼ G (p). Alors pour tout (m, n) ∈ (N∗ )2 , P(X > m + n | X > n) = P(X > m).
Ce résultat traduit le fait qu’une loi géométrique est sans mémoire : après n expériences les variables X − n et X
suivent le même loi : les expériences passées n’influent pas sur les succès futurs. C’est la raison pour laquelle le
fait qu’un nombre ne soit pas sorti depuis longtemps au loto n’augmente pas la probabilité qu’il sorte au tirage
suivant.
Exercice 8
Soit X une variable aléatoire sans mémoire à valeurs dans N∗ . Montrer que X suit une loi géométrique.
■ Loi binomiale
L’expérience type consiste à effectuer n fois une expérience de Bernoulli et à noter X le nombre de succès.
Définition. — Soit n ∈ N∗ et p ∈ ]0, 1[. On dit qu’une variable aléatoire réelle X suit une loi binomiale de
!
n k n−k
paramètres (n, p) lorsque X(Ω) = ⟦0, n⟧ et pour tout k ∈ ⟦0, n⟧, P(X = k) = p q avec q = 1 − p. On note dans
k
ce cas X ∼ B (n, p).
■ Loi de Poisson
La dernière loi que nous allons définir est un peu différente des précédentes, dans le sens où elle ne correspond
pas à la modélisation d’une expérience précise mais apparaît (dans un certain sens) comme limite des lois
binomiales.
Théorème 3.5 (loi des événements rares) — Soit (Xn ) une suite de variables aléatoires réelles telle que pour tout
λ λk −λ
n ∈ N, Xn ∼ B (n, pn ). On suppose pn ∼ avec λ > 0. Alors pour tout k ∈ N, lim P(Xn = k) = e .
n n→+∞ k!
Définition. — Soit λ > 0. On dit qu’une variable aléatoire réelle X suit une loi de Poisson de paramètre λ lorsque
λk −λ
X(Ω) = N et pour tout k ∈ N, P(X = k) = e . On note dans ce cas X ∼ P (λ).
k!
Remarque. Concrètement, ce résultat affirme que si des événements indépendants ont une très faible probabilité
d’apparition, leur distribution, qui suit en principe une loi binomiale, est dans la pratique très voisine d’une loi
de Poisson. On estime souvent qu’on peut utiliser l’approximation de B (n, p) par P (λ) (avec λ = np) dès lors
que n ⩾ 50 et np < 10. Dans le cadre de cette approximation les calculs numériques s’en trouvent grandement
simplifiés.
Exemple. Un central téléphonique possède 5 lignes. On estime à n = 1 200 le nombre de personnes susceptibles
d’appeler le standard sur une journée de huit heures, les appels étant répartis uniformément durant la journée
et d’une durée de deux minutes en moyenne.
On souhaite calculer la probabilité que le standard soit saturé à un instant donné. Pour cela, on note X la
variable aléatoire égale au nombre de personnes en train de téléphoner à un instant donné et on cherche à
5
X
calculer P(X > 5) = 1 − P(X = k).
k=0
1 1
Un appel au standard à un instant donné est une éventualité de probabilité p = = . La variable
8 × 30 240
aléatoire X suit donc une loi binomiale de paramètres (n, p), et on est dans le cadre de l’approximation par une
loi de Poisson de paramètre λ = np = 5. Effectuons le calcul avec ces deux lois :
0.384039090245462
0.38403934516693705
Les deux formules donnent effectivement des réponses très proches : de l’ordre de 38,4%.
Exercice 9
Soit X une variable aléatoire suivant une loi de Poisson de paramètre λ > 0. Est-il plus probable que la valeur
de X soit paire ou impaire ?
À l’inverse, si (X, Y) est un couple de variables aléatoires, on appelle lois marginales de (X, Y) les lois de X et de Y.
À l’inverse, la connaissance des lois marginales ne permet pas en général de déterminer la loi conjointe, car en
général les événements {X = x} et {Y = y} n’ont aucune raison d’être indépendants. C’est la raison pour laquelle
on adopte la définition suivante :
Définition. — Deux variables aléatoires X et Y sur un même espace probabilisable (Ω, A ) sont dites indépendantes
lorsque pour tout x ∈ X(Ω) et tout y ∈ Y(Ω) les événements {X = x} et {Y = y} sont indépendants. On a dans ce cas :
P(X = x et Y = y) = P(X = x) · P(Y = y). L’indépendance des deux variables aléatoires X et Y sera notée X ⊥
⊥ Y.
Proposition 3.6 — Soient X et Y deux variables aléatoires indépendantes d’un même espace probabilisable (Ω, A ).
Alors pour toutes parties A dans X(Ω) et B dans Y(Ω) on a : P(X ∈ A et Y ∈ B) = P(X ∈ A) · P(Y ∈ B).
Proposition 3.7 — Soient X et Y deux variables aléatoires indépendantes d’un même espace probabilisable (Ω, A ),
et f et g deux fonctions de R dans R. Alors les variables aléatoires f (X) et g(Y) sont indépendantes. Autrement dit,
X⊥
⊥ Y =⇒ f (X) ⊥
⊥ g(Y)
Exercice 10
Soient X ∼ P (λ) et Y ∼ P (µ) deux variables aléatoires indépendantes. Montrer que X + Y ∼ P (λ + µ).
Remarque. Lorsque deux variables X et Y ne sont pas indépendantes, on utilise une probabilité conditionnelle
pour calculer la probabilité de l’événement {X = x et Y = y} : P(X = x et Y = y) = P(X = x | Y = y) · P(Y = y).
Exercice 11
Soit X une variable aléatoire qui suit une loi de Poisson de paramètre λ, Y une variable aléatoire qui, lorsque
X = n, suit une loi binomiale B (n, p). On pose enfin Z = X − Y.
Déterminer les lois de Y et de Z. Les variables Y et Z sont-elles indépendantes ?
Indépendance mutuelle
Définition. — Soit (Xi )i∈I une famille finie ou dénombrable de variables aléatoires d’un même espace probabilisable
(Ω, A ). On dit que ces variables sont mutuellement indépendantes si et seulement si pour toute p-liste (i1 , . . . , ip ) ∈ Ip
d’indices deux-à-deux distincts, et toute p-liste (xi1 , . . . , xip ) ∈ Xi1 (Ω) × · · · × Xip (Ω), les événements {Xik = xik } sont
indépendants.
À l’instar de l’indépendance d’une famille finie ou dénombrable d’événements, cette définition est particulière-
ment malcommode à vérifier. En particulier, on notera qu’il n’est pas équivalent de se contenter de vérifier que
les variables sont deux-à-deux indépendantes.
Exemple. Si (Xk )1⩽k⩽n est une famille finie de variables aléatoires mutuellement indépendantes suivant toutes
Xn
la même loi de Bernoulli de paramètre p, alors Sn = Xk suit une loi binomiale de paramètre (n, p).
k=1
Plus généralement, nous rencontrerons fréquemment des familles de variables aléatoires (Xn )n∈N indépendantes
suivant toutes la même loi. Une telle suite de variables aléatoires sera dite identiquement distribuée.
Théorème 3.8 (lemme des coalitions) — Soient X1 , . . . , Xn une famille de n variables aléatoires mutuellement
indépendantes, et p ∈ ⟦1, n⟧. Soit f : Rp → R et g : Rn−p → R deux fonctions. Alors les variables f (X1 , . . . , Xp ) et
g(Xp+1 , . . . , Xn ) sont indépendantes.
3.4 Espérance
Lorsque X(Ω) est fini, l’espérance d’une variable aléatoire réelle est la moyenne des
Xvaleurs qu’elle est susceptible
de prendre pondérées par la probabilité d’apparition de ces valeurs : E(X) = xP(X = x).
x∈X(Ω)
Lorsque X(Ω) est infini, nous avons vu dans la première partie de ce chapitre que pour pouvoir donner un sens
à cette expression, il fallait pouvoir s’assurer que cette expression ne dépend pas de l’ordre d’indexation choisi
pour X(Ω). Ceci nous conduit à la :
Définition. — On dit qu’une variable aléatoire réelle et discrète X est d’espérance finie lorsque la famille de
nombres réels xP(X = x) est sommable, et on appelle dans ce cas on appelle espérance de X la quantité
x∈X(Ω)
X
E(X) = xP(X = x).
x∈X(Ω)
n o
Remarque. Lorsqu’on décrit par compréhension l’ensemble X(Ω) = xn n ∈ N , X admet une espérance si et
X
seulement si la série xn P(X = xn ) est absolument convergente.
Remarque.
X Lorsque la variable aléatoire X est à valeurs positives, nous avons vu que l’on pouvait noter
xP(X = x) = +∞ lorsque cette famille n’est pas sommable. On notera alors E(X) = +∞ dans ce cas de
x∈X(Ω)
figure (attention, ceci n’est pas valable lorsque X n’est pas à valeurs positives).
Exemple. Considérons une fois de plus le problème du lancer de pièce jusqu’à obtenir Face. Nous avons montré
que si X désigne la variable aléatoire qui compte le nombre de lancers nécessaires nous avons P(X = n) =
p(1 − p)n−1 où p désigne la probabilité
X d’obtenir un Face lors d’un lancer.
Puisque 1 − p ∈ ]0, 1[ la série n(1 − p)n−1 converge donc E est d’espérance finie, et
n⩾1 +∞
X p 1
E(X) = np(1 − p)n−1 = 2
=
(1 − (1 − p)) p
n=1
3.9 — Soit X une variable aléatoire presque sûrement bornée (autrement dit, il existe M > 0 et que
Proposition
P |X| ⩽ M = 1). Alors X est d’espérance finie.
Notons qu’il existe une formule équivalente pour l’espérance d’une variable aléatoire à valeurs dans N ∪ {+∞} :
X+∞
Proposition 3.10 — Si X est une variable aléatoire à valeurs dans N ∪ {+∞} alors E(X) = P(X ⩾ n).
n=1
Les principaux résultats de l’espérance sont les suivants :
n+1
Loi uniforme Si X ∼ U (n), alors E(X) = .
2
Loi de Bernoulli Si X ∼ B (p), alors E(X) = p.
1
Loi géométrique Si X ∼ G (p) alors E(X) = .
p
Loi binomiale Si X ∼ B (n, p) alors E(X) = np.
Loi de Poisson Si X ∼ P (λ) alors E(X) = λ.
Remarque. La loi binomiale étant la somme de n loi de Bernoulli (indépendantes) on a bien E(B (n, p)) =
n × E(B (p)).
Proposition 3.15 — Si a et b sont deux réels et X une variable aléatoire réelle possédant un moment d’ordre 2, alors
V (aX + b) = a2 V (X) et σ(aX + b) = |a|σ(X).
Théorème 3.16 — Si X et Y sont deux variables aléatoires indépendantes admettant un moment d’ordre 2, il en est
de même de X + Y, et V (X + Y) = V (X) + V (Y).
Exercice 12
Soit X une variable aléatoire possédant un moment d’ordre 2. Quelle est la valeur minimale de la fonction
t 7→ E((X − t)2 ) ?
n2 − 1
Loi uniforme Si X ∼ U (n), alors V (X) = .
12
Loi de Bernoulli Si X ∼ B (p), alors V (X) = pq = p(1 − p).
q 1−p
Loi géométrique Si X ∼ G (p) alors V (X) = 2 = 2 .
p p
Loi binomiale Si X ∼ B (n, p) alors V (X) = npq.
Loi de Poisson Si X ∼ P (λ) alors V (X) = λ.
L’application (X, Y) 7→ E(XY) est une application bilinéaire, symétrique et positive. En conséquence de quoi il
est possible d’établir le résultat suivant :
Théorème 3.17 (Inégalité de Cauchy-Schwarz) — Si X et Y possèdent des moments d’ordre 2, alors XY possède un
moment d’ordre 1, et E(XY)2 ⩽ E(X2 )E(Y2 ).
Remarque. Il y a égalité dans l’inégalité de Cauchy-Schwarz si et seulement s’il existe (λ, µ) ∈ R2 tel que λX +µY
est quasi-sûrement nul, autrement dit lorsque P(λX + µY = 0) = 1.
3.6 Covariance
Nous avons démontré à la proposition 3.12 que lorsque X et Y sont deux variables aléatoires indépendantes,
E(XY) = E(X)E(Y). Lorsque X et Y ne sont pas indépendantes, on peut considérer que la quantité E(XY)−E(X)E(Y)
mesure le « défaut d’indépendance » de ces deux variables. Pour des raisons pratiques (liées à l’inégalité de
Cauchy-Schwarz, voir plus loin), nous allons introduire cette quantité sous une forme légèrement différente. En
effet,
E((X − E(X))(Y − E(Y))) = E(XY − E(X)Y − XE(Y) + E(X)E(Y)) = E(XY) − E(X)E(Y) − E(X)E(Y) + E(X)E(Y)
= E(XY) − E(X)E(Y).
Définition. — Soient X et Y deux variables aléatoires réelles. Sous réserve d’existence on appelle covariance de X et
de Y la quantité cov(X, Y) = E (X − E(X))(Y − E(Y)) .
Proposition 3.18 — Si X et Y sont deux variables aléatoires réelles possédant un moment d’ordre 2 alors cov(X, Y)
existe.
Proposition 3.19 — Lorsque X et Y sont deux variables aléatoires réelles indépendantes possédant un moment
d’ordre 2, alors cov(X, Y) = 0. On dira que X et Y ne sont pas corrélées.
Attention. La réciproque de ce résultat est fausse : deux variables aléatoires peuvent ne pas être corrélées sans
pour autant être indépendantes.
Proposition 3.20 (propriétés de la covariance) — Soient X Y et Z trois variables aléatoires réelles possédant des
moments d’ordre 2. Alors :
– cov(X, Y) = E(XY) − E(X)E(Y) ;
– cov(X, Y) = cov(Y, X) ;
– cov(X, 1) = 0 ;
– ∀(a, b) ∈ R2 , cov(X, aY + bZ) = a cov(X, Y) + b cov(X, Z).
Théorème 3.21 — Soient X et Y deux variables aléatoires réelles possédant des moments d’ordre 2. Alors
En particulier, lorsque ces deux variables aléatoires sont indépendantes, on retrouve le fait que V (X + Y) = V (X)+V (Y).
n
X Xn X
Remarque. Cette formule se généralise au cas de n variables aléatoires : V Xk = V (Xk )+2 cov(Xi , Xj ).
k=1 k=1 i<j
En particulier on retiendra le :
Corollaire — Lorsque X1 , . . . , Xn sont des variables aléatoires possédant des moments d’ordre 2 et deux-à-deux
indépendantes, V (X1 + · · · + Xn ) = V (X1 ) + · · · + V (Xn ).
Théorème 3.22 (inégalité de Markov) — Soit X une variable aléatoire positive possédant un moment d’ordre 1, et
E(X)
a > 0. Alors P(X ⩾ a) ⩽ .
a
Théorème 3.23 (inégalité de Bienaymé-Tchebychev) — Soit X une variable aléatoire réelle admettant un moment
V (X) σ(X)2
d’ordre 2, et α > 0. Alors P X − E(X) ⩾ α ⩽ = .
α2 α2
Que signifie cette inégalité ? La probabilité calculée mesure le risque de s’écarter de l’espérance d’une quantité
supérieure à α. La majorant obtenu montre que plus l’écart type est faible, plus ce risque est négligeable. Ainsi,
un écart type faible caractérise une faible dispersion autour de l’espérance. À l’inverse, un écart type important
dénote une grande dispersion des valeurs.
def experience():
s = 1
while True:
if [Link]() < .1:
return s
s += 1
for _ in range(n):
v += experience()
print(v / n)
10.02955
Nous obtenons effectivement une valeur proche de l’espérance théorique égale à 10. Le théorème qui suit donne
une justification à cet état de fait :
Théorème 3.24 (loi faible des grands nombres) — Soit (Xn )n⩾1 une suites de variables aléatoires deux-à-deux
indépendantes et de même loi admettant un moment d’ordre 2. On pose Sn = X1 + X2 + · · · + Xn . Alors pour tout ϵ > 0,
1 V (X)
P Sn − E(X) ⩾ ϵ ⩽ .
n nϵ2
1
Remarque. Avec les mêmes hypothèses on en déduit que : lim P Sn − E(X) ⩾ ϵ = 0.
n→+∞ n
En d’autres termes, plus on réalise un grand nombre d’expériences, plus le risque que la moyenne s’écarte de
l’espérance de plus de ϵ est faible.
Exemple. Dans l’exemple numérique ci-dessus nous avons pris n = 100 000 et nous avons E(X) = 10 et V(X) = 90.
V (X)
Pour ϵ = 0,1 nous avons = 0,09 donc il y a plus de 91% de chance que le résultat obtenu diffère de
nϵ2
l’espérance théorique de moins de 0,1.
Pourquoi s’intéresser à cette série entière ? Nous savons que les coefficients d’une série entière de rayon de
convergence R > 0 sont définis de manière unique, aussi pouvons-nous affirmer que si R > 0 la série génératrice
d’une variable aléatoire caractérise cette dernière. On peut donc espérer utiliser la souplesse d’utilisation des
séries entières pour calculer plus facilement certaines caractéristiques de X, telles l’espérance ou la variance.
Corollaire — Si deux variables aléatoires ont même série génératrice sur ]−1, 1[ alors ces deux variables aléatoires
suivent la même loi.
+∞
X
Supposons maintenant R > 1. GX est de classe C ∞ sur ]−R, R[ et G′X (t) = nP(X = n)t n−1 . On voit immédiate-
n=1
ment qu’en posant t = 1 on obtient G′X (1) = E(X). Nous admettrons que ce résultat reste vrai lorsque R = 1 à
condition que GX soit dérivable en 1, ce qui nous permet d’énoncer le
Théorème 3.25 — X admet un moment d’ordre 1 (une espérance) si et seulement si GX est dérivable en 1, et dans ce
cas, E(X) = G′X (1).
+∞
X
Voyons comment obtenir la variance. Si on suppose toujours R > 1 nous avons G′′X (1) = n(n − 1)P(X = n).
n=1
+∞
X +∞
X +∞
X
Par ailleurs, V (X) = E(X2 ) − E(X)2 = n2 P(X = n) − E(X)2 = n(n − 1)P(X = n) + nP(X = n) − E(X)2
n=1 n=1 n=1
= G′′X (1) + G′X (1) − G′X (1)2 .
Nous admettrons que sous réserve d’existence cette formule reste vraie lorsque R = 1, ce qui donne le
Théorème 3.26 — X admet un moment d’ordre 2 si et seulement si GX est deux fois dérivable en 1, et dans ce cas,
V (X) = G′′X (1) + G′X (1) − G′X (1)2 .
1
Loi uniforme Si X ∼ U (n), alors GX (t) = (t + t 2 + · · · + t n ).
n
Loi de Bernoulli Si X ∼ B (p), alors GX (t) = pt + q avec q = 1 − p.
pt
Loi géométrique Si X ∼ G (p) alors GX (t) = avec q = 1 − p.
1 − qt
Loi binomiale Si X ∼ B (n, p) alors GX (t) = (pt + q)n avec q = 1 − p.
Loi de Poisson Si X ∼ P (λ) alors GX (t) = eλt−λ .
Exercice 13
À l’aide des séries génératrices ci-dessus, retrouver l’espérance et la variance des lois usuelles.
+∞
X +∞
X
Nous avons GX (t) = P(X = n)t n et GY (t) = P(Y = n)t n et
n=0 n=0
+∞
X +∞ X
X n +∞ X
X n
GX+Y (t) = P(X + Y = n)t n = P(X = k et Y = n − k) t n = P(X = k)P(Y = n − k) t n .
n=0 n=0 k=0 n=0 k=0
Théorème 3.27 — Si X et Y sont deux variables aléatoires indépendantes à valeur entières, alors
Exemple.
– Si Xi ∼ B (p) (1 ⩽ i ⩽ n) sont des variables aléatoires indépendantes et S leur somme, alors S ∼ B (n, p).
– Si X ∼ B (m, p) et Y ∼ B (n, p) sont deux variables aléatoires indépendantes, alors X + Y ∼ B (m + n, p).
En effet, (pt + q)m · (pt + q)n = (pt + q)m+n .
– Si X ∼ P (λ) et Y ∼ P (µ) sont deux variables aléatoires indépendantes, alors X + Y ∼ P (λ + µ).
En effet, eλt−λ · eµt−µ = e(λ+µ)t−(λ+µ) .
Intégration
L’intégration est un concept fondamental en mathématiques, issu du calcul des aires. À ce titre, on peut
considérer que ses racines se trouvent parmi les premiers calculs d’aires et de volumes de l’antiquité. Mais c’est à
Leibniz, au XVIIe siècle qu’on doit les fondements de la théorie de l’intégration, en particulier par l’introduction
R
d’un symbolisme reliant intégration et dérivation. C’est d’ailleurs lui qui est à l’origine du symbole .
Il faut néanmoins attendre Riemann (en 1854) pour avoir une première théorie de l’intégration complète, c’est à
dire une définition précise de ce qu’est une fonction intégrable. Par la suite, d’autres théories, plus élaborées, ont
vu le jour, telles l’intégrale de Lebesgue (1902), ou encore l’intégrale de Kurzweil-Henstock (1950).
a p(σ) b
R
t0 t1 t2 t3 tn−1 tn
Définition. — Une fonction numérique f : [a, b] → K est dite continue par morceaux s’il existe une subdivision
σ = (t0 , . . . , tn ) de [a, b] telle que f soit sur tous les intervalles ]tk , tk+1 [ la restriction d’une fonction continue sur
[tk , tk+1 ]. Une telle subdivision sera dite adaptée à f .
Remarque. Concrètement, ceci signifie que pour tout i ∈ ⟦0, n − 1⟧, f possède une limite (finie) à droite en ti
et à gauche en ti+1 . Notons en outre que la fonction f peut être continue en ti , mais qu’à l’inverse toutes les
discontinuités de f (qui doivent être en nombre fini) font partie des points de la subdivision σ (illustration
figure 2).
Remarque. On dit qu’une subdivision σ ′ est plus fine qu’une subdivision σ lorsque σ est une sous-suite de σ ′ ,
en conséquence de quoi toute subdivision plus fine qu’une subdivision adaptée à f est encore adaptée à f .
Il est alors intéressant d’observer que si σ et σ ′ sont deux subdivisions quelconques de [a, b], alors σ ∪ σ ′ est une
subdivision à la fois plus fine que σ et que σ ′ .
Qu’est ce qui peut empêcher une fonction définie sur un segment d’être continue par morceaux ?
– Cette fonction peut présenter un point en lequel il n’y a pas de limite à gauche ou à droite ; c’est par exemple
le cas de la fonction f : x 7→ sin(1/x) sur le segment [−1, 1], quelle que soit la valeur de f (0) ;
1
– cette fonction peut présenter une limite infinie en un point ; c’est par exemple le cas de la fonction f : x 7→
x
sur le segment [−1, 1], quelle que soit la valeur de f (0) ;
x
t0 t1 t2 t3 t4 t5
Figure 2 – Un exemple de fonction continue par morceaux et d’une subdivision (non minimale) qui lui est
adaptée.
– cette fonction peut présenter un nombre infini de discontinuités ; c’est par exemple le cas de la fonction
f : x 7→ x⌊1/x⌋ prolongée par f (0) = 1, bien qu’elle possède en tout point une limite à gauche et à droite.
Proposition 1.1 — Toute fonction continue par morceaux sur un segment est bornée.
Théorème 1.2 — L’ensemble Cm0 ([a, b], K) des fonctions continues par morceaux est un sous-espace vectoriel de
l’espace B ([a, b], K) des fonctions bornées sur [a, b]. De plus, si f et g sont continues par morceaux sur [a, b], il en est
de même de leur produit f g.
Remarque. Rappelons qu’une fonction φ : [a, b] → K est dite en escalier lorsqu’il existe une subdivision
σ = (t0 , t1 , . . . , tn ) telle que f soit constante sur chaque intervalle ]ti , ti+1 [, 0 ⩽ i ⩽ n − 1. Bien entendu, toute
fonction en escalier sur [a, b] est continue par morceaux sur cet intervalle, et par une preuve analogue à celle du
théorème précédent on montre que les fonctions en escalier constituent un sous-espace vectoriel du K-espace
vectoriel des fonctions continues par morceaux sur [a, b].
Exemple. La fonction x 7→ ⌊x⌋ est continue par morceaux sur R : elle possède en tout point une limite finie
à gauche et à droite et, bien que ses discontinuités soient en nombre infini, ne possède qu’un nombre fini de
discontinuité sur tout segment. Pour ces mêmes raisons, la fonction f : x 7→ x⌊1/x⌋ est continue par morceaux sur
]0, 1]. Elle n’est en revanche pas continue par morceaux sur [0, 1], bien qu’elle soit prolongeable par continuité
en 0 !
Définition. — Soit f : [a, b] → K une fonction continue par morceaux, et σ = (t0 = a, t1 , . . . , tn = b) une subdivision
adaptée à f . L’intégrale de f sur [a, b] est alors la quantité :
Z Z b n−1 Z
X tk+1
f = f (t) dt = f (t) dt.
[a,b] a k=0 tk
Remarque. Pour valider cette définition, il faut montrer que cette valeur ne dépend pas du choix de la
subdivision subordonnée à f , mais ceci ne présente pas difficulté.
vk
x
a tk tk+1 b
Nous admettrons que cette interprétation graphique reste pertinente pour une fonction continue par morceaux.
Rappelons aussi que cette interprétation est à la base d’un résultat du cours de première année : la notion de
somme de Riemann.
Théorème 1.3 (Sommes de Riemann) — Si f : [a, b] → K est une fonction continue sur le segment [a, b] alors
n−1 Zb
b−a X b−a
lim f a+k = f (t) dt.
n→+∞ n n a
k=0
Exercice 1 n
X 1
Déterminer la limite suivante : lim √ .
n→+∞ n2 + 2kn
k=1
Proposition 1.4 — L’application qui à une fonction continue Z par morceauxZassocie son
Z intégrale sur [a, b] est
linéaire : si f et g sont continues par morceaux sur [a, b], alors (λf + g) = λ f+ g.
[a,b] [a,b] [a,b]
Z Z
Proposition 1.5 — Soit f : [a, b] → K une fonction continue par morceaux. Alors : f ⩽ |f |.
[a,b] [a,b]
Remarque. La proposition 1.5 appliquée à une fonction à valeurs réelles positives implique le résultat suivant,
dite propriété de positivité de l’intégrale :
Z
si f : [a, b] → R+ est continue par morceaux, alors f ⩾ 0.
[a,b]
Z
Corollaire — Si f : [a, b] → K est continue par morceaux, alors : f ⩽ |b − a|.∥f ∥∞,[a,b] .
[a,b]
Enfin, sur le même sujet on rappellera un résultat important du cours de première année, mais qui ne s’applique
pas aux fonctions continues par morceaux :
Proposition 1.6 — Une fonction continue et à valeurs positives sur [a, b] est nulle si et seulement si son intégrale est
nulle.
Ce théorème ramène le calcul d’une intégrale à la recherche d’une primitive. Commençons par rappeler la
définition suivante :
Définition. — Soit f une fonction continue sur I. On dit qu’une application g : I → K est une primitive de f
lorsque g est de classe C 1 , et lorsqu’en tout point de I, g ′ (x) = f (x).
Proposition 1.8 — Si g1 et g2 sont deux primitives de f , il existe une constante λ telle que g2 = g1 + λ.
Nous pouvons donc préciser le résultat du théorème 1.7 en énonçant le résultat suivant :
Proposition
Zx 1.9 — Soit f une fonction continue sur I, et a ∈ I. On définit une fonction F sur I en posant : ∀x ∈ I,
F(x) = f (t) dt. Alors F est l’unique primitive de f qui s’annule en a.
a
Voici enfin le résultat qui permet de calculer une intégrale en recherchant une primitive :
Z b
2
Corollaire — Si f est continue et g une primitive quelconque de f , alors : ∀(a, b) ∈ I , f (t) dt = g(b) − g(a).
a
Exercice 2
Soit f : [0, +∞[ → [0, +∞[ une application strictement croissante de classe C 1 , telle que f (0) = 0. Montrer, en
appliquant le théorème 1.7, que :
Z x Z f (x)
∀x ∈ [0, +∞[ , xf (x) = f (t) dt + f −1 (t) dt.
0 0
Théorème 1.11 (intégration par parties) — Soient f et g deux fonctions de classe C 1 sur [a, b]. Alors :
Zb b Z b
f (t)g ′ (t) dt = f (t)g(t) − f ′ (t)g(t) dt.
a a a
+ f (t) g ′ (t)
− f ′ (t) g(t)
Le terme de gauche de la formule se retrouve sur la première ligne, le terme entre crochets sur la diagonale, et
le reste intégral sur la dernière ligne :
Z b b Z b
f (t)g ′ (t) dt = f (t)g(t) + − f ′ (t)g(t) dt
a a a
L’intérêt de ce schéma est de permettre d’effectuer plusieurs intégrations par parties successives en une seule
étape ; voici par exemple les schémas pour effectuer deux puis trois intégrations par parties successives, et les
formules correspondantes :
+ f (t) g ′′ (t)
Z b b Z b
− f ′ (t) g ′ (t) ′′ ′ ′
f (t)g (t) dt = f (t)g (t) − f (t)g(t) + f ′′ (t)g(t) dt
a a a
+ f ′′ (t) g(t)
− f ′ (t) g ′′ (t) Z b b Z b
f (t)g (3) (t) dt = f (t)g ′′ (t) − f ′ (t)g ′ (t) + f ′′ (t)g(t) − f (3) (t)g(t) dt
+ f ′′ (t) g ′ (t) a a a
Exercice 3 Z π
2
En effectuant autant d’intégrations par parties que nécessaire, calculer l’intégrale t 3 sin t dt.
0
Théorème 1.12 (Inégalité des accroissements finis) — Soit f : [a, b] → K une fonction numérique de classe C 1 sur
[a, b]. On suppose l’existence d’un réel k tel que : ∀t ∈ [a, b], |f ′ (t)| ⩽ k. Alors :
La généralisation de cette majoration va passer par plusieurs intégrations par parties successives. En effet, si on
adopte le schéma suivant on obtient :
+ f ′ (t) 1 Z b Z b
′ ′
f (b) = f (a) + f (t) dt = f (a) + (b − a)f (a) + (b − t)f ′′ (t) dt
− f ′′ (t) t−b a a
Proposition 1.13 (Formule de Taylor avec reste intégral) — Soit f : I → K une fonction de classe C n+1 , et a ∈ I.
n Zx
X (x − a)k (k) (x − t)n (n+1)
Alors : ∀x ∈ I, f (x) = f (a) + f (t) dt.
k! a n!
k=0
n
X (x − a)k
Remarque. Tn : x 7→ f (k) (a) est une fonction polynomiale, appelée polynôme de Taylor d’ordre n de f
k!
k=0
en a. C’est un polynôme
Zx dont les dérivées successives jusqu’au rang n coïncident au point a avec celles de f . La
(x − t)n (n+1)
quantité Rn (x) = f (t) dt est l’expression intégrale de l’erreur qu’on commet en approchant f (x)
a n!
par Tn (x).
Pour majorer cette erreur, on utilise le résultat suivant :
Théorème 1.14 (inégalité de Taylor-Lagrange) — Soit f : I → K une fonction de classe C n+1 , et a ∈ I. On suppose
l’existence d’un réel M vérifiant : ∀t ∈ I, |f (n+1) (t)| ⩽ M. Alors :
|x − a|n+1
f (x) − Tn (x) ⩽ M
(n + 1)!
Exercice 4 +∞
X (−1)k
Appliquer l’inégalité de Taylor-Lagrange entre 0 et 1 à la fonction x 7→ ln(1 + x) et en déduire : = ln 2.
k+1
k=0
Notons pour finir que la fonction f (n+1) (étant supposée continue) est bornée au voisinage de a, ce qui nous
permet de déduire de l’inégalité de Taylor-Lagrange le résultat suivant :
n
X (x − a)k
f (x) = f (k) (a) + O (x − a)n+1 .
a k!
k=0
y y
x x
Figure 4 – Deux exemples de domaines non bornés, soit parce que l’une des deux bornes est infinie, soit parce
que f n’admet pas de limite finie en une des deux bornes.
Nous verrons que cette intégrale généralisée partage un certain nombre de propriétés avec l’intégrale définie,
avant d’étudier un théorème d’interversion limite-intégrale adapté aux intégrales généralisées : le théorème de
convergence dominée.
Dans toute cette partie, I désigne un intervalle quelconque de R, et f : I → Z K une fonction continue par
morceaux. L’objectif est de donner un sens, lorsque c’est possible, à l’intégrale f ; on parlera alors d’intégrale
généralisée, ou encore d’intégrale impropre. I
Z b Z x
Définition. — On dira que l’intégrale f (t) dt est convergente lorsque f (t) dt possède une limite finie quand
a a
x tend vers b en restant dans [a, b[. On notera alors :
Z b Z x
f (t) dt = lim f (t) dt.
a x→b a
On notera que lorsque f est prolongeable par continuité en b, cette définition est en cohérence avec la notion
Z x
d’intégrale sur le segment [a, b] puisque dans ce cas, la fonction x 7→ f (t) dt est une application définie et
a
continue sur [a, b], et en particulier en b. Dans ces conditions, on dira que l’intégrale est faussement impropre,
puisqu’elle ne correspond pas à l’aire d’un domaine non borné : en prolongeant par continuité la fonction f en
b on retrouve l’intégrale d’une fonction continue par morceaux sur un segment.
Remarque. On ne manquera pas de noter la similitude de la démarche avec celle utilisée pour définir la somme
Zx n
X
d’une série : à la fonction x 7→ f (t) dt correspondent les sommes partielles n 7→ uk , et il s’agit dans les
a k=0
deux cas de déterminer si ces expressions possèdent une limite (l’une en b, l’autre en +∞).
Exemples.
Z +∞
dt
– L’intégrale de Rieman est convergente si et seulement si α > 1.
1 tα
Z +∞
– Pour tout α ∈ R, l’intégrale e−αt dt est convergente si et seulement si α > 0.
0
Pour étudier la convergence des deux exemples précédents, il a été nécessaire de calculer les « intégrales
partielles » puis de passer à la limite. En revanche, il n’est pas nécessaire de procéder à ce calcul dans le cas
Z1
de l’intégrale suivante : (t − 1) ln(1 − t) dt puisqu’il s’agit d’une intégrale faussement impropre : en effet,
0
lim(t − 1) ln(1 − t) = 0. Comme on peut le constater sur le graphe ci-dessous, le domaine délimité par le graphe
t→1
de la fonction est borné :
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
0.0 0.2 0.4 0.6 0.8 1.0
Exercice 5 Z +∞
dt
Discuter en fonction de la valeur de β > 0 la convergence de l’intégrale .
2 t(ln t)β
Z b Z b
f (t) dt = lim f (t) dt.
a x→a x
Exemples.
Z 1
dt
– L’intégrale de Rieman est convergente si et seulement si α < 1.
0 tα
Z 1
– L’intégrale ln(t) dt est convergente (et est égale à −1).
0
Z 2π
sin(t) sin(t)
En revanche, l’intégrale dt est faussement impropre, car lim = 1.
0 t t→0 t
Exercice 6 Z 2
dt
Étudier la convergence de l’intégrale √ .
1 t2 − 1
■ Le cas où I = ]a, b[
Dans ce dernier cas, nous allons utiliser la relation de Chasles pour nous ramener aux deux cas précédents.
Considérons en effet un point c de l’intervalle ]a, b[.
Z b Z c Z b
Définition. — On dira que l’intégrale f (t) dt est convergente lorsque les deux intégrales f (t) dt et f (t) dt
a a c
sont convergentes, et on posera alors :
Z b Z c Z b
f (t) dt = f (t) dt + f (t) dt.
a a c
x
a c b
Il est aisé de vérifier que cette définition ne dépend pas du choix du point c ∈ ]a, b[ (illustration figure 6).
Remarque. Pour chacun des trois types d’intervalles, une intégrale qui n’est pas convergente sera bien entendu
dite divergente.
Z +∞ Z1
dt dt
Par exemple, l’intégrale α
est toujours divergente, puisque α
ne converge que si α < 1, alors que
Z +∞ 0 t 0 t
dt
α
ne converge que si α > 1.
1 t
Remarque. Cette définition permet d’étendre sans peine au cas des intégrales convergentes la relation de
Chasles, la propriété de linéarité des intégrales, ainsi que les propriétés de croissance et de positivité.
Exercice 7
Soit f : [0, +∞[→ R une fonction continue.
Z +∞ Z x+1
a. Montrer que si l’intégrale f (t) dt converge, alors lim f (t) dt = 0.
0 x→+∞ x
b. Si on suppose de plus f décroissante, en déduire que lim f (x) = 0.
x→+∞
1
c. Toujours en supposant f décroissante, montrer que f (x) = o .
+∞ x
Remarque. Une autre possibilité consiste à effectuer l’intégration par parties sur un segment (par exemple sur
[a, x] lorsque I = [a, b[), puis, une fois tous les calculs effectués, passer à la limite (ici en faisant tendre x vers b).
Z +∞
Exemple. Pour tout n ∈ N, l’intégrale : t n e−t dt est convergente et vaut n!.
0
Exercice 8 Z +∞
1
Justifier la convergence et calculer la valeur de l’intégrale ln 1 + 2 dt.
0 t
En ce qui concerne le changement de variable, on possède le résultat suivant :
1
Théorème 2.2 — Soient I et J deux intervalles,
Z Zφ : J → I une bijection de classe C , et f : I → C une fonction
continue par morceaux. Alors les intégrales f et (f ◦ φ) × φ′ ont même nature, et en cas de convergence,
I J
Z φ(b) Z b
f (u) du = f ◦ φ(t)φ′ (t) dt
φ(a) a
En effet,Z lorsque f : [a, b[ → R+ est une fonction continue par morceaux et à valeurs positives, l’application
x
F : x 7→ f (t) dt est une fonction croissante. Elle possède donc une limite lorsque x tend vers b si et seulement
a
si elle est majorée 6 .
De la même façon, lorsque f : ]a, b] → R+ est continue par morceaux et à valeurs positives, l’application
Zb
F : x 7→ f (t) dt est décroissante et possède donc une limite lorsque x tend vers a si et seulement si elle est
x
majorée.
Comme pour les séries, ces résultats vont engendrer plusieurs théorèmes de comparaison, qui reposent tous sur
le résultat suivant :
Théorème 2.3 (comparaison) — Soient f et g deux fonction continues par morceaux sur Zl’intervalle I, et à valeurs
Z
positives. On suppose que pour tout t ∈ I, 0 ⩽ f (t) ⩽ g(t). Alors la convergence de l’intégrale g entraîne celle de f.
I I
De ce théorème vont résulter deux corollaires, qui vont permettre de comparer la nature des intégrales que
nous allons rencontrer par la suite à la nature d’intégrales de référence. Ces deux corollaires seront énoncés
dans le cas où I = [a, b[, mais leur énoncé s’adapte sans problème au cas symétrique où I = ]a, b].
Corollaire (domination) — Soit f : [a, b[ → R+ et g : [a, b[ → R+ deux fonctions continues par morceaux, à valeurs
Zb Zb
positives, telles que f (t) = O g(t) . Alors la convergence de g(t) dt entraîne celle de f (t) dt.
b a a
Corollaire (équivalence) — Soit f : [a, b[ → R+ et g : [a, b[ → R+ deux fonctions continues par morceaux, à
Zb Zb
valeurs positives, telles que f (t) ∼ g(t). Alors les intégrales g(t) dt et f (t) dt ont même nature.
b a a
Remarque. Les intégrales de référence que nous utiliserons sont les suivantes :
Z +∞ Z 1 Z +∞
dt dt
converge ssi α > 1, converge ssi α < 1, e−at dt converge ssi a > 0.
1 tα 0 tα 0
Z 1
On pourra rajouter à cette liste le résultat suivant : (ln t) dt converge.
0
Exercice 10 Z +∞
dt
À l’aide du théorème d’équivalence, prouver que l’intégrale √ converge.
2 t2 + 4
Z0 +∞(t + 1)
ln t
À l’aide du théorème de domination, prouver que l’intégrale dt converge.
1 t2
Z 1
dt
À l’aide d’un changement de variable, prouver que l’intégrale √ converge.
0 1 − t2
■ L’exemple de la fonction Γ Z +∞
La fonction Γ est une fonction mathématique définie sur une partie de R par la formule : Γ (x) = e−t t x−1 dt.
Z1 0
−t x−1 1 −t x−1
– Au voisinage de 0, e t ∼ 1−x , donc (théorème d’équivalence) e t dt converge si et seulement
0 t 0
si x > 0.
Z +∞
−t x−1
– Au voisinage de +∞, e t = O(e−t/2
), donc (théorème de domination) e−t t x−1 dt converge pour
+∞ 1
tout x ∈ R.
6. On ne manquera Xpas de faire l’analogie avec les séries à terme général positif : lorsque (un ) est une suite positive, la suite des sommes
partielles de la série un est croissante, et la série converge si et seulement si la suite des sommes partielles est majorée.
La propriété la plus simple de la fonction Γ est de vérifier la relation : Γ (x + 1) = xΓ (x), qui résulte d’une
intégration par parties :
Z v v Z v Z v
−t x −t x x−1 x −v x
e t dt = − e t + −t
e xt dt = e −u
u −e v +x e−t t x−1 dt
u u u u
Remarque. Lorsque I = [a, b[ une fonction intégrable sur I sera aussi dite intégrable en b. De même, une fonction
intégrable sur ]a, b] sera aussi dite intégrable en a.
Théorème 2.5 — L’espace L1 (I, K) des fonctions intégrables de I vers K est un K-espace vectoriel.
Théorème 2.6 — Soit f : I → C et g : I →ZR+ deux Z fonctions continues par morceaux, telles que 0 ⩽ |f | ⩽ g. Si g est
intégrable sur I, il en est de même de f , et f ⩽ g.
I I
cos t cos t 1
Exemple. La fonction t 7→ est intégrable sur [1, +∞[ (ou encore intégrable en +∞) car ⩽ 2.
t2 t2 t
Corollaire — Soit f : [a, b[ → C et g : [a, b[ → R+ deux fonctions continues par morceaux telles que |f (t)| = O(g(t)).
b
Alors si g est intégrable sur [a, b[, il en est de même de f .
Corollaire — Soit f : [a, b[ → C et g : [a, b[ → R+ deux fonctions continues par morceaux telles que |f (t)| ∼ g(t).
b
Alors si g est intégrable sur [a, b[, il en est de même de f .
Les deux derniers résultats s’étendent bien entendu au cas de l’intervalle ]a, b].
Théorème 2.7 — L’espace L2 (I, K) des fonctions de carré intégrable de I vers K est un K-espace vectoriel.
Z
Remarque. Le résultat du lemme permet en outre d’observer que l’application (f , g) 7→ f g est une application
I
bilinéaire, symétrique et positive définie sur L2 (I, R). Ceci conduit naturellement à :
Théorème 2.8 (Inégalité de Cauchy-Schwarz) — Si f et g sont deux fonctions de carré intégrables, alors
Z Z Z !1/2
2 2
|f g| ⩽ |f | |g|
I I I
■ Un exemple de semi-convergence
La notion d’intégrabilité que nous venons de définir est la seule qui généralise de manière pertinente la notion
d’intégration sur un segment ; en effet nous verrons dans la section suivante que les différents théorèmes relatifs
aux intégrales à paramètre exigent une hypothèse d’intégrabilité. Z
Cependant, il existe des intégrales
Z qui sont convergentes sans être absolument
Z convergentes : l’intégrale f
I
converge mais l’intégrale |f | diverge. On dit dans ce cas que l’intégrale f est semi-convergente. Attention,
I I
dans ce cas la fonction f n’est pas intégrable sur I (tout en possédant une intégrale, ce qui peut paraître
paradoxal).
L’étude de la semi-convergence n’est pas un objectif du programme, aussi nous nous contenterons de voir un
seul exemple :
Z +∞
sin t
Proposition 2.9 — L’intégrale de Dirichlet dt est semi-convergente.
0 t
Malheureusement, ce théorème ne s’étend pas au cas de l’intégration sur un intervalle quelconque, comme le
montre l’exemple suivant :
Pour tout n ∈ N∗ , fn : [0, +∞[ → R est la fonction continue et affine par morceaux dont le graphe est donné
ci-dessous :
y
1/n
x
n 2n
1
Puisque ∥fn ∥∞ = , la suite (fn ) converge uniformement vers la fonction nulle sur [0, +∞[. Pourtant, pour tout
Z +∞ n Z +∞ Z +∞
n ∈ N on a fn = 1, donc lim fn , lim fn .
0 n→+∞ 0 0 n→+∞
Nous allons maintenant étudier un théorème permettant de faire une telle interversion dans le cadre d’un
intervalle quelconque, segment ou pas. Cependant, la preuve de ce résultat sera admise, car inaccessible à ce
niveau.
Théorème 3.1 (Théorème de convergence dominée) — Soit (fn ) une suite de fonctions à valeurs réelles ou
complexes, continues par morceaux sur I. On suppose que :
(i) (fn ) converge simplement sur I vers une fonction f continue par morceaux sur I ;
(ii) il existe une fonction φ intégrable sur I, telle que :
Remarque. IL n’est pas difficile de justifier l’intégrabilité des fonctions fn : il s’agit d’une application directe
du théorème 2.6. De même, l’hypothèse de convergence simple permet le passage à la limite dans l’inégalité :
∀t ∈ I, |fn (t)| ⩽ φ(t) pour obtenir : ∀t ∈ I, |f (t)| ⩽ φ(t), ce qui permet d’appliquer de nouveau le théorème 2.6
pour justifier l’intégrabilité de f . En revanche, nous admettrons l’égalité encadrée.
Z π
2
Exemple. Considérons les intégrales de Wallis (cos t)n dt. La suite de fonctions fn : t 7→ (cos t)n converge
0
π
simplement vers la fonction f : t 7→ 0 sur l’intervalle 0, . Les fonctions fn sont dominées par la fonction
2 Z π Z π
2 2
intégrable φ : t 7→ 1, donc le théorème de convergence dominée s’applique : lim (cos t)n dt = f (t) dt = 0.
n→+∞ 0 0
Z +∞
n n
Exemple. Considérons pour n ⩾ 1 les intégrales e−t dt. La suite de fonctions fn : t 7→ e−t converge
0
1 si t ∈ [0, 1[
−1
simplement vers la fonction f : t 7→ e si t = 1 . Les fonctions fn sont dominées par la fonction inté-
0
si t > 1
Z +∞
1 si t ∈ [0, 1]
n
e−t dt =
grable φ : t 7→ , donc le théorème de convergence dominée s’applique : lim
e−t si t > 1
n→+∞ 0
Z +∞
f (t) dt = 1.
0
Exercice 11 Z +∞
∗ h(t)
Soit h : [0, +∞[ → R une fonction continue et bornée, et, pour n ∈ N , un = dt.
0 1 + n2 t 2
Déterminer la limite de la suite (un ).
Lorsque h(0) , 0 et l’aide du changement de variable x = nt, déterminer un équivalent de un .
Théorème 3.2 — Soit (fn ) une suite de fonctions intégrables sur I. On suppose que :
X +∞
X
(i) la série de fonctions fn converge simplement et la somme S = fn est continue par morceaux ;
XZ n=0
(ii) la série |fn | est convergente.
I Z +∞ Z
X
Alors la fonction S est intégrable sur I, et S = fn .
I n=0 I
XZ Z Z
Remarque. On peut observer que la série fn converge absolument puisque fn ⩽ |fn |.
I I I
Z 1
ln(1 + x)
Exemple. Nous allons calculer l’intégrale dx à l’aide d’un développement en série.
0 x
+∞ +∞
X xn ln(1 + x) X xn−1
∀x ∈ ]0, 1[, ln(1 + x) = (−1)n−1 donc = (−1)n−1 .
n x n
n=1 n=1
xn−1 X ln(1 + x)
Notons fn : x 7→ (−1)n−1 . La série de fonctions fn converge simplement, et la somme S : x 7→ est
n x
continue. Z
1
xn−1 1 X 1
On calcule (−1)n−1 dx = 2 ; sachant que la série converge, le théorème d’intégration terme à
0 n n n2
Z1 +∞
ln(1 + x) X (−1)n−1 π2
terme s’applique : dx = = .
0 x n2 12
n=1
Exemple. Considérons un réel α > 0 et, pour n ∈ N∗ , les fonctions fn : x 7→ xα−1 e−nx . Il s’agit de fonctions
+∞
X xα−1
continues et intégrables sur ]0, +∞[. Pour tout x > 0, xα−1 e−nx = x et (en posant y = nx) :
e −1
n=1
Z +∞ Z +∞
1 Γ (α)
xα−1 e−nx dx = y α−1 e−y dy = .
0 nα 0 nα
X 1 xα−1
La série converge dès lors que α > 1. On en déduit que la fonction x 7 → est intégrable sur ]0, +∞[
nα ex −1
lorsque α > 1 (résultat qu’on pouvait obtenir directement), et dans ce cas :
+∞ +∞
xα−1
Z X 1
x
dx = Γ (α) = Γ (α)ζ(α).
0 e −1 nα
n=1
+∞ +∞
π2
Z X 1
x
Par exemple, pour α = 2 on obtient : dx = = .
0 ex −1 n2 6
n=1
Exercice 12 +∞
Z 1 X (−1)n
ln t
La constante de Catalan est le réel : K = − 2
dt. Établir l’égalité : K = .
0 1+t (2n + 1)2
n=0
+∞ +∞ 1 +∞
Z 1X 1
(−1)n
Z Z
X X ? dt
= (−1)n t n dt = (−1)n t n dt = = ln 2.
n+1 0 0 n=0 0 1+t
n=0 n=0
D’après le critère spécial relatif aux séries alternées, |RN (t)| ⩽ t N+1 ⩽ 1, ce qui permet d’appliquer le théorème
Z1 Z1 Z1 +∞
dt X (−1)n
de convergence dominée : lim RN (t) dt = lim RN (t) dt = 0 et ainsi conclure : = .
N→+∞ 0 0 N→+∞ 0 1+t n+1
n=0
L’application φ est intégrable sur ]0, +∞[ et domine f , donc Γ est continue sur [a, b], puis par recouvrement sur
]0, +∞[.
Remarque. Comme nous venons de le voir sur cet exemple, il est possible de procéder par recouvrement, en
prouvant par exemple la continuité sur tout segment inclus dans I.
∂f
∀(x, t) ∈ A × I, (x, t) ⩽ φ(t) (hypothèse de domination).
∂x
Z Z
∂f
Alors la fonction g : x 7→ f (x, t) dt est de classe C 1 sur A, et : ∀x ∈ A, g ′ (x) = (x, t) dt.
I I ∂x
Remarque. À l’instar de la continuité, il est fréquent d’avoir à procéder par recouvrement, par exemple en
prouvant à l’aide de ce théorème que g est de classe C 1 sur tout segment inclus dans J.
Exercice 13 +∞ 2
e−xt
Z
On considère la fonction g : x 7−→ dt.
0 1 + t2
a. Montrer que g est définie et continue sur [0, +∞[.
b. Montrer que g est de classe C 1 sur ]0, +∞[ et solution sur cet intervalle de l’équation différentielle :
r
′ π
y −y = .
4x
∂k f
∀(x, t) ∈ A × I, (x, t) ⩽ φ(t) (hypothèse de domination).
∂xk
∂i f
Z Z
Alors la fonction g : x 7→ f (x, t) dt est de classe C k sur A, et : ∀x ∈ A, ∀i ∈ ⟦1, k⟧, g (i) (x) = i
(x, t) dt.
I I ∂x
Proposition 1.1 (seconde inégalité triangulaire) — Pour tout (x, y) ∈ E2 , ∥x∥ − ∥y∥ ⩽ ∥x − y∥.
Remarque. Le terme de norme ne vous est pas p inconnu : à tout produit scalaire défini sur un espace vectoriel
réel est associée une norme définie par : ∥x∥ = ⟨x | x⟩. Ce type de norme respecte la définition que nous venons
de donner, et de telles normes seront qualifiées de norme euclidienne.
Mais attention : dans le cas général une norme n’est pas forcément issue d’un produit scalaire.
p
X p
X 1/2
∥x∥∞ = max |x1 |, |x2 |, . . . , |xp | ∥x∥1 = |xk | ∥x∥2 = xk2
k=1 k=1
Remarquons que les deux premières normes peuvent être aussi définies sur Cp .
Exemples.
• Sur l’espace B(I, R) des fonctions bornées de I dans R, la norme infinie ∥f ∥∞,I = sup f (x) est une norme ;
x∈I
Z
• sur l’espace L1 (I, R) des fonctions continues et intégrables sur I, ∥f ∥1 = |f (t)| dt est une norme ;
I
sZ
• sur l’espace L2 (I, R) des fonctions continues et de carré intégrable sur I, ∥f ∥2 = f (t)2 dt est une norme
euclidienne. I
Cette notion de distance est importante ; c’est elle qui nous permettra de généraliser en dimension supérieure
les notions d’analyse que sont la convergence des suites, la continuité des fonctions, . . .
À chaque norme est associé une distance différente, mais toutes les distances ont en commun les propriétés
suivantes :
Définition. — On appelle sphère de centre a ∈ E et de rayon r > 0 l’ensemble des vecteurs x ∈ E vérifiant : d(a, x) = r.
Autrement dit, n o
S(a, r) = x ∈ E ∥x − a∥ = r .
Exercice 1
Dessiner la sphère unité (c’est-à-dire la sphère de centre 0E de rayon 1) pour chacune des trois normes ∥ · ∥∞ ,
∥ · ∥1 et ∥ · ∥2 dans R2 .
Par analogie aux intervalles ouverts et fermés de R, on adopte en outre les définitions suivantes :
Définition. — On appelle boule ouverte de centre a ∈ E et de rayon r > 0 l’ensemble des vecteurs x ∈ E vérifiant :
d(a, x) < r. Autrement dit, n o
B̊(a, r) = x ∈ E ∥x − a∥ < r .
On appelle boule fermée de centre a ∈ E et de rayon r > 0 l’ensemble des vecteurs x ∈ E vérifiant : d(a, x) ⩽ r.
Autrement dit, n o
B(a, r) = x ∈ E ∥x − a∥ ⩽ r .
Remarque. Les intervalles sont les seules parties convexes de R, c’est-à-dire vérifiant la propriété :
∀(a, b) ∈ A2 , [a, b] ⊂ A.
Définition. — Une partie A d’un espace vectoriel (normé) E est dite convexe lorsque :
∀(a, b) ∈ A2 , [a, b] ⊂ A.
Proposition 1.3 — Les boules ouvertes et les boules fermées sont des parties convexes d’un espace vectoriel normé.
C’est notion de boule permet d’étendre certaines propriétés topologiques de R au cas d’un espace vectoriel
normé. Prenons par exemple la notion de partie bornée. Dans le cas réel, une partie bornée est définie ainsi :
« une partie A de R est dite bornée lorsqu’il existe un réel M > 0 tel que A ⊂ [−M, M] ». Dans le cadre des espaces
vectoriels normés, cette définition devient :
Définition. — Soit E un K-espace vectoriel de dimension finie muni d’une norme ∥ · ∥. Une partie A de E est dite
bornée lorsqu’il existe M > 0 tel que A ⊂ B(0E , M), autrement dit tel que : ∀x ∈ A, ∥x∥ ⩽ M.
Normes équivalentes
Nous avons vu dans l’exercice 1 que la forme des boules dépend de la norme choisie, en conséquence de quoi la
notion de partie bornée dépend a priori du choix de la norme. Cependant, on peut constater que dans R2 et
pour les trois normes que nous avons pris en exemple, ce n’est pas le cas : si une partie A est bornée pour une
de ces trois norme, elle le sera pour les deux autres (illustration figure 1).
Figure 1 – Une partie bornée pour la norme ∥ · ∥∞ l’est aussi pour les normes ∥ · ∥1 et ∥ · ∥2 .
Définition. — Deux normes N1 et N2 sont dites équivalentes lorsqu’il existe deux réels α > 0 et β > 0 tels que pour
tout x ∈ E, N1 (x) ⩽ αN2 (x) et N2 (x) ⩽ βN1 (x).
Proposition 1.4 — Si deux normes N1 et N2 sont équivalentes, toute partie bornée pour l’une de ces deux normes
l’est aussi pour l’autre.
Théorème 1.5 — Dans un K-espace vectoriel de dimension finie, toutes les normes sont équivalentes.
Corollaire — Dans un espace vectoriel de dimension finie, la notion de partie bornée est indépendante du choix de
la norme.
Attention. On prendra bien garde au fait que l’équivalence des normes n’est valable qu’en dimension finie. Cette
hypothèse est primordiale, et a pour conséquence que les différentes notions d’analyse réelle qu’on prolonge au
cas d’un espace vectoriel de dimension finie (à commencer par la convergence des suites au paragraphe suivant)
ne dépendent pas du choix de la norme utilisée. En revanche, ce théorème est mis en défaut en dimension
infinie, avec pour conséquence que dans ces espaces une partie peut être bornée pour une certaine norme, et
pas pour d’autres.
la manière usuelle de définir une norme matricielle consiste à interpréter A ∈ Mn (K) comme un endomorphisme
de Kn : à partir d’une norme ∥ · ∥ sur Kn on définit sur Mn (K) la norme :
∥Ax∥
|||A||| = sup = sup ∥Ax∥.
x∈Kn \{0} ∥x∥ ∥x∥=1
Une telle norme est appelée une norme d’opérateur, puisqu’on interprète A comme un opérateur linéaire de Kn
dans lui-même. Certains auteurs parlent de norme subordonnée (au choix de la norme sur Kn ).
Proposition 1.6 — L’application A 7→ |||A||| définit une norme matricielle sur Mn (K).
n
X
Exemple. La norme d’opérateur associée à la norme ∥ · ∥∞ de Kn est définie par : |||A||| = max |aij |.
1⩽i⩽n
j=1
Géométriquement, cette dernière propriété se traduit ainsi : pour tout ϵ > 0 il existe un rang à partir duquel
tous les termes de la suite (un ) sont dans la boule fermée de centre ℓ de rayon ϵ.
ℓ u0
ϵ
uN
Figure 2 – À partir d’un certain rang, tous les termes de la suite (un ) sont dans B(ℓ, ϵ).
Exercice 2
Soit E un espace vectoriel normé, et (un ) une suite de vecteurs de E qui converge vers ℓ ∈ E. Prouver les
propriétés suivantes :
a. la suite réelle (∥un ∥) converge vers ∥ℓ∥ ;
b. la suite (un ) est bornée.
Remarque. la définition de la convergence dépend a priori du choix de la norme utilisée. Cependant, si deux
normes sont équivalentes, la convergence pour l’une est équivalente à la convergence pour l’autre. Compte tenu
du théorème 1.5, on en déduit :
Théorème 1.7 — Dans un K-espace vectoriel de dimension finie, la convergence d’une suite et la valeur de la limite
ne dépendent pas du choix de la norme.
Remarque. Ce théorème le suggère en creux : en dimension infinie, la notion de convergence dépend du choix
de la norme. Et en effet, il est possible de donner des exemples de suites en dimension infinie qui vont converger
pour une norme et diverger pour l’autre, voire des exemples de suites qui convergent vers des limites différentes
suivant le choix de la norme !
Proposition 1.8 — Soit E un K-espace vectoriel de dimension finie, (e1 , . . . , ep ) une base de E, (un ) une suite de
vecteurs et ℓ ∈ E un vecteur. On pose :
p
X Xp
∀n ∈ N, un = un,k ek et ℓ = ℓk ek .
k=1 k=1
Alors (un ) converge vers ℓ si et seulement si pour tout k ∈ ⟦1, p⟧, la suite (un,k ) converge vers ℓk .
Autrement dit, en dimension finie l’étude de la convergence d’une suite se ramène à celle de ses coordonnées
dans une base.
Exercice 3
Soit A ∈ Mp (K) telle que la suite (An ) converge vers une matrice L. Montrer que L est une matrice de projection.
Définition. — Soit A une partie de E, et a un point de A. Lorsque A contient une boule (ouverte ou fermée) centrée
en a, on dit que a est intérieur à A.
Définition. — Un élément a ∈ E est dit adhérent à une partie A de E lorsque toute boule (ouverte ou fermée) centrée
en a contient au moins un point de A : ∀r > 0, B(a, r) ∩ A , .
c
A
Théorème 2.1 (caractérisation séquentielle) — Un point a ∈ E est adhérent à A si et seulement s’il existe une suite
(un ) d’éléments de A qui converge vers a.
Exemple. Si A est une boule (ouverte ou fermée) de centre a de rayon r, Å est la boule ouverte B̊(a, r), A est la
boule fermée B(a, r), Fr(A) est la sphère S(a, r).
Exemples. L’adhérence de Q dans R est égal à R car tout nombre réel est limite d’une suite de nombres
rationnels. L’intérieur de Q dans R est égal à l’ensemble vide car toute boule de rayon r > 0 contient des
irrationnels.
Remarque. A l’instar de Q dans R, une partie A d’un espace vectoriel normé E sera dite dense dans E lorsque
A = E.
■ Ouverts et fermés
Définition. — Une partie O de E est dite ouverte lorsque tous ses points sont intérieurs, c’est à dire :
∀x ∈ O, ∃r > 0 B(x, r) ⊂ O.
Définition. — Une partie F de E est dite fermée lorsque tout point adhérent à F appartient à F , soit encore lorsque
toute suite d’éléments de F convergeant dans E a sa limite dans F .
Proposition 2.2 — Dans un espace vectoriel de dimension finie, les sous-espaces vectoriels de E sont des fermés.
Enfin, le résultat qui suit établit que les notions d’ouvert et de fermé sont indissociables :
Théorème 2.3 — Une partie F de E est fermée si et seulement si la partie complémentaire O = E \ F est ouverte.
Exercice 5
Soit A une partie d’un espace vectoriel normé E.
a. Montrer que A est ouvert si et seulement si A ∩ Fr(A) = ;
b. Montrer que A est fermé si et seulement si Fr(A) ⊂ A.
L’existence d’une limite, et la valeur de cette limite, sont des notions qui ne dépendent pas des normes utilisées
si on remplace une norme par une norme équivalente, ce qui est toujours le cas en dimension finie.
Les théorèmes généraux relatifs aux opérations algébriques sur les limites se généralisent sans peine, ainsi que
celui relatif à la limite d’une application composée.
Enfin, on peut faire le lien avec les suites de vecteurs :
Corollaire — f (x) admet ℓ pour limite si et seulement si chacune des composantes de f (x) dans une base arbitraire
de E admet pour limite la composante de ℓ dans cette même base.
■ Relations de comparaison
Soit a un point adhérent à U , et φ : U → R une fonction à valeurs réelles ne s’annulant pas en dehors de a.
f est dominée par φ au voisinage de a lorsque f /φ est bornée au voisinage de a ; on note alors
On dit que
f (x) = O φ(x) .
a
f (x)
On dit que f est négligeable devant φ au voisinage de a lorsque lim = 0 ; on note alors : f (x) = o φ(x) .
x→a φ(x) a
■ Continuité
Définition. — f est dite continue en a ∈ U lorsque lim f (x) = f (a), autrement dit lorsque :
x→a
On notera que la décomposition dans une base de F permet de ramener l’étude de la continuité à des fonctions
à valeurs réelles : si (e1 , . . . , en ) est une base de F et f = f1 e1 + · · · + fn en , f est continue en a si et seulement si les
fonctions à valeurs réelles f1 , . . . , fn sont continues en a.
Théorème 2.5 — On considère une fonction f : E → R une fonction continue à valeurs réelles ou complexes.
n o
– Si O désigne une partie ouverte de R, alors : f −1 (O) = x ∈ E f (x) ∈ O est un ouvert de E.
n o
– Si F désigne une partie fermée de R, alors : f −1 (F ) = x ∈ E f (x) ∈ F est un fermé de E.
R2
!
−→ R O
En effet, l’application est continue et ]0, 1[ est un x
(x, y) 7−→ xy
ouvert de R.
Exercice 6
n o
Soit A = (x1 , . . . , xn ) ∈ Rn i , j =⇒ xi , xj . Montrer que A est un ouvert de Rn .
Nous avons vu que les parties ouvertes possédaient un certain nombre de propriétés communes avec les
intervalles ouverts ; il en est de même des parties fermées et des intervalles fermés.
De la même façon, les parties fermées et bornées possèdent des propriétés communes avec les segments,
notament le résultat suivant, que nous admettrons :
Théorème 2.6 (Théorème de la borne atteinte) — Soit K une partie fermée et bornée d’un K-espace vectoriel normé
E de dimension finie, et f : K → R une fonction continue. Alors f est bornée et atteint ses bornes.
■ Fonctions lipschitziennes
Une application lipschitzienne est une application possédant une propriété de régularité plus forte que la
continuité.
Définition. — Soient E et F deux K-espaces vectoriels normés, U une partie de E, et k > 0. Une application f : U → F
est dite k-lipschitzienne lorsque :
Théorème 2.7 — Toute application lipschizienne est continue sur son ensemble de définition.
Exemple. La seconde inégalité triangulaire : ∥y∥ − ∥x∥ ⩽ ∥y − x∥ traduit le fait que l’application x 7→ ∥x∥ est une
application 1-lipschitzienne de E ; il s’agit donc d’une application continue.
Théorème 2.8 — Soient E et F deux espaces vectoriels normés de dimensions finies, et u ∈ L(E, F). Alors u est
lipschitzienne, et donc continue.
■ Applications bilinéaires
Pour finir, un bref mot sur les applications bilinéaires, qui, de manière analogue aux applications linéaires, sont
des applications continues en dimension finie.
Lemme — Soient E, F, G trois espaces vectoriels normés de dimensions finies, et B : E × F → G une application
bilinéaire. Alors il existe une constante k telle que :
Proposition 2.9 — Soient E, F, G trois espaces vectoriels normés de dimensions finies, et B : E × F → G une forme
bilinéaire. Alors B est continue.
Exemple. Si E est un espace euclidien, l’application (x, y) → ⟨x | y⟩ est une application continue.
Remarque. Ce résultat s’étend aux fonctions n-linéaires, et en particulier, le déterminant est une application
continue de Mn (K) vers K.
3. Fonctions vectorielles
Dans cette dernière partie, nous allons restreindre l’espace de départ à un intervalle I de R. Ainsi, nous allons
nous intéresser plus spécifiquement aux fonctions f : I ⊂ R → E, où E est un espace vectoriel normé de dimension
finie. De telles fonctions sont appelées des fonctions vectorielles, et cette restriction va nous permettre d’étendre
le concept de dérivabilité à de telles fonctions.
f (t0 + h) − f (t0 )
On a bien entendu de manière équivalente : f ′ (t0 ) = lim .
h→0 h
Les notations de Landau permettent enfin d’exprimer cette définition de la manière suivante : f admet ℓ pour
dérivée en t0 ∈ I lorsque : f (t) = f (t0 ) + (t − t0 )f ′ (t0 ) + o(t − t0 ).
t0
Tout comme la continuité, le recours aux fonctions composantes permet de ramener la dérivation d’une fonction
vectorielle à la dérivation des fonctions à valeurs numériques :
Proposition 3.2 — Soit (e1 , . . . , ep ) une base de E, et f1 , . . . , fp les fonctions coordonnées de f dans cette base. Alors f
est dérivable en t0 si et seulement si les fonctions f1 , . . . , fp le sont, et dans ce cas :
f ′ (t0 ) = f1′ (t0 )e1 + · · · + fp′ (t0 )ep .
Exemples.
– Une fonction à valeurs complexes f : I → C est dérivable en t0 si et seulement si les fonctions Re f et Im f le
sont.
– En cinématique, on obtient les composantes dans une base quelconque du vecteur accélération en dérivant
les composantes du vecteur vitesse 7 .
Proposition 3.3 — Soit f : I → E une fonction dérivable en t0 , et u ∈ L(E, F) une application linéaire. Alors u ◦ f
est dérivable en t0 , et (u ◦ f )′ (t0 ) = u f ′ (t0 ) .
Exemple. Cette formule généralise bien entendu la formule de dérivation d’un produit f g de deux fonctions à
valeurs numériques, mais s’utilise aussi pour dériver une expression faisant intervenir un produit scalaire :
lorsque B est un produit scalaire, on a : ⟨f | g⟩′ (t0 ) = ⟨f ′ (t0 ) | g(t0 )⟩ + ⟨f (t0 ) | g ′ (t0 )⟩.
Exercice 7
Soit E un espace euclidien et f : I → E une fonction vectorielle dérivable en tout point de I, et telle que ∀t ∈ I,
∥f (t)∥ = 1. Montrer que pour tout t ∈ I, les vecteurs f (t) et f ′ (t) sont orthogonaux.
Remarque. On peut encore généraliser cette formule au cas d’une application n-linéaire, ce qui est le cas en
particulier du déterminant. Ainsi, si f1 , . . . , fp sont des fonctions définies de I dans E et dérivables en t0 et (e)
une base de E, l’application φ : t 7→ dete f1 (t), . . . , fp (t) est dérivable en t0 , et :
p
X
′
φ (t0 ) = dete f1 (t0 ), . . . , fk−1 (t0 ), fk′ (t0 ), fk+1 (t0 ), . . . , fp (t0 ) .
k=1
Exercice 8
Soit A ∈ Mn (R) une matrice, et f : R → R la fonction définie par f (t) = det(In + tA).
Justifier que f est dérivable en 0, et calculer f ′ (0).
Enfin, concernant la composée, nous avons :
Proposition 3.5 — Soit I et J deux intervalles, t0 ∈ I, φ : I → R une fonction dérivable en t0 tel que φ(I) ⊂ J, et
f : J → E une fonction vectorielle dérivable en φ(t0 ). Alors f ◦ φ est dérivable en t0 , et :
(f ◦ φ)′ (t0 ) = φ′ (t0 ) × f ′ φ(t0 ) .
■ Fonction dérivée
Définition. — Lorsque f est dérivable en tout point de I, on définit une fonction f ′ : I → E, appelée fonction
dérivée de f . Si f ′ est à son tour dérivable, on note f ′′ (ou f (2) ) sa dérivée, et plus généralement : on note f (0) = f , et
si f (n) est dérivable, on note f (n+1) sa dérivée.
7. Il faut bien entendu que la base ne soit pas mobile, c’est-à-dire que les vecteurs qui la composent soient indépendants du temps.
df dk f
On pourra aussi noter D(f ) ou en lieu et en place de f ′ , et Dk (f ) ou pour f (k) .
dt dt k
(n)
Pour tout entier n ∈ N∗ , on note C n (I, E) l’ensemble des fonctions f n fois dérivables\ sur I, telles que f soit
continue. Pour tout entier n ∈ N, on a : C n+1 (I, E) ⊂ C n (I, E). On pose C ∞ (I, E) = C n (I, E).
n∈N
Théorème 3.6 — Si f et g sont des fonctions vectorielles de classe C n sur I et B une forme bilinéaire, B(f , g) est
aussi de classe C n , et :
n !
(n)
X n
B(f , g) = B(f (k) , g (n−k) ).
k
k=0
Proposition 3.7 — Soit I et J deux intervalles, φ : I → R une fonction numérique de classe C n telle que φ(I) ⊂ J, et
f : J → E une fonction vectorielle de classe C n . Alors la fonction vectorielle f ◦ φ : I → E est aussi de classe C n .
Calcul différentiel
Jusqu’à présent, nous nous sommes cantonnés à l’étude de fonctions d’une variable, d’abord à valeurs réelles
ou complexes puis à valeurs vectorielles (dans Rn ), ces fonctions étaient systématiquement définies sur un
intervalle I de R. Nous allons maintenant nous intéresser aux fonctions de plusieurs variables, c’est à dire définies
sur une partie U de Rp , à valeurs dans Rn :
U ⊂ Rp −→ Rn
!
f :
x = (x1 , . . . , xp ) 7−→ f (x) = f1 (x1 , . . . , xp ), . . . , fn (x1 , . . . , xp )
Dans ce cours, nous aurons l’occasion, comme pour les fonctions vectorielles, de montrer que l’étude d’une telle
fonction se ramène à celle de ses fonctions coordonnées f1 , . . . , fn et ainsi nous ramener à l’étude des fonctions à
valeurs réelles (autrement dit prendre n = 1). Pour des raisons pratiques, nos exemples se cantonnerons le plus
souvent à des fonctions à deux ou trois variables (p = 2 ou 3).
Ainsi, lorsque l’on a p = 2 et n = 1, le graphe z = f (x, y) d’une telle fonction est une nappe paramétrée que l’on
peut visualiser et ainsi fournir un support à une interprétation géométrique :
!
n o U −→ R
Exemple. U = (x, y) ∈ R2 x2 + y 2 < 1 , et f :
(x, y) 7−→ x2 + y 2
z = f (x, y)
D’un point de vue historique, on peut noter que la notion de fonction à plusieurs variables apparaît très tôt en
physique, où l’on étudie souvent des quantités dépendants de plusieurs paramètres. Citons par exemple :
– en mécanique des fluides, la pression p est un champ 8 scalaire qui associe à un point du fluide la pression en
ce point ; mathématiquement, cela correspond à une application d’une partie U de R3 (ou de R4 , si on tient
compte du temps) dans R : !
U −→ R
p:
M = (x, y, z) 7−→ p(M)
– en électromagnétisme, la densité de courant ⃗ȷ est un champ vectoriel qui associe à tout point de l’espace
considéré un vecteur qui décrit le courant électrique qui circule à l’échelle locale ; mathématiquement, cela
correspond à une application d’une partie U de R3 dans R3 :
U −→ R3
!
⃗ȷ :
M = (x, y, z) 7−→ ⃗ȷ (M)
Mais avant de débuter l’étude du concept de différentiabilité, nous allons revenir un instant sur les notions de
limite et de continuité, déjà abordées dans le chapitre consacré aux espaces vectoriels normés.
8. en mathématiques, un champ est une application qui associe aux points de l’espace une valeur, scalaire ou vectorielle.
1. Calcul différentiel
Dans cette section, E et F désignerons deux R-espaces vectoriels normés de dimensions finies, la norme étant
notée ∥ · ∥ indépendamment de l’espace, mais le plus souvent nous auront E = R2 ou R3 et F = R.
U désignera une partie de E (le plus souvent un ouvert), et f : U → F une fonction à plusieurs variables.
Observons sur deux exemples comment se traduit cette définition dans le cadre des fonctions à plusieurs
variables.
2 x2 y
Exemple. Considérons la fonction f1 : Rq \ {(0, 0)} → R définie par f1 (x, y) = 2 , et utilisons la norme
x + y2
2 2 2
euclidienne canonique sur R : ∥(x, y)∥2 = x + y .
Sachant que |x| ⩽ ∥(x, y)∥ et |y| ⩽ ∥(x, y)∥, nous pouvons affirmer que |f1 (x, y)| ⩽ ∥(x, y)∥, ce qui implique :
lim f1 (x, y) = 0.
(x,y)→(0,0)
x2 y
Exemple. Considérons la fonction f2 : R2 \ {(0, 0)} → R définie par f2 (x, y) = .
x4 + y 2
Supposons que cette fonction possède une limite ℓ en (0, 0). Les théorèmes de composition des limites impliquent
que pour tout fonction vectorielle φ : I ⊂ R → U pour laquelle lim φ(t) = (0, 0) nous avons : lim f2 ◦ φ(t) = ℓ.
t→0 t→0
t 1
Or lim f2 (t, t) = lim 2 = 0 et lim f2 (t, t 2 ) = . Ainsi f2 ne possède pas de limite en (0, 0).
t→0 t→0 t + 1 t→0 2
Exercice 1
Déterminer si les fonctions suivantes, définies sur R2 \ {(0, 0)}, ont une limite finie en (0, 0) :
x2 − y 2 |x + y| 1
f (x, y) = , g(x, y) = , h(x, y) = (x + y) sin .
x2 + y 2 x2 + y 2 x2 + y 2
x
a
y = f (x)
Au voisinage de a, le graphe de f est approché par une droite, sa tangente. Autrement dit, f est localement
approchée par la fonction affine x 7→ f (a) + f ′ (a)(x − a), ce qui se traduit par le développement limité suivant :
Cette approximation affine est formée d’une constante f (a) et d’une application linéaire h 7→ f ′ (a)h. Ceci nous
conduit à adopter la définition suivante :
Dans ce cas, l’application linéaire u est appelée la différentielle de f en a, et sera notée df (a). Ainsi, on écrira :
f (a + h) = f (a)+ df (a).h + o ∥h∥ . ou encore : f (x) = f (a)+ df (a).(x − a) + o ∥x − a∥
0E a
R2 7−→ R
!
ũ :
(x, y) 7−→ α + βx + γy
et le graphe de cette fonction affine est le plan affine d’équation z = α + βx + γy. Autrement dit, la nappe
d’équation z = f (x, y) est localement approchée par un plan.
z
z = f (x, y)
z = f (ax , ay )+ df (a).(x − ax , y − ay )
x • a = (ax , ay )
Exercice 2
Soit f : Mn (R) → Mn (R) l’application définie par f (M) = M2 . Montrer que f est différentiable en tout point
A ∈ Mn (R), et déterminer l’application linéaire df (A).
Remarque. Lorsque f est une application linéaire, l’égalité f (x) = f (a) + f (x − a) montre que sa différentielle en
a est égale à elle-même : pour tout a ∈ E, df (a) = f .
On peut se rapprocher encore de la notion de dérivée lorsque F = R : dans ce cas, la différentielle df (a) de f en
a est une application linéaire de E dans R, c’est à dire une forme linéaire. Or lorsque E est un espace euclidien,
nous avons vu que les formes linéaires sur E s’écrivent de manière unique sous la forme x 7→ ⟨ℓ | x⟩, avec ℓ ∈ E.
Cela conduit à la définition :
Définition. — Lorsque f : U ⊂ E → R est différentiable en a ∈ E, il existe un unique vecteur de E, noté ∇f (a) tel
que :
∀h ∈ E, df (a).h = ⟨∇f (a) | h⟩.
Exercice 3
Soit E un espace euclidien, et f : E → R défini par f (x) = ⟨x | x⟩. Montrer que f est différentiable en tout a ∈ E,
et déterminer le vecteur ∇f (a).
∂f
et sa dérivée en 0 est notée ∂k f (a) ou (a), quantité qu’on appelle la k e dérivée partielle d’ordre 1 de f en a.
∂xk
Autrement dit :
f (a1 , . . . , ak + t, . . . , ap ) − f (a1 , . . . , ak , . . . , ap )
∀k ∈ ⟦1, p⟧, ∂k f (a) = lim .
t→0 t
Proposition 1.1 — Lorsque f est différentiable en a, f admet en a des dérivées partielles d’ordre 1 et pour tout
p
X
h = (h1 , . . . , hp ) ∈ Rp , df (a).h = ∂k f (a)hk . Autrement dit, ∇f (a) = ∂1 f (a), . . . , ∂p f (a) .
k=1
La réciproque de ce résultat est fausse : une fonction peut posséder des dérivées partielles en a sans être
différentiable en ce point. Cependant, en renforçant un peu les hypothèses on dispose du résultat suivant, avec
lequel nous allons maintenant justifier l’existence de la différentielle :
Une application f vérifiant ces hypothèses sera dorénavant dite de classe C 1 sur U .
∂f
Exemple. Soit f : R2 → R défini par f (x, y) = x2 y. f admet en tout point (x, y) des dérivées partielles (x, y) =
∂x
∂f
2xy et (x, y) = x2 à l’évidence continues, donc f est de classe C 1 et ∇f (x, y) = 2xy⃗e1 + x2⃗e2 .
∂y
La différentielle s’écrit donc df (x, y) : (h1 , h2 ) 7→ 2xyh1 + x2 h2 .
Exercice 4
x2 y
On considère la fonction f : R2 → R définie par f (x, y) = si (x, y) , (0, 0) et f (0, 0) = 0. La fonction f
x2 + y 2
est-elle de classe C 1 ?
f (a + tv) − f (a)
Dv f (a) = lim = df (a).(v)
t→0 t
Théorème 1.3 (règle de la chaîne) — Si f et toutes les fonctions x1 , . . . , xp sont de classe C 1 , il en est de même de la
fonction φ, et
p p
′
X X ∂f
∀t ∈ I, φ (t) = xk′ (t)∂k f x1 (t), . . . , xp (t) = xk′ (t) x1 (t), . . . , xp (t) .
∂xk
k=1 k=1
Exercice 5
Soit f : R2 → R une fonction de classe C 1 , et g : R2 → R définie par : ∀(r, θ) ∈ R2 , g(r, θ) = f (r cos θ, r sin θ).
Calculer les dérivées partielles de g en fonction de celles de f , et en déduire l’expression du gradient en
coordonnées polaires.
Proposition 1.4 — Soit U un ouvert convexe de Rp , et f : U → R une fonction de classe C 1 . Alors f est constante
sur U si et seulement si pour tout a ∈ U , df (a) = 0, autrement dit si et seulement si les fonctions ∂1 f , . . . , ∂p f sont
nulles sur U .
Définition. — Une application f : U → R est dite de classe C 2 lorsqu’elle est de classe C 1 et lorsque pour tout
i ∈ ⟦1, p⟧, ∂i f est de classe C 1 sur U .
A priori, l’expression ∂j ∂i f signifie que l’on dérive d’abord par rapport à xi , puis par rapport à xj . cependant, le
théorème suivant, que nous admettrons, montre qu’il n’en est rien dans le cas d’une fonction de classe C 2 .
Théorème 1.5 (Théorème de Schwarz) — Soit f : U ⊂ Rp → R une fonction de classe C 2 . Alors pour (i, j) ∈ ⟦1, p⟧2 ,
∂j ∂i f = ∂ i ∂j f .
Exercice 6
Soit f : R2 → R une fonction de classe C 2 , et g : R2 → R définie par : ∀(r, θ) ∈ R2 , g(r, θ) = f (r cos θ, r sin θ).
a. Calculer les dérivées partielles secondes de g en fonction de celles de f .
∂2 f ∂2 f
On appelle laplacien de f la quantité : ∆f = + .
∂x2 ∂y 2
b. Déduire des calculs précédents l’expression du laplacien en coordonnées polaires (c’est à dire en fonction
des dérivées de g).
∂f ∂g ∂g ∂f ∂g ∂g
(x, t) = (x + ct, x − ct) + (x + ct, x − ct) (x, t) = c (x + ct, x − ct) − c (x + ct, x − ct)
∂x ∂u ∂v ∂t ∂u ∂v
∂2 f ∂2 g ∂2 g ∂2 g ∂2 f ∂2 g ∂2 g ∂2 g
(x, t) = (u, v) + 2 (u, v) + 2 (u, v) (x, t) = c2 2 (u, v) − 2c2 (u, v) + c2 2 (u, v)
∂x2 ∂u 2 ∂u∂v ∂v ∂t 2 ∂u ∂u∂v ∂v
∂2 f 1 ∂2 f ∂2 g
et alors : (x, t) − (x, t) = 0 ⇐⇒ 4 (u, v) = 0.
∂x2 c2 ∂t 2 ∂u∂v
∂g
Cette équation est maintenant aisément résoluble : la fonction est indépendante de u donc ne dépend que
∂v
de v. La fonction g s’écrit donc sous la forme g(u, v) = φ(u) + ψ(v), où φ et ψ sont deux fonctions quelconques de
classe C 2 . Il reste à revenir à f en concluant que f (x, t) = φ(x + ct) + ψ(x − ct).
∂g ∂f ∂f ∂g ∂f ∂f
(r, θ) = cos θ (x, y) + sin θ (x, y) et (r, θ) = −r sin θ (x, y) + r cos θ (x, y)
∂r ∂x ∂y ∂θ ∂x ∂y
∂f ∂f ∂g
Par exemple, l’équation aux dérivées partielles y (x, y) − x (x, y) = 0 s’écrit (r, θ) = 0 en coordonnées
∂x ∂y q ∂θ
polaires, soit g(r, θ) = φ(r) où φ est une fonction de classe C 1 , et f (x, y) = φ x2 + y 2 .
∂f ∂f ∂g
De même, l’équation x (x, y) + y (x, y) = 0 s’écrit r (r, θ) = 0 en coordonnées polaires, soit g(r, θ) = ψ(θ)
∂x ∂y ∂r
1
où ψ est une fonction de classe
C . Ici, faute d’une expression convenable pour la fonction θ, on se contentera
de conclure que f (x, y) = ψ θ(x, y) .
■ Matrice Hessienne
Nous avons montré que la formule f (a + h) = f (a) + hf ′ (a) + o(h) valable pour une fonction numérique de
h→0
classe C 1 se généralise au cas d’une fonction f : U ⊂ Rp → R de classe C 1 par la formule :
1
f (a + h) = f (a) + ∇f (a)T h + hT Hf (a)h + o(∥h∥2 )
h→0 2
où Hf (a) ∈ Mp (R) est la matrice des dérivées partielles secondes de f en a, autrement dit :
On notera que cette matrice, appelée matrice hessienne de f en a, est une matrice symétrique (d’après le théorème
de Schwarz).
Définition. — On dit que f présente en un point a ∈ U un maximum local lorsqu’il existe un réel r > 0 tel que
pour tout x ∈ B(a, r) ∩ U , f (x) ⩽ f (a).
On dit que f présente en a ∈ U un maximum global lorsque pour tout x ∈ U , f (x) ⩽ f (a).
Remarque. De cette définition il résulte immédiatement que tout extremum global est un extremum local, la
réciproque n’étant bien évidemment pas vraie.
Remarque. La condition df (a) = 0, qui peut s’écrire ∇f (a) = 0E , est donc une condition nécessaire mais non
suffisante pour que f présente un extremum local en a dans l’ouvert U .
Un point a en lequel ∇f (a) = 0E est appelé un point critique de f .
Évidemment, la question de la réciproque se pose : un point critique est-il nécessairement un extremum local ?
La réponse est négative : ne serait-ce q’un dimension 1, la fonction t 7→ t 3 présente en 0 un point critique qui
n’est pas un extremum local.
Il va néanmoins être possible par l’affirmative dans certains cas, grâce à la formule de Taylor à l’ordre 2. Ainsi,
supposons f de classe C 2 , et considérons un point critique a ∈ U de f . Nous avons alors :
1
f (a + h) = f (a) + hT Hf (a)h + o(∥h∥2 )
2
Nous savons par ailleurs que la matrice hessienne Hf (a) est symétrique ; elle est donc ortho-diagonalisable. Soit
donc (e) une base orthonormée formée de vecteurs propres de Hf (a). Si on décompose le vecteur h dans cette
p
X p
X
T
base : h = hk ek alors h Hf (a)h = λk h2k .
k=1 k=1
Remarque. Notons que cette étude n’est pas exhaustive ; en particulier lorsque la matrice hessienne n’est pas
inversible, Hf (a) admet 0 pour valeur propre et on ne peut conclure.
Le cas de la dimension 2
!
r s
Lorsque p = 2, posons Hf (a) = ; autrement dit r = ∂21 f (a), s = ∂1 ∂2 f (a) et t = ∂22 f (a).
s t
Les deux valeurs propres λ et µ de Hf (a) vérifient λ + µ = tr Hf (a) = r + t et λµ = det Hf (a) = rt − s2 donc ces deux
valeurs propres sont non nulles et de même signe si et seulement si det Hf (a) > 0. Ainsi, f présente en a un
extremum local strict si et seulement si det Hf (a) > 0, et cet extremum est :
– un minimum si tr Hf (a) > 0 ;
– un maximum si tr Hf (a) < 0.
Rappel. Si K est une partie fermée et bornée de Rp et f : Rp → R une fonction continue, alors f est
bornée et atteint ses bornes sur K.
Ce résultat assure l’existence d’un minimum et d’un maximum global sur K. Ces deux extremums se trouvent ou
bien sur la frontière Fr(K) de K, ou bien dans l’intérieur K̊ = K \ Fr(K) de K. En d’autres termes, les extremums
globaux sont à chercher :
– sur la frontière de K ;
– et parmi les points critiques de l’intérieur de K.
Exercice 8
n o
Soit K = (x, y) ∈ R2 x ⩾ 0, y ⩾ 0, x + y ⩽ 1 , et f : K → R définie par f (x, y) = xy(1 − x − y). Déterminer la
valeur maximale prise par la fonction f .