Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
Introduction aux statistiques inférentielles
19 septembre 2025
Introduction aux statistiques inférentielles 1 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
Introduction à la statistique inférentielle
Plan du cours :
1 Notion de population et d’échantillion.
2 Notion d’estimation.
3 Estimations de la moyenne et de la variance .
4 Ecart type et erreur standard .
5 intervalle de confiance de la moyenne.
1 Définition.
2 Grand échantilons (n > 30) et loi quelconque .
3 Petits échantillions (n ≤ 30) et loi Normale ou presque .
4 A partir de n’importe quoi.
Introduction aux statistiques inférentielles 2 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
Introduction à la statistique inférentielle
La population, pour un statisticien, est l’ensemble quasi
exhaustif des individus ayant quelque chose en commun
permettant de définir l’appartenance population et pour lesquels
on étudie une ou plusieurs variable (ex : la taille des adultes)
PB : Dans la plupart des cas, on ne peut pas mesurer tous les
individus de la population, pour des raisons pratiques.
L’ échantillon, pour un statisticien, est un sous ensemble de la
population étudiée pour lequel on effectue une série de mesures
sur la ou les variables étudiées
Introduction aux statistiques inférentielles 3 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
Statistique descriptive et inférentielle
La statistique descriptive ne s’intéresse qu’ à la
sous-population formée par l’échantillon avec comme objectif de
décrire et résumer la variabilité de l’échantillon.
La statistique inférentielle s’intéresse à la population dont est
issus l’échantillon avec comme objectif d’inférer, à partir des
seules caractéristiques de l’échantillon, des propriétés plus
générales concernant la population.
La statistique inférentielle s’appuie sur la théorie des
probabilités mais correspond à la démarche inverse en quelque
sorte.
Introduction aux statistiques inférentielles 4 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
Connaissant la distribution d’une variable dans une population, la
théorie des probabilités permet de tirer aléatoirement un échantillon.
Connaissant les valeurs prises par une variable sur un échantillon, la
statistique inférentielle essaie de préciser la distribution de la variable
dans la population.
Introduction aux statistiques inférentielles 5 / 48
Notion de population et d’échantillion
Notion d’estimation
Créons une population connue
Estimation de la moyenne et de la variance
Les caractères d’un bon estimateur
Intervalle de Confiance
Technique Bootstrap
Estimation
Introduction aux statistiques inférentielles 6 / 48
Notion de population et d’échantillion
Notion d’estimation
Créons une population connue
Estimation de la moyenne et de la variance
Les caractères d’un bon estimateur
Intervalle de Confiance
Technique Bootstrap
Créons une population connue
En 2012, la taille (cm) de l’homme adulte en Tunisie suit une loi
Normale de moyenne 175 cm et d’écart type 6 cm et la population
d’homme (> 18ans) est de 24,4 millions :
Introduction aux statistiques inférentielles 7 / 48
Notion de population et d’échantillion
Notion d’estimation
Créons une population connue
Estimation de la moyenne et de la variance
Les caractères d’un bon estimateur
Intervalle de Confiance
Technique Bootstrap
Tirons un échantillon : calcul de la moyenne
Tirons alétoirement 10 individus dans la population T Hpop2012 :
Moyenne de l’échantillon T Hech2012 :
Moyenne de la population T Hpop2012
x̄ = 172, µ = 175, x̄ ≈ µ.
Introduction aux statistiques inférentielles 8 / 48
Notion de population et d’échantillion
Notion d’estimation
Créons une population connue
Estimation de la moyenne et de la variance
Les caractères d’un bon estimateur
Intervalle de Confiance
Technique Bootstrap
Calcul de la variance de l’échantillon
Variance de l’échantillon T Hech2012 :
Variance de la population T Hpop2012 :
s2 = 22, σ 2 = 36, s2 < σ 2 .
Introduction aux statistiques inférentielles 9 / 48
Notion de population et d’échantillion
Notion d’estimation
Créons une population connue
Estimation de la moyenne et de la variance
Les caractères d’un bon estimateur
Intervalle de Confiance
Technique Bootstrap
Les caractères d’un bon estimateur
1 La précision : c’est l’erreur inévitable faite en substituant au
paramètre (moyenne ou variance) son estimation à partir de l’
échantillon
2 l’absence de biais : c’est l’erreur systématique faite toujours
dans le même sens et sur-estimant ou sous-estimant, selon les
cas, le paramètre (moyenne ou variance)
La moyenne de l’échantillon est un estimateur non biaisé de la
moyenne de la population sans tendance à sur-estimer ou
sous-estimer la moyenne de la population
La variance de l’échantillon est un estimateur biaisé de la
variance de la population et elle aura tendance à sous-estimer la
variance de la population
Introduction aux statistiques inférentielles 10 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
Preuve par la répétition
Prouvons que la moyenne de l’échantillon est un estimateur non
biaisé de la moyenne de la population mais que la variance de
l’échantillon est un estimateur biaisé de la variance de la
population, en :
1 Tirant aléatoirement 1000 échantillons tous constitués de 10
individus issus de la population tunisienne d’homme adulte
2 Calculant les 1000 tailles moyennes des 1000 échantillons et en
comparant la distribution des ces valeurs à la valeur réelle
3 Calculant les 1000 variances de la variable taille dans les 1000
échantillons et en comparant la distribution des ces valeurs à la
valeur réelle
Introduction aux statistiques inférentielles 11 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
Tirage de k échantillons à n individus
Introduction aux statistiques inférentielles 12 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
Exemple
A l’aide de la fonction rnorm() commencez par créer la population
T Hpop2012 de 24,4 millions d’homme adulte observée en tunisie en
2012 et dont la taille (cm) suit une loi Normale de moyenne 175 cm et
d’écart type 6 cm :
Introduction aux statistiques inférentielles 13 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
Créez une matrice nulle de taille 1000*10 à l’aide de la fonction
matrix() :
Remplissez ensuite votre matrice des 1000 échantillons de 10
individus issus de la population T Hpop2012 à l’aide d’une boucle for
et de la fonction sample() :
Introduction aux statistiques inférentielles 14 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
A l’aide de la fonction apply(), calculez les 1000 moyennes des 1000
échantillons et stockez le résultat dans un objet de classe numeric :
A l’aide de la fonction hist(), tracez l’histogramme de la distribution
des 1000 moyennes :
A l’aide de la fonction abline(), ajouter une droite verticale de
couleur bleue représentant la position de la moyenne de la population :
Introduction aux statistiques inférentielles 15 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
Que pensez vous de la moyenne de l’échantillon en tant qu’estimateur
de la moyenne de la population ?
La moyenne de l’échantillon est un estimateur non biaisé de la
moyenne de la population
Introduction aux statistiques inférentielles 16 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
A partir de la formule de la variance utilisée en statistique descriptive,
calculez les 1000 variances des 1000 échantillons et stockez le
résultat dans un objet de classe numeric :
Utilisez maintenant la fonction var() de R (cf. statistique
inférentielle) pour calculer les 1000 variances des 1000 échantillons
et stockez le résultat dans un nouvel objet de classe numeric :
Introduction aux statistiques inférentielles 17 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
Tracez l’histogramme de la distribution des 1000 variances calculées
rtir de la formule utilisée en statistique descriptive et positionnez la
variance de la population dans la distribution
Tracez l’histogramme de la distribution des 1000 variances issues de
la fonction var() de R (cf. statistique inférentielle) et positionner la
variance de la population dans la distribution :
Introduction aux statistiques inférentielles 18 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
Comparez les distributions de V1 et V2 autour de la valeur de la
variance de la population ? Qu’en pensez-vous ?
V2 est un meilleur estimateur de la variance de la population que V1
car V1 tend us-estimer la variance de la population dans 66% des cas
contre 56% des cas pour V2.
Introduction aux statistiques inférentielles 19 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
un meilleur estimateur de la variance
La variance de l’ échantillon est donc une estimation biaisée de la
variance dans la population :
Pour corriger cce biais il suffit de multiplier la variance de
l’échantillion par n/n − 1 pour obtenir une estimation sans biais
Introduction aux statistiques inférentielles 20 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
Bilan de l’estimation
Introduction aux statistiques inférentielles 21 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
estimation de la variance
A l’aide de la fonction sd(), calculez l’écart type des 1000 moyennes
stockées dans l’objet M :
Sachant que l’écart type de la population est de 6 cm et que la taille de
l’échantillon est de 10, calculez l’erreur standard à partir de la formule
Calculez l’erreur standard de la moyenne à partir d ?un échantillon :
Introduction aux statistiques inférentielles 22 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
Cr une seconde matrice nulle de taille 1000*3 et remplissez la de
1000 échantillons de taille 3 :
Calculez les 1000 moyennes des 1000 échantillons et stockez le
résultat dans un nouvel objet
Tracez deux histogrammes de la distribution des 1000 moyennes, l’un
correspondant aux 1000 échantillons de taille 10 et l’autre aux 1000
échantillons de taille 3 :
Introduction aux statistiques inférentielles 23 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
Comparez les deux distributions de moyenne ? Qu ?en pensez-vous ?
L’erreur standard de la moyenne permet d’apprécier la précision de la
moyenne et cette précision augmente avec la taille de échantillon
Introduction aux statistiques inférentielles 24 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
A l’aide de la fonction ”rpois()” créez une nouvelle population de
100000 observations dont la variable nombre d ?’ndividus suit une loi
de Poisson de parameλ = 3 et tracez en l’histogramme :
Introduction aux statistiques inférentielles 25 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
Créez trois matrices nulle de taille 1000 ∗ 3, 1000 ∗ 10 et 1000 ∗ 30
respectivement et remplissez chacune d’elle de 1000 échantillons de
taille 3, 10 et 30 respectivement tous issus de la population dont la
distribution suit une loi de poisson de paramètre
Introduction aux statistiques inférentielles 26 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
Calculez les 1000 moyennes des 1000 échantillons pour chacune des
trois matrices et stockez les résultats dans un objet de classe list
Introduction aux statistiques inférentielles 27 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
Tracez l’histogramme de la distribution de la population d’origine
ainsi que les 3 histogrammes de la distribution des 1000 moyennes
issues des 3 échantillonnages de taille 3, 10 et 30 :
Introduction aux statistiques inférentielles 28 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
Que pensez-vous de l’effet de la distribution de la population sur la
distribution d’échantillonnage de la moyenne ?
La distribution d’échantillonnage de la moyenne tend vers une loi
Normale lorsque la taille de l’échantillon grandit (n> 30) et ce quelle
que soit la distribution de la population d’origine
Introduction aux statistiques inférentielles 29 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
Intervalle de Confiance
L’intervalle de confiance donne la précision d’une estimation (avec un
risque d’erreur α) comme la précision de la moyenne de l’échantillon
par exemple :
Le calcul de l’erreur standard est une première faon d’apprécier
la précision de la moyenne de l’échantillon
Mais il est plus juste de fournir un intervalle dont on puisse dire
sans grand risque α de se tromper qu’il contient la vraie valeur µ
de la moyenne
C’est la zone dans laquelle se trouve ?très probablement ?, mais
sans certitude aucune, la véritable valeur de la moyenne
Le risque d’erreur α est fixé par l’utilisateur, strictement compris
entre 0 et 1 et généralement proche de 0 (0.05, 0.01, 0.001)
Introduction aux statistiques inférentielles 30 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
Notion de distribution
Attention, ne pas confondre :
Distribution de la population d’origine (quelconque ici)
Distribution de la moyenne d’échantillonnage qui tend vers la loi
Normale pour des échantillons de grande taille (n > 30)
Théoreme central limite
Quelles sont les "super pouvoirs" de la loi Normale ?
Introduction aux statistiques inférentielles 31 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
Les petits tracas des petits échantillons
Pour n ≤ 30
La distribution de la moyenne d’échantillonnage présente un
étalement des valeurs avec un aplatissement de l’histogramme :
Les "super pouvoirs" de la loi Normale sont inefficaces mais
heureusement William Gosset alias "Student (1879 − 1937)" était
là !
Introduction aux statistiques inférentielles 32 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
exemple
Faisons une petite expérience sous R afin de représenter la relation
entre la taille de l’échantillon n variant de 3 à 50 et l’estimation de la
moyenne µ partir des valeurs de l’échantillon, on répète l’opération
100 fois :
Introduction aux statistiques inférentielles 33 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
Introduction aux statistiques inférentielles 34 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
Introduction aux statistiques inférentielles 35 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
Conclusion : Si le nombre d’observations, donc l’effectif n de l’
échantillon, tombe en dessous de 30 l’erreur standard de la moyenne
augmente fortement et donc l’intervalle de confiance pour le même
risque d ?erreur α est imprécis
Le hic survient au moment de remplacer σ 2 (inconnu) par son
estimation basée sur l’échantillon :
La sous-estimation de σ 2 (cf. biais de l’estimateur de la variance)
risque d’ être ici trop importante.
D’où un risque de sous-estimer l’étendue réelle de l’intervalle de
confiance à partir de la formule (c’est a dire que l’estimation de
au risque d’erreur α va apparaitre plus précise qu’elle ne l’est en
réalité)
Introduction aux statistiques inférentielles 36 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
Les lois de Student corrigent le phénomène d’applatissement de la
distribution d’échantillonnage de la moyenne lorsque les échantillons
sont de petite taille (n ≤ 30) en appliquant un facteur k (k = n − 1
ddl) d’applatissement à la loi Normale :
Introduction aux statistiques inférentielles 37 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
Remarque
À noter toutefois que pour des échantillons de petite taille,
l’utilisation des lois de Student dans le calcul de l’intervalle de
confiance de la moyenne nécessite que la variable aloire mesurée dans
la population d’origine soit distribue mani Normale :
Pour cela il est recommandé de vérifier la forme de la
distribution des données dans l’échantillon
Si la distribution des données dans l’échantillon est Normale ou
tout au moins symétrique alors on peut avoir recours aux lois de
Student
Sinon, si les données dans l’échantillon suivent une distribution
en "L", en "J" ou bien en "U", alors il faut recourir aux méthodes
non paramétrique
Introduction aux statistiques inférentielles 38 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
Exercice
Soit la longueur (mm) de 32 feuilles issues d ?un Merisier :
1 À partir de cet échantillon, estimez la moyenne µ et l’ écart type
σ de la population de feuilles issues du Merisier échantillonné.
2 Calculez l’erreur standard de la moyenne µ .
3 Calculez l’intervalle de confiance de la moyenne µ au risque
d’erreur α = 5%
4 Tirez 15 valeurs au hasard dans la série de valeurs et recalculez
l’intervalle de confiance de la moyenne µ au risque d’erreur
α = 5%
Introduction aux statistiques inférentielles 39 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
Solution
Moyenne µ et écart type σ :
Erreur standard de la moyenne µ
Intervalle de confiance de la moyenne
Introduction aux statistiques inférentielles 40 / 48
Notion de population et d’échantillion
Notion d’estimation
Estimation de la moyenne et de la variance
Intervalle de Confiance
Technique Bootstrap
Solution
Sous-échantillon de FM :
Introduction aux statistiques inférentielles 41 / 48
Notion de population et d’échantillion
Notion d’estimation Définition
Estimation de la moyenne et de la variance Notion de ré-échantillonnage
Intervalle de Confiance Méthodologie du Bootstrap
Technique Bootstrap
Technique Bootstrap
Imaginez, vous êtes au restaurant et vous êtes mécontent de la
soupe qu’on vient juste de vous servir, que faites-vous ?
1 Vous renvoyez la soupe bien sûr !
2 Le chef vous resert une nouvelle soupe qu’il a concocté avec les
mêmes ingrédients que la soupe précédente et pourtant vous la
trouvez subtilement différente et ‘a votre goût cette fois.
3 Vous venez d’être victime d’une pure option "bootstrap" sans
même vous en rendre compte et cela ne vous a pas gêné le moins
du monde ?
Introduction aux statistiques inférentielles 42 / 48
Notion de population et d’échantillion
Notion d’estimation Définition
Estimation de la moyenne et de la variance Notion de ré-échantillonnage
Intervalle de Confiance Méthodologie du Bootstrap
Technique Bootstrap
Notion de ré-échantillonnage
C’est l’art et la manière de créer de nouveaux échantillons à
partir des moyens du bord par ré-échantillonnage avec remise de
l’ échantillon d’origine.
On peut ainsi calculer un intervalle de confiance de la moyenne à
partir des données de l’échantillon de départ quelque soit la
distribution des données et ceci même pour un échantillon de
petite taille
Attention, la précision de l’intervalle de confiance de la moyenne
ainsi obtenue dépend fortement de la taille de l’échantillon
Pour des échantillons de petite taille la précision de cette
technique est trés faible
Introduction aux statistiques inférentielles 43 / 48
Notion de population et d’échantillion
Notion d’estimation Définition
Estimation de la moyenne et de la variance Notion de ré-échantillonnage
Intervalle de Confiance Méthodologie du Bootstrap
Technique Bootstrap
Tirons 5 valeurs au hasard dans la se ?FM ?de mesure des longueurs
de feuille du Merisier :
Introduction aux statistiques inférentielles 44 / 48
Notion de population et d’échantillion
Notion d’estimation Définition
Estimation de la moyenne et de la variance Notion de ré-échantillonnage
Intervalle de Confiance Méthodologie du Bootstrap
Technique Bootstrap
Le jeu va consister à tirer aléatoirement avec remise 5 valeurs parmi
les 5 valeurs de l’échantillon disponible :
de répéter l’opération au minimum 100 fois
et de calculer les 100 moyennes des 100 nouveaux échantillions
Introduction aux statistiques inférentielles 45 / 48
Notion de population et d’échantillion
Notion d’estimation Définition
Estimation de la moyenne et de la variance Notion de ré-échantillonnage
Intervalle de Confiance Méthodologie du Bootstrap
Technique Bootstrap
que voit- on ?
La dernière étape consiste à observer la distribution des moyennes
issues de l’opération bootstrap et d’identifier les moyennes situées
aux fractiles 2.5% et 97.5% de la distribution pour calculer
l’intervalle de confiance de la moyenne au risque d’erreur α = 5%
Introduction aux statistiques inférentielles 46 / 48
Notion de population et d’échantillion
Notion d’estimation Définition
Estimation de la moyenne et de la variance Notion de ré-échantillonnage
Intervalle de Confiance Méthodologie du Bootstrap
Technique Bootstrap
Il faut tout simplement diviser le gradient de valeurs en tranches de
0.5% :
Introduction aux statistiques inférentielles 47 / 48
Notion de population et d’échantillion
Notion d’estimation Définition
Estimation de la moyenne et de la variance Notion de ré-échantillonnage
Intervalle de Confiance Méthodologie du Bootstrap
Technique Bootstrap
Récapitulons les résultats obtenus pour le calcul de l’intervalle de
confiance de la moyenne des longueurs de feuille du Merisier au
risque d ?erreur α = 5% :
Grand échantillon (n = 32) et distribution quelconque :
IC95% [µ] = [186 : 194] = 8cm
Petit échantillon (n = 15) et distribution symétrique :
IC95% [µ] = [182 : 195] = 13cm
Très petit échantillon (n = 5) et distribution quelconque :
IC95% [µ] = [178 : 197] = 19cm
Conclusion : L’étendue des valeurs possibles pour trouver la
véritable moyenne µ dans l’intervalle de confiance à 95%
augmente fortement quand la taille de l’échantillon diminue.
Introduction aux statistiques inférentielles 48 / 48