Chapitre 1
Distributions à un seul
caractère
I Définitions et concepts fondamentaux de la statis-
tique descriptive
• Population : est l’ensemble des entités de même nature sur lesquelles les données sont
collectées.
• Unité statistique/Individu : désigne tout élément de la population.
• Échantillon : désigne une partie ou sous-ensemble de la population étudiée.
• Caractère : est la caractéristique commune à étudier sur les unités statistiques composant
la population. Le caractère ou la variable étudié peut être de nature quantitative ou
qualitative. Une variable quantitative peut être discrète ou continue :
Ñ Une variable est discrète losrsqu’elle ne peut prendre que des valeurs réelles isolées
sur une échelle donnée.
Ñ Une variable est continue losrsqu’elle peut prendre tout réel d’un certain intervalle
donné.
• Modalités : Les modalités d’un caractère sont les différentes catégories d’une variable
qualitative ou les différentes valeurs prises par une variable quantitative.
• Effectifs/ fréquences absolues : Prenons une population mère composée de N unités
satistiques (induvidus). Supposons que le caractère x étudié sur cette population prend
k modalités xi , i “ 1, . . . , k. A chaque groupe d’individus présentant la modalité xi (i “
1, . . . , k) nous associons le nombre ni désignant l’effectif ou la fréquence absolue.
k
ÿ
ni “ n1 ` n2 ` . . . ` nk “ N
i“1
• Fréquences relatives : Au lieu des fréquences absolues, nous pouvons calculer le pour-
centage d’individus présentant la modalité xi ,i “ 1, . . . , k. Ces nombres s’appelleront les
11
fréquences relatives. En général, nous définissons la fréquence relative notéfi d’une mo-
dalité xi comme suit :
ni
fi “
N
k
ÿ n1 ` n2 ` . . . ` nk
fi “ f1 ` f2 ` . . . ` fk “ “1
i“1
N
II Distributions statistiques et représentations gra-
phiques
1 Distribution d’une variable quantitative discrète
Une variable discrète prend un nombre fini de valeurs isolées, souvent entières, sur une échelle
donnée.
Exemple L’entreprise XYZ a produit le nombre de télévisions suivant au cours des 20
derniers jours :
27 27 27 28 27 25 25 28 30 30
26 26 26 28 31 30 26 26 28 31
a Tableau statistique
Nous devons ranger les données par valeurs non décroissantes (ou non croissantes) et déterminer
les fréquences absolues, relatives et cumulées.
Table 1.1 – Distribution statistique d’une variable quantitative discrète
Modalités Effectifs Fréquences Fréquences cumulées
fi “ nNi Fi “ ij“1 fj
ř
xi ni
x1 n1 f1 F 1 “ f1
x2 n2 f2 F2 “ F1 ` f2
.. .. .. ..
. . . .
xj nj fj Fj “ Fj´1 ` fj
.. .. .. ..
. . . .
xk nk fk Fk “ Fk´1 ` fk “ 1
Reprenons l’exemple précédent, la variable sera représentée dans le tableau suivant :
xi ni fi Fi
25 2 0.10 0.10
26 5 0.25 0.35
27 4 0.20 0.55
28 4 0.20 0.75
30 3 0.15 0.90
31 2 0.10 1
22
b Représentations graphiques
Deux types de graphiques existent pour représenter les variables quantitatives discrètes : le
diagramme en bâtons et le diagramme cumulatif.
• Diagramme en bâtons
La distribution est représentée par des bâtons : à chaque modalité xj , portée en abscisse, on
fait correspondre un segment vertical dont la longueur est proportionnelle à l’effectif ni ou la
fréquence fi .
5
4
3
Effectifs
2
1
0
25 26 27 28 30 31
Nombre de télivision
Figure 1.1 – Diagramme en bâtons
• Diagramme cumulatif
Les modalités xi sont représentées en abscisse, la hauteur de chaque marche de l’escalier étant
proportionnelle à la fréquence cumulée correspondante.
1.0
●
0.8
●
Fréquences cumulées
0.6
●
0.4
●
0.2
●
0.0
24 26 28 30 32
Nombre de télévision
Figure 1.2 – Fonction de répartition d’une variable quantitative discrète
• prop pX ď xk q “ F pxk q
33
• prop pX ă xk q “ prop pX ď xk´1 q “ F pxk´1 q
• prop pX ą xk q “ 1 ´ prop pX ď xk q “ 1 ´ F pxk q
• prop pxh ă X ď xk q “ F pxk q ´ F pxh q
1 Une application variable quantitative discrète
On a relevé le nombre d’enfants de 100 familles choisies au hasard. Le tableau suivant illustre
les données relatives à cette étude.
xi 0 1 2 3 4 5 6 7 Total
ni 20 25 30 10 5 5 3 2 100
1 Tracer le diagramme en bâtons ;
2 Tracer le diagramme cumulatif ;
3 Déterminer la proportion de familles qui possèdent un nombre d’enfants plus de 3 ? moins
de 4 ? au plus 5 ? au moins 2 ? plus de 2 et au plus 5 ?
2 Distribution d’une variable quantitative continue
Une variable est continue losrsqu’elle peut prendre tout réel d’un certain intervalle donné.
Lorsqu’il y a trop de modalitès pour une variable discrète, on regroupe aussi les données dans
des classes.
a Tableau statistique
Amplitude de classe et centre de classe : Nous utiliserons fréquemment deux autres termes : le
centre de la classe ((la limite inférieure plus la limite supérieure)/2) et l’amplitude de la classe
(limite supérieure moins la limite inférieure).
La colonne 1 et 2 représentent respectivement les classes et les effectifs correspondant. Les
colonnes 3 et 4 illustrent respectivement les amplitudes et les centres de classes. La colonne 5
représente la fréquence relative fi “ ni {N .
La colonne 6 illustre la fréquence cumulative. Cependant, plutôt que d’afficher la fréquence
de chaque classe, la distribution de fréquence cumulative montre la proportion d’éléments de
données avec des valeurs inférieures ou égales à la limite supérieure de chaque classe.
Classes ni ai ci fi Fi
r10, 15r 4 5 12.5 0.20 0.20
r15, 20r 8 5 17.5 0.40 0.60
r20, 25r 5 5 22.5 0.25 0.85
r25, 30r 2 5 27.5 0.10 0.95
r30, 35r 1 5 32.5 0.05 1.00
44
b Représentations graphiques
Pour représenter une variable quantitative continue, on utilise un histogramme, un polygone
des fréquences et une courbe cumulative.
• Histogramme :
Un histogramme est construit en plaçant la variable d’intérêt en abscisse et la fréquence relative
ou l’effectif sur l’axe des ordonnées. A chaque classe nous associons un rectangle dont la base est
déterminée par les limites de classe sur l’axe horizontal et dont la hauteur est proportionnelle
à la fréquence relative ou à l’effectif.
10
8
6
Effectifs
4
2
0
0 10 20 30 40
Nombre de jour d'audit
Figure 1.3 – Histogramme de la variable temps d’audit
Remarque
Dans le cas d’amplitudes inégales l’histogramme est construit en associant à chaque classe un
rectangle dont la base est déterminée par les limites de classe sur l’axe horizontal et dont la
hauteur est proportionnelle à la densité de fréquence fic calculée comme suit :
fréquence relative fi
densité de fréquence “ ñ fic “
amplitude ai
• Distributions de fréquence cumulées :
Pour tracer une distribution de fréquence cumulative, mettre à l’échelle la limite supérieure de
chaque classe le long de l’axe X et les fréquences cumulées correspondantes le long de l’axe
Y. Cependant, plutôt que d’afficher la fréquence de chaque classe, la distribution de fréquence
cumulative montre la proportion d’éléments ou de données avec des valeurs inférieures ou égales
à la limite supérieure de chaque classe.
55
1.0
● ●
●
0.8
Fréquences cumulées
0.6
●
0.4 0.2
●
0.0
● ●
0 10 15 20 25 30 35 40
Nombre de jours d'audit
Figure 1.4 – Distribution des fréquences cumulées pour la variable temps d’audit (amplitudes
égales)
• prop px ă xk q “ prop px ď xk q “ F pxk q
• prop px ą xk q “ 1 ´ prop px ď xk q “ 1 ´ F pxk q
• prop pxh ă x ď xk q “ prop pxh ă x ă xk q “ prop pxh ď x ă xk q “ prop pxh ď x ď xk q “ F pxk q´
F pxh q
2 Une application variable quantitative continue
La division des services alimentaires du Park XYZ étudie les montants dépensés en dinars par
les familles qui visitent le parc d’attractions chaque jour pour la nourriture et les boissons. Un
échantillon de 40 familles qui ont visité le parc hier a révélé avoir dépensé les sommes suivantes.
77 18 63 84 38 54 50 59 54 56
36 26 50 34 44 41 58 58 53 51
62 43 52 53 63 62 62 65 61 52
60 60 45 66 83 71 63 58 61 71
1 Organiser les données dans une distribution de fréquence, en utilisant sept classes et 15
comme limite inférieure de la première classe.
2 Déterminer la distribution de fréquence relative.
3 Dessiner un histogramme.
4 Dessiner un polygone de fréquences.
5 Dessiner la courbe des fréquences cumulatives.
III Les indicateurs statistiques
Ce chapitre traite des indicateurs statistiques tels que les indicateurs de tendance centrale (/de
position), de dispersion et de forme.
66
1 Indicateurs de tendance centrale
Les indicateurs de tendance centrale ont pour but la localisation du centre d’un ensemble de
valeurs.
a La moyenne arithmétique
Dans les formules statistiques, il est habituel de désigner la valeur de la variable X pour la ième
observation par xi (de sorte que l’indice i va de 1 à n, où n est le nombre d’observations). À
titre d’exemple, x3 est la troisème observation.
Moyenne arithmétique simple
řn
xi x1 ` x2 ` . . . ` xi ` . . . ` xn
X̄ “ i“1 “ (1.1)
n n
La moyenne pondérée d’une variable X composée des observations x1 , x2 , . . . , xk auxquelles sont
associés les effectifs n1 , n2 , . . . , nk ou les fréquences f1 , f2 , . . . , fk est alors donnée par :
Moyenne arithmétique pondérée
k k
1 ÿ ÿ
X̄ “ n i xi “ f i xi (1.2)
N i“1 i“1
Dans le cas d’une variable continue, les observations étant groupées en classes, la moyenne
pondérée est calculée en utilisant les moyennes des classes x̄i si elles nous sont fournies, si non
nous adoptons les centres de classes ci .
b La moyenne géométrique
La moyenne géométrique est utilisée pour trouver la moyenne des pourcentages, des ratios, des
indices ou des taux de croissance.
Moyenne géométrique simple
« ff n1
n
ź 1 ?
n
G“ xi “ px1 ˆ x2 ˆ . . . ˆ xn q n “ x1 ˆ x2 ˆ . . . ˆ xn (1.3)
i“1
La moyenne géométrique sera toujours inférieure ou égale (jamais supérieure à) la moyenne
arithmétique. De plus, toutes les valeurs de données doivent être positives.
c La moyenne harmonique
La moyenne harmonique permet de calculer des moyennes sur des fractions si le dénominateur
change. C’est le cas du calcul de la vitesse moyenne parcourue dans un trajet aller/retour, la
vitesse étant la valeur représentée par distance / temps.
Moyenne Harmonique
n n
H“ 1 1 1 “ řn 1 (1.4)
x1 ` x1 ` . . . ` xn i“1 xi
77
d Le Mode
• Cas discret :
Le mode est défini comme la valeur de la variable (modalité) qui survient avec la plus grande
fréquence. Graphiquement, le Mode est l’abscisse du plus haut baton.
0.4
0.3
Fréquences
0.2
0.1
0.0
Mode
0 1 2 3 4
Nombre d'enfants
• Cas continu :
Pour calculer le mode, il faut déterminer la classe modale (classe avec la frquence la plus élevée)
ensuite appliquer la formule suivante :
d1
M o “ binf ` a ˚
d1 ` d2
binf : borne inférieure de la classe modale.
a : amplitude de la classe modale.
d1 : la différence entre la fréquence de la classe modale et celle de la classe qui la précède.
d2 : la différence entre la fréquence de la classe modale et celle de la classe qui la succède.
Remarque
Cas amplitudes égales nous utilisons les fréquences relatives (fi ) pour calculer le Mode.
Cas amplitudes inégales nous utilisons les densités de fréquences (fic ) pour calculer le Mode.
a=15-10
0.6
0.5
0.4
d1=0.6-0.2
Fréquences
d2=0.6-0.1
0.3
0.2
0.1
Classe modale
0
Mode
0 5 Binf= 10 15 20
Notes des érudiants
88
e La médiane
La médiane est la valeur telle qu’il y ait autant d’observations supérieures qu’inférieures à cette
valeur, lorsque les données sont classées par ordre croissant (de la plus petite valeur à la plus
grande valeur).
• Séries non groupées dont l’effectif est impair :
Avec un nombre impair d’observations n, la médiane est la valeur de l’observation numéro
pn ` 1q{2.
• Séries non groupées dont l’effectif est pair :
Avec un nombre pair d’observations n il n’y a pas de valeur médiane unique. Dans ce cas, nous
définissons la médiane comme la moyenne des valeurs des deux observations n{2 et pn{2q ` 1.
• Séries groupées par valeurs :
La médiane est la valeur pour laquelle la fréquence cumulée est égale à 1/2. Pour déterminer
la médiane, on repère 0.5 dans la colonne des fréquences cumulées F pxq.
Si 0.5 ne figure pas parmi les fréquences cumulées on choisit alors la valeur F pxq immédiate-
ment supérieure à 0.5.
Si 0.5 figure parmi les fréquences cumulées nous obtenons alors on a un intervalle median
rxi , xi`1 s. D’où la médiane est M e “ pxi ` xi`1 q{2.
f Les quantiles
Les quantiles sont les valeurs qui partagent les observations ordonnées d’une série en sous-
groupes. Le quantile d’ordre α, p0 ď α ď 1q, indique qu’une proportion α d’individus possède
une valeur de caractère X inférieure ou égale à la valeur du quantile. On notera comme exemple
de quantiles : les quartiles, déciles et centiles.
1 Les quartiles
Q1 : premier quartile est le quantile d’ordre α “ 0.25.
Q2 : deuxième quartile (la médiane) est le quantile d’ordre α “ 0.5.
Q3 : troisième quartile est le quantile d’ordre α “ 0.75.
2 Les déciles
i
Les déciles notés D1 , D2 , . . . , D9 sont les quantiles d’ordre α “ 10 , avec i “ 1, 2, . . . , 9.
3 Les centiles
i
Les centiles notés C1 , C2 , . . . , C99 sont les quantiles d’ordre α “ 100 , avec i “ 1, 2, . . . , 99.
Les quantiles se déterminent de la même manière que la médiane.
99
2 Indicateurs de dispersion
En plus des mesures de tendances centrales, il est souvent souhaitable d’envisager des mesures de
variabilité, ou dispersion. Nous considérerons plusieurs mesures de dispersion à savoir, L’écart
absolu moyen, la variance et l’écart type.
Remarque
Dans le cas d’une variable groupée par classes (continue) et en abscence des moyennes des classes
x̄i , on considère que chaque individu a sa valeur égale au centre de sa classe d’affectation ci .
a L’écart absolu moyen
• Ecart absolu moyen par rapport à la moyenne
Il mesure la moyenne arithmétique des valeurs absolues des écarts par rapport à la moyenne
arithmétique.
Écart absolu moyen à la moyenne
k
1ÿ ˇ ˇ
EAMX̄ “ ni ˇxi ´ X̄ ˇ (1.5)
n i“1
• Ecart absolu moyen par rapport à la médiane
Il mesure la moyenne arithmétique des valeurs absolues des écarts par rapport à la médiane.
Écart absolu moyen à la médiane
k
1ÿ
EAMM e “ ni |xi ´ M e| (1.6)
n i“1
b La variance et l’écart type
La variance et l’écart type sont également basés sur les écarts par rapport à la moyenne. Ce-
pendant, au lieu d’utiliser la valeur absolue des écarts, la variance et l’écart-type correspondent
aux carrés des écarts à la moyenne arithmétique.
Variance
k k k
1ÿ ˘2 ÿ ˘2 ÿ ` ˘2
fi x2i ´ X̄
` `
V pXq “ ni xi ´ X̄ “ fi xi ´ X̄ “ (1.7)
n i“1 i“1 i“1
L’écart-type, noté σx , est la racine carrée de la variance et s’exprime ainsi dans la même unité
que la variable étudiée :
Écart-type
g
f k
a f1 ÿ ` ˘2
σx “ V pXq “ e ni xi ´ X̄ (1.8)
n i“1
10
10
c Le coefficient de variation
C’est un coefficient sans unité, il est utilisé dans le but de comparer la dispersion de deux
distribution qui n’ont ni la même moyenne ni la même unité. Plus ce coefficient est faible plus
les observations sont homogènes.
Coefficient de variation
σx
CV “ (1.9)
X̄
3 Calcul des indicateurs de dispersion
Les revenus annuels des cinq vice-présidents de l’entreprise XYZ en dinars sont : 125000 ;
128000 ; 122000 ; 133000 et 140000.
1 Quel est le revenu moyen ?
2 Quel est l’écart absolu moyen, la variance et L’écart type ?
3 Les revenus annuels des dirigeants d’une autre entreprise similaire à XYZ ont également
été étudiés. La moyenne était de 129000 dinars et l’écart type de 8612 . Comparer les
dispersions des deux entreprises.
3 Indicateurs de forme
Nous avons décrit les indicateurs de tendances centrales et de dispersion des données. Il est
souvent important d’avoir une mesure de la forme d’une distribution. En complément de l’étude
des indicateurs de tendances centrales et de dispersion d’une distribution statistique, nous allons
nous intéresser aux indicateurs de forme par l’étude des mesures d’asymétrie (skewness) et des
mesures d’aplatissement (kurtosis).
a Moment centré et non centré
• Moment non centré d’ordre r (mr )
Moment non-centré d’ordre r (mr )
k k
1ÿ r
ÿ
mr “ ni xi “ fi xri (1.10)
n i“1 i“1
• Moment centré d’ordre r (µr )
Moment centré d’ordre r (µr )
k k
1ÿ ` ˘r ÿ ` ˘r
µr “ ni xi ´ X̄ “ fi xi ´ X̄ (1.11)
n i“1 i“1
11
11
Propriété • Le moment non centré d’ordre 1 :
ÿ
m1 “ fi xi “ X̄
i
• Le moment centré d’ordre 1 est nul :
ÿ ÿ ÿ
µ1 “ fi pxi ´ X̄q “ fi xi ´ X̄ fi “ X̄ ´ X̄ “ 0
i i i
• Le moment centré d’ordre 2 est :
ÿ
µ2 “ fi pxi ´ X̄q2 “ V pXq
i
ÿ
µ2 “ fi x2i ´ X̄ “ m2 ´ m21
i
b Asymétrie
• Distribution symétrique : la moyenne et la médiane sont égales et les valeurs de données
sont uniformément réparties autour de ces valeurs.
• Distribution asymétrique étalé vers la droite s’il y a un seul pic et les valeurs s’étendent
beaucoup plus à droite du pic qu’à gauche du pic. (X̄ ą M e).
• Un ensemble de valeurs est asymétrique étalé vers la guache s’il y a un seul pic et les
valeurs s’étendent beaucoup plus à gauche du pic qu’à droite du pic. (X̄ ă M e).
Distribution asymétrique étalée vers la droite Distribution symétrique Distribution asymétrique étalée vers la gauche
0.06
0.06
0.05
0.05
0.05
0.04
0.04
0.04
0.03
0.03
0.03
0.02
0.02
0.02
0.01
0.01
0.01
0.00
0.00
0.00
0 5 10 15 20 25 30 0 5 10 15 20 25 30 0 5 10 15 20 25 30
• Le Coefficient de Fisher
Coefficient de Fisher γ1
µ3
γ1 “ 3 (1.12)
σ
La distribution est symétrique si le coefficient γ1 “ 0, étalée vers la droite si γ1 ą 0 et est étalée
vers la gauche si γ1 ă 0.
12
12
c Aplatissement
• Coefficient de Fisher :
Coefficient de Fisher γ2
γ2 “ β2 ´ 3 (1.13)
Pour une distribution normale, on a γ2 “ 0. γ2 ă 0 caractérise une courbe platykurtique et
γ2 ą 0 caractérise une courbe leptokurtique.
0.8 0.8
fi fi
0.7
f(x) 0.7
0.6 0.5 0.6
0.5 0.5
0.4
0.4 0.4
0.3
0.3 0.3
0.2
0.2 0.2
0.1
0.1 0.1
0
0
0
-5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 x -5 -4 -3 -2 -1 0 1 2 3 4 5
xi xi
Courbe platykurtique (Distribution aplatie) Courbe leptokurtique (Distribution pointue)
13
13