Mesures de fréquence et représentation graphique
des données
Nous avons souligné que différentes variables contiennent différents niveaux d'information.
Lorsque l'on résume ou visualise une ou plusieurs variables, ce sont ces informations qui
déterminent les méthodes statistiques appropriées à utiliser.
De nombreuses techniques visuelles vous sont peut-être déjà familières : tableaux de
fréquence, feuilles de comptage, histogrammes, diagrammes circulaires, diagrammes en
bâtons, diagrammes de dispersion, etc. Nous nous concentrerons ici sur quelques-unes de
ces techniques qui sont les plus utiles et les plus pertinentes pour les probabilités et les
statistiques inférentielles.
Fréquences absolues et relatives
Données discrètes:
Supposons qu'il y ait k catégories désignées par a1, a2,..., ak avec nj ( j = 1, 2,..., k) observations dans la
catégorie aj. La fréquence absolue nj est définie comme le nombre d'unités dans la jème catégorie aj.
La fréquence absolue nj est définie comme le nombre d'unités dans la jème catégorie aj. La somme des
fréquences absolues est égale au nombre total d'unités dans les données :
Les fréquences relatives
Les fréquences relatives se situent toujours entre 0 et 1 et
Fréquences absolues et relatives
Données discrètes:
Exemple : Supposons qu’il y ait dix personnes dans une file d’attente au supermarché. Chacun d’eux
est codé comme « F » (si la personne est une femme) ou « M » (si la personne est un homme). Les
données collectées peuvent ressembler à:
M, F, M, F, M, M, M, F, M, M.
Il y a maintenant deux catégories dans les données : les hommes (M) et les femmes (F). Nous utilisons a1
pour faire référence à la catégorie des hommes et a2 pour faire référence à la catégorie des femmes.
Comme il y a sept étudiants et trois étudiantes, nous avons 7 valeurs dans la catégorie a1, notée n1 = 7, et
3 valeurs dans la catégorie a2, notée n2 = 3. Le nombre d'observations dans une catégorie particulière est
appelé fréquence absolue. Il s'ensuit que n1 = 7 et n2 = 3 sont les fréquences absolues de a1 et a2,
respectivement. Notez que n1 + n2 = n = 10, ce qui correspond au nombre total d'observations collectées.
Nous pouvons également calculer les fréquences relatives de a1 et a2 comme suit : f1 = f(a1) = n1/n = 7/10
= 0,7 = 70% et f2 = f(a2) = n2/n = 3/10 = 0,3 = 30%, respectivement. Cela nous donne des informations sur
les proportions d'hommes et de femmes dans la file d'attente.
Fréquences absolues et relatives
Données continues groupées:
Supposons que les n observations puissent être classées en k intervalles de classe a1, a2,..., ak, où aj (j
= 1, 2,..., k) contient nj observations avec
La fréquence relative de la jème classe est fj = nj /n et
Le tableau suivant montre la distribution de fréquence d’une variable discrète X
Fréquences absolues et relatives
Données continues groupées:
Considérez les n = 20 résultats suivants de la partie écrite d’un examen du permis de conduire (un
maximum de 100 points pourrait être atteint) :
28, 35, 42, 90, 70, 56, 75, 66, 30, 89, 75, 64, 81, 69, 55, 83, 72, 68, 73, 16
Nous pouvons résumer les résultats en intervalles de classe tels que 0-20, 21-40, 41-60, 61-80 et 81-
100, et les données peuvent être présentées comme suit :
Nous avons
Fonction empirique de distribution cumulée “FEDC”
Considérons n observations x1, x2,..., xn d’une variable X, qui sont disposées par ordre croissant
comme x(1) ≤ x(2) ≤· · · ≤ x(n) (et sont donc sur une échelle au moins ordinale). La fonction
empirique de distribution cumulée F(x) est définie comme les fréquences relatives cumulées de
toutes les valeurs aj , qui sont inférieures ou égales à x :
Cette définition implique que F(x) est une fonction monotone non décroissante, 0 ≤ F(x) ≤ 1.
Fonction empirique de distribution cumulée “FEDC”
Considérez les n = 20 résultats suivants de la partie écrite d’un examen du permis de conduire (un maximum
de 100 points pourrait être atteint) :
28, 35, 42, 90, 70, 56, 75, 66, 30, 89, 75, 64, 81, 69, 55, 83, 72, 68, 73, 16
Nous pouvons résumer les résultats en intervalles de classe tels que 0-20, 21-40, 41-60, 61-80 et 81-100, et
les données peuvent être présentées comme suit :
Si nous voulons connaître la fréquence relative des personnes ayant obtenu jusqu'à 60 points, nous devons
additionner les fréquences relatives des personnes dans les intervalles de classe 0-20, 21-40 et 41-60, ce qui
correspond à n1 + n2 + n3 = 1 + 3 + 3 = 7 et est la fréquence cumulé[Link] nous voulons connaître la
fréquence relative des personnes ayant obtenu jusqu'à 60 points, nous devons additionner les fréquences
relatives des personnes dans les intervalles de classe 0-20, 21-40 et 41-60, ce qui correspond à f1 + f2 + f3
= 1 20 + 3 20 + 3 20 = 7 20 .
Fonction empirique de distribution cumulée “FEDC”
FEDC pour les variables ordinales:
Exemple : Prenons l'exemple d'une enquête de satisfaction menée auprès des clients d'une société
d'entretien automobile. Les 200 clients qui ont bénéficié d'un service automobile au cours des 30
derniers jours ont été invités à indiquer leur degré de satisfaction globale quant à la qualité du
service automobile sur une échelle de 1 à 5, en fonction des options suivantes : 1 = pas du tout
satisfait, 2 = insatisfait, 3 = satisfait, 4 = très satisfait et 5 = parfaitement satisfait. Sur la base de la
fréquence de chaque option, nous pouvons calculer les fréquences relatives, puis tracer la fonction
de distribution cumulative empirique.
Fonction empirique de distribution cumulée “FEDC”
FEDC pour les variables continues:
Les valeurs nécessaires pour calculer l’ FEDC pour les données groupées
sur le délai de livraison des pizzas (il contient les commandes reçues au
cours d’une période d’un mois)
Représentation graphique d’une variable
Les tableaux de fréquence et les fonctions empiriques de distribution cumulative sont utiles
pour fournir un résumé numérique d’une variable.
Les graphiques sont une autre façon de résumer l’information d’une variable.
Dans de nombreuses situations, ils ont l’avantage de transmettre les informations cachées
dans les données de manière plus compacte.
Diagramme en baton (graphique en barres)
Un graphique à barres peut être utilisé pour les variables nominales et ordinales, tant que le
nombre de catégories n’est pas très grand. Il se compose d’une barre pour chaque catégorie.
La hauteur de chaque barre est déterminée par la fréquence absolue ou la fréquence relative
de la catégorie respective et est indiquée sur l’axe des y.
Si la variable est mesurée à un niveau ordinal, il est recommandé d’organiser les barres sur
l’axe des x en fonction de leurs rangs ou de leurs valeurs.
Si le nombre de catégories est important, le nombre de barres sera également important et le
graphique à barres, à son tour, peut ne pas rester informatif.
Diagramme en baton (graphique en barres)
Diagramme en camembert (graphique à secteurs)
Un graphique à secteurs est un cercle divisé en segments, où chacun des
segments représente une catégorie.
La taille de chaque segment dépend de la fréquence relative et est déterminée
par l’angle fj x 360°.
Diagramme cerculaire
Exemple : pour illustrer la construction d'un
diagramme circulaire, prenons l'exemple de dix
personnes dans la file d'attente d'un supermarché,
classées comme étant de sexe masculin (M) ou
féminin (F) : M, F, M, F, M, M, M, F, M, M. Le
diagramme circulaire pour ces données aura deux
segments : un pour les hommes et un autre pour les
femmes. Les fréquences relatives sont
respectivement f1 = 7/10 et f2 = 3/10. La taille du
segment pour la première catégorie (M) est f1 X 360°
= (7/10) X 360° = 252°, et la taille du segment pour
la deuxième catégorie (F) est f2 X 360° = (3/10) X
360° = 108°.
Histogramme
Si une variable comporte un grand nombre de valeurs différentes, le nombre de catégories
utilisées pour construire les diagrammes en bâtons sera également élevé.
Un diagramme en bâtons peut donc ne pas donner un résumé clair lorsqu'il est appliqué à
une variable continue.
L'histogramme est plus approprié pour représenter la distribution des valeurs des variables
continues.
Il repose sur l'idée de classer les données en différents groupes et de tracer les barres pour
chaque catégorie.
Histogramme
Construction de l’histogramme pour des données discrètes
Déterminez d'abord la fréquence et la fréquence relative de chaque valeur x. Marquez
ensuite les valeurs x possibles sur une échelle horizontale. Au-dessus de chaque valeur,
dessinez un rectangle dont la hauteur correspond à la fréquence relative (ou alternativement
à la fréquence) de cette valeur. Cette construction garantit que l'aire de chaque rectangle est
proportionnelle à la fréquence relative de la valeur. Ainsi, si les fréquences relatives de x = 1
et x = 5 sont respectivement de 0,35 et 0,07, l'aire du rectangle au-dessus de 1 est cinq fois
plus grande que l'aire du rectangle au-dessus de 5.
Histogramme
Construction de l’histogramme pour des données discrètes
Exemple: dans quelle mesure une absence de frappe ou une frappe unique est-elle inhabituelle dans un match de baseball de la
ligue majeure, et à quelle fréquence une équipe obtient-elle plus de 10, 15 ou même 20 frappes ? Le tableau suivant est une
distribution de fréquences pour le nombre de frappes par équipe et par match pour tous les matchs de neuf minutes qui ont été
joués entre 1989 et 1993. L'histogramme correspondant de la figure augmente de façon assez régulière jusqu'à un pic unique,
puis diminue. L'histogramme s'étend un peu plus à droite (vers les grandes valeurs) qu'à gauche - une légère "asymétrie
positive".
Histogramme
Construction de l’histogramme pour des données continues: largeurs de classe
égales
Déterminez la fréquence et la fréquence relative pour chaque classe. Marquez les limites de classe sur
un axe de mesure horizontal. Au-dessus de chaque intervalle de classe, dessinez un rectangle dont la
hauteur est la fréquence relative correspondante (ou fréquence).
Histogramme
Construction de l’histogramme pour des données continues : largeurs de classe égales
Exemple : les compagnies d’électricité ont besoin d’informations sur l’utilisation des clients pour obtenir des prévisions précises
de la demande. Les enquêteurs ont déterminé la consommation d’énergie au cours d’une période donnée pour un échantillon de
90 maisons chauffées au gaz. Une valeur de consommation ajustée a été calculée comme suit :
Consommation ajustée =
Histogramme
Construction de l’histogramme pour les données continues : largeurs de classe inégales
Les classes de largeur égale peuvent ne pas être un choix judicieux si certaines régions de l'échelle de mesure
présentent une forte concentration de valeurs de données et d'autres parties où les données sont assez rares.
La figure ci-dessous montre un diagramme en points d'un tel ensemble de données ; il y a une forte
concentration au milieu et relativement peu d'observations de part et d'autre. L'utilisation d'un petit nombre
de classes de largeur égale a pour effet que presque toutes les observations tombent dans une ou deux classes
seulement. Si l'on utilise un grand nombre de classes de largeur égale, de nombreuses classes auront une
fréquence nulle. Un choix judicieux consiste à utiliser quelques intervalles plus larges à proximité des
observations extrêmes et des intervalles plus étroits dans la région de forte concentration.
Histogramme
Construction de l’histogramme pour les données continues : largeurs de classe inégales
Après avoir déterminé les fréquences et les fréquences relatives, calculez la hauteur de chaque
rectangle à l’aide de la formule:
hauteur du rectangle=
Les hauteurs rectangulaires résultantes sont généralement appelées densités, et l’échelle verticale est
l’échelle de densité. Cette prescription fonctionnera également lorsque les largeurs de classe sont
égales.
Histograme
Constructing a Histogram for Continuous Data: Unequal Class Widths
La corrosion de l'acier d'armature est un problème sérieux dans les structures en béton situées dans des environnements soumis
à des conditions météorologiques difficiles. C'est pourquoi les chercheurs ont étudié l'utilisation de barres d'armature en
matériaux composites. Une étude a été réalisée pour élaborer des lignes directrices sur le collage des barres d'armature en
plastique renforcé de fibres de verre sur le béton. Examinez les 48 observations suivantes sur la force d'adhérence mesurée :
Formes d’histogramme
Les histogrammes se présentent sous différentes formes:
Un histogramme unimodal est un histogramme qui s'élève jusqu'à un seul pic, puis décline (a, c,
d). Un histogramme bimodal présente deux pics différents (b).
Un histogramme est symétrique si la moitié gauche est l'image miroir de la moitié droite (a).
Un histogramme unimodal est positivement asymétrique si la queue droite ou supérieure est
étirée par rapport à la queue gauche ou inférieure (c) et négativement asymétrique si l'étirement
se fait vers la gauche (d).
Boîte à moustache
Un graphique simple et puissant est le diagramme en boîte qui résume la distribution d'une variable
continue (ou parfois ordinale) en utilisant sa médiane, ses quartiles, son minimum, son maximum et ses
valeurs extrêmes.
La longueur verticale de la boîte est l'intervalle interquartile
dQ = 𝑥 ̃0,75 - 𝑥 ̃0,25, qui montre la région qui contient 50 %
des données. L'extrémité inférieure de la boîte correspond
au premier quartile et l'extrémité supérieure au troisième
quartile. La ligne épaisse dans la boîte est la médiane. Il
apparaît immédiatement que la boîte indique la symétrie des
données : si la médiane se trouve au milieu de la boîte, les
données doivent être symétriques, sinon elles sont
asymétriques. Les moustaches situées à l'extrémité du
graphique indiquent les valeurs minimales et maximales des
données. Les extrémités des moustaches sont calculées en
utilisant 1.5 fois l'espace interquartile (la distance entre le
1er et le 3ème quartile)..
Boîte à moustache
Exemple: Supposons que les températures maximales de l'année dernière à Bangkok pendant la journée
(en degrés Celsius) pour la période du 1er au 31 décembre soient les suivantes :
22, 24, 21, 22, 25, 26, 25, 24, 23, 25, 25, 26, 27, 25, 26, 25, 26, 27, 27, 28, 29, 29, 29,
28, 30, 29, 30, 31, 30, 28, 29.
La médiane (26 °C) et les quartiles (25, 29 °C). Les valeurs
minimales et maximales sont 21°C et 31°C. Le diagramme en
boîte pour ces données est illustré dans la figure. On peut voir
que la distribution des températures est légèrement
asymétrique, avec une plus grande variabilité pour les
températures les plus basses. L'intervalle interquartile est de 4,
et par conséquent, toute valeur >29 + 4 × 1,5 = 35 ou <25 - 4
× 1,5 = 19 serait une valeur extrême. Cependant, il n'y a pas
de valeurs extrêmes dans les données.
TDexercice 1
Les capteurs de température d'un certain type sont expédiés par lots de 50. Un échantillon de 60 lots a été
sélectionné et le nombre de capteurs de chaque lot non conformes aux spécifications de conception a été
déterminé, ce qui a permis d'obtenir les données suivantes :
21240132053313247023042131134123228451315023210642160333612
3
a. Déterminer les fréquences et les fréquences relatives pour les valeurs observées de x = nombre de capteurs
non conformes dans un lot.
b. b. Quelle proportion des lots de l'échantillon a au plus cinq capteurs non conformes ? Quelle est la
proportion de lots ayant moins de cinq capteurs non conformes ? Quelle est la proportion de lots
comportant au moins cinq unités non conformes ?
c. c. Dessinez un histogramme des données en utilisant la fréquence relative sur l'échelle verticale et
commentez ses caractéristiques.
TDexercice 2
Dans le cadre d'une étude sur la productivité des auteurs ("Lotka's Test", Collection Mgmt., 1982 : 111-118), un grand nombre
d'auteurs ont été classés en fonction du nombre d'articles qu'ils avaient publiés au cours d'une certaine période. Les résultats ont
été présentés dans la distribution de fréquence ci-jointe :
a. Construisez un histogramme correspondant à cette distribution de fréquences. Quelle est la caractéristique la plus intéressante
de la forme de la distribution ?
b. Quelle proportion de ces auteurs a publié au moins cinq articles ? Au moins dix articles ? Plus de dix articles ?
c. Supposons que les cinq 15, les trois 16 et les trois 17 aient été regroupés en une seule catégorie affichée sous la forme " ≥15 " .
Seriez-vous capable de dessiner un histogramme ? Expliquez pourquoi.
d. Supposons que les valeurs 15, 16 et 17 soient regroupées dans une catégorie 15-17 de fréquence 11 au lieu d'être listées
séparément. Pourriez-vous dessiner un histogramme ? Expliquez.
TDexercice 3
Le nombre de particules contaminantes sur une plaquette de silicium avant un certain processus de rinçage a été déterminé pour
chaque plaquette d'un échantillon de 100 plaquettes, ce qui a permis d'obtenir les fréquences suivantes :
a. Quelle proportion des plaquettes échantillonnées contenait au moins une particule ? Au moins cinq particules ?
b. Quelle proportion des plaquettes échantillonnées présentait entre cinq et dix particules incluses ? Strictement entre cinq et dix
particules ?
c. Dessinez un histogramme en utilisant la fréquence relative sur l'axe vertical. Comment décririez-vous la forme de
l'histogramme ?
TDexercice 4
La charge d'incendie (MJ/m2) est l'énergie thermique qui pourrait être libérée par mètre carré de surface de plancher par la
combustion du contenu et de la structure elle-même. L'article "Fire Loads in Office Buildings" (J. of Structural Engr., 1997 :
365-368) donne les pourcentages cumulés suivants (tirés d'un graphique) pour les charges d'incendie dans un échantillon de 388
pièces ::
a. Construisez un histogramme de fréquence relative et commentez les caractéristiques intéressantes.
b. Quelle est la proportion des charges d'incendie inférieures à 600 ? Au moins 1200 ?
c. Quelle proportion des charges se situe entre 600 et 1200 ?
TDexercice 5
Un échantillon de 20 bouteilles en verre d'un type particulier a été sélectionné et la résistance à la pression interne de chaque
bouteille a été déterminée. Examinez les informations partielles suivantes sur l'échantillon :
médiane = 202,2
quart inférieur = 196,0
quart supérieur = 216,8
Trois observations les plus petites 125,8 188,1 193,7
Trois plus grandes observations 221.3 230.5 250.2
a. Y a-t-il des valeurs aberrantes dans l'échantillon ? Y a-t-il des valeurs aberrantes extrêmes ?
b. Construisez un diagramme en boîte qui montre les valeurs aberrantes et commentez toute caractéristique intéressante.
TDexercice 6
La concentration de cocaïne dans le sang (mg/l) a été déterminée à la fois pour un échantillon de personnes décédées d'un délire
agité induit par la cocaïne et pour un échantillon de personnes décédées d'une overdose de cocaïne sans délire agité ; le temps
de survie pour les personnes des deux groupes était au maximum de 6 heures. Les données ci-jointes ont été lues à partir d'un
diagramme en boîte comparatif dans l'article "Fatal Excited Delirium Following Cocaine Use" (J. of Forensic Sciences, 1997 :
25-31).
a. Déterminez les médianes, les quarts et les quarts d'écart pour les deux échantillons.
b. Y a-t-il des valeurs aberrantes dans l'un ou l'autre des échantillons ? Y a-t-il des valeurs aberrantes extrêmes ?
c. Construisez un diagramme en boîte comparatif et utilisez-le comme base pour comparer et opposer les échantillons ED et
non ED.
TD Rexercice 1
Les données « Calcium » ont été collectées pour déterminer si l'augmentation de
l'apport en calcium réduit la tension artérielle. 21 personnes ont participé à cette
expérience. Dix d'entre elles ont pris un supplément de calcium pendant 12 semaines,
tandis que les 11 autres ont reçu un placebo. La pression artérielle de chaque sujet a
été mesurée avant et après la période de 12 semaines. Tracez l'histogramme des
variables Début et Fin. Comparez les deux histogrammes en termes de tendance
centrale et de forme de l'histogramme.
TD Rexercice 2
L'ensemble de données "Survival" est apparu dans Haberman (1976) et a
été obtenu à partir du UCI Machine Learning Repository. L'ensemble de
données contient des cas issus d'une étude menée entre 1958 et 1970 à
l'hôpital Billings de l'université de Chicago sur la survie des patientes
ayant subi une intervention chirurgicale pour un cancer du sein. Les
variables sont les suivantes :
-Âge : Âge du patient au moment de l'opération.
-Ganglions : Nombre de ganglions axillaires positifs détectés.
-Statut : Statut de survie.
Tracez le diagramme en boîte pour l'âge et le diagramme à barres
pour le statut. Tracez les histogrammes pour Nœuds et √Nœuds.
Lequel est le plus asymétrique ?
Montrez que la surface totale des rectangles dans un histogramme de
densité est égale à 1.
Nous avons mesuré la taille (en pouces) et le poids (en livres) de cinq
nouveau-nés. Calculez manuellement la moyenne et l'écart-type de la
taille et du poids ; montrez toutes les étapes (tableau 2.5).
En vous basant sur le diagramme en boîte de la Fig. 2.37, écrivez le
résumé des données en cinq nombres, l'étendue et l'IQR de la
TD Rexercice 3
Chargez le fichier "BodyTemperature"
Trouvez le résumé des données en cinq chiffres pour toutes les variables numériques?
Pour les variables numériques, fournissez les histogrammes et les diagrammes en boîte?
Commentez la tendance centrale et la forme des histogrammes. Y a-t-il des valeurs aberrantes
dans les données ?
Pour la question précédente, trouvez le coefficient de variation pour les variables âge et
température. Montrez que le coefficient de variation reste le même si nous changeons les unités
de l'âge en mois (c'est-à-dire en multipliant par 12). Changez l'échelle de température corporelle
en Celsius et recalculez le coefficient de variation. Commentez vos résultats.
Le coefficient de variation de la variable X est de 2. Si la moyenne de l'échantillon de cette variable
est de 3, quelle est la variance de l'échantillon ?
TD Rexercice 4
Chargez les données "AsthmaLOS" .
A l'aide de RCommander, identifiez les erreurs de saisie pour la race et le type de propriétaire?
Supprimez les observations correspondantes (c'est-à-dire les lignes) de l'ensemble de données?
Tracez l'histogramme de l'âge et commentez sa forme. Pour cette variable, trouvez la moyenne, la
variance, l'étendue et l'IQR.
TD Rexercice 5
Téléchargez les données Animals du paquet MASS. Cet ensemble de données
comprend les poids moyens du cerveau et du corps de 28 espèces d'animaux
terrestres. Tracez les histogrammes des deux variables numériques. Ensuite, utilisez
la transformation logarithmique pour les deux variables et tracez à nouveau les
histogrammes. Commentez les formes de ces nouveaux histogrammes.