La discrétisation des données :
définition et règles de base
La discrétisation des données
Définition
Faire des cartes, c’est bien. Choisir judicieusement les plages de couleurs qui la font,
c’est encore mieux ! Passage en revue des principales méthodes de discrétisation. En
géographie, on appelle « discrétisation » une méthode qui « rend discrètes » les
données considérées. En gros, il faut trouver le meilleur compromis entre statistiques
et géographie. Pour cela, on découpe généralement sa carte en un certain nombre de
« classes » dans lesquelles sont rangées des valeurs colorées avec une teinte unique.
Sauf qu’il y a différentes manières de discrétiser une carte, et qu’aucune d’entre elles
n’est parfaite. Bien les connaître permet en revanche de se faire une rapide idée de
celle qui est la plus judicieuse à appliquer.
Comment faire une bonne La discrétisation
Une discrétisation est satisfaisante lorsqu'elle permet la création de classes
homogènes et distinctes entre elles : les objets géographiques d'une même
classe doivent se ressembler plus entre eux qu'ils ne ressemblent aux objets
des autres classes.
La discrétisation des données
Définition
Discrétiser une série statistique constitue souvent l'ultime étape de la
réduction, de l'organisation et de la hiérarchisation de l'information avant
de construire une carte qui rend compte de la répartition géographique de
cette même série statistique. L'opération de discrétisation doit satisfaire à la
fois aux exigences de la représentation cartographiques et à celles des
principes statistiques. Elle doit conserver les caractéristiques essentielles
présentées par les données, perdre le moins d'information possible, mais
aussi respecter les règles de la perception visuelle afin de transmettre une
information géographique efficace et de qualité.
La discrétisation des données
Définition
Nous retenons que la discrétisation est le découpage en classes (ou
groupe de valeurs) d’une série de variables quantitatives ou qualitatives
en vue de sa représentation graphique ou cartographique. La
discrétisation simplifie l’information en regroupant dans des classes
différentes les objets géographiques qui présentent les mêmes
caractéristiques. Elle doit conserver le mieux possible l’information
contenue dans la série statistique, tout en permettant de la
communiquer le mieux possible. Cette information est liée à la forme de
la distribution initiale.
Dans le domaine de la cartographie, la discrétisation permet de réaliser
en générale des cartes thématiques, grâce aux différentes méthodes de
distribution des données statistiques qui sont liées aux phénomènes
géographiques.
La discrétisation des données
Règles de base
► Les classes doivent couvrir l’ensemble de la distribution, elles
doivent être contiguës (jointives)
► Une valeur ne doit appartenir qu’à une classe et une seule
► Les classes ne doivent pas être vides
► Les valeurs limites doivent être précises et rapidement
appréhendables
► Éviter de placer dans deux classes distinctes des valeurs non
significativement différentes
► Ne pas définir des seuils avec un nombre de décimales supérieur à
celui de la précision des données
La discrétisation des données
Règles de base
Avant toute discrétisation
Connaître parfaitement les caractéristiques de la variable à discrétiser.
De quelle type de distribution s’agit-il ?
Connaître parfaitement le but de la discrétisation. Représentation
graphique – cartographique? En vue d’une comparaison ?
Cela peut aider à trouver les limites des groupes qui traduiront au
mieux les caractéristiques de la variable.
Les grandes familles de distributions
Les grandes familles de distributions
Les distributions normales
Elles sont caractérisées par le fait que le plus grand nombre d’individus se trouve
dans les classes centrales, ce nombre s'amenuisant progressivement de part et
d'autre de la valeur moyenne. La moyenne et la médiane sont identiques.
En géographie, les phénomènes qui suivent une loi normale sont rares.
Les grandes familles de distributions
Les distributions asymétriques :
Elles traduisent une concentration des individus, plus ou moins accentuée,
vers les petites valeurs ou les grandes valeurs selon les cas.
Les distributions exponentielles et logarithmiques :
Elles traduisent une augmentation ou une diminution exponentielles des
indiviudus (très forte représentation des fortes ou faibles valeurs). Il s’agit de
distributions assez fréquentes.
Les grandes familles de distributions
Les distributions bimodales et plurimodales :
Elles correspondent à des distributions où la variable est en fait composée de sous -
populations ayant chacune son ordre de grandeur et sa dispersion propre. Dans ce cas,
la plupart des paramètres statistiques (moyenne, écart type…) sont sans signification
et sans utilité; seuls des graphiques permettent une analyse correcte.
Les grandes familles de distributions
Les distributions en forme de U :
Elles sont caractérisées par le fait que les valeurs moyennes sont sous
représentées par rapport aux valeurs faibles et élevées. Distributions assez rares.
Les distributions uniformes :
Elles sont caractérisées par le fait que toutes les valeurs possibles de la variable
ont des fréquences égales. Distributions assez rares.
Quelques méthodes de discrétisation
Méthodes de discrétisation
Récapitulatif
METHOD DEFINITION CALCUL REMARQUES TYPE DE
E DISTRIBUTIONS
L’écart à la Toutes les A partir de la Si le nombre de classes est Séries normale (en
moyenne classes ont une moyenne et de impair, la classe centrale est à forme de courbe de
même étendue l'écart type cheval sur la valeur moyenne. Gauss, "en cloche" avec
égale à l’écart Si le nombre de classes est pair, la une concentration des
type, sauf les classe centrale est borne de données autour de la
classes classe. moyenne) ou peu
extrêmes Intérêt : se repérer par rapport à dissymétrique
la moyenne; mettre en valeur les
extrêmes; comparer les cartes.
Égale Les intervalles ( Valeur maxi - Cette méthode, simple, facile à Série uniforme
amplitude de classe sont valeur mini ) / interpréter est peu utilisée car Série normale (en
égaux Nombre de elle ne convient pas si la forme de courbe de
(intervalles classes distribution des valeurs est trop Gauss, "en cloche" avec
constants) dissymétrique : les classes une concentration de
pourraient être très inégales données autour de la
(certaines vides!). Pas de moyenne)
comparaison possible.
Méthodes de discrétisation
Récapitulatif
METHODE DEFINITION CALCUL REMARQUES TYPE DE DISTRIBUTIONS
Seuils Seuils Par observation Prend en compte les Toute série présentant des
naturels observés d’un histogramme discontinuités ou «ruptures» « pics » et des
de valeurs ou de de la série. discontinuités ;
fréquences Cartes difficilement
cumulées triées comparables Distribution plurimodale
croissantes
Quantiles Chaque Effectif total / Ne tient pas compte de la Série uniforme (ce qui est
classe a le Nombre de classes distribution et des valeurs rare !)
même Pour définir les exceptionnelles. Certaines
nombre bornes de classe, limites de classes peuvent Toute autre série, quelque
d’individus on compte le êtres discutables (ex: des soit leur forme, du
nombre valeurs très proches peuvent moment qu’elles ne
d’individus défini être dans des classes présentent pas trop de
dans la différentes) discontinuités.
distribution
ordonnée Représentation A éviter si :
croissante cartographique équilibrée,
Valeurs extrêmes
lisible et permet les
comparaisons mais… peut Trop grand nombre de
être trompeuse! valeurs égale
Méthodes de discrétisation
Récapitulatif
METHODE DEFINITION CALCUL REMARQUES TYPE DE DISTRIBUTIONS
Progression L’amplitude Calcul de la Raison. Intérêt: mieux différencier les individus Série asymétrique vers la
arithmétique des intervalles Calcul des limites de présentant de faibles valeurs. gauche et séries
augmente en classes : Les individus avec de fortes valeurs se logarithmique et
fonction d’une retrouvent regroupés dans la dernière exponentielle
[A0 ;A0+R]
progression classe. Peut aboutir à définir des classes décroissantes
arithmétique [A1 ;A1+2R]
sans individu !
[A2 ;A2+3R]…
Progression L’amplitude Idem avec un mode Idem Idem
géométrique des intervalles de calcul différent Mais améliore la différenciation des Série asymétrique vers la
augmente en individus présentant de faibles valeurs. gauche et séries
fonction d’une Ne s’applique qu’aux distributions dont logarithmique et
progression la valeur minimale est supérieure à zéro exponentielle
géométrique décroissantes
Moyennes Utilise des Calcul de la moyenne Méthode fortement liée à la distribution Toutes séries
emboîtées moyennes de 1er ordre (la de la variable (sauf si trop asymétrique
successives distribution est N'accepte que 4 ou 8 classes. ou plurimodale)
comme limites divisée en deux sous- Facile à mettre en œuvre et facile à
de classes groupes). Calcul de la appréhender car repose sur la notion de
moyenne de chaque la moyenne.
sous-groupe (4 sous-
groupes)…
Source : [Link]
Méthodes de discrétisation
Méthodes de discrétisation