Plan
Introduction
Le marché du décisionnel
Les entrepôts de
données
Les datamart
Architecture
Alimentation
Modélisation
Les bases
de données
multidimensi
onnelles
Systèmes décisionnels page 1
Le contexte
Besoin: prise de décisions stratégiques et tactiques
Pourquoi: besoin de réactivité
Qui: les décideurs (non informaticiens)
Comment: répondre aux demandes d’analyse des données,
dégager des informations qualitatives nouvelles
Qui sont mes Pourquoi et
meilleurs comment
clients? le chiffre
d’affaire a
baissé?
A combien
Quels
s’élèvent mes
Marocains
ventes
consomment
journalières?
beaucoup
de poisson?
Systèmes décisionnels page 2
Le marché du décisionnel
Systèmes décisionnels page 3
Quelques solutions commerciales
Systèmes décisionnels page 4
Quelques solutions open source
ETL Entrepôt OLAP Reporting Data Mining
de données
Octopus MySql Mondrian Birt Weka
Kettle Postgresql Palo Open Report R-Project
CloverETL Greenplum/Bizgres Jasper Report Orange
Talend JFreeReport Xelopes
Intégré
Pentaho (Kettle, Mondrian, JFreeReport, Weka)
SpagoBI
Systèmes décisionnels page 5
Quelques métiers du décisionnel
Strategic Performance Management
Déterminer et contrôler les indicateurs clé de la performance de
l’entreprise
Finance Intelligence
Planifier, analyser et diffuser l’information financière. Mesurer et
gérer les risques
Human Capital Management (gestion de la relation avec les
employés)
Aligner les stratégies RH, les processus et les
technologies.
Customer Relationship Management (gestion de la relation
client)
Améliorer la connaissance client, identifier et prévoir la rentabilité
client, accroitre l’efficacité du marketing client
Supplier Relationship Management (gestion de la relation
fournisseur)
Classifier et évaluer l’ensemble des fournisseurs. Planifier et piloter la
stratégie Achat.
Systèmes décisionnels page 6
Systèmes décisionnels page 7
Les données utilisables par les décideurs
Données opérationnelles (de production)
Bases de données (Oracle, SQL Server)
Fichiers, …
Paye, gestion des RH, gestion des
commandes…
Caractéristiques de ces données:
Distribuées: systèmes éparpillés
Hétérogènes: systèmes et structures de
données différents
Détaillées: organisation des données selon les processus fonctionnels,
données surabondantes pour l’analyse
Peu/pas adaptées à l’analyse : les requêtes lourdes peuvent bloquer le
système transactionnel
Volatiles: pas d’historisation systématique
Systèmes décisionnels page 8
Systèmes décisionnels page 9
Problématique
Comment répondre aux demandes des décideurs?
En donnant un accès rapide et simple à l’information stratégique
En donnant du sens aux données
Mettre en place un système d’information dédié aux
applications décisionnelles:
un data warehouse
10
Systèmes décisionnels page 10
Systèmes décisionnels page 11
Domaines d’utilisation des DW
Banque
Risques d’un prêt, prime plus précise
Santé
Épidémiologie
Risque alimentaire
Commerce
Ciblage de clientèle
Déterminer des promotions
Logistique
Adéquation
demande/production
Assurance
Risque lié à un contrat
d’assurance (voiture)
…
12
Systèmes décisionnels page 12
Systèmes décisionnels page 13
Informatique décisionnelle
Le besoin
Les systèmes d'information d'entreprise sont fondés sur des
bases de données relationnelles (OLTP)
=> Stocker des informations fragmentaires et retrouver des
fragments (transaction)
=> Éviter les redondances (normalisation)
=> Objectifs opérationnels
Mais les besoins pour le domaine décisionnel sont
différents
Besoin d'une information agrégée à différents niveaux
(historiques par exemple) mais pas forcément, de tous les
détails
Pas de problème de redondance, la redondance peut même
être recherchée pour améliorer l'efficacité
Idée
On va créer des bases de données spécialisées pour le
décisionnel (OLAP)
Bases de données multidimensionnelles – entrepôts de
données
Systèmes décisionnels page 14
Systèmes décisionnels page 15
Systèmes décisionnels page
e 16
Systèmes décisionnels page 17
Définition d’un DW
W. H. Inmon (1996):
« Le data Warehouse est une collection de données
orientées sujet, intégrées, non volatiles et
historisées, organisées pour le support d’un
processus d’aide à la décision »
Principe: mettre en place une base de données
utilisée à des fins d’analyse
18
Systèmes décisionnels page 18
Systèmes décisionnels page 19
Systèmes décisionnels page 20
Le processus de prise de décision
Champs d’application des
systèmes décisionnels
Définir le Rassembler Analyser les Établir des Décider
problème les données solutions
données
Temps de prise d’une décision
21
Systèmes décisionnels page 21
Informatique décisionnelle
Architecture classique
ALIMENTATION
Entrepôt de
données
Système
d'information Magasins de Outils décisionnels
opérationnel données Analyse
reporting
data-mining
....
Systèmes décisionnels page 22
Datamart
Sous-ensemble d’un entrepôt de données
Destiné à répondre aux besoins d’un secteur ou
d’une fonction particulière de l’entreprise
Point de vue spécifique selon des critères
métiers
Datamarts du
service Marketing
Datamart du
DW de l’entreprise service Ressources
Humaines 23
Systèmes décisionnels page 23
Intérêt des datamart
Nouvel environnement structuré et formaté en fonction
des besoins d’un métier ou d’un usage particulier
Moins de données que DW
Plus facile à comprendre, à manipuler
Amélioration des temps de réponse
Utilisateurs plus ciblés: DM plus
facile à définir
24
Systèmes décisionnels page 24
Architecture générale
Zone de
Zone de préparation Zone de stockage présentation
E
C
X
Transformations: H
Data Requêtes
T Nettoyage A
warehouse Rapports
Standardisation Visualisation
R R
… Data Mining
A …
G
C de
Sources Datamart
E
données
T
I M
O E 25
Systèmes décisionnels page 25
Informatique décisionnelle
Alimentation – ETL (Extract, Transform and Load)
Filtrage
On ne sélectionne que certaines données
Correction des erreurs
On vérifie la qualité des données, la cohérence des
identifiants...
Historisation des données
Étiquetage des données avec des dates, mémorisation sur
des durées souvent assez longues
Agrégation
Les données ne sont pas conservées avec un niveau trop fin
de détail pour gagner en efficacité
Systèmes décisionnels page 26
Aperçu d’un ETL
27
Systèmes décisionnels page 27
Les 4 caractéristiques des data warehouse
1- Données orientées sujet:
Regroupe les informations des différents métiers
Ne tiens pas compte de l’organisation fonctionnelle des
données
Ass. Vie Ass. Ass. Santé
Auto
Client
Police
Systèmes décisionnels page 28
Les 4 caractéristiques des data warehouse
2- Données intégrées:
Normalisation des données
Définition d’un référentiel unique
h,f
1,0 h,f
homme, femme
GBP
EUR
CHF
USD
29
Systèmes décisionnels page 29
Les 4 caractéristiques des data warehouse
3- Données non volatiles
Traçabilité des informations et des décisions prises
Copie des données de production
Bases de production Entrepôts de données Ajout
Suppression
Accès
Modification Chargement
30
Systèmes décisionnels page 30
Les 4 caractéristiques des data warehouse
4- Données datées
Les données persistent dans le temps
Mise en place d’un référentiel temps
Image de la base en Mai 2015 Image de la base en Juillet 2016
Répertoire Répertoire
Base de Nom Ville Nom Ville
production Omari Casa Omari Rabat
Jamali Agadir Jamali Agadir
Calendrier Répertoire
Entrepôt Code Année Mois Code Année Mois
de 1 2015 Mai
2005 1 Omari Casa
données
2 2016 Juillet 1 Jamali Agadir
2 Omari Rabat
Systèmes décisionnels page 31
SGBD et DW
Service Service Service
OLTP: On-Line commercial Financier
Transactional BD prod BD prod livraison
Processing BD prod
Clientèle
H
I
Data Warehouse
S
OLAP: On-Line
Analitical T
Clientèle
Processing
O
32
R
Systèmes décisionnels pageI32
OLTP VS DW
OLTP DW
Orienté transaction Orienté analyse
Orienté application Orienté sujet
Données courantes Données historisées
Données détaillées Données agrégées
Données évolutives Données statiques
Utilisateurs nombreux, Utilisateurs peu nombreux, manager
administrateurs/opérationnels
Temps d’exécution: court Temps d’exécution: long
Systèmes décisionnels page 33
Informatique décisionnelle
Structure des bases de données multidimensionnelles
Exemple
La société « Roulez jeunesse » installée à Tarbes a construit une
base de données (relationnelle) pour suivre l'évolution de ses
ventes de rollers
Mois Modèle Nombre Total HT
Janvier 2006 Roller Junior 5 150,00 €
Janvier 2006 Roller Découverte 5 150,00 €
Février 2006 Roller Junior 3 93,00 €
Mars 2006 Roller Freeride 2 400,00 €
Pour analyser les résultats, on peut utiliser des tableaux
Les Mois en ligne
Les Modèles en colonnes
Soit le Nombre, soit le Total HT comme valeurs dans les cellules
=> 2 états de base
Systèmes décisionnels page 34
Informatique décisionnelle
La société « Roulez jeunesse » est en pleine expansion et
plusieurs magasins sont créés, il faut adapter la base de
données
Mois Modèle Magasin Nombre Total HT
Avril 2006 Roller Junior Tarbes 7 210,00 €
Avril 2006 Roller Découverte Agadir 5 150,00 €
Mai 2006 Roller Junior Agadir 3 93,00 €
Mai 2006 Roller Freeride Tarbes 2 400,00 €
Désormais, on peut croiser
pour chaque Modèle donné, Mois et Demande
pour chaque Magasin, Mois et Modèle
pour chaque Mois, Magasin et Modèle
et les deux mesures Nombre et Total HT
=> 6 états de base
Systèmes décisionnels page 35
Dimensions et faits
On peut imaginer que la société affine ses études en
ajoutant des informations comme la pointure, la couleur, la
marque... des rollers
Les informations deviennent alors très difficiles à appréhender
Il faut alors envisager de passer à une vision multidimensionnelle
de la base de données
Modèle Magasin
id_Modèle id_Magas in
Descriptif Ventes Des criptif
Nombre Adresse
Total HT
Dimension
Fait (ensemble de
(ensemble positions)
Mois de mesures)
id_Mois
Nom_mois
Année
Systèmes décisionnels page 36
Cube décisionnel
« Cube » décisionnel pour la mesure Total HT
Modèle
Magasin
Avril 2006 210
Mois
Systèmes décisionnels page 37
Hiérarchie sur les dimensions
Dans notre exemple, nous avons étudié les ventes
par mois
On peut souhaiter l'étudier sur des durées
différentes telles que par trimestre, par an...
On va définir une dimension « Temps » constitué
d'une hiérarchie à plusieurs niveaux
Mois
Trimestre
Année
Systèmes décisionnels page 38
Hiérarchie sur les dimensions
Modèle Magasin
id_Modèle id_Magas in
Descriptif Ventes Des criptif
Nombre Adresse
Total HT
Mois
id_Mois
Nom_mois
Trimestre
id_Trim
Nom_trim
Hiérarchie sur la Année
dimension « Temps » id_Année
Nom_année
Systèmes décisionnels page 39
Hiérarchies sur les dimensions
Modèle Modèle
Magasin Magasin
Avril 210 2016 ???
2016
[Link] [Link]ée
Remarque
Il est possible de définir plusieurs hiérarchies pour une seule
dimension
Systèmes décisionnels page 40
Modélisation des DW
Nouvelle méthode de conception autour des concepts
métiers
Ne pas normaliser au maximum
Introduction de nouveaux types de table:
Table de faits
Table de dimensions
Introduction de nouveaux modèles:
Modèle en étoile
Modèle en flocon
Modèle en constellation
Systèmes décisionnels page 41
Table de faits
Table principale du modèle dimensionnel
Contient les données observables (les faits) sur le sujet
étudié selon divers axes d’analyse (les dimensions)
Table de faits des ventes
Clé date (CE)
Clés étrangères
vers les Clé produit (CE)
dimensions Clé magasin (CE)
Quantité vendue
Coût
Faits
Montant des
ventes
Systèmes décisionnels page 42
Table de faits (suite)
Fait:
Ce que l’on souhaite mesurer
Quantités vendues, montant des ventes…
Contient les clés étrangères des axes d’analyse (dimension)
Date, produit, magasin
Trois types de faits:
Additif
Semi additif
Non additif
44
Systèmes décisionnels page 43
Typologie des faits
Additif: additionnable suivant toutes les dimensions
Quantités vendues, chiffre d’affaire
Peut être le résultat d’un calcul:
Bénéfice = montant
vente – coût
Semi additif: additionnable
suivant certaines dimensions
Solde d’un compte bancaire:
Pas de sens d’additionner sur les dates car cela
représente des instantanés d’un niveau
Σ sur les comptes: on connaît ce que nous
possédons en banque
Non additif: fait non additionnable quelque soit la
dimension
Systèmes décisionnels page 44
Table de dimension
Axe d’analyse selon lequel vont être étudiées les données
observables (faits)
Contient le détail sur les faits
Dimension produit
Clé de substitution Clé produit (CP)
Code produit
Description du produit
Famille du produits
Attributs de la Marque
dimension Emballage
Poids
Systèmes décisionnels page 45
Table de dimension (suite)
Dimension = axe d’analyse
Client, produit, période de temps…
Contient souvent un grand nombre de colonnes
L’ensemble des informations descriptives des faits
Contient en général beaucoup moins d’enregistrements
qu’une table de faits
Systèmes décisionnels page 46
La dimension Temps
Commune à l’ensemble du
DW
Reliée à toute table de Dimension Temps
faits Clé temps (CP)
Jour
Mois
Trimestre
Semestre
Année
Num_jour_dans_année
Num_semaine_ds_année
Systèmes décisionnels page 47
Granularité d’une dimension
Une dimension contient des membres organisés en
hiérarchie :
Chacun des membres appartient à un niveau hiérarchique (ou
niveau de granularité) particulier
Granularité d’une dimension : nombre de niveaux
hiérarchiques
Temps :
année – semestre – trimestre - mois
Systèmes décisionnels page 48
Évolution des dimensions
Dimensions à évolution lente
Dimensions à évolution rapide
Systèmes décisionnels page 49
Évolution des dimensions
Dimensions à évolution lente
Un client peut se marier, avoir des enfants…
Un produit peut changer de noms ou de formulation:
« Raider » en « Twix »
« yaourt à la vanille » en « yaourt saveur
vanille »
Gestion de la situation, 3 solutions:
Écrasement de l’ancienne valeur
Versionnement
Valeur d’origine / valeur courante
Dimensions à évolution rapide
Systèmes décisionnels page 50
Dimensions à évolution lente (1/3)
Écrasement de l’ancienne valeur :
Correction des informations erronées
Avantage:
Facile à mettre en œuvre
Inconvénients:
Perte de la trace des valeurs antérieures des attributs
Perte de la cause de l’évolution dans les faits mesurés
Clé produit Description du produit Groupe de produits
12345 Intelli-Kids Logiciel
Jeux éducatifs
Systèmes décisionnels page 51
Dimensions à évolution lente (2/3)
Ajout d’un nouvel enregistrement:
Utilisation d’une clé de substitution
Avantages:
Permet de suivre l’évolution des attributs
Permet de segmenter la table de faits en fonction de l’historique
Inconvénient:
Accroit le volume de la table
Clé produit Description du produit Groupe de produits
12345 Intelli-Kids Logiciel
25963 Intelli- Jeux éducatifs
KidsSystèmes décisionnels page 52
Dimensions à évolution lente (3/3)
Ajout d’un nouvel attribut:
Valeur origine/valeur courante
Avantages:
Avoir deux visions simultanées des données :
Voir les données récentes avec l’ancien attribut
Voir les données anciennes avec le nouvel attribut
Voir les données comme si le changement n’avait pas eu lieu
Inconvénient:
Inadapté pour suivre plusieurs valeurs d’attributs
intermédiaires
Clé produit Description du Groupe de Nouveau groupe
produit produits de produits
12345 Intelli-Kids Logiciel Jeux éducatifs
Systèmes décisionnels page 53
Évolution des dimensions
Dimensions à évolution lente
Dimensions à évolution rapide
Subit des changements très fréquents (tous les mois) dont
on veut préserver l’historique
Solution: isoler les attributs qui changent rapidement
58
Systèmes décisionnels page 54
Dimensions à évolution rapide
Changements fréquents des attributs dont on veut garder
l’historique
Clients pour une compagnie d’assurance
Isoler les attributs qui évoluent vite
Systèmes décisionnels page 55
Dimensions à évolution rapide (suite)
Dim client
Clé_client Faits
Dim client Faits
Nom Clé_client
Clé_client Clé_client
Prénom
… Clé_démo
Nom
Adresse g
Prénom
Date_naissance
Adresse
…
Date_nais
…
Revenus Dim_démographique
Niveau_étude Clé_démog
Nb_enfants Revenus
Statut_marital Niveau_étude
Profil_financier
Nb_enfants
Profil_achat
Statut_marital
Profil_financier
Profil_achat
Systèmes décisionnels page 56
Les types de modèles
Modèle en étoile Modèle en flocon
Systèmes décisionnels page 57
Modèle en étoile
Une table de fait centrale et des dimensions
Les dimensions n’ont pas de liaison entre elles
Avantages:
Facilité de navigation
Nombre de jointures limité
Inconvénients:
Redondance dans les
dimensions
Toutes les dimensions ne
concernent pas les
mesures
Systèmes décisionnels page 58
Modèle en étoile
Dimension Temps
ID temps
année
mois
jour Dimension produit
… ID produit
Dimension Magasin
ID magasin nom
code
Table de faits Achat prix
description
ID client poids
ville
ID temps groupe
surface
ID magasin famille
…
ID région …
ID produit
Dimension Region Quantité achetée Dimension Client
ID région Montant des achats ID client
pays nom
description prénom
district vente
…. adresse
…
Systèmes décisionnels page 59
Modèle en flocon
Dimension produit
Dimension Temps ID produit
ID temps ID
annee groupe
mois nom
jour code
Dimension Magasin … prix Dimension groupe
ID magasin poids ID groupe
description … ID
ville Table de faits Achat
famille
surface ID client
nom
… ID temps
…
ID magasin
Dimension Region ID région
ID région Dimension Famille
ID produit
ID division vente ID
Quantité achetée famille
pays Montant des achats
description nom
…. …
Dimension Client
Dimension
ID client
Division vente
nom
ID division vente
prénom
description
…15/
Systèmes décisionnels R-RAHA adresse
& L. Geneste page 67
60
Représentation tabulaire (exemple)
Don
Sub Bud
Type public privé asso ...
Région (Subvention, Taxe)
MP (250,25) (200,70) ...
Aquitaine ...
Languedoc ...
Géo
[Link]ée=2006
Systèmes décisionnels page 61
OLTP VS OLAP
Produits Pays
Produit oranges
Espagne
PK id_produit poires
Libellé pommes Allemagne
Famille
Achat France
PK id_achat
FK id_client
id_produit
client Quantité Vente de
janvier avril pommes en
PK id_client
Allemagne
Nom février
Temps en avril
adresse
Systèmes décisionnels page 62
Manipulation des données
multidimensionnelles
Opération agissant sur la structure
Tranchage (slicing): consiste à ne travailler que sur une
tranche du cube. Une des dimensions est alors réduite à une
seule valeur
05 06 07 06
Œuf Idf 220 265 284 Œuf Idf 265
Ain 225 245 240 Ain 245
Viande Idf 163 152 145 Viande Idf 152
Ain 187 174 184 Ain 174
74
Manipulation des données
multidimensionnelles
Opération agissant sur la structure
Extraction d’un bloc de données (dicing): ne travailler que sous
un sous-cube
05 06 07
Œuf Idf 220 265 284 05 06 07
Ain 225 245 240 Œuf Idf 220 265 284
Viande Idf 163 152 145 Ain 225 245 240
Ain 187 174 184
64
Systèmes décisionnels