Informatique
Décisionnelle
Business Intelligent
Abdellatif HAIR
Université Sultan Moulay Slimane
Faculté des Sciences et Techniques
B.P. 523, Béni-Mellal, MAROC
Architecture des DWs
SGBD / DATA WAREHOUSE
Les SGBD sont des systèmes conçus pour l'OLTP (On-Line
Transaction Processing).
Permet d'insérer, modifier, interroger des informations
rapidement, efficacement, en sécurité.
Deux objectifs principaux :
- ajouter, retrouver et supprimer des enregistrements
repérés par une clef
- ces opérations doivent pouvoir être effectuées très
rapidement, et par de nombreux utilisateurs simultanément.
Les systèmes OLTP sont mal adaptés à l'analyse de
données.
SGBD / DATA WAREHOUSE
Les DW sont des systèmes conçus pour l’aide à la prise de
décision OLAP (On-line Analytical Processing).
Les objectifs principaux sont :
- regrouper, organiser, coordonner des informations provenant
de sources diverses,
- les intégrer et les stocker pour donner à l’utilisateur une vue
orientée métier,
- retrouver et analyser l’information facilement et rapidement.
Questions typiques :
Quels sont les produits qui se vendent le mieux dans chaque
région, et quel est l’impact des données démographiques sur
ces résultats de vente ?
SGBD / DATA WAREHOUSE
BD-OLTP DW-OLAP
Objectif collecte de données consultation et analyse
Types de données Données de gestion Données d’analyse
Orientées application Orientées sujet
Évolutives Statiques
Accès Peu de données Beaucoup d’informations
Données courantes Données historiques
Informations détaillées détaillées + agrégées
n-uplets accédés dizaines millions
Temps d’exécution Court Long
Mises à jour Très souvent Périodiquement
Utilisateurs Nombreux Peu
Employés /Opérationnels Analystes /Managers
Opérations transactions courtes transactions longues
temps réel Batch
Recherche d'enregistrements agrégations et group by
détaillés
SGBD / DATA WAREHOUSE
Ont des objectifs différents et font des traitements
différents
- stockent des données différentes
- font l'objet de requêtes différentes
SGBD et DW ont besoin d'une organisation différente
des données
SGBD et DW doivent être physiquement séparés
SGBD / DATA WAREHOUSE
DATAMART
Sous-ensemble d’un entrepôt de données
Destiné à répondre aux besoins d’un secteur ou d’une
fonction particulière de l’entreprise
Un datamart est un DW focalisé sur un sujet
particulier, souvent au niveau départemental ou métier.
Point de vue spécifique selon des critères métiers
INTÉRÊT D’UN DATAMART
Nouvel environnement structuré et formaté en
fonction des besoins d’un métier ou d’un usage particulier
Un DW est souvent volumineux (plusieurs centaines de
Go voire quelques To ) avec des performances
inappropriées (temps de réponse trop longs).
Un Datamart, quant à lui, comporte moins de 50 Go,
donc des performances acceptables
- Plus facile à comprendre, à manipuler
- Amélioration des temps de réponse
La création d’un datamart peut être un moyen de
débuter un projet de DW (projet pilote).
ARCHITECTURE D’UN SYSTÈME
DÉCISIONNEL
ARCHITECTURE D’UN SD
PLUS EN DÉTAILLE
LES DIFFÉRENTES ZONES DE
L’ARCHITECTURE
Zone de préparation (Staging area)
- Zone temporaire de stockage des données extraites
- Réalisation des transformations avant l’insertion dans le DW :
• Nettoyage
• Normalisation…
- Données souvent détruites après chargement dans le DW
Zone de stockage (DW, DM)
- On y transfère les données nettoyées
- Stockage permanent des données
Zone de présentation
- Donne accès aux données contenues dans le DW
- Peut contenir des outils d’analyse programmés:
• Rapports
• Requêtes…
SÉPARATION BD ET DW
Les DW vont être physiquement séparés des BD, pour des
raisons de:
- Performance : systèmes de production ne sont pas
organisés pour pouvoir répondre efficacement aux requêtes
des systèmes d’aide à la décision. Même les requêtes
simples peuvent dégrader sérieusement les performances.
- Données différentes:
• Données historisées : aide à la décision nécessite
des données sur une longue durée, non conservée
dans les BD
• Données agrégées
• Qualité des données : sources différentes qui
utilisent souvent des noms, formats, codes et
mesures différents devant être uniformisés
DATA WAREHOUSE : ETL
Outils d’alimentation pour
- Extraire
les données sources
- Transformer
- Charger dans un DW
DATA WAREHOUSE : ETL
(EXTRACTION)
Extraction des données de leur environnement
d’origine (base de données relationnelles, fichiers plats…)
Besoin d’outils spécifiques pour accéder aux bases de
production (requêtes sur des BD hétérogènes)
Besoin d’une technique appropriée pour n’extraire que
les données nécessaires
- Données créées ou modifiées depuis la dernière
opération d’extraction
Attention : L’extraction ne doit pas perturber
l’activité de production
DATA WAREHOUSE : ETL
(TRANSFORMATION)
Intégration des données
- Homogénéisation du vocabulaire, structures, valeurs
- Suppression et fusion des redondances
- Épuration des données (suppression des données incohérentes)
- Transformation des données dans un format cible
DATA WAREHOUSE : ETL
(CHARGEMENT)
Opérations de calcul et d’agrégation des données
- Remplacement de certaines bases si aucune solution
d’extraction satisfaisante n’est possible
Mise en place de procédures de chargement et de
restauration (en cas de problème)
- Envisager la mise en place de systèmes redondants si la
disponibilité du système ne peut être interrompue
Prise en compte de la notion de granularité
- Conservation des données détaillées
- Possibilité d’agrégation des données pour la synthèse
MODÉLISATION ENTITÉ/ASSOCIATION
Avantages :
- Normalisation:
• Éliminer les redondances
• Préserver la cohérence des données
- Optimisation des transactions
- Réduction de l’espace de stockage
Inconvénients pour un utilisateur final :
- Schéma contient des tables/champs inutiles pour
l’analyse
- Pas d’interface graphique capable de rendre utilisable le
modèle E/A
- Inadapté pour l’analyse
MODÉLISATION ENTITÉ/ASSOCIATION
Exemple :
MODÉLISATION DES DW
Nouvelle méthode de conception autour des concepts
métiers
- Ne pas normaliser au maximum
Introduction de nouveaux types de table :
- Table de faits
- Table de dimensions
Introduction de nouveaux modèles:
- Modèle en étoile
- Modèle en flocon