Big Data & NoSQL
Définition
• Données massives
2,5 trillons d’octets de données générées par jour
90% des données mondiales créées ces 2 dernières années
90% des données générées sont non structurées
Provenant de diverses sources
Capteurs utilisés pour collecter les informations climatiques
Messages sur les médias sociaux
Images numériques et vidéos publiées en ligne
Enregistrements transactionnels d’achat en ligne
Signaux GPS de téléphones mobiles
…
ASSALE Adjé Louis Big Data & NoSQL 1
Big Data & NoSQL
Sources
• Multiples:
sites, bases de données, téléphones, serveurs:
Détecter les sentiments et réactions des clients
Détecter les conditions critiques ou potentiellement mortelles dans les
hôpitaux , et à temps pour intervenir
Prédire des modèles météorologiques pour planifier l’usage optimal des
éoliennes
Prendre des décisions risquées basées sur des données transactionnelles
en temps réel
Identifier les criminels et les menaces à partir de vidéos, sons et flux de
données
Étudier les réactions des étudiants pendant un cour, prédire ceux qui
vont réussir, d’après les statistiques et modèles réunis au long des
2
années (domaine Big Data in Education)
Big Data & NoSQL
intérêts
• Intérêts multiples
34% des chefs d’entreprise prennent fréquemment des
décisions basées sur des informations en lesquelles ils n’ont pas
confiance, ou qu’ils n’ont pas
50% des chefs d’entreprise disent qu’ils n’ont pas accès aux
informations dont ils ont besoin pour faire leur travails
83% des DSI (Directeurs des SI) planifient d’utiliser «
L’informatique décisionnelle et analytique »
60% des PDG ont besoin d’améliorer la capture et la
compréhension des informations pour prendre des décisions
plus rapidement
ASSALE Adjé Louis Big Data & NoSQL 3
Big Data & NoSQL
Challenges
• Réunir un grand volume de données variées pour trouver
de nouvelles idées
• Capturer des données créées rapidement
• Sauvegarder toutes ces données
• Traiter ces données et les utiliser
ASSALE Adjé Louis Big Data & NoSQL 4
Big Data & NoSQL
Caractéristiques
• Extraction d’informations et prise de décisions à partir de
données, caractérisées par les 5V:
Volume (Volume)
Variété (Variety)
Vitesse (Velocity)
Véracité (Veracity)
Valeur (Value)
ASSALE Adjé Louis Big Data & NoSQL 5
Big Data & NoSQL
Caractéristiques
• Volume
Prix de stockage de données a beaucoup diminué
De $100 000 /Go en 1980
À $0,10/Go en 2013
Lieux de stockage fiables (SAN) ou réseaux peuvent être
couteux
Choisir de ne stocker que certaines données, jugées sensibles
Perte de données, pouvant être très utiles, comme les logs
Comment déterminer les données qui méritent d’être stockées?
Aucune donnée n’est inutile
Certaines n’ont juste pas encore servir
ASSALE Adjé Louis Big Data & NoSQL 6
Big Data & NoSQL
Caractéristiques
• Variété
Pour un stockage dans des bases de données ou dans des
entrepôts de données, les données doivent respecter un format
prédéfini.
La plupart des données existantes sont non structurées ou semi-
structurées
Données sous plusieurs formats et types
On veut tout stocker
Certaines données peuvent paraître obsolètes, mais sont utiles
pour certaines décisions
ASSALE Adjé Louis Big Data & NoSQL 7
Big Data & NoSQL
Caractéristiques
• Vitesse
Rapidité d’arrivée des données
Vitesse de traitement
Les données doivent être stockées à l’arrivée, parfois même des
Teraoctets par jour
Sinon, risque de perte d’informations
Exemple
Il ne suffit pas de savoir quel article un client a acheté ou réservé
Si l’on sait que vous avez passé plus de 5mn à consulter un article dans
une boutique d’achat en ligne, il est possible de vous envoyer un email
dès que cet article est soldé
ASSALE Adjé Louis Big Data & NoSQL 8
Big Data & NoSQL
Caractéristiques
• Véracité
C’est la fiabilité des données. Avec l’augmentation de la
quantité, la qualité et précision se perdent (abréviations, typos,
déformations, source peu fiable…)
Les solutions Big Data doivent remédier à cela en se référant au
volume des données existantes
Nécessité d’une très grande rigueur dans l’organisation de la
collecte et le recoupement, croisement, enrichissement des
données.
ASSALE Adjé Louis Big Data & NoSQL 9
Big Data & NoSQL
Caractéristiques
• Valeur
Le V le plus important
Il faut transformer toutes les données en valeurs
exploitables: les données sans valeur sont inutiles
Atteindre des objectifs stratégiques de création de valeur
pour les clients et pour l’entreprise dans tous les
domaines d’activité
ASSALE Adjé Louis Big Data & NoSQL 10
Big Data & NoSQL
Approche traditionnelle
• Les besoins métier guident la conception de la solution
1. Le responsable métier définit les besoins : Quelles questions
doit-on poser?
2. IT conçoit une solution avec un ensemble de structures et
Fonctionnalités
3. Le responsable métier exécute les requêtes pour répondre aux
questions – encore et encore
4. De nouvelles exigences nécessitent une nouvelle conception
et construction
ASSALE Adjé Louis Big Data & NoSQL 11
Big Data & NoSQL
Approche traditionnelle
• Est appropriée pour :
Des données structurées
Opérations et processus répétitifs
Sources relativement stables
Besoins bien compris et bien cadrés
ASSALE Adjé Louis Big Data & NoSQL 12
Big Data & NoSQL
Approche Big Data
• Les sources d’information guident la découverte créative
1. Le responsable métier et IT identifient les sources de données
disponibles
2. IT fournit une plateforme qui permet une exploration créative
de toutes les données disponibles
3. Le responsable métier détermine les questions à poser en
explorant les données et relations entre elles
4. De nouvelles idées conduisent à l’intégration de technologies
traditionnelles
ASSALE Adjé Louis Big Data & NoSQL 13
Big Data & NoSQL
Approche classique vs Approche Big Data
• La question n’est pas :
Dois-je choisir entre l’approche classique et l’approche Big
Data?
• Mais plutôt :
Comment les faire fonctionner ensemble?
ASSALE Adjé Louis Big Data & NoSQL 14
Big Data & NoSQL
Approche classique vs Approche Big Data
ASSALE Adjé Louis Big Data & NoSQL 15
Big Data & NoSQL
Les outils
• Le Big Data nécessite :
Des bases de données NoSQL
Pour le stockage de données massives
Non structurées ou semi-structurées
Les SGBDR ne conviennent pas
Des systèmes de traitement de données réparties (distribuées)
Hadoop (High Availability Distributed Object Oriented Platform)
Implémentation de l’algorithme Map/Reduce
Avec des mécanismes Yarn ou Spark
ASSALE Adjé Louis Big Data & NoSQL 16
Big Data & NoSQL
Bases de données NoSQL
• Origine
1998 : naissance du terme
NoSQL par Shashank Tiwari
2009 : meetup de San Francisco
100 participants des principaux acteurs
2010 : Premières bases NoSQL
Première signification : Pas de SQL
Puis : Not Only SQL
Autres noms :
Big Data
NotRelational
ASSALE Adjé Louis Big Data & NoSQL 17
Big Data & NoSQL
Bases de données NoSQL
• Les utilisateurs
ASSALE Adjé Louis Big Data & NoSQL 18
Big Data & NoSQL
Bases de données NoSQL
• Pour quoi faire?
Gérer des volumes de données énormes
Plusieurs téra octets
Des performances en lectures/écritures
Centaines de milliers de lectures/secondes
Centaines de milliers d’écritures/secondes
Distribuer ses données
Répartition multisites
Éviter les Single Point Of Failure
Load balancing
S’ affranchir des schémas rigides
ASSALE Adjé Louis Big Data & NoSQL 19
Big Data & NoSQL
Bases de données NoSQL
• Cas pratiques
Gérer des logs
Stocker des messages utilisateurs
Stocker des données de crawling
Exploration d’un site Web par le robot d’ un moteur de recherche
Remplacer les DataWarehouses
Business Intelligence (entrepôts de données)
Stocker des données hétérogènes
ASSALE Adjé Louis Big Data & NoSQL 20
Big Data & NoSQL
Bases de données NoSQL
• Les grands principes
Pas de jointures
Des moteurs simples
Des Apis propres à chaque moteur
Des données distribuées
Structures flexibles
Duplication de données
ASSALE Adjé Louis Big Data & NoSQL 21
Big Data & NoSQL
Bases de données NoSQL
• Les types de bases de données NoSQL
Clefs/Valeurs
Documents
Colonnes
Graphes
ASSALE Adjé Louis Big Data & NoSQL 22
Big Data & NoSQL
Bases de données NoSQL
• Les types de bases de données NoSQL
Clefs/Valeurs
Simple
Rapide
Moteur ne connait pas le contenu
ASSALE Adjé Louis Big Data & NoSQL 23
Big Data & NoSQL
Bases de données NoSQL
• Les types de bases de données NoSQL
Documents
Données hiérarchiques
Plusieurs types de documents :
XML, JSON, etc.
Indexation possible du contenu
ASSALE Adjé Louis Big Data & NoSQL 24
Big Data & NoSQL
Bases de données NoSQL
• Les types de bases de données NoSQL
Colonnes
Chaque ligne possèdes des
colonnes différentes
Très flexibles
ASSALE Adjé Louis Big Data & NoSQL 25
Big Data & NoSQL
Bases de données NoSQL
• Les types de bases de données NoSQL
Graphes
Liens complexes et flexibles entre
les données
Modélisation proche de la réalité
ASSALE Adjé Louis Big Data & NoSQL 26
Big Data & NoSQL
Traitement des données
• L’algorithme Map/Reduce en théorie
Calcul distribué sur des données énormes (> 1Tb)
Découpage du problème en sous-problèmes (map)
Agrégation des résultats (reduce)
• Map/Reduce en image
ASSALE Adjé Louis Big Data & NoSQL 27
Big Data & NoSQL
Traitement des données
• standardisation
Chaque moteur possède son langage de requête
Certains réintègrent un SQL allégé
Frameworks de standardisation :
En Java : Spring Data, Hibernate OGM
En DotNet : LinQ
Encore du chemin à parcourir
ASSALE Adjé Louis Big Data & NoSQL 28
Big Data & NoSQL
Traitement des données
• L’avenir : multi-BDD
Chaque solution possède ses avantages et inconvénients
Utiliser le bon outil pour le bon problème
Pas de remplacement des SGBDR mais un complément
Au final les applications auront plusieurs bases
ASSALE Adjé Louis Big Data & NoSQL 29