Travaux Dirigés
Introduction aux Big Data
Dr. Olfa Mabrouk
ESSTHS
Année Universitaire 2024-2025
Exercice 1 :
Rappel des unités :
1 Ko = 103 octets
1 Mo = 106 octets
1 Go = 109 octets
1 To = 1012 octets
1 Po = 1015 octets
1 Eo = 1018 octets
Questions :
a) Sachant que 2,5 exaoctets de données sont générées quotidiennement, convertissez
cette valeur en : Pétaoctets et en Téraoctets :
b) Une photo Instagram pèse environ 3 Mo. Combien de photos représentent 1 To ?
c) Si 90% des données mondiales ont été créées ces deux dernières années, complétez :
— Volume aujourd’hui : 100 Eo
— Volume créé en 2 ans : Eo
— Volume avant ces 2 ans : Eo
Exercice 2 :
Complétez le tableau suivant avec les informations du cours :
Source Volume/jour Nombre d’utilisateurs
Réseaux sociaux 4,7 milliards
Twitter 500 millions de tweets
Instagram
Amazon
IoT (objets connectés)
Smartphones (GPS) 5 milliards
Exercice 3
Classez les données suivantes dans le tableau :
Liste : Base SQL, Tweet, Vidéo YouTube, Fichier JSON, Email, Feuille Excel, Photo,
Document Word, Log serveur, Fichier XML, Enregistrement audio, Page web HTML
1
Travaux Dirigés LMI3 - Big Data
Structurées Semi-structurées Non structurées
Question : Selon le cours, quel pourcentage représentent les données non structurées ?
Exercice 4
Un centre d’appels collecte pour chaque interaction client :
— Enregistrement audio (format WAV)
— Transcription textuelle (format TXT)
— Métadonnées : durée, agent, date (format JSON)
— Historique client (base de données SQL)
Questions :
a) Complétez le tableau :
Format Type de structure Informations extraites
Audio WAV
Texte TXT
JSON
Base SQL
b) Citez 2 analyses possibles en combinant plusieurs sources de données :
Exercice 5
Scénario : Une entreprise collecte l’âge de ses clients de trois sources différentes :
— Source A (Formulaire web) : 25 ans - Fiabilité 95%
— Source B (Réseaux sociaux) : 28 ans - Fiabilité 70%
— Source C (Base CRM) : 26 ans - Fiabilité 85%
Questions :
a) Quelle valeur retiendriez-vous ? Justifiez votre choix.
b) Citez 5 causes possibles d’erreurs dans les données :
c) Proposez 2 méthodes pour valider la qualité des données :