Introduction à Apache Hadoop et HDFS

Apache Hadoop est un framework open source pour le traitement distribué de grandes quantités de données, conçu par Doug Cutting en 2004. Il se compose principalement de MapReduce pour l'exécution parallèle et du système de fichiers distribué HDFS, qui gère le stockage des données sur plusieurs machines. Hadoop est tolérant aux pannes, évolutif et performant, avec un vaste écosystème de technologies associées.

Transféré par

zeldaagneghe

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

7 vues3 pages

Introduction à Apache Hadoop et HDFS

Transféré par

zeldaagneghe

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Apache Hadoop

Framework open source pour le traitement distribué de

quantité massive de données sur des clusters de
machines à l’aide de modèles de programmation simples
Conçu par Doug cutting en 2004 inspiré par les
publications Mapreduce, GoogleFS et bigtable de Google
Apache Hadoop Ecrit en java

Apache Hadoop: caractéristiques Apache Hadoop

Tolèrent aux pannes: la défaillance d’un nœud ne provoque Hadoop se compose de deux principaux sous projets:
pas l’échec de calcul  MapReduce: un mécanisme d’exécution parallèle de
Evolutif (Scalable): milliers de machines programmes
 Système de fichiers distribué Hadoop (aka. HDFS) :
Performant: support du traitement de données massive (To,
répartit les données sur de nombreuses machines
Po)
 Principe:
Parallélisme de données: meme traitement appliqué sur
 Diviser les données sur une collection de machines (cluster)
toutes les données
 Traiter les données directement là où elles sont stockées
Economie: matériel standard  Possibilité d’ajouter des machines
Dispose d'un vaste écosystème (HBase / ZooKeeper / Avro /
etc.)

37 38
Hadoop Distributed File System (HDFS) Organisation des machines pour HDFS
Un cluster HDFS est constitué de machines jouant différents
rôles exclusifs entre eux :
HDFS est un système de fichiers distribué: Un maître appelé namenode: Gérer l’état du système de
les fichiers et dossiers sont organisés en arbre fichiers.
(comme Unix)  contient tous les noms et blocs des fichiers, (annuaire)

les fichiers sont stockés sur un grand nombre Une machine secondary namenode, : (namenode de
secours) enregistre des sauvegardes de l’annuaire à
de machines de manière transparente pour intervalles réguliers.
l’utilisateur. (un seul arbre) Toutes les autres machines sont des datanodes. Elles
les fichiers sont décomposés en grands blocs stockent les blocs du contenu des fichiers.
(64 MO par défaut, 128 jusqu’à 1GO)
dupliquée pour la fiabilité sur plusieurs
machine
• 3 machines (nombre configurable)

39 40

HDFS rack awareness High availability

Rack : ensemble de DataNodes connectés à l'aide du même switch DataNodes envoie en continu des messages de « heartbeat » au
réseau. namenode après une durée déterminée ( 3 secondes par défaut).
Rack awareness : mécanisme de tolérance aux pannes consiste à Si le namenode ne recoit pas de retour, le datanode est considéré
placer les répliques sur des racks différents. comme étant « dead »
 Éviter la perte de données en cas de panne d'un rack entier Quand un utilisateur demande à accéder à ses données, le NameNode
 permet d'utiliser la bande passante de plusieurs racks lors de la lecture fournit l'adresse IP du DataNode le plus proche.
des données.

41 42
Configuration hadoop Commandes HDFS dfs
Plusieurs fichiers de configuration
 [Link] : indique l'host et le port du Namenode.
La commande hdfs dfs et ses options permet de gérer
les fichiers
et dossiers :
hdfs dfs -help
 hdfs dfs -ls [noms...] (pas d’option -l)
 [Link] : Configurations du NameNode/dataNode(taille de  hdfs dfs -cat nom
block, le chemin du namespace et fichiers logs)
 hdfs dfs -mv ancien nouveau
 hdfs dfs -cp ancien nouveau
 hdfs dfs -mkdir dossier
 hdfs dfs -rm -f -r dossier

43 44
[Link]

Échanges entre HDFS et le monde

Pour placer un fichier dans HDFS:

 hdfs dfs -copyFromLocal fichiersrc fichierdst
 hdfs dfs -put fichiersrc [fichierdst]
Pour extraire un fichier de HDFS:
 hdfs dfs -copyToLocal fichiersrc dst
 hdfs dfs -get fichiersrc [fichierdst]
Exemple
hdfs dfs -mkdir -p livres
wget [Link]
hdfs dfs -put [Link] livres
hdfs dfs -ls livres
hdfs dfs -get livres/center_earth

Vous aimerez peut-être aussi

Introduction à Apache Hadoop
Pas encore d'évaluation
Introduction à Apache Hadoop
41 pages
Cours sur le traitement d'image et Hadoop
Pas encore d'évaluation
Cours sur le traitement d'image et Hadoop
99 pages
Écosystème Hadoop et HDFS
Pas encore d'évaluation
Écosystème Hadoop et HDFS
32 pages
Hadoop HDFS GS
Pas encore d'évaluation
Hadoop HDFS GS
5 pages
Introduction à Hadoop et HDFS
Pas encore d'évaluation
Introduction à Hadoop et HDFS
74 pages
Introduction à Apache Hadoop et HDFS
Pas encore d'évaluation
Introduction à Apache Hadoop et HDFS
42 pages
Introduction à l'écosystème Hadoop
Pas encore d'évaluation
Introduction à l'écosystème Hadoop
22 pages
Introduction au calcul distribué avec Hadoop
Pas encore d'évaluation
Introduction au calcul distribué avec Hadoop
54 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
43 pages
Historique et Composants de Hadoop
Pas encore d'évaluation
Historique et Composants de Hadoop
12 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
89 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
37 pages
Introduction à Hadoop et Big Data
Pas encore d'évaluation
Introduction à Hadoop et Big Data
63 pages
Introduction à Hadoop et HDFS
Pas encore d'évaluation
Introduction à Hadoop et HDFS
46 pages
Introduction à Apache Hadoop
Pas encore d'évaluation
Introduction à Apache Hadoop
27 pages
Chapitre 3 Hadoop Etudiants 26
Pas encore d'évaluation
Chapitre 3 Hadoop Etudiants 26
36 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
84 pages
Introduction à l'écosystème Hadoop
Pas encore d'évaluation
Introduction à l'écosystème Hadoop
93 pages
Introduction à Hadoop et Big Data
Pas encore d'évaluation
Introduction à Hadoop et Big Data
17 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
80 pages
Introduction à Hadoop et systèmes de stockage
Pas encore d'évaluation
Introduction à Hadoop et systèmes de stockage
37 pages
Hadoop et MapReduce : Concepts Clés
Pas encore d'évaluation
Hadoop et MapReduce : Concepts Clés
58 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
21 pages
Introduction à Hadoop et Big Data
Pas encore d'évaluation
Introduction à Hadoop et Big Data
16 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
39 pages
Introduction au Big Data et Hadoop
Pas encore d'évaluation
Introduction au Big Data et Hadoop
84 pages
Hadoop et MapReduce : Architecture et Écosystème
Pas encore d'évaluation
Hadoop et MapReduce : Architecture et Écosystème
62 pages
Introduction à HDFS et son fonctionnement
Pas encore d'évaluation
Introduction à HDFS et son fonctionnement
23 pages
Hadoop et Big Data : Architecture 2025
Pas encore d'évaluation
Hadoop et Big Data : Architecture 2025
108 pages
Introduction à Hadoop et Big Data
Pas encore d'évaluation
Introduction à Hadoop et Big Data
63 pages
Introduction au Big Data et Hadoop
Pas encore d'évaluation
Introduction au Big Data et Hadoop
16 pages
HDFS : Système de fichiers distribué Hadoop
Pas encore d'évaluation
HDFS : Système de fichiers distribué Hadoop
15 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
68 pages
Traitement des données massives avec Hadoop
Pas encore d'évaluation
Traitement des données massives avec Hadoop
28 pages
Introduction à Hadoop et Big Data
Pas encore d'évaluation
Introduction à Hadoop et Big Data
56 pages
Introduction à Hadoop et HDFS
Pas encore d'évaluation
Introduction à Hadoop et HDFS
89 pages
Introduction à Hadoop et HDFS
Pas encore d'évaluation
Introduction à Hadoop et HDFS
23 pages
Introduction à Hadoop et son architecture
Pas encore d'évaluation
Introduction à Hadoop et son architecture
75 pages
Introduction à Hadoop et HDFS
Pas encore d'évaluation
Introduction à Hadoop et HDFS
26 pages
Big Data : Introduction à Hadoop et HDFS
Pas encore d'évaluation
Big Data : Introduction à Hadoop et HDFS
131 pages
Hadoop BigData 2026
Pas encore d'évaluation
Hadoop BigData 2026
22 pages
Présentation de Hadoop et ses fonctionnalités
Pas encore d'évaluation
Présentation de Hadoop et ses fonctionnalités
13 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
58 pages
Introduction à Hadoop et HDFS
Pas encore d'évaluation
Introduction à Hadoop et HDFS
71 pages
Fiche Revision Hadoop
Pas encore d'évaluation
Fiche Revision Hadoop
5 pages
Introduction à Hadoop et son architecture
Pas encore d'évaluation
Introduction à Hadoop et son architecture
88 pages
Hadoop : Framework Big Data essentiel
Pas encore d'évaluation
Hadoop : Framework Big Data essentiel
48 pages
Introduction à l'écosystème Hadoop
Pas encore d'évaluation
Introduction à l'écosystème Hadoop
31 pages
Présentation du Framework Hadoop
Pas encore d'évaluation
Présentation du Framework Hadoop
29 pages
Introduction à Hadoop et Big Data
Pas encore d'évaluation
Introduction à Hadoop et Big Data
77 pages
Introduction à Hadoop et son écosystème
Pas encore d'évaluation
Introduction à Hadoop et son écosystème
54 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
58 pages
Introduction au Big Data et Hadoop
Pas encore d'évaluation
Introduction au Big Data et Hadoop
31 pages
Introduction à HDFS et son architecture
Pas encore d'évaluation
Introduction à HDFS et son architecture
19 pages
Chapitre 2 Hadoop-Part1
Pas encore d'évaluation
Chapitre 2 Hadoop-Part1
26 pages
Présentation de L'écosystme Bigdata
Pas encore d'évaluation
Présentation de L'écosystme Bigdata
9 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
61 pages
Comprendre l'écosystème Hadoop Big Data
Pas encore d'évaluation
Comprendre l'écosystème Hadoop Big Data
22 pages
Fondements de l'environnement Hadoop
Pas encore d'évaluation
Fondements de l'environnement Hadoop
32 pages
TP1 - Virtualisation Et Administration Des Systèmes (Enregistré Automatiquement)
Pas encore d'évaluation
TP1 - Virtualisation Et Administration Des Systèmes (Enregistré Automatiquement)
11 pages
QCM2 Méthodes Predicitves
Pas encore d'évaluation
QCM2 Méthodes Predicitves
4 pages
Planning Des Examens 2A ISI-SIDS Mode Hybride
Pas encore d'évaluation
Planning Des Examens 2A ISI-SIDS Mode Hybride
2 pages
Programmation HDFS avec Docker et Hadoop
Pas encore d'évaluation
Programmation HDFS avec Docker et Hadoop
5 pages
Atelier sur les widgets Android Studio
Pas encore d'évaluation
Atelier sur les widgets Android Studio
1 page
Créez votre site web avec HTML5 et CSS3
100% (1)
Créez votre site web avec HTML5 et CSS3
305 pages
Tableaux interactifs avec le package DT R
Pas encore d'évaluation
Tableaux interactifs avec le package DT R
14 pages
Technologies et architecture web modernes
Pas encore d'évaluation
Technologies et architecture web modernes
19 pages
Administration des réseaux : Guide complet
Pas encore d'évaluation
Administration des réseaux : Guide complet
16 pages
Guide d'utilisation de la PGAI 2.0
Pas encore d'évaluation
Guide d'utilisation de la PGAI 2.0
40 pages
QCM HTML & CSS : 30 Questions
Pas encore d'évaluation
QCM HTML & CSS : 30 Questions
8 pages
Cours complet sur JavaScript gratuit
Pas encore d'évaluation
Cours complet sur JavaScript gratuit
5 pages
TP Formulaires HTML5 et CSS3
Pas encore d'évaluation
TP Formulaires HTML5 et CSS3
6 pages
Consultant Cybersécurité - Alexandre Catteau
Pas encore d'évaluation
Consultant Cybersécurité - Alexandre Catteau
2 pages
Application de gestion de location d'événements
Pas encore d'évaluation
Application de gestion de location d'événements
52 pages
Audit de Sécurité SAST et DAST 2025
Pas encore d'évaluation
Audit de Sécurité SAST et DAST 2025
39 pages
Formation Moodle pour enseignants FLL
Pas encore d'évaluation
Formation Moodle pour enseignants FLL
12 pages
Gestion des composants Angular 6
Pas encore d'évaluation
Gestion des composants Angular 6
11 pages
Réponses CCNA 1 Cisco v6.0 Examen Final
Pas encore d'évaluation
Réponses CCNA 1 Cisco v6.0 Examen Final
27 pages
Stratégie Limbo pour Stake 2024
Pas encore d'évaluation
Stratégie Limbo pour Stake 2024
3 pages
Initiation aux produits Google
Pas encore d'évaluation
Initiation aux produits Google
13 pages
Introduction au langage PHP
Pas encore d'évaluation
Introduction au langage PHP
42 pages
Développeur Full Stack Passionné à Casablanca
Pas encore d'évaluation
Développeur Full Stack Passionné à Casablanca
1 page
Exercices HTML et CSS Corrigés PDF
Pas encore d'évaluation
Exercices HTML et CSS Corrigés PDF
5 pages
Cours d'Informatique 3ème ESG
Pas encore d'évaluation
Cours d'Informatique 3ème ESG
54 pages
Conception et Sécurisation d'un Portail Captif
Pas encore d'évaluation
Conception et Sécurisation d'un Portail Captif
3 pages
Examen Administration SE UNIX 2017
Pas encore d'évaluation
Examen Administration SE UNIX 2017
4 pages
debian-reference.fr
Pas encore d'évaluation
debian-reference.fr
279 pages
Utilisation du logiciel mBlock en 4ème
Pas encore d'évaluation
Utilisation du logiciel mBlock en 4ème
5 pages
Djalil Kitex
Pas encore d'évaluation
Djalil Kitex
27 pages
SEO et SEA : Stratégies de Marketing Digital
Pas encore d'évaluation
SEO et SEA : Stratégies de Marketing Digital
9 pages
CV d'Ibrahim Sory Diallo - Informatique
Pas encore d'évaluation
CV d'Ibrahim Sory Diallo - Informatique
3 pages
Guide complet des outils SEO Google
Pas encore d'évaluation
Guide complet des outils SEO Google
7 pages
Clients, serveurs et protocoles TCP
Pas encore d'évaluation
Clients, serveurs et protocoles TCP
1 page
Sûreté Informatique et Sécurité Mobile
Pas encore d'évaluation
Sûreté Informatique et Sécurité Mobile
33 pages