0% ont trouvé ce document utile (0 vote)

7 vues12 pages

MapReduce avec Hadoop : Guide Pratique

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

7 vues12 pages

MapReduce avec Hadoop : Guide Pratique

Transféré par

malakmekni8

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

TP 2 : MapReduce avec Hadoop

 Créer un répertoire dans HDFS

HDFS, appelé input. Pour cela, taper:

hadoop fs –mkdir -p
p input

 Nous allons utiliser le fichie

fichier [Link] comme
omme entrée pour le traitement MapReduce.
Ce fichier se trouve déjà sous le répertoire principal de votre machine master.
 Charger le fichier purchases dans le répertoire input que vous avez créé:

hadoop fs –put
put [Link] input

 Pour afficher le contenu du répertoire input, la commande est:

hadoop fs –ls input

 Pour afficher les dernières lignes du fichier purchases:

hadoop fs -tail
tail input/[Link]

 Le résultat suivant va donc s'afficher:

Interfaces web pour Hadoop

Hadoop offre plusieurs interfaces web pour pouvoir observer le comportement de ses
différentes composantes. Vous pouvez afficher ces pages en local sur votre machine grâce à l'option
-p de la commande docker run
run.. En effet, cette option permet de publier un port du contenaire

1
sur la machinee hôte. Pour pouvoir publier tous les ports exposés, vous pouvez lancer votre
contenaire en utilisant l'option -P
P.

En regardant le contenu du fichier [Link] fourni dans le projet, vous verrez

que deux ports de la machine maître ont été exposés:

 Le port 50070:: qui permet d'afficher les informations de votre namenode.

 Le port 8088:: qui permet d'afficher les informations du resource manager de Yarn et
visualiser le comportement des différents jobs.

Une fois votre cluster lancé et prêt à l'emploi, vous pouvez, sur votre navigateur préféré de votre
machine hôte, aller à : [Link]
[Link] Vous obtiendrez le résultat suivant:

Vous pouvez également visualiser l'avancement et les résultats de vos Jobs (Map Reduce ou autre)
en allant à l'adresse: [Link]

2
Map Reduce
Présentation
Un Job Map-Reduce
Reduce se compose principalement de deux types de programmes:

 Mappers : permettent d’extraire les données nécessaires sous forme de clef

clef/valeur, pour
pouvoir ensuite les trier selon la clef
 Reducers : prennent un ensemble de données triées selon leur clef
clef, et effectuent le
traitement nécessaire sur ces données (somme, moyenne, total...)

Wordcount

Nous allons tester un programme MapReduce grâce à un exemple très simple, le WordCount,
l'équivalent du HelloWorld pour les applications de traitement de données. Le Wordcount permet de
calculer le nombre de mots dans un fichier donné, en décomposant le ca
calcul
lcul en deux étapes:

 L'étape de Mapping,, qui permet de découper le texte en mots et de délivrer en sortie un flux
textuel, où chaque ligne contient le mot trouvé, suivi de la valeur 1 (pour dire que le mot a
été trouvé une fois)
 L'étape de Reducing,, qui ppermet
ermet de faire la somme des 1 pour chaque mot, pour trouver le
nombre total d'occurrences de ce mot dans le texte.

Commençons par créer un projet Maven dans IntelliJ IDEA. Nous utiliserons dans notre cas JDK
1.8.

 Définir les valeurs suivantes pour votre pprojet:

3
 GroupId: [Link]
 ArtifactId: wordcount
 Version: 1
 Ouvrir le fichier [Link], et ajouter les dépendances suivantes pour Hadoop, HDFS et Map
Reduce:

<dependencies>
<dependency>
<groupId>[Link]</groupId>
<artifactId>hadoop-common</artifactId>
<version>2.7.2</version>
</dependency>

<dependency>
<groupId>[Link]</groupId>
<artifactId>hadoop-mapreduce-client-core</artifactId>
<version>2.7.2</version>
</dependency>

<dependency>
<groupId>[Link]</groupId>
<artifactId>hadoop-hdfs</artifactId>
<version>2.7.2</version>
</dependency>
<dependency>
<groupId>[Link]</groupId>
<artifactId>hadoop-mapreduce-client-common</artifactId>
<version>2.7.2</version>
</dependency>
</dependencies>

 Créer un package iset.tp1 sous le répertoire src/main/java

 Créer la classe TokenizerMapper, contenant ce code:

package iset.tp1;

import [Link];
import [Link];
import [Link];

4
import [Link];
import [Link];

public class TokenizerMapper

extends Mapper<Object, Text, Text, IntWritable>{

private final static IntWritable one = new IntWritable(1);

private Text word = new Text();

public void map(Object key, Text value, [Link] context

) throws IOException, InterruptedException {
StringTokenizer itr = new StringTokenizer([Link]());
while ([Link]()) {
[Link]([Link]());
[Link](word, one);
}
}
}

 Créer la classe IntSumReducer:

package iset.tp1;

import [Link];
import [Link];
import [Link];

import [Link];

public class IntSumReducer

extends Reducer<Text,IntWritable,Text,IntWritable> {

private IntWritable result = new IntWritable();

public void reduce(Text key, Iterable<IntWritable> values,

Context context
) throws IOException, InterruptedException {
int sum = 0;
for (IntWritable val : values) {
[Link]("value: "+[Link]());

5
sum += [Link]();
}
[Link]("--> Sum = "+sum);
[Link](sum);
[Link](key, result);
}
}

 Enfin, créer la classe WordCount:

package iset.tp1;

import [Link];
import [Link];
import [Link];
import [Link];
import [Link];
import [Link];
import [Link];

public class WordCount {

public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
Job job = [Link](conf, "word count");
[Link]([Link]);
[Link]([Link]);
[Link]([Link]);
[Link]([Link]);
[Link]([Link]);
[Link]([Link]);
[Link](job, new Path(args[0]));
[Link](job, new Path(args[1]));
[Link]([Link](true) ? 0 : 1);
}
}

Tester Map Reduce en local

Dans votre projet sur IntelliJ:

 Créer un répertoire input sous le répertoire resources de votre projet.

 Créer un fichier de test: [Link] dans lequel vous insèrerez les deux lignes:

6
salut hello salut hi

salut hello hello hi

hello

 Créer une configuration de type Application (Run->Edit

>Edit Configurations...
Configurations...->+-
>Application).

 Définir comme Main Class

Class: [Link], et comme Program Arguments:
Arguments
src/main/resources/input/[Link] src/main/resources/output
 Lancer le programme. Un répertoire output sera créé dans le répertoire resources, contenant
notamment un fichier part
part-r-00000, dont le contenu devrait être lee suivant:

Lancer Map Reduce sur le cluster

Dans votre projet IntelliJ:

 Créer une configuration Maven avec la ligne de commande: package install

 Lancer la configuration. Un fichier [Link] sera créé dans le répertoire target du
projet.
 Copier le fichier
ichier jar créé dans le contenaire master. Pour cela:

 Ouvrir le terminal sur le répertoire du projet. Cela peut être fait avec IntelliJ en
ouvrant la vue Terminal située en bas à gauche de la fenêtre principale.

7
 Taper la commande suivante:

docker cp target/wordcount
target/[Link] hadoop-master:/root/wordcount
master:/root/[Link]

 Revenir au shell du contenaire master, et lancer le job map reduce avec cette
commande :

hadoop jar wordcount

[Link]
[Link] [Link] input output

Le Job sera lancé sur le fichier purchase

[Link] que vous aviez préalablement chargé dans le répertoire
input de HDFS. Une fois le Job terminé, un répertoire output sera créé. Si tout se passe bien, vous
obtiendrez un affichage ressemblant au suivant:

8
En affichant les dernières lignes du fichi
fichier généré output/part-r-00000, avec hadoop fs -tail
output/part-r-00000,, vous obtiendrez l'affichage suivant:

Il vous est possible de monitorer vos Jobs Map Reduce, en allant à la page:
[Link] Vous trouverez votre Job dans la liste des applications comme suit:

9
Il est également possible de voir le comportement des noeuds esclaves, en allant à l'adresse:
[Link] pour slave1, et [Link] pour slave2. Vous
obtiendrez ce qui suit:

 Refaire le même exercice mais cette fois en va le programmer en Python

- créer un fichier [Link]
nano [Link]
- écrire le code suivant :
#!/usr/bin/env python
"""[Link]"""
import sys
for line in [Link]:
line=[Link]()
words=[Link]()
for word in words:
print('%s\t%s'%(word,1))
- tapez ctr+o pour enregister et ctr+x pour quitter
- créer un fichier [Link]
nano [Link]

10
- écrire le code suivant :
#!/usr/bin/env python
import sys
prev_word=None
prev_count=0
for line in [Link]:
line=[Link]()
word,count=[Link]('\t')
count=int(count)
if prev_word==word:
prev_count+=count
else:
if prev_word:
print('%s\t%s' %(prev_word,prev_count))
prev_count=count
prev_word=word
if prev_word==word:
print('%s\t%s'%(prev_word,prev_count))
1. executer le code en local
 cat [Link] | python [Link]
salut 1
hello 1
salut 1
bienvenue 1
salut 1
salut 1
hello 1
hello 1
salut 1
bienvenue 1
bienvenue 1
hi 1
 cat [Link] | python [Link] | sort
bienvenue 1
bienvenue 1

11
bienvenue 1
hello 1
hello 1
hello 1
hi 1
salut 1
salut 1
salut 1
salut 1
salut 1
 cat [Link] | python [Link] | sort| python [Link]
bienvenue 3
hello 3
hi 1
salut 5

2. exécuetr le code sur Hadoop

- hadoop jar /usr/local/hadoop/share/hadoop/tools/lib/[Link] -file [Link]

-mapper [Link] -file [Link] -reducer [Link] -input /user/root/input/[Link] -output
/user/root/out7
- hadoop fs -ls /user/root/out7

-rw-r--r-- 2 root supergroup 0 2021-10-27 13:36 /user/root/out7/_SUCCESS

-rw-r--r-- 2 root supergroup 499048 2021-10-27 13:36 /user/root/out7/part-00000

- hadoop fs -ls /user/root/out7/part-00000

- cat part-00000

Vous aimerez peut-être aussi

Traitement Batch avec Hadoop et MapReduce
Pas encore d'évaluation
Traitement Batch avec Hadoop et MapReduce
11 pages
Traitement Batch avec Hadoop et MapReduce
Pas encore d'évaluation
Traitement Batch avec Hadoop et MapReduce
16 pages
Introduction au Framework MapReduce
Pas encore d'évaluation
Introduction au Framework MapReduce
7 pages
TP2 : WordCount avec Hadoop et Python
Pas encore d'évaluation
TP2 : WordCount avec Hadoop et Python
4 pages
TP3 MapReduce avec Hadoop et Eclipse
Pas encore d'évaluation
TP3 MapReduce avec Hadoop et Eclipse
3 pages
Atelier sur Hadoop et Docker
Pas encore d'évaluation
Atelier sur Hadoop et Docker
11 pages
Modèle MapReduce : TP WordCount
Pas encore d'évaluation
Modèle MapReduce : TP WordCount
25 pages
MapReduce sur Hadoop : Guide Pratique
Pas encore d'évaluation
MapReduce sur Hadoop : Guide Pratique
5 pages
Mise en place d'un cluster Hadoop avec Docker
Pas encore d'évaluation
Mise en place d'un cluster Hadoop avec Docker
12 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
10 pages
Test de MapReduce avec Python et Hadoop
Pas encore d'évaluation
Test de MapReduce avec Python et Hadoop
8 pages
Compte rendu TP Big Data: Hadoop et MapReduce
Pas encore d'évaluation
Compte rendu TP Big Data: Hadoop et MapReduce
6 pages
Compte Rendu TP Big Data: Hadoop
Pas encore d'évaluation
Compte Rendu TP Big Data: Hadoop
6 pages
Modèle MapReduce pour le Big Data
Pas encore d'évaluation
Modèle MapReduce pour le Big Data
25 pages
TP1 : Introduction à Hadoop et MapReduce
Pas encore d'évaluation
TP1 : Introduction à Hadoop et MapReduce
15 pages
Exécution d'un Compteur de Mots Hadoop
Pas encore d'évaluation
Exécution d'un Compteur de Mots Hadoop
12 pages
TP2 MR
Pas encore d'évaluation
TP2 MR
5 pages
Introduction au Job MapReduce WordCount
Pas encore d'évaluation
Introduction au Job MapReduce WordCount
8 pages
Introduction à MapReduce et Hadoop
Pas encore d'évaluation
Introduction à MapReduce et Hadoop
15 pages
Atelier MapReduce-Diff
Pas encore d'évaluation
Atelier MapReduce-Diff
6 pages
Traitement Batch avec Hadoop et MapReduce
Pas encore d'évaluation
Traitement Batch avec Hadoop et MapReduce
10 pages
TP Hadoop et MapReduce en Python
Pas encore d'évaluation
TP Hadoop et MapReduce en Python
4 pages
MapReduce : WordCount et Ventes Magasin
Pas encore d'évaluation
MapReduce : WordCount et Ventes Magasin
9 pages
Exécution de MapReduce avec Hadoop YARN
Pas encore d'évaluation
Exécution de MapReduce avec Hadoop YARN
7 pages
Exécution de MapReduce avec Hadoop
Pas encore d'évaluation
Exécution de MapReduce avec Hadoop
5 pages
Initiation à Hadoop et Map-Reduce
Pas encore d'évaluation
Initiation à Hadoop et Map-Reduce
10 pages
Introduction à Hadoop et Map-Reduce
100% (1)
Introduction à Hadoop et Map-Reduce
9 pages
Guide Hadoop MapReduce WordCount
Pas encore d'évaluation
Guide Hadoop MapReduce WordCount
4 pages
MapReduce en Python pour Big Data
Pas encore d'évaluation
MapReduce en Python pour Big Data
3 pages
TP Map-Reduce avec Hadoop en Python
Pas encore d'évaluation
TP Map-Reduce avec Hadoop en Python
5 pages
Introduction à Hadoop et MapReduce
100% (1)
Introduction à Hadoop et MapReduce
5 pages
Tutoriel Hadoop MapReduce en Français
Pas encore d'évaluation
Tutoriel Hadoop MapReduce en Français
4 pages
Introduction à Hadoop MapReduce et WordCount
Pas encore d'évaluation
Introduction à Hadoop MapReduce et WordCount
8 pages
WordCount avec Hadoop MapReduce
Pas encore d'évaluation
WordCount avec Hadoop MapReduce
3 pages
Introduction à MapReduce et Hadoop
Pas encore d'évaluation
Introduction à MapReduce et Hadoop
9 pages
Introduction à Hadoop et Map-Reduce
Pas encore d'évaluation
Introduction à Hadoop et Map-Reduce
8 pages
MapReduce WordCount en Python
Pas encore d'évaluation
MapReduce WordCount en Python
12 pages
TP2 Hadoop MapReduce
Pas encore d'évaluation
TP2 Hadoop MapReduce
9 pages
TP MapReduce : Compteur de Mots Hadoop
Pas encore d'évaluation
TP MapReduce : Compteur de Mots Hadoop
3 pages
Initiation à Hadoop et MapReduce en TP
100% (1)
Initiation à Hadoop et MapReduce en TP
9 pages
Traitement de données avec Hadoop HDFS
Pas encore d'évaluation
Traitement de données avec Hadoop HDFS
3 pages
Introduction à Map-Reduce et TP Hadoop
Pas encore d'évaluation
Introduction à Map-Reduce et TP Hadoop
7 pages
Introduction à Hadoop et Map Reduce
Pas encore d'évaluation
Introduction à Hadoop et Map Reduce
5 pages
tp1 Initiationahadoopetmapreduce 140428050032 Phpapp02
Pas encore d'évaluation
tp1 Initiationahadoopetmapreduce 140428050032 Phpapp02
10 pages
MapReduce : Traitement Big Data Efficace
Pas encore d'évaluation
MapReduce : Traitement Big Data Efficace
29 pages
Installation et exécution de Hadoop
Pas encore d'évaluation
Installation et exécution de Hadoop
4 pages
Introduction aux Algorithmes Map-Reduce
Pas encore d'évaluation
Introduction aux Algorithmes Map-Reduce
34 pages
Initiation à Hadoop et MapReduce
100% (4)
Initiation à Hadoop et MapReduce
5 pages
Origine et fonctionnement d'Hadoop
Pas encore d'évaluation
Origine et fonctionnement d'Hadoop
18 pages
Hadoop et MapReduce : Guide Complet
Pas encore d'évaluation
Hadoop et MapReduce : Guide Complet
43 pages
Guide pratique MapReduce avec Hadoop
Pas encore d'évaluation
Guide pratique MapReduce avec Hadoop
14 pages
Compte de mots avec MapReduce en Java
Pas encore d'évaluation
Compte de mots avec MapReduce en Java
7 pages
Introduction à l'Algorithme MapReduce
Pas encore d'évaluation
Introduction à l'Algorithme MapReduce
10 pages
Cours 03 MapReduce
Pas encore d'évaluation
Cours 03 MapReduce
36 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
58 pages
Introduction à Hadoop MapReduce
Pas encore d'évaluation
Introduction à Hadoop MapReduce
4 pages
Introduction au MapReduce et WordCount
Pas encore d'évaluation
Introduction au MapReduce et WordCount
3 pages
Introduction à MapReduce avec Hadoop
Pas encore d'évaluation
Introduction à MapReduce avec Hadoop
16 pages
Introduction à Map Reduce dans Hadoop
Pas encore d'évaluation
Introduction à Map Reduce dans Hadoop
38 pages
Rapport de projet en informatique
Pas encore d'évaluation
Rapport de projet en informatique
2 pages
Dédicace et Remerciements du Projet
Pas encore d'évaluation
Dédicace et Remerciements du Projet
93 pages
Objectif du Système de Suivi et Évaluation
Pas encore d'évaluation
Objectif du Système de Suivi et Évaluation
1 page
Guide de mise en œuvre ISO 37000
100% (1)
Guide de mise en œuvre ISO 37000
21 pages
Système de mesure pour la gouvernance
Pas encore d'évaluation
Système de mesure pour la gouvernance
1 page
Livret de Stage pour Étudiants ISET
Pas encore d'évaluation
Livret de Stage pour Étudiants ISET
14 pages
Développeur Web : Front & Back-End
Pas encore d'évaluation
Développeur Web : Front & Back-End
1 page
TD 2: Codage de Signal, Détection Et Correction D Erreur
Pas encore d'évaluation
TD 2: Codage de Signal, Détection Et Correction D Erreur
1 page
Manuel utilisateur MXL: Système AIM
Pas encore d'évaluation
Manuel utilisateur MXL: Système AIM
45 pages
Microprocesseurs et programmation assembleur
Pas encore d'évaluation
Microprocesseurs et programmation assembleur
64 pages
Analyse paramétrique avec PSpice
Pas encore d'évaluation
Analyse paramétrique avec PSpice
48 pages
Correction TD Systèmes Embarqués 2019-2020
Pas encore d'évaluation
Correction TD Systèmes Embarqués 2019-2020
19 pages
Circuits avec bascules SR et D
Pas encore d'évaluation
Circuits avec bascules SR et D
3 pages
Introduction à RMI en Java
Pas encore d'évaluation
Introduction à RMI en Java
7 pages
Initiation au BBC Micro:bit en art
Pas encore d'évaluation
Initiation au BBC Micro:bit en art
24 pages
Épreuves Informatique Probatoire A4 2024
Pas encore d'évaluation
Épreuves Informatique Probatoire A4 2024
2 pages
Réponses CCNA 1 Cisco Chapitre 1 et 2
Pas encore d'évaluation
Réponses CCNA 1 Cisco Chapitre 1 et 2
102 pages
Cours d'Électronique de Puissance
Pas encore d'évaluation
Cours d'Électronique de Puissance
2 pages
Introduction aux Fondamentaux des Ordinateurs
Pas encore d'évaluation
Introduction aux Fondamentaux des Ordinateurs
15 pages
Formation Installation Réseau Informatique
Pas encore d'évaluation
Formation Installation Réseau Informatique
3 pages
Recensement du Matériel Informatique
Pas encore d'évaluation
Recensement du Matériel Informatique
7 pages
Introduction aux capteurs et leurs types
Pas encore d'évaluation
Introduction aux capteurs et leurs types
2 pages
Impression Bluetooth avec WinDev
100% (2)
Impression Bluetooth avec WinDev
2 pages
Comprendre les réseaux informatiques et leurs types
Pas encore d'évaluation
Comprendre les réseaux informatiques et leurs types
6 pages
Outils et mesures pour fibre optique
Pas encore d'évaluation
Outils et mesures pour fibre optique
18 pages
Gestion de la population à Lingwala
Pas encore d'évaluation
Gestion de la population à Lingwala
70 pages
Concepts clés des systèmes informatiques
Pas encore d'évaluation
Concepts clés des systèmes informatiques
3 pages
Cours D'informatique l1 LMD Economie Unir-Kan
Pas encore d'évaluation
Cours D'informatique l1 LMD Economie Unir-Kan
30 pages
Examen Electronique 2021
Pas encore d'évaluation
Examen Electronique 2021
5 pages
tp1 Reseaux Des Capteurs-Converti
Pas encore d'évaluation
tp1 Reseaux Des Capteurs-Converti
5 pages
Guide rapide sur le cadre HID USB PIC
Pas encore d'évaluation
Guide rapide sur le cadre HID USB PIC
29 pages
Maintenance des pilotes de périphériques
Pas encore d'évaluation
Maintenance des pilotes de périphériques
13 pages
Introduction à la modulation PWM
Pas encore d'évaluation
Introduction à la modulation PWM
5 pages
Montage et Démontage d'une Unité Centrale
Pas encore d'évaluation
Montage et Démontage d'une Unité Centrale
8 pages
Vulnérabilités du WPS en mode PIN
Pas encore d'évaluation
Vulnérabilités du WPS en mode PIN
23 pages
Propositions Des Sujets PFE - N1
Pas encore d'évaluation
Propositions Des Sujets PFE - N1
3 pages
Compilateur C CC5X pour PIC et MPLAB
Pas encore d'évaluation
Compilateur C CC5X pour PIC et MPLAB
13 pages