0% ont trouvé ce document utile (0 vote)

20 vues17 pages

TP2: Introduction à Apache Spark

Ce document présente un travail pratique sur Apache Spark réalisé par des étudiants de l'Ecole Supérieure Polytechnique, détaillant l'installation, les tests et l'utilisation de Spark pour le traitement de données. Il couvre des sujets tels que l'API de Spark, le traitement par lots en Java, et le streaming, avec des exemples de code et des instructions pour exécuter des tâches sur un cluster Hadoop. Le TP vise à démontrer les capacités de Spark dans le traitement rapide et parallèle des données.

Transféré par

Solange Angélique Ndene

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

20 vues17 pages

TP2: Introduction à Apache Spark

Transféré par

Solange Angélique Ndene

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université Cheikh Anta Diop

Ecole Supérieure Polytechnique

Département Génie Informatique

Année Universitaire 2022-2023

Module: Big Data

TP2: Apache Spark

Travail réalisé par le binôme : Seynabou Diop et Maty Seck MBOUP

DIC3-Informatique
Table des matières
Présentation ......................................................................................................... 3
Installation ........................................................................................................... 3
Test de Spark avec Spark-Shell............................................................................... 4
L'API de Spark ....................................................................................................... 5
Exemple ........................................................................................................... 6
Spark Batch en Java .............................................................................................. 7
Préparation de l'environnement et Code ............................................................. 7
Test du code en local ........................................................................................ 8
Lancement du code sur le cluster ..................................................................... 10
Spark Streaming ................................................................................................. 13
Environnement et Code ................................................................................... 13
Test du code en Local ...................................................................................... 14
Lancement du code sur le cluster ..................................................................... 15
Présentation

Spark [[Link] est un système de traitement rapide et parallèle. Il fournit des

APIs de haut niveau en Java, Scala, Python et R, et un moteur optimisé qui supporte l'exécution
des graphes. Il supporte également un ensemble d'outils de haut niveau tels que Spark SQL.

Spark peut s'exécuter sur plusieurs plateformes : Hadoop, Mesos, en standalone ou sur le
cloud. Il peut également accéder diverses sources de données, comme HDFS, Cassandra,
HBase et S3.
Dans ce TP, nous allons exécuter Spark sur Hadoop YARN. YARN s'occupera ainsi de la
gestion des ressources pour le déclenchement et l'exécution des Jobs Spark.

Installation
Nous avons procédé à l'installation de Spark sur le cluster Hadoop utilisé dans le TP1.
Maintenant nous allons lancer nos machines grâce aux commandes suivantes puis allons entrer
dans le contenaire master. Nous lancerons ensuite les démons yarn et hdfs :

Vérifions que tous les démons sont lancés en tapant : jps

La même opération sur les nœuds esclaves a donné :

Test de Spark avec Spark-Shell

Dans le but de tester l'exécution de Spark, commençons par créer un fichier [Link] dans notre
nœud master, contenant le texte suivant :

Chargeons-le ensuite dans HDFS :

Spark-shell : Vérifions si spark-shell est bien installé en tapant la commande spark-shell:

Testons Spark avec un code scala simple comme suit (à exécuter ligne par ligne) :

Pour afficher le résultat, sortons de spark-shell en cliquant sur Ctrl-C. Nous téléchargeons
ensuite le répertoire [Link] créé dans HDFS comme suit :

L'API de Spark
A un haut niveau d'abstraction, chaque application Spark consiste en un programme driver qui
exécute la fonction main de l'utilisateur et lance plusieurs opérations parallèles sur le cluster.
L'abstraction principale fournie par Spark est un RDD (Resilient Distributed Dataset), qui
représente une collection d'éléments partitionnés à travers les noeuds du cluster, et sur
lesquelles on peut opérer en parallèle.
Exemple
L'exemple que nous allons présenter ici par étapes permet de relever les mots les plus
fréquents dans un fichier. Pour cela, le code suivant est utilisé :

Etape 1 : Créons un RDD à partir d'un fichier texte de Hadoop

Etape 2 : Convertissons les lignes en minuscule

Etape 3 : Séparons les lignes en mots

Etape 4 : Produisons les tuples (mot, 1)

Etape 5 : Comptons tous les mots

Etape 6 : Inverser les tuples (action de sélection des n premiers

Spark Batch en Java

Préparation de l'environnement et Code

Nous allons dans cette partie créer un projet Spark Batch en Java (un simple WordCount), le
charger sur le cluster et lancer le job.
1. Créons un projet Maven avec IntelliJ IDEA, en utilisant la config suivante :

2. Rajoutons dans le fichier pom les dépendances nécessaires, et indiquer la version du

compilateur Java:

3. Sous le répertoire java, créons un package que vous appellerez [Link].tp21, et dedans, une
classe appelée WordCountTask :
C’est fait voir l’illustration dans la figure de la réponse suivante.

4. Écrivons le code suivant dans WordCountTask (N'oubliez pas de rajouter les imports
nécessaires !) :

Test du code en local

1. Insérons un fichier texte [Link] dans le répertoire src/main/resources.

2. Créons une nouvelle configuration de type "Application" (Run->Edit

Configurations) que nous appelons WordCountTask, et définissons les arguments suivants
(fichier de départ et répertoire d'arrivée) comme Program arguments :
3. Cliquons sur OK, et lancer la configuration. Si tout se passe bien, un répertoire out sera créé
sous resources, qui contient deux fichiers : part-00000, part-
00001.
Lancement du code sur le cluster
Pour exécuter le code sur le cluster, nous avons modifié comme indiqué dans l’énoncé les lignes
en jaune.
Lançons ensuite une configuration de type Maven. Un fichier intitulé [Link] est créé
sous le répertoire target :
Nous allons maintenant copier ce fichier dans docker. Pour cela, naviguons vers le répertoire
du projet avec votre terminal (ou plus simplement utiliser le terminal dans IntelliJ), et tapons
la commande suivante :

Revenons à votre contenaire master, et lançons un job Spark en utilisant ce fichier jar généré,
avec la commande spark-submit, un script utilisé pour lancer des applications spark sur un
cluster.

Tout se passe bien, nous trouverons dans le répertoire output, deux fichiers part-00000 et part-
00001, qui ressemblent à ce qui suit :
Nous allons maintenant tester le comportement de spark-submit si on l'exécuteen mode cluster
sur YARN. Pour cela, exécuter le code suivant :

Tout se passe bien, nous obtenons un répertoire output2 dans HDFS avec les fichiers usuels.
Spark Streaming
Environnement et Code
Nous allons commencer par tester le streaming en local, comme d'habitude.
Pour cela :

1. Commençons par créer un nouveau projet Maven, avec le fichier pom suivant :
2. Créons une classe [Link] avec le code suivant:

Ce code permet de calculer le nombre de mots dans un stream de données toutes les secondes.

Test du code en Local

Le Stream ici sera diffusé par une petite commande utilitaire qui se trouve dans la majorité des
systèmes Unix-like.
Exécutons notre classe Stream. On voit sur notre console des lignes en continu :
l'application est en écoute sur localhost:9999.
Ouvrons un terminal, et tapons la commande suivante pour créer le stream:
o nc -lk 9999
A chaque fois qu’on écrit quelque chose sur le terminal, l'application l'intercepte, et
l'affichage sur l'écran de la console change, comme suit :
Ensuite, pour voir le résultat final du comptage, arrêter l'exécution en cliquant sur le
carré rouge, puis observons la console, nous voyons un affichage qui ressemble à ceci :

Lancement du code sur le cluster

Lançons un mvn package install pour créer le fichier jar.

Copions le fichier jar sur le contenaire hadoop :

Lançons la commande suivante puis observons le résultat :

Comme le résultat obtenu quand on lançait en local, à chaque fois qu’on écrit quelque chose
sur le terminal, l'application l'intercepte, et l'affichage sur l'écran de la console change, comme
suit :
Fin du tp

Vous aimerez peut-être aussi

Traitement Batch et Streaming avec Spark
Pas encore d'évaluation
Traitement Batch et Streaming avec Spark
21 pages
Traitement Batch et Streaming avec Spark
Pas encore d'évaluation
Traitement Batch et Streaming avec Spark
13 pages
Traitement de données avec Spark et Hadoop
Pas encore d'évaluation
Traitement de données avec Spark et Hadoop
22 pages
TP Big Data
Pas encore d'évaluation
TP Big Data
21 pages
Introduction à Apache Spark
Pas encore d'évaluation
Introduction à Apache Spark
53 pages
Introduction à Apache Spark
Pas encore d'évaluation
Introduction à Apache Spark
7 pages
Analyse Big Data avec Scala et Spark
Pas encore d'évaluation
Analyse Big Data avec Scala et Spark
35 pages
Introduction à Apache Spark et Cassandra
Pas encore d'évaluation
Introduction à Apache Spark et Cassandra
7 pages
Installation et utilisation de Spark
Pas encore d'évaluation
Installation et utilisation de Spark
11 pages
Tutoriel complet sur Apache Spark
Pas encore d'évaluation
Tutoriel complet sur Apache Spark
6 pages
Installer Spark sur un Cluster Hadoop
Pas encore d'évaluation
Installer Spark sur un Cluster Hadoop
6 pages
Introduction à Apache Spark
Pas encore d'évaluation
Introduction à Apache Spark
20 pages
Introduction à Spark en Java 8
Pas encore d'évaluation
Introduction à Spark en Java 8
8 pages
Introduction à Apache Spark et ses composants
Pas encore d'évaluation
Introduction à Apache Spark et ses composants
7 pages
Initiation à Spark avec Scala et Java
Pas encore d'évaluation
Initiation à Spark avec Scala et Java
33 pages
Introduction à Apache Spark
Pas encore d'évaluation
Introduction à Apache Spark
4 pages
Introduction à Apache Spark et RDDs
Pas encore d'évaluation
Introduction à Apache Spark et RDDs
138 pages
Spark Corrigé (1) (1) .PDF - Crdownload
Pas encore d'évaluation
Spark Corrigé (1) (1) .PDF - Crdownload
24 pages
Introduction à Apache Spark Big Data
Pas encore d'évaluation
Introduction à Apache Spark Big Data
24 pages
TP Big Data : RDDs et K-means avec Spark
Pas encore d'évaluation
TP Big Data : RDDs et K-means avec Spark
3 pages
Installation et Concepts de PySpark
Pas encore d'évaluation
Installation et Concepts de PySpark
6 pages
Introduction à Apache Spark et Big Data
Pas encore d'évaluation
Introduction à Apache Spark et Big Data
3 pages
Introduction à Apache Spark et ses avantages
Pas encore d'évaluation
Introduction à Apache Spark et ses avantages
15 pages
Spark +SCALA
Pas encore d'évaluation
Spark +SCALA
13 pages
TP Spark Shell et RDDs en Scala
Pas encore d'évaluation
TP Spark Shell et RDDs en Scala
3 pages
Introduction à Hadoop et Spark
Pas encore d'évaluation
Introduction à Hadoop et Spark
93 pages
TP2 Spark Amini Bekkar Compressed
Pas encore d'évaluation
TP2 Spark Amini Bekkar Compressed
15 pages
Slide Formation Spark
Pas encore d'évaluation
Slide Formation Spark
38 pages
Introduction à Apache Spark
Pas encore d'évaluation
Introduction à Apache Spark
18 pages
Introduction à Apache Spark 2016
Pas encore d'évaluation
Introduction à Apache Spark 2016
14 pages
Installation et utilisation de Spark avec Scala
Pas encore d'évaluation
Installation et utilisation de Spark avec Scala
4 pages
Introduction à Apache Spark et Big Data
Pas encore d'évaluation
Introduction à Apache Spark et Big Data
27 pages
Chapitre VI-4 Traitement Avancés BIG Data SPARK
Pas encore d'évaluation
Chapitre VI-4 Traitement Avancés BIG Data SPARK
33 pages
Introduction à Spark pour Big Data
Pas encore d'évaluation
Introduction à Spark pour Big Data
6 pages
Exécution et Installation de Spark
Pas encore d'évaluation
Exécution et Installation de Spark
15 pages
Introduction à Spark sur Cloudera
Pas encore d'évaluation
Introduction à Spark sur Cloudera
3 pages
Introduction à Apache Spark et Big Data
Pas encore d'évaluation
Introduction à Apache Spark et Big Data
90 pages
Introduction à Apache Spark et RDDs
Pas encore d'évaluation
Introduction à Apache Spark et RDDs
13 pages
Introduction aux RDD dans Spark
Pas encore d'évaluation
Introduction aux RDD dans Spark
10 pages
Introduction à MLlib avec PySpark
Pas encore d'évaluation
Introduction à MLlib avec PySpark
7 pages
TP Apache Spark : RDDs et K-means
Pas encore d'évaluation
TP Apache Spark : RDDs et K-means
3 pages
Introduction à Apache Spark et RDDs
Pas encore d'évaluation
Introduction à Apache Spark et RDDs
59 pages
Cours Spark
Pas encore d'évaluation
Cours Spark
50 pages
TP Big Data : Traitement avec Spark
Pas encore d'évaluation
TP Big Data : Traitement avec Spark
7 pages
Installation d'outils Big Data avec Spark
Pas encore d'évaluation
Installation d'outils Big Data avec Spark
23 pages
Introduction à PySpark et RDD
Pas encore d'évaluation
Introduction à PySpark et RDD
5 pages
Chapitre 1 - Spark Overview
Pas encore d'évaluation
Chapitre 1 - Spark Overview
14 pages
Configuration d'un cluster Spark sous Docker
Pas encore d'évaluation
Configuration d'un cluster Spark sous Docker
8 pages
Introduction à Apache Spark en Big Data
Pas encore d'évaluation
Introduction à Apache Spark en Big Data
79 pages
Spark
Pas encore d'évaluation
Spark
7 pages
Introduction à Apache Spark et ses fonctionnalités
Pas encore d'évaluation
Introduction à Apache Spark et ses fonctionnalités
48 pages
Introduction à PySpark et Hadoop
Pas encore d'évaluation
Introduction à PySpark et Hadoop
61 pages
Installation d'Apache Spark et Configuration
100% (1)
Installation d'Apache Spark et Configuration
4 pages
Formation Spark Java pour Big Data
Pas encore d'évaluation
Formation Spark Java pour Big Data
2 pages
Introduction à Apache Spark et NoSQL
Pas encore d'évaluation
Introduction à Apache Spark et NoSQL
91 pages
TP Spark : Manipulation de RDD en PySpark
Pas encore d'évaluation
TP Spark : Manipulation de RDD en PySpark
5 pages
Introduction à Apache Spark en 14 Semaines
Pas encore d'évaluation
Introduction à Apache Spark en 14 Semaines
10 pages
Concert de Louange de la Chorale de Kigali
Pas encore d'évaluation
Concert de Louange de la Chorale de Kigali
2 pages
Guide d'accueil Direction Plateformes Cloud
Pas encore d'évaluation
Guide d'accueil Direction Plateformes Cloud
27 pages
Politique de Sécurité Globale Orange
Pas encore d'évaluation
Politique de Sécurité Globale Orange
37 pages
Incident Urs Kaolack - Résolution 09/06/25
Pas encore d'évaluation
Incident Urs Kaolack - Résolution 09/06/25
2 pages
CV Stage Alternance
Pas encore d'évaluation
CV Stage Alternance
1 page
Dégradation des indicateurs Data Mobile
Pas encore d'évaluation
Dégradation des indicateurs Data Mobile
7 pages
Guide pratique de l'architecture Zero Trust
Pas encore d'évaluation
Guide pratique de l'architecture Zero Trust
26 pages
Rapport sur la sécurité Zero Trust à SONATEL
Pas encore d'évaluation
Rapport sur la sécurité Zero Trust à SONATEL
2 pages
Besoins de sécurité de la SONATEL
Pas encore d'évaluation
Besoins de sécurité de la SONATEL
1 page
Introduction aux ordinateurs et logiciels
Pas encore d'évaluation
Introduction aux ordinateurs et logiciels
27 pages
Psaume 33(34) : Goûtez et voyez
Pas encore d'évaluation
Psaume 33(34) : Goûtez et voyez
1 page
Formation CDC-E10B3 pour Techniciens
Pas encore d'évaluation
Formation CDC-E10B3 pour Techniciens
107 pages
Calcul de Probabilité : Concepts et Méthodes
Pas encore d'évaluation
Calcul de Probabilité : Concepts et Méthodes
27 pages
Temps d'exécution et complexité des algorithmes
Pas encore d'évaluation
Temps d'exécution et complexité des algorithmes
29 pages
Méthodes de résolution des récurrences
Pas encore d'évaluation
Méthodes de résolution des récurrences
75 pages
Segmentation 3D des Méningiomes en TP
Pas encore d'évaluation
Segmentation 3D des Méningiomes en TP
8 pages
Exercices sur Antennes et Propagation
Pas encore d'évaluation
Exercices sur Antennes et Propagation
3 pages
Visualisation 3D avec 3D Slicer en imagerie
Pas encore d'évaluation
Visualisation 3D avec 3D Slicer en imagerie
8 pages
Introduction à MPLS et ses principes
Pas encore d'évaluation
Introduction à MPLS et ses principes
40 pages
Travaux Pratiques sur Réseaux ATM
Pas encore d'évaluation
Travaux Pratiques sur Réseaux ATM
18 pages
Projet Suñu Kalpe : Plateforme d'Épargne
Pas encore d'évaluation
Projet Suñu Kalpe : Plateforme d'Épargne
3 pages
Circuit d'E/S Intel 8255A
100% (1)
Circuit d'E/S Intel 8255A
8 pages
Algorithmes en classe de seconde
Pas encore d'évaluation
Algorithmes en classe de seconde
5 pages
Threads et Parallélisme en Systèmes d'Exploitation
Pas encore d'évaluation
Threads et Parallélisme en Systèmes d'Exploitation
2 pages
Comprendre les Algorithmes en Cuisine
Pas encore d'évaluation
Comprendre les Algorithmes en Cuisine
90 pages
Évaluation en Informatique - 3ème Trimestre
Pas encore d'évaluation
Évaluation en Informatique - 3ème Trimestre
2 pages
Déverrouillage facile des téléphones Android
Pas encore d'évaluation
Déverrouillage facile des téléphones Android
11 pages
Gestion des Entrées/Sorties en Java
Pas encore d'évaluation
Gestion des Entrées/Sorties en Java
55 pages
Proposition de matériel TPV ZAI
Pas encore d'évaluation
Proposition de matériel TPV ZAI
2 pages
Préparation Universitaire en Informatique
Pas encore d'évaluation
Préparation Universitaire en Informatique
1 page
Écran Dynamique 55'' UHD 4K 24/7
Pas encore d'évaluation
Écran Dynamique 55'' UHD 4K 24/7
3 pages
Dashboard Guide
Pas encore d'évaluation
Dashboard Guide
25 pages
Simulation de réseaux avec Filius
Pas encore d'évaluation
Simulation de réseaux avec Filius
4 pages
Introduction à Visual Basic et Macros
Pas encore d'évaluation
Introduction à Visual Basic et Macros
43 pages
Protocoles et Modèles de Réseaux TCP/IP
Pas encore d'évaluation
Protocoles et Modèles de Réseaux TCP/IP
56 pages
Formation sur Microsoft Excel 2007
Pas encore d'évaluation
Formation sur Microsoft Excel 2007
1 page
Protocole Modbus : Communication et Trames
Pas encore d'évaluation
Protocole Modbus : Communication et Trames
28 pages
Installation et Décryptage sur Mac
Pas encore d'évaluation
Installation et Décryptage sur Mac
71 pages
Examen UNIX & LINUX - IG 3.1
Pas encore d'évaluation
Examen UNIX & LINUX - IG 3.1
13 pages
Introduction au Système Linux
Pas encore d'évaluation
Introduction au Système Linux
78 pages
Backend pour livres interactifs PDF
Pas encore d'évaluation
Backend pour livres interactifs PDF
3 pages
Tester vos connaissances en réseau
Pas encore d'évaluation
Tester vos connaissances en réseau
3 pages
Informatique en RDC : Histoire et Outils
Pas encore d'évaluation
Informatique en RDC : Histoire et Outils
8 pages
Stations de Soudage et Outils Mécaniques
Pas encore d'évaluation
Stations de Soudage et Outils Mécaniques
26 pages
Introduction à Code::Blocks sur Linux
Pas encore d'évaluation
Introduction à Code::Blocks sur Linux
4 pages
Catalogue de Formations CAFIMB 2015
Pas encore d'évaluation
Catalogue de Formations CAFIMB 2015
28 pages
Registre OPTION_REG et Timer0 PIC16F877A
100% (1)
Registre OPTION_REG et Timer0 PIC16F877A
2 pages
Corrigé - TD1 - Développement Des Applications Réparties
Pas encore d'évaluation
Corrigé - TD1 - Développement Des Applications Réparties
5 pages
Groupe PGM Informatique et Gaming
Pas encore d'évaluation
Groupe PGM Informatique et Gaming
1 page
Installer Nagios sur Windows pour OSSIM
Pas encore d'évaluation
Installer Nagios sur Windows pour OSSIM
2 pages
Exercices d'Algorithmique en C et C++
Pas encore d'évaluation
Exercices d'Algorithmique en C et C++
7 pages