0% ont trouvé ce document utile (0 vote)

214 vues6 pages

Introduction à Spark et Scala

Ce document introduit Spark et Scala pour l'atelier Big Data avancée. Il présente l'installation d'un environnement Docker avec Hadoop et Zeppelin puis décrit diverses opérations sur des RDD avec Spark comme la lecture de fichiers, le filtrage, le comptage de mots ou la mise en cache.

Transféré par

Mariem Korghli

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

214 vues6 pages

Introduction à Spark et Scala

Transféré par

Mariem Korghli

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Atelier Big Data avancée 20/21

TP2 Introduction à spark et

scala
Introduction
Ce TP s'appuie sur une distribution hadoop qu'on déploie avec Docker et que l'on trouve sur
github :
[Link]
On utilise également Zeppelin. C'est un notebook qui permet d'exécuter des codes scala et
de voir de façon conviviale les résultats de certaines commandes. Ca ressemble un peu au
iPython Notebook.

Installation de l'environnement
# récupérer le docker
git clone [Link]
cd docker-single-node-hadoop
docker-compose build
docker-compose up -d

# entrer dans le docker

docker exec -ti dockersinglenodehadoop_hsn_1 bash

# aller voir zeppelin dans son navigateur

# aller sur [Link]

# volumes partagés par docker

# le répertoire docker_data du repository est monté sur /data à l'intérieur du docker

Quelques rappel des principes, les RDD dans spark

Spark manipule des RDD (Resilient Distributed Dataset). Des RDD sont des listes
immutables.
Dans spark on enchaine des traitements sur des RDD pour obtenir de nouveaux RDD pour
l'étape d'après. C'est par ces enchaînements (workflow) qu'on fait des opérations avec
spark.
On a 2 types d'opérations sur le RDD :
 Les transformations ne font que définir le workflow des RDD mais n'exécutent pas
les calculs ([Link], filter(), ...)
 Les actions lancent les calculs proprement dit et renvoient un résultat (count(),
saveAsTextFile,...)

RSI31 Page 1
Atelier Big Data avancée 20/21

Opérations usuelles
Créer un RDD à la main

// créer un RDD à la main

val lines = [Link](List("chien", "chat"))
// compter les lignes du RDD
[Link]()

lire un fichier présent dans HDFS

Dans le docker :
Créer un fichier texte chemin_faisant.txt contenant le texte suivant :
Marcheur, ce sont tes traces
ce chemin, et rien de plus ;
Marcheur, il n'y a pas de chemin,
Le chemin se construit en marchant.
En marchant se construit le chemin,
Et en regardant en arrière
On voit la sente que jamais
On ne foulera à nouveau.
Marcheur, il n'y a pas de chemin,
Seulement des sillages sur la mer.

Antonio Machado

# copier le fichier dans hdfs

hdfs dfs -put chemin_faisant.txt /tmp/chemin_faisant.txt

# vérifier qu'il a bien été transféré

hdfs dfs -put chemin_faisant.txt /tmp/chemin_faisant.txt

Aller dans zeppelin à l'adresse [Link] et créer un nouveau notebook.

Dans ce notebook, exécutez les commandes suivantes :

// créer un RDD avec le contenu du fichier.

// note : dans notre docker, localhost:9000 est le host et le port de hdfs.
var lines = [Link]("hdfs://localhost:9000/tmp/chemin_faisant.txt")

// compte le nombre d'élément du RDD

[Link]()

// renvoie la 1ère ligne du RDD

[Link]()

// prend les 5 premières lignes du RDD et les affiches les unes sous les autres
[Link](5).foreach(println)

RSI31 Page 2
Atelier Big Data avancée 20/21

/* retour :
lines: [Link][String] = MapPartitionsRDD[15] at textFile at <console>:25
res22: Long = 12
res25: String = Marcheur, ce sont tes traces
Marcheur, ce sont tes traces
ce chemin, et rien de plus ;
Marcheur, il n'y a pas de chemin,
Le chemin se construit en marchant.
En marchant se construit le chemin,
*/

Filtrer des lignes

On va enchaîner 2 RDD

var lines = [Link]("hdfs://localhost:9000/tmp/chemin_faisant.txt")

var cheminLines = [Link](line => [Link]("chemin"))
[Link]()
[Link]()

/** @returns
lines: [Link][String] = MapPartitionsRDD[19] at textFile at <console>:23
cheminLines: [Link][String] = MapPartitionsRDD[20] at filter at <console>:25
res28: Long = 12
res29: Long = 5
*/

Compter les mots

val input = [Link]("hdfs://localhost:9000/tmp/chemin_faisant.txt")

val words = [Link](line => [Link](" "))
val counts = [Link](word => (word, 1)).reduceByKey{case (x, y) => x + y}
[Link]("/data/transfert/tuto_spark/word_count_result")
// lire les fichiers part-00000 et part-00001 pour voir le résultat du calcul

Mettre un RDD en cache

var lines = [Link]("hdfs://localhost:9000/tmp/chemin_faisant.txt")

var cheminLines = [Link](line => [Link]("chemin"))

// ici, on indique que cheminLines doit être enregistré en cache

// on a donc pas à le recalculer 2 fois pour le count() et pour le first()
[Link]

[Link]()
[Link]()

RSI31 Page 3
Atelier Big Data avancée 20/21

Unir 2 RDD : union

Warning, le processus ne dédoublonne pas. Certaines lignes se retrouvent 2 fois dans le
RDD final.

var lines = [Link]("hdfs://localhost:9000/tmp/chemin_faisant.txt")

var cheminLines = [Link](line => [Link]("chemin"))
var marcheurLines = [Link](line => [Link]("Marcheur"))
var cheminOuMarcheurLines = [Link](marcheurLines)
[Link]
[Link]()
[Link]()
[Link]()
[Link]()

/* returns
res83: Long = 8
res84: String = ce chemin, et rien de plus ;
res85: Long = 5
res86: Long = 3
*/

map : mapping simple, 1 élément vers 1 élément

val input = [Link](List(1, 2, 3, 4))

val result = [Link](x => x + x)
[Link]()
println([Link]().mkString(","))

/* résultat
res128: Array[Int] = Array(2, 4, 6, 8)
2,4,6,8
*/

flatMap

val lines = [Link](List("hello world", "bonjour le monde"))

val words = [Link](line => [Link](" "))
[Link]()

/* renvoie :
res131: Array[String] = Array(hello, world, bonjour, le, monde)
*/

Quelques fonctions utiles

// des fonctions simples

var rdd = [Link]()
var rdd = [Link](rdd2)
var rdd = [Link](rdd2)

RSI31 Page 4
Atelier Big Data avancée 20/21

var rdd = [Link](rdd2)

// cartesian product
val letters = [Link](List("A", "B", "C"))
var digits = [Link](List(1, 2))
var rdd = [Link](digits)
[Link]()
// returns Array[(String, Int)] = Array((A,1), (A,2), (B,1), (B,2), (C,1), (C,2))

Extraction de sous-ensembles
sample permet de récupérer un sous ensemble
val sample = [Link](withReplacement, fraction, [seed])

val lines = [Link]("hdfs://localhost:9000/tmp/chemin_faisant.txt")

val extract = [Link](false, 0.5)
[Link]().foreach(println)
[Link]()
[Link]()

/* résultat non prédictible, mais la moitié de l'échantillon

Marcheur, ce sont tes traces
Le chemin se construit en marchant.
Et en regardant en arrière
On voit la sente que jamais
Marcheur, il n'y a pas de chemin,
Seulement des sillages sur la mer.
Antonio Machado

6
12
*/

Les actions possibles

// réduction simple
val input = [Link](List(1, 2, 3, 4))
[Link]((x,y) => x+y)
// renvoie 10

// fold : idem réduction mais avec une "zero value" qui est l'identité de votre opération
val input = [Link](List(1, 2, 3, 4))
[Link](0)((x,y) => x+y)
// renvoie 10 aussi

// renvoie toute la collection

[Link]()

// on devine ce que ça fait

[Link]()
[Link]()

RSI31 Page 5
Atelier Big Data avancée 20/21

[Link](3) // 3 elements
[Link](4) // 4 top elements
[Link](5)(ordering) // 5 élément ordonnées suivant la fonction fournie
[Link](false, 12) // 12 éléments au pif
[Link](func) // applique la func aux élements du RDD

// aggrégation
[Link](zeroValue)(seqOp, combOp)

[Link]() // moyenne

Retour sur la persistance

La persistance peut se faire en mémoire ou sur disque ou un peu des deux.

import [Link]
val input = [Link](List(1, 2, 3, 4))
val result = [Link](x => x + x)
[Link](StorageLevel.DISK_ONLY)
println([Link]())
println([Link]().mkString(","))

/*
5 types de persistance. Avec SER, c'est avec sérialisation. Ca prend plus de CPU et moins de place.
MEMORY_ONLY
MEMORY_ONLY_SER
MEMORY_AND_DISK
MEMORY_AND_DISK_SER
DISK_ONLY
*/

RSI31 Page 6

Vous aimerez peut-être aussi

Traitement de données avec Apache Spark
Pas encore d'évaluation
Traitement de données avec Apache Spark
3 pages
TP Spark Shell : Initiation à Scala
Pas encore d'évaluation
TP Spark Shell : Initiation à Scala
2 pages
Analyse Big Data avec Spark et Scala
Pas encore d'évaluation
Analyse Big Data avec Spark et Scala
42 pages
Comprendre les RDD dans Apache Spark
Pas encore d'évaluation
Comprendre les RDD dans Apache Spark
11 pages
Introduction à Apache Spark
Pas encore d'évaluation
Introduction à Apache Spark
7 pages
TP Apache Spark : Manipulation RDD
Pas encore d'évaluation
TP Apache Spark : Manipulation RDD
7 pages
Initiation à Hadoop HDFS et Configuration
Pas encore d'évaluation
Initiation à Hadoop HDFS et Configuration
7 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
28 pages
Importer et Exporter avec Sqoop et Movielens
Pas encore d'évaluation
Importer et Exporter avec Sqoop et Movielens
4 pages
Introduction à Apache Hive et Big Data
Pas encore d'évaluation
Introduction à Apache Hive et Big Data
28 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
58 pages
Atelier Spark RDD : Exercices Pratiques
0% (1)
Atelier Spark RDD : Exercices Pratiques
1 page
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
43 pages
Correction Exercice Big Data HDFS
Pas encore d'évaluation
Correction Exercice Big Data HDFS
13 pages
Technologies et Frameworks Big Data
Pas encore d'évaluation
Technologies et Frameworks Big Data
99 pages
Introduction au Big Data et Hadoop
Pas encore d'évaluation
Introduction au Big Data et Hadoop
16 pages
Introduction à Hadoop et HDFS
Pas encore d'évaluation
Introduction à Hadoop et HDFS
89 pages
Installation d'Apache Spark et Configuration
100% (1)
Installation d'Apache Spark et Configuration
4 pages
Tutoriel MapReduce en Français
Pas encore d'évaluation
Tutoriel MapReduce en Français
3 pages
Ventes Totales par Produit et Région
100% (1)
Ventes Totales par Produit et Région
5 pages
Comprendre Apache Spark SQL
Pas encore d'évaluation
Comprendre Apache Spark SQL
42 pages
Introduction à Apache Hive
Pas encore d'évaluation
Introduction à Apache Hive
75 pages
Bases de données NoSQL et Big Data
Pas encore d'évaluation
Bases de données NoSQL et Big Data
36 pages
Manipulation de HDFS avec CLI et Java
Pas encore d'évaluation
Manipulation de HDFS avec CLI et Java
3 pages
Introduction à Spark Streaming
Pas encore d'évaluation
Introduction à Spark Streaming
44 pages
Introduction à Hadoop et HDFS
Pas encore d'évaluation
Introduction à Hadoop et HDFS
5 pages
Architecture de Spark et Hadoop
Pas encore d'évaluation
Architecture de Spark et Hadoop
43 pages
Introduction à MapReduce et Hadoop
Pas encore d'évaluation
Introduction à MapReduce et Hadoop
9 pages
Installation et utilisation de Cloudera HDFS
100% (1)
Installation et utilisation de Cloudera HDFS
5 pages
Fondements de l'environnement Hadoop
Pas encore d'évaluation
Fondements de l'environnement Hadoop
32 pages
Examen Big Data : MapReduce et HDFS
Pas encore d'évaluation
Examen Big Data : MapReduce et HDFS
4 pages
Introduction à Pig pour le Big Data
Pas encore d'évaluation
Introduction à Pig pour le Big Data
4 pages
Introduction à Hadoop et Big Data
Pas encore d'évaluation
Introduction à Hadoop et Big Data
65 pages
Installation et Configuration d'Apache Flume
Pas encore d'évaluation
Installation et Configuration d'Apache Flume
6 pages
TP sur Apache Spark SQL et Databricks
Pas encore d'évaluation
TP sur Apache Spark SQL et Databricks
19 pages
Corrige Ds Big Data
Pas encore d'évaluation
Corrige Ds Big Data
4 pages
TP Big Data : Compteur de Mots Hadoop
Pas encore d'évaluation
TP Big Data : Compteur de Mots Hadoop
8 pages
Cours Spark
Pas encore d'évaluation
Cours Spark
50 pages
Big Data et Apache Spark : Concepts clés
Pas encore d'évaluation
Big Data et Apache Spark : Concepts clés
89 pages
Commandes HDFS pour Hadoop
Pas encore d'évaluation
Commandes HDFS pour Hadoop
10 pages
Introduction à MapReduce avec Hadoop
Pas encore d'évaluation
Introduction à MapReduce avec Hadoop
47 pages
Introduction à Apache Spark 4
Pas encore d'évaluation
Introduction à Apache Spark 4
43 pages
Comprendre Apache Spark et ses avantages
Pas encore d'évaluation
Comprendre Apache Spark et ses avantages
3 pages
Jointure de tables avec MapReduce
Pas encore d'évaluation
Jointure de tables avec MapReduce
2 pages
Principes de Hadoop et Big Data
Pas encore d'évaluation
Principes de Hadoop et Big Data
51 pages
Introduction à HBase et Big Data
Pas encore d'évaluation
Introduction à HBase et Big Data
35 pages
Introduction au Big Data et ses enjeux
Pas encore d'évaluation
Introduction au Big Data et ses enjeux
45 pages
Introduction à Apache Spark
Pas encore d'évaluation
Introduction à Apache Spark
63 pages
Modèles de Programmation Big Data avec Hadoop
Pas encore d'évaluation
Modèles de Programmation Big Data avec Hadoop
1 page
TP1 : Introduction à Hadoop et MapReduce
Pas encore d'évaluation
TP1 : Introduction à Hadoop et MapReduce
15 pages
Introduction au MapReduce et WordCount
Pas encore d'évaluation
Introduction au MapReduce et WordCount
3 pages
Introduction au langage Scala
Pas encore d'évaluation
Introduction au langage Scala
2 pages
Architecture du Système Hadoop HDFS
100% (1)
Architecture du Système Hadoop HDFS
54 pages
MapReduce avec Hadoop et Python
Pas encore d'évaluation
MapReduce avec Hadoop et Python
5 pages
Bases de Données NOSQL : Types et Exemples
Pas encore d'évaluation
Bases de Données NOSQL : Types et Exemples
85 pages
Traitement Batch et Streaming avec Spark
Pas encore d'évaluation
Traitement Batch et Streaming avec Spark
13 pages
TP Big Data : RDDs et K-means avec Spark
Pas encore d'évaluation
TP Big Data : RDDs et K-means avec Spark
3 pages
Compte Rendu Atelier2
Pas encore d'évaluation
Compte Rendu Atelier2
30 pages
Graphes M/R et Spark : RDD et Broadcast
Pas encore d'évaluation
Graphes M/R et Spark : RDD et Broadcast
20 pages
Introduction aux RDD dans Spark
Pas encore d'évaluation
Introduction aux RDD dans Spark
10 pages
Algorithme et Programmation Python
Pas encore d'évaluation
Algorithme et Programmation Python
174 pages
Introduction aux systèmes d'exploitation
Pas encore d'évaluation
Introduction aux systèmes d'exploitation
47 pages
Registres à décalage : TP et réalisations
Pas encore d'évaluation
Registres à décalage : TP et réalisations
6 pages
Guide Open PS2 Loader : Installation et Utilisation
Pas encore d'évaluation
Guide Open PS2 Loader : Installation et Utilisation
10 pages
Technologies informatiques essentielles
Pas encore d'évaluation
Technologies informatiques essentielles
1 page
Convertir disque dynamique en disque de base
Pas encore d'évaluation
Convertir disque dynamique en disque de base
7 pages
Trouver un ordinateur par adresse IP
Pas encore d'évaluation
Trouver un ordinateur par adresse IP
1 page
Caisse Enregistreuse Tactile X 156 Perimatic 2
Pas encore d'évaluation
Caisse Enregistreuse Tactile X 156 Perimatic 2
2 pages
Évaluation Informatique TC 2022/2023
Pas encore d'évaluation
Évaluation Informatique TC 2022/2023
2 pages
Série 01
Pas encore d'évaluation
Série 01
2 pages
Définition des Termes et QCM Informatique
100% (1)
Définition des Termes et QCM Informatique
4 pages
Notions de Processus en Informatique
Pas encore d'évaluation
Notions de Processus en Informatique
80 pages
Caractéristiques et fonctionnement des caches
Pas encore d'évaluation
Caractéristiques et fonctionnement des caches
18 pages
Projet de Microcontrôleur Électronique
Pas encore d'évaluation
Projet de Microcontrôleur Électronique
40 pages
Système d'exploitation Mac OS expliqué
Pas encore d'évaluation
Système d'exploitation Mac OS expliqué
18 pages
Configuration VLAN et Trunking Réseau
Pas encore d'évaluation
Configuration VLAN et Trunking Réseau
6 pages
Administration Active Directory Simplifiée
Pas encore d'évaluation
Administration Active Directory Simplifiée
16 pages
Prérequis Hardware pour MX ACS
Pas encore d'évaluation
Prérequis Hardware pour MX ACS
6 pages
Introduction aux Protocoles TCP/IP
Pas encore d'évaluation
Introduction aux Protocoles TCP/IP
42 pages
Corrigé Quiz 2 TP µP 68000 2022/2023
Pas encore d'évaluation
Corrigé Quiz 2 TP µP 68000 2022/2023
2 pages
Installer une VM Windows et Linux avec VirtualBox
Pas encore d'évaluation
Installer une VM Windows et Linux avec VirtualBox
10 pages
Cours en Administration des Réseaux
100% (1)
Cours en Administration des Réseaux
1 page
Mémoires Caches : Optimisation et Mapping
Pas encore d'évaluation
Mémoires Caches : Optimisation et Mapping
45 pages
Prérequis pour Veeam Backup 365
Pas encore d'évaluation
Prérequis pour Veeam Backup 365
3 pages
All in One Sys
Pas encore d'évaluation
All in One Sys
208 pages
Examen Système à Microprocesseur L3
Pas encore d'évaluation
Examen Système à Microprocesseur L3
2 pages
Configuration des VLANS dans le réseau
Pas encore d'évaluation
Configuration des VLANS dans le réseau
11 pages
Prévisions des Matières 2024-2025
Pas encore d'évaluation
Prévisions des Matières 2024-2025
12 pages
Maintenance des Systèmes Rockwell U5
Pas encore d'évaluation
Maintenance des Systèmes Rockwell U5
3 pages
KL 002.98 FR Student's Guide Unlocked
Pas encore d'évaluation
KL 002.98 FR Student's Guide Unlocked
486 pages