0% ont trouvé ce document utile (0 vote)

36 vues16 pages

Initiation à Apache Spark avec Java

Ce document introduit Apache Spark avec Java. Il présente les concepts clés de Spark comme le contexte Spark, les RDD, les transformations et les actions. Il montre également comment mettre en œuvre des RDD en créant, transformant et exécutant des actions sur des RDD.

Transféré par

daliHamzaoui

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

36 vues16 pages

Initiation à Apache Spark avec Java

Transféré par

daliHamzaoui

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Initiation à Apache Spark avec Java

Hamzaoui Mohamed Ali

2016
Faculté des sciences mathématiques, physiques et naturelles de Tunis
Plan

1. Intoduction

2. Familiarisation avec les concepts de Spark

3. Mise en oeuvre des RDDs

2/16
Intoduction

3/16
Intoduction

Apache Spark se présente comme la nouvelle génération de moteur de

calcul distribué qui remplace progressivement Hadoop/MapReduce.

Spark est écrit en Scala et s’exécute sur la machine virtuelle Java (JVM).

Les langages supportés actuellement pour le développement

d’applications sont : Scala , Python , Clojure R ET JAVA .

4/16
Mise en place de l’environement

Pour bien commencer, il vous faut installer sur la machine :

• Un JDK <1.8.x.
• Un IDE ou éditeur de texte : Sublime Text, Eclipse, netbeans.
• Le binaire pré-compilé de Spark.

5/16
Sommaire

Intoduction

Familiarisation avec les concepts de Spark

Mise en oeuvre des RDDs

6/16
Spark Context

SparkContext est la couche d’abstraction qui permet à Spark de savoir où

il va s’exécuter.

Un SparkContext standard sans paramètres correspond à l’exécution en

local sur 1 CPU du code Spark qui va l’utiliser.

public class FirstRDD {

public static void main(String[] args) {
JavaSparkContext sc = new JavaSparkContext();
JavaRDD<String> lines = [Link](”/path/fst.
txt”);}}

7/16
RDD

L’abstraction de base de Spark est le RDD pour Resilient Distributed

Dataset, c’est une structure de donnée immutable, nous pouvons voir un
RDD comme une table dans une base de données.

Un calcul distribué avec Spark commence toujours par un chargement de

données via un Base RDD.

8/16
Transformations et Actions

2 concepts de base s’appuient et s’appliquent sur le RDD.

9/16
Sommaire

Intoduction

Familiarisation avec les concepts de Spark

Mise en oeuvre des RDDs

10/16
Mise en oeuvre des RDDs

Les RDDs sont une collection d’objets immuables répartis sur plusieurs
noeuds d’un cluster. Un RDD est créé à partir d’un source de données ou
d’une collection d’objets Scala, Python ou Java.

11/16
Mise en oeuvre des RDDs

12/16
Mise en oeuvre des RDDs

Les opérations disponibles sur un RDD sont :

La création :

public class FirstRDD {

public static void main(String[] args) {
JavaRDD<String> lines = [Link](”[Link]”);
List<Integer> data = [Link](1, 2, 3, 4, 5);
JavaRDD<Integer> distData = [Link](data);}}

13/16
Mise en oeuvre des RDDs

Les transformations :

Les transformations ne retournent pas de valeur seule, elles retournent un

nouveau RDD. Par exemple : map, filter, flatMap, groupByKey,
reduceByKey.

public class FirstRDD {

public static void main(String[] args) {
JavaRDD<String> lines = [Link](”[Link]”);
List<Integer> data = [Link](1, 2, 3, 4, 5);
JavaRDD<Integer> distData = [Link](data);
JavaRDD<Integer> 2distData = [Link](( i)−>{
return i∗2;});}}

14/16
Mise en oeuvre des RDDs

L’action :

Les actions évaluent et retournent une nouvelle valeur. Au moment où

une fonction d’action est appelée sur un objet RDD, toutes les requêtes
de traitement des données sont calculées et le résultat est retourné. Les
actions sont par exemple reduce, collect, count, first, take, countByKey
et foreach.

public class FirstRDD {

Spark offre des fonctionnalités spécifiques aux RDD clef-valeur,

RDD[(K,V)] . Il s’agit notamment des fonctions groupByKey,
reduceByKey, mapValues, countByKey, cogroup.

JavaRDD<String> lines = [Link](”[Link]”);

JavaPairRDD<String, Integer> pairs;
pairs = [Link](s −> new Tuple2(s, 1));
JavaPairRDD<String, Integer> counts;
counts = [Link]((a, b) −> a + b);

16/16

Vous aimerez peut-être aussi

Introduction au Big Data avec PySpark
Pas encore d'évaluation
Introduction au Big Data avec PySpark
15 pages
Introduction à Apache Spark et RDDs
Pas encore d'évaluation
Introduction à Apache Spark et RDDs
59 pages
Introduction à Apache Spark
Pas encore d'évaluation
Introduction à Apache Spark
18 pages
Introduction à Apache Spark
Pas encore d'évaluation
Introduction à Apache Spark
4 pages
Introduction à Apache Spark et NoSQL
Pas encore d'évaluation
Introduction à Apache Spark et NoSQL
91 pages
Introduction à Apache Spark
Pas encore d'évaluation
Introduction à Apache Spark
22 pages
Industrialisation avec Maven en Java
Pas encore d'évaluation
Industrialisation avec Maven en Java
347 pages
Introduction au langage Scala
Pas encore d'évaluation
Introduction au langage Scala
2 pages
Configuration d'Apache Hadoop sur Ubuntu
Pas encore d'évaluation
Configuration d'Apache Hadoop sur Ubuntu
29 pages
Présentéepar: Rihabidoudi R I Ha B. I Dou Di@ Esprit - TN
Pas encore d'évaluation
Présentéepar: Rihabidoudi R I Ha B. I Dou Di@ Esprit - TN
46 pages
Introduction à SparkSQL et DataFrames
Pas encore d'évaluation
Introduction à SparkSQL et DataFrames
4 pages
Histoire et caractéristiques du langage Java
Pas encore d'évaluation
Histoire et caractéristiques du langage Java
83 pages
Prise en main d'Android Studio
Pas encore d'évaluation
Prise en main d'Android Studio
9 pages
Introduction à Docker et conteneurs
Pas encore d'évaluation
Introduction à Docker et conteneurs
35 pages
Introduction à Sqoop pour Big Data
Pas encore d'évaluation
Introduction à Sqoop pour Big Data
15 pages
Persistance des données avec JDBC
Pas encore d'évaluation
Persistance des données avec JDBC
22 pages
Intégration de Firebase dans Android
Pas encore d'évaluation
Intégration de Firebase dans Android
7 pages
Introduction à Nexus pour DevOps
Pas encore d'évaluation
Introduction à Nexus pour DevOps
10 pages
Introduction à Spring avec Maven
Pas encore d'évaluation
Introduction à Spring avec Maven
12 pages
20 Concepts Clés à Maîtriser sur Kubernetes
Pas encore d'évaluation
20 Concepts Clés à Maîtriser sur Kubernetes
22 pages
Nouveautés de Java 8 et 9
Pas encore d'évaluation
Nouveautés de Java 8 et 9
38 pages
Introduction au langage Java
Pas encore d'évaluation
Introduction au langage Java
46 pages
Guide d'installation et exercices Apache Spark
Pas encore d'évaluation
Guide d'installation et exercices Apache Spark
2 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
84 pages
Apache Flink FR
Pas encore d'évaluation
Apache Flink FR
41 pages
Modes et installation de Hadoop expliqués
Pas encore d'évaluation
Modes et installation de Hadoop expliqués
6 pages
Introduction à PySpark et Big Data
Pas encore d'évaluation
Introduction à PySpark et Big Data
2 pages
Optimisation des performances JDBC
Pas encore d'évaluation
Optimisation des performances JDBC
2 pages
Introduction aux bases de données NoSQL
Pas encore d'évaluation
Introduction aux bases de données NoSQL
105 pages
Introduction au Framework Spring
Pas encore d'évaluation
Introduction au Framework Spring
48 pages
Machine Learning avec Spark ML en Big Data
Pas encore d'évaluation
Machine Learning avec Spark ML en Big Data
7 pages
Classification K-means avec Spark MLlib
Pas encore d'évaluation
Classification K-means avec Spark MLlib
6 pages
Introduction à J2EE et développement web
Pas encore d'évaluation
Introduction à J2EE et développement web
21 pages
Architecture HDFS et MapReduce
Pas encore d'évaluation
Architecture HDFS et MapReduce
6 pages
Polymorphisme en Java : Concepts Clés
Pas encore d'évaluation
Polymorphisme en Java : Concepts Clés
142 pages
Introduction à la Programmation Scala
Pas encore d'évaluation
Introduction à la Programmation Scala
57 pages
Step by Step Guide of Report-To-Report Interface in BW Reporting
Pas encore d'évaluation
Step by Step Guide of Report-To-Report Interface in BW Reporting
319 pages
Redondance Actif/Passif en Haute Disponibilité
Pas encore d'évaluation
Redondance Actif/Passif en Haute Disponibilité
3 pages
Introduction aux Services Web SOAP
Pas encore d'évaluation
Introduction aux Services Web SOAP
99 pages
JDBC et SQL Avancé en Java
Pas encore d'évaluation
JDBC et SQL Avancé en Java
17 pages
Orchestration de Conteneurs avec Kubernetes
Pas encore d'évaluation
Orchestration de Conteneurs avec Kubernetes
31 pages
Modèle Logique de Données en SGBD
Pas encore d'évaluation
Modèle Logique de Données en SGBD
18 pages
Fondamentaux de Spring MVC
Pas encore d'évaluation
Fondamentaux de Spring MVC
64 pages
Types de stockage sur Azure expliqués
Pas encore d'évaluation
Types de stockage sur Azure expliqués
58 pages
Introduction aux tests unitaires JUnit 4
Pas encore d'évaluation
Introduction aux tests unitaires JUnit 4
32 pages
Guide complet sur l'administration Oracle
100% (1)
Guide complet sur l'administration Oracle
69 pages
Guide du sharding MongoDB
Pas encore d'évaluation
Guide du sharding MongoDB
21 pages
Cours Avancé sur Hadoop et Pig
Pas encore d'évaluation
Cours Avancé sur Hadoop et Pig
93 pages
Java et Bases de Données avec JDBC
Pas encore d'évaluation
Java et Bases de Données avec JDBC
22 pages
Module SOA : Architecture et Web Services
Pas encore d'évaluation
Module SOA : Architecture et Web Services
7 pages
Fondements de l'écosystème Hadoop
Pas encore d'évaluation
Fondements de l'écosystème Hadoop
24 pages
Introduction à Apache Spark en 14 Semaines
Pas encore d'évaluation
Introduction à Apache Spark en 14 Semaines
10 pages
Interfaces et classes abstraites en Java
Pas encore d'évaluation
Interfaces et classes abstraites en Java
33 pages
Introduction à Hadoop et Big Data
Pas encore d'évaluation
Introduction à Hadoop et Big Data
56 pages
Guide de Sécurité Git et Versioning
Pas encore d'évaluation
Guide de Sécurité Git et Versioning
122 pages
Analyse Big Data avec Spark et Scala
Pas encore d'évaluation
Analyse Big Data avec Spark et Scala
42 pages
Introduction à Apache Spark et RDDs
Pas encore d'évaluation
Introduction à Apache Spark et RDDs
13 pages
Introduction à Apache Spark et Big Data
Pas encore d'évaluation
Introduction à Apache Spark et Big Data
3 pages
Introduction à Apache Spark
Pas encore d'évaluation
Introduction à Apache Spark
53 pages
Introduction à Apache Spark
Pas encore d'évaluation
Introduction à Apache Spark
63 pages
Création d'une image ISO sous Vista
Pas encore d'évaluation
Création d'une image ISO sous Vista
10 pages
Activation de Photo to Cartoon 7.0
Pas encore d'évaluation
Activation de Photo to Cartoon 7.0
2 pages
Gestion des GPO sous Windows Server 2022
Pas encore d'évaluation
Gestion des GPO sous Windows Server 2022
2 pages
Introduction à Java par Richard Grin
Pas encore d'évaluation
Introduction à Java par Richard Grin
123 pages
Gestion des utilisateurs AD avec PowerShell
Pas encore d'évaluation
Gestion des utilisateurs AD avec PowerShell
5 pages
QCM Java
Pas encore d'évaluation
QCM Java
10 pages
Initialisation de tableaux en Java
Pas encore d'évaluation
Initialisation de tableaux en Java
39 pages
Tuto Installation Automatisée de Windows 10
100% (1)
Tuto Installation Automatisée de Windows 10
24 pages
Nss Manual FR
Pas encore d'évaluation
Nss Manual FR
401 pages
Impact du facteur de blocage sur performances
Pas encore d'évaluation
Impact du facteur de blocage sur performances
12 pages
Recommandations Techniques Sage 100c
Pas encore d'évaluation
Recommandations Techniques Sage 100c
2 pages
Tutoriel JavaFX 8 : Utiliser Scene Builder
Pas encore d'évaluation
Tutoriel JavaFX 8 : Utiliser Scene Builder
18 pages
Ingénieur Développement Java/J2EE
Pas encore d'évaluation
Ingénieur Développement Java/J2EE
9 pages
Excel 2007 Complet
Pas encore d'évaluation
Excel 2007 Complet
101 pages
Windows 4life
Pas encore d'évaluation
Windows 4life
4 pages
Asd 2011 RTF
Pas encore d'évaluation
Asd 2011 RTF
3 pages
Historique des versions de Windows
Pas encore d'évaluation
Historique des versions de Windows
4 pages
MySQL et PHP : Guide de Connexion et Requêtes
100% (1)
MySQL et PHP : Guide de Connexion et Requêtes
27 pages
Créer un point de restauration Windows 7
Pas encore d'évaluation
Créer un point de restauration Windows 7
3 pages
Raccourcis Clavier pour Windows 7 et 10
Pas encore d'évaluation
Raccourcis Clavier pour Windows 7 et 10
4 pages
Guide d'installation du système d'exploitation
100% (2)
Guide d'installation du système d'exploitation
6 pages
Comparaison Java et Python : Exercices Pratiques
Pas encore d'évaluation
Comparaison Java et Python : Exercices Pratiques
2 pages
Installation et Déploiement de Tomcat 6
Pas encore d'évaluation
Installation et Déploiement de Tomcat 6
5 pages
Stratégies de groupe sur Windows 2003
Pas encore d'évaluation
Stratégies de groupe sur Windows 2003
6 pages
Guide TP Python et SQLite3
Pas encore d'évaluation
Guide TP Python et SQLite3
3 pages
Réinitialiser mot de passe Windows Live CD
Pas encore d'évaluation
Réinitialiser mot de passe Windows Live CD
26 pages
Ordonnancement des processus en SE
Pas encore d'évaluation
Ordonnancement des processus en SE
7 pages
Optimiser Windows 8 Pour La Mao WWW - Zikmao PDF
Pas encore d'évaluation
Optimiser Windows 8 Pour La Mao WWW - Zikmao PDF
12 pages
Java Ee
100% (2)
Java Ee
40 pages
Guide d'utilisation de NetBeans J2ME
Pas encore d'évaluation
Guide d'utilisation de NetBeans J2ME
16 pages