0% ont trouvé ce document utile (0 vote)

28 vues6 pages

Tutoriel Spark : Analyse et Modélisation

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

28 vues6 pages

Tutoriel Spark : Analyse et Modélisation

Transféré par

Lass Sidibe

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

TP : Spark

Partie I :
Cette activité nécessite une programmation dans un Jupyter Notebook
Step 1 : Télecharger la dataset « Shakespeare »

Step 2 : Ouvrir un navigateur Web et créer un nouveau notebook Jupyter Python :

Créer un nouveau notebook Python en cliquant sur Nouveau, puis sur Python 3 :

Step 3 : Lire le fichier à partir de son emplacement et le stocker sous forme de RDD en
utilisant l’opération « textFile »

Quel est le type de l’opération « textFile » ? Que signifie la variable sc ?

Vérifier que le fichier a été chargé avec succès en appelant la méthode count(), qui affiche le
nombre d'éléments dans le RDD.

Step 4 : Diviser chaque ligne en des mots :

Ensuite, on va diviser chaque ligne en un ensemble de mots. Pour diviser chaque ligne en
mots et les stocker dans un RDD appelé « words » , on utilise la méthode : « flatMap » et la
fonction anonyme « Lambda »

Step 5 : Extraire sous forme clé, valeur :

Pour chaque mot on va attribuer la valeur 1 par défaut en utilisant la fonction prédéfinie
« map »

Step 6 : Reduce : faire la somme des valeurs pour chaque mot :

La méthode reduceByKey() appelle l'expression lambda pour tous les tuples avec le même
mot. L'expression lambda a deux arguments, a et b, qui sont les valeurs de comptage dans
deux tuples.

Tasnim Abar Page 1

Step 7 : Écrire le résultat dans un fichier texte dans votre disque avec
coalesce(1).saveAsTextFile()

La méthode coalesce() combine toutes les partitions RDD en une seule partition puisque on
veut un seul fichier de sortie, et saveAsTextFile() écrit le RDD à l'emplacement spécifié.

Partie II :

Exploration des données avec Spark

Manipulation d’un Dataframe

La base de données daily_weather.csv, sera partagée sur teams.

Step 1 : Après la création d’un nouveau notebook jupyter, On va charger les données dans un
Spark DataFrame. Mais tout d'abord, on doit importer la classe SparkSession:

From [Link] import sparkSession

Ensuite, on crée un sparkSession :

spark = [Link]().appName("SparkExample").getOrCreate()

Après, on charge les données dans un DataFrame :

df = [Link]("csv").load("path", header = True,

inferSchema=True)

inferSchema = true càd, il déduit automatiquement les types de colonnes en fonction des
données. Donc il nécessite de lire les données une fois de plus pour déduire le schéma.

Pour afficher les noms des colonnes, on utilise :

[Link]

Step 2 : Visualisation des colonnes et leurs types Avec les méthodes .columns et
printShema()

1- Interpréter le résultat
2- Afficher les 5 premiers éléments avec head(5)

Step 3 : Afficher les statistiques récapitulatives.

On peut afficher les statistiques récapitulatives pour toutes les colonnes en utilisant la
méthode describe() :

Tasnim Abar Page 2

toPandas() Renvoie le contenu de ceci en DataFrame tant que Pandas [Link]

On peut également voir les statistiques récapitulatives pour une seule colonne avec
describe(nom de la colonne).show()

Step 4 :

1- Créer un nouveau Dataframe avec une colonne qui s’appelle « ratio » qui calcule le
taux de rain_duration_9am/rain_accumulation_9am

Df1 = [Link]("ratio", df[‘rain_duration_9am’]/

df[‘rain_accumulation_9am’])
2- Afficher le contenu de nouvelle colonne

[Link](’ratio’).show()
3- Quel est le maximum de rain_duration_9am qui existe dans la base (utiliser orderBy et
head)
4- Calculer le mean de la colonne « rain_accumulation_9am »

from [Link] import mean

5- De même calculer le max et le min de rain_duration_9am

6- Combien de fois le air_temp_9h est > 70

[Link](‘condition’).count()
Step 5 : Suppression des lignes avec des missing values

La colonne air_pressure_9am contient des lignes avec des valeurs manquantes, on va essayer
à supprimer ces valeurs :

Tasnim Abar Page 3

Step 5 : Calculer la corrélation entre deux colonnes.

On peut calculer la corrélation entre deux colonnes dans un DataFrame en utilisant la méthode
corr().

Pourqoui on doit calculer la correlation entre les attributs dans un dataset ?

Calculer la corrélation entre rain_accumulation_9am et rain_duration_9am :

Que peut-on conclure du résultat ?

Step 6 : Imputer les valeurs manquantes.

Au lieu de supprimer les lignes contenant des valeurs manquantes, on peut les remplacer par
la valeur moyenne de cette colonne. Tout d'abord, on doit charger la fonction avg et faire une
copie du DataFrame d'origine.

Après, on doit parcourir chaque colonne du DataFrame : calculer la valeur moyenne de cette
colonne, puis remplacer toutes les valeurs manquantes dans cette colonne par la moyenne.

La fonction agg() effectue un calcul agrégé sur le DataFrame et avg(x) spécifie de calculer la
moyenne sur la colonne x.

La fonction agg() renvoie un DataFrame, first() renvoie la première Row et [0] obtient la
première valeur.

Tasnim Abar Page 4

La dernière ligne de code utilise [Link]() pour remplacer les valeurs manquantes par la valeur
moyenne (premier argument) dans la colonne x (deuxième argument).

Utiliser describe() pour comparer les statistiques de chaque colonne ; que remarquez-vous ?

Exercice d’application (par binome)

Le but de cet exercice est de créer un modèle de classification d’une base de données choisie
par vous :

Durant cette partie vous devez :

1- Définir la dataset et l’explorer

2- Faire le preprocessing nécessaire
3- Créer votre modèle de classification et la prédiction

Vous devez utiliser les bibliothèques : [Link] et [Link]

Exercice 2 : système de recommandation avec pyspark

Les deux types de systèmes de recommandation les plus courants sont :

Le filtrage basé sur le contenu se concentre sur les attributs des éléments et vous donner des
recommandations basées sur la similitude entre eux.

Le filtrage collaboratif (CF) : produit des recommandations basées sur la connaissance de

l'attitude des utilisateurs envers les articles

[Link] prend actuellement en charge le CF, dans lequel les utilisateurs et les produits sont
décrits par un petit ensemble de facteurs latents qui peuvent être utilisés pour prédire les
entrées manquantes.

[Link] utilise l'algorithme alternating least squares (ALS) pour apprendre ces facteurs
latents. Les données doivent être dans un format spécifique pour fonctionner avec l'algorithme
de recommandation ALS de Spark !

ALS est essentiellement une approche de factorisation matricielle pour implémenter un

algorithme de recommandation dans lequel vous décomposez votre grande matrice
utilisateur/élément en facteurs d'utilisateur et en facteurs d'élément de dimension inférieure.

Exemple :

User movie Rating

1 A 5
1 B 5
2 A 5

Tasnim Abar Page 5

2 B 5
1 C 1
2 C 1
3 A 5

 En se basant sur le CF, on va recommander le film B pour le user 3 car les users 1 et 2
préfèrent le film A aussi

Dans cet exercice on va essayer de modéliser cet aspect avec pyspark, pour ce faire,
sous jupyter notebook :
1- Créer un sparkSession et le démarrer
2- Importer l’algo ALS :

from [Link] import ALS

from [Link] import RegressionEvaluator

3- Charger les données de « [Link] » dans un dataframe df

4- Afficher le contenu de df
5- Supprimer les colonnes inutilisables pour cet exercice
6- Diviser la dataset en training et testing sets (0.8, 0.2)
7- Créer le modèle ALS :

Als = ALS(maxIter=5, regParam=0.01, userCol=’userId’,

itemCol=’movieId’, ratingCol=’rating’)

Quel est le rôle de maxIter et regParam ??

8- Créer maintenant le modèle en utilisant [Link](training)

9- Créer une variable pred pour tester les performances de votre modèle
10- Analyser le résultat obtenu « pred »
11- Calculer le « rmse » entre les colonnes pred et rating et analyser le résultat obtenu
12- Afficher maintenant le user 600 et les différents ids des films votés par ce user
13- Appliquer le modèle crée sur le user 600

Tasnim Abar Page 6

Vous aimerez peut-être aussi

TP Spark : Analyse de données et recommandations
Pas encore d'évaluation
TP Spark : Analyse de données et recommandations
6 pages
C6 02 Spark
Pas encore d'évaluation
C6 02 Spark
6 pages
TP 2 Spark - VM - Img
Pas encore d'évaluation
TP 2 Spark - VM - Img
5 pages
Spark SQL et MLlib : Guide Complet
Pas encore d'évaluation
Spark SQL et MLlib : Guide Complet
6 pages
Introduction à Spark SQL en PySpark
Pas encore d'évaluation
Introduction à Spark SQL en PySpark
19 pages
Introduction à SparkSQL et DataFrames
Pas encore d'évaluation
Introduction à SparkSQL et DataFrames
4 pages
TP Big Data : RDDs et K-means avec Spark
Pas encore d'évaluation
TP Big Data : RDDs et K-means avec Spark
3 pages
TP Apache Spark : RDDs et K-means
Pas encore d'évaluation
TP Apache Spark : RDDs et K-means
3 pages
Introduction à SparkSQL et DataFrames
Pas encore d'évaluation
Introduction à SparkSQL et DataFrames
4 pages
TP Apache Spark : Concepts de Base en Python
Pas encore d'évaluation
TP Apache Spark : Concepts de Base en Python
6 pages
RDD et DataFrame dans Apache Spark
Pas encore d'évaluation
RDD et DataFrame dans Apache Spark
3 pages
Introduction à Apache Spark et ML
Pas encore d'évaluation
Introduction à Apache Spark et ML
27 pages
Guide Pratique sur Apache Spark et RDDs
Pas encore d'évaluation
Guide Pratique sur Apache Spark et RDDs
5 pages
Installation et Concepts de PySpark
Pas encore d'évaluation
Installation et Concepts de PySpark
6 pages
Introduction à Spark RDD avec Docker
Pas encore d'évaluation
Introduction à Spark RDD avec Docker
2 pages
Introduction à Spark MLLib et Pipelines
Pas encore d'évaluation
Introduction à Spark MLLib et Pipelines
1 page
Guide PySpark pour Machine Learning
Pas encore d'évaluation
Guide PySpark pour Machine Learning
5 pages
TP Spark : Analyse de données météo et hôtels
Pas encore d'évaluation
TP Spark : Analyse de données météo et hôtels
3 pages
Tableau Récapitulatif Des Fonctions Spark
Pas encore d'évaluation
Tableau Récapitulatif Des Fonctions Spark
6 pages
Comparaison DataFrame et RDD en PySpark
Pas encore d'évaluation
Comparaison DataFrame et RDD en PySpark
23 pages
Introduction à Apache Spark
Pas encore d'évaluation
Introduction à Apache Spark
7 pages
Introduction à PySpark pour Big Data
Pas encore d'évaluation
Introduction à PySpark pour Big Data
3 pages
Installation Anaconda et manipulation CSV
Pas encore d'évaluation
Installation Anaconda et manipulation CSV
4 pages
TP Spark : Manipulation de RDD en PySpark
Pas encore d'évaluation
TP Spark : Manipulation de RDD en PySpark
5 pages
Exploration et Prétraitement des Données
Pas encore d'évaluation
Exploration et Prétraitement des Données
5 pages
Introduction à PySpark et RDD
Pas encore d'évaluation
Introduction à PySpark et RDD
5 pages
Spark +SCALA
Pas encore d'évaluation
Spark +SCALA
13 pages
Atelier 4
Pas encore d'évaluation
Atelier 4
2 pages
Traitement des données avec Pandas
Pas encore d'évaluation
Traitement des données avec Pandas
13 pages
Manipulation de données avec Pandas
100% (1)
Manipulation de données avec Pandas
9 pages
Examen TP Data Science 2024
Pas encore d'évaluation
Examen TP Data Science 2024
4 pages
Nuages de points avec Python et Pandas
Pas encore d'évaluation
Nuages de points avec Python et Pandas
4 pages
Introduction+to+Spark + RDD Part
Pas encore d'évaluation
Introduction+to+Spark + RDD Part
14 pages
Introduction à Pandas pour DataFrames
Pas encore d'évaluation
Introduction à Pandas pour DataFrames
7 pages
Introduction à Spark SQL et ses caractéristiques
Pas encore d'évaluation
Introduction à Spark SQL et ses caractéristiques
1 page
Manipulation de données avec Pandas
Pas encore d'évaluation
Manipulation de données avec Pandas
7 pages
Introduction à Spark SQL et DataFrames
Pas encore d'évaluation
Introduction à Spark SQL et DataFrames
11 pages
Introduction à Pyspark SQL et DataFrames
Pas encore d'évaluation
Introduction à Pyspark SQL et DataFrames
12 pages
Analyse et Visualisation de Données Python
Pas encore d'évaluation
Analyse et Visualisation de Données Python
2 pages
Modèle prédictif de résiliation bancaire
Pas encore d'évaluation
Modèle prédictif de résiliation bancaire
7 pages
Clustering Non Supervisé avec K-Means
Pas encore d'évaluation
Clustering Non Supervisé avec K-Means
10 pages
Introduction à SparkSQL et DataFrames
Pas encore d'évaluation
Introduction à SparkSQL et DataFrames
5 pages
Etude de Cas Scoring
Pas encore d'évaluation
Etude de Cas Scoring
89 pages
Introduction au Big Data avec PySpark
Pas encore d'évaluation
Introduction au Big Data avec PySpark
15 pages
TP BigData : Manipulation avec Spark
Pas encore d'évaluation
TP BigData : Manipulation avec Spark
4 pages
Regression Linéaire Maison
Pas encore d'évaluation
Regression Linéaire Maison
34 pages
Initiation à Python pour Data Science
Pas encore d'évaluation
Initiation à Python pour Data Science
39 pages
DataFrame API
Pas encore d'évaluation
DataFrame API
14 pages
Slide Formation Spark
Pas encore d'évaluation
Slide Formation Spark
38 pages
Introduction à Apache Spark
Pas encore d'évaluation
Introduction à Apache Spark
18 pages
Guide Pratique PySpark pour Data Engineers
Pas encore d'évaluation
Guide Pratique PySpark pour Data Engineers
183 pages
Cahier de Charges
Pas encore d'évaluation
Cahier de Charges
7 pages
Compte Rendu TP3 GitHub
Pas encore d'évaluation
Compte Rendu TP3 GitHub
5 pages
Compte Rendu TP2 GitHub
Pas encore d'évaluation
Compte Rendu TP2 GitHub
3 pages
Compte Rendu TP1 Partie 2 GitHub
Pas encore d'évaluation
Compte Rendu TP1 Partie 2 GitHub
6 pages
CHARTE3000FR
Pas encore d'évaluation
CHARTE3000FR
2 pages
Documentation Technique
Pas encore d'évaluation
Documentation Technique
6 pages
Raisonnement dans Systèmes Experts
Pas encore d'évaluation
Raisonnement dans Systèmes Experts
3 pages
Système de recommandation e-commerce
Pas encore d'évaluation
Système de recommandation e-commerce
14 pages
Réalisations de l'agence Dalia
Pas encore d'évaluation
Réalisations de l'agence Dalia
1 page
Reçu de billet électronique MAURITANIA
Pas encore d'évaluation
Reçu de billet électronique MAURITANIA
2 pages
Règles d'association et itemsets fréquents
100% (1)
Règles d'association et itemsets fréquents
2 pages
EXCEL 2024 - Le Guide Complet
93% (14)
EXCEL 2024 - Le Guide Complet
163 pages
101 Positions Sexuelles Pour Faire Son Cri - Madeleine Carter PDF
74% (265)
101 Positions Sexuelles Pour Faire Son Cri - Madeleine Carter PDF
194 pages
Guide de lIA Generative de Sousa Cardoso Cyril Parise Fanny Cyril de Sousa Cardoso Fanny Parise
94% (16)
Guide de lIA Generative de Sousa Cardoso Cyril Parise Fanny Cyril de Sousa Cardoso Fanny Parise
295 pages
51 Prompts pour Maximiser ChatGPT
92% (12)
51 Prompts pour Maximiser ChatGPT
59 pages
Cours d'initiation à Python PDF
91% (11)
Cours d'initiation à Python PDF
150 pages
10 Outils d'IA pour la Rédaction Efficace
100% (10)
10 Outils d'IA pour la Rédaction Efficace
25 pages
Tout Pour Maitriser Langlais Dell Mary
88% (16)
Tout Pour Maitriser Langlais Dell Mary
417 pages
La Boîte À Outils Des Soft Skills (BàO La Boîte À Outils) by Van Laethem, Nathalie, Josset, Jean-Marc
94% (33)
La Boîte À Outils Des Soft Skills (BàO La Boîte À Outils) by Van Laethem, Nathalie, Josset, Jean-Marc
349 pages
La Méthode Boclet (Mohamed Boclet) (Z-Library)
86% (14)
La Méthode Boclet (Mohamed Boclet) (Z-Library)
314 pages
Parlez anglais en 6 mois, pas en 10 ans !
100% (12)
Parlez anglais en 6 mois, pas en 10 ans !
185 pages
Comprendre ChatGPT pour dirigeants
100% (12)
Comprendre ChatGPT pour dirigeants
32 pages
Comprendre l'Intelligence Artificielle
100% (9)
Comprendre l'Intelligence Artificielle
261 pages
Le Principe 80-20 - Richard Koch - 002
100% (16)
Le Principe 80-20 - Richard Koch - 002
372 pages
Adobe Illustrator CC Le Support de Cours Officiel
90% (10)
Adobe Illustrator CC Le Support de Cours Officiel
479 pages
Maîtriser la prise de parole en public
100% (12)
Maîtriser la prise de parole en public
358 pages
50 livres de développement personnel gratuits
88% (16)
50 livres de développement personnel gratuits
75 pages
L Art de La Seduction
90% (136)
L Art de La Seduction
503 pages
Votre Attention Est Votre Superpouvoir - Fabien Olicard (2024)
100% (6)
Votre Attention Est Votre Superpouvoir - Fabien Olicard (2024)
165 pages
50 Clés Pour Comprendre La Physique - Dunod
100% (5)
50 Clés Pour Comprendre La Physique - Dunod
210 pages
Travaux Pratiques Excel 2013-2022
100% (9)
Travaux Pratiques Excel 2013-2022
129 pages
Arretez D Oublier Ce Que Vous Lisez Eliott Meunier
92% (26)
Arretez D Oublier Ce Que Vous Lisez Eliott Meunier
201 pages
La Boîte À Outils de Lintelligence Émotionnelle (Maryse Launet (Launet, Maryse) )
100% (14)
La Boîte À Outils de Lintelligence Émotionnelle (Maryse Launet (Launet, Maryse) )
353 pages
Intelligence Artificielle Vulgarisée Le Machine Learning Et Le Deep Learning Par La Pratique (Aurélien Vannieuwenhuyze)
100% (10)
Intelligence Artificielle Vulgarisée Le Machine Learning Et Le Deep Learning Par La Pratique (Aurélien Vannieuwenhuyze)
423 pages
Le Grand Livre Des Thérapies Cognitives Et Comportementales
100% (22)
Le Grand Livre Des Thérapies Cognitives Et Comportementales
471 pages
21 Jours Pour Apprendre A Dessiner
58% (12)
21 Jours Pour Apprendre A Dessiner
32 pages
1 Kilo de Culture Générale
92% (12)
1 Kilo de Culture Générale
1 256 pages
La Petite Boîte À Outils de - (Z-Library)
100% (9)
La Petite Boîte À Outils de - (Z-Library)
178 pages
Guide Pratique pour Débutants en Dessin
100% (6)
Guide Pratique pour Débutants en Dessin
19 pages
L'Art du Charisme : Boostez Votre Charme
88% (34)
L'Art du Charisme : Boostez Votre Charme
97 pages
La Gestion Du Stress - BAO
100% (11)
La Gestion Du Stress - BAO
370 pages
Introduction aux systèmes ERP et caractéristiques
Pas encore d'évaluation
Introduction aux systèmes ERP et caractéristiques
38 pages
Syllabus Systèmes d'exploitation 2010-11
Pas encore d'évaluation
Syllabus Systèmes d'exploitation 2010-11
73 pages
Évaluation de la Recherche Documentaire
Pas encore d'évaluation
Évaluation de la Recherche Documentaire
1 page
QCM Sécurité Informatique Corrigé
83% (18)
QCM Sécurité Informatique Corrigé
3 pages
Formations Continues Ergothérapeutes 2025
Pas encore d'évaluation
Formations Continues Ergothérapeutes 2025
100 pages
CV Technicien en Génie Mécanique 2024
Pas encore d'évaluation
CV Technicien en Génie Mécanique 2024
1 page
Correction orthographique DELF B1
Pas encore d'évaluation
Correction orthographique DELF B1
6 pages
Analyse de la Situation de Travail
Pas encore d'évaluation
Analyse de la Situation de Travail
2 pages
Gestion numérique des carnets de crédit
Pas encore d'évaluation
Gestion numérique des carnets de crédit
21 pages
Relevé de Compte Bancaire CIH
Pas encore d'évaluation
Relevé de Compte Bancaire CIH
2 pages
Introduction à HBase et Hadoop
Pas encore d'évaluation
Introduction à HBase et Hadoop
21 pages
Liste des encodages de caractères
Pas encore d'évaluation
Liste des encodages de caractères
2 pages
Iso-14644-5-2004 - VF
Pas encore d'évaluation
Iso-14644-5-2004 - VF
52 pages
Avantages et dangers de l'intelligence artificielle
Pas encore d'évaluation
Avantages et dangers de l'intelligence artificielle
3 pages
Boucle PID dans le système DCS FOXBORO
Pas encore d'évaluation
Boucle PID dans le système DCS FOXBORO
107 pages
Système de réservation d'hôtel en Java
Pas encore d'évaluation
Système de réservation d'hôtel en Java
3 pages
PHP POO : Héritage et MVC en pratique
Pas encore d'évaluation
PHP POO : Héritage et MVC en pratique
3 pages
Infos Rentrée Printemps 2014 UTC
Pas encore d'évaluation
Infos Rentrée Printemps 2014 UTC
24 pages
Informatique et Algorithmique CP1 ENSA
Pas encore d'évaluation
Informatique et Algorithmique CP1 ENSA
24 pages
Humidimètre TG Pro pour café et cacao
Pas encore d'évaluation
Humidimètre TG Pro pour café et cacao
2 pages
Ing Efrei FR PDF
Pas encore d'évaluation
Ing Efrei FR PDF
1 page
Protocoles de messagerie : SMTP, POP, IMAP
Pas encore d'évaluation
Protocoles de messagerie : SMTP, POP, IMAP
15 pages
Configurer Son Adresse E-Mail Sur Outlook Pour Windows Documentation OVH
Pas encore d'évaluation
Configurer Son Adresse E-Mail Sur Outlook Pour Windows Documentation OVH
1 page
Exercices de Programmation en C 2023
Pas encore d'évaluation
Exercices de Programmation en C 2023
1 page
Introduction à RecyclerView Android
Pas encore d'évaluation
Introduction à RecyclerView Android
21 pages
Étalonnage et Vérification des Instruments
Pas encore d'évaluation
Étalonnage et Vérification des Instruments
4 pages
Guide de Lettrage Comptable Efficace
Pas encore d'évaluation
Guide de Lettrage Comptable Efficace
6 pages
Minimisation et Méthode Simplexe
Pas encore d'évaluation
Minimisation et Méthode Simplexe
4 pages
Merise - Méthode de Conception
Pas encore d'évaluation
Merise - Méthode de Conception
268 pages
Calcul Littéral : Développement et Réduction
Pas encore d'évaluation
Calcul Littéral : Développement et Réduction
6 pages