Spark avec Databricks
Durée : 3 jours
Objectifs pédagogiques
À l’issue de la formation, le participant sera en mesure de :
Identifier les caractéristiques principales de Spark et des Databricks
Décrire comment les DataFrames sont créées et évaluées dans Spark
Appliquer les transformations DataFrame pour traiter et analyser les données
Appliquer le streaming structuré pour traiter les données en continu.
Prérequis
Posséder des notions d’architectures applicatives exercées en entreprise ainsi qu’une pratique
concrète des APIs et des microservices.
Programme de la formation
Introduction
Qu'est-ce que Databricks ?
Quels sont les composants de Databricks ?
Démonstration : comprendre l'environnement de Databricks
Créer un compte sur Databricks
Créer un cluster sous Databricks
Considération matérielle
Databricks et le Cloud
Databricks : opérations
Création de votre premier projet Spark sous Databricks
Importer et exporter les données sous Databricks
Accéder aux différentes sources de données
Manager le cluster
Créer un job sous Databricks
Explorer les Data set
Lancer le Notebook
Premier code sous Notebook
Exporter le code sous Databricks
Travaux pratiques : Explorer et configurer votre Databricks. Coder sur Databricks
1
Spark : introduction
Batch vs le temps réel dans le Big Data Analytics
Introduction à Spark
Vue d'ensemble de Spark
Ecosystème Spark
Spark vs Hadoop
Architecture Spark
Streaming Data Spark
Spark Standalone cluster
Spark Web UI
Azure Databricks
Qu'est-ce que Azure Databricks ?
Quels sont les composants d'Azure Databricks ?
Démonstration : comprendre l'environnement Azure Databricks
Chargement des données
Transformer et nettoyer les données
ETL dans Azure Databricks
o Extraction à partir des Azure Storage Services
o Lecture de plusieurs formats de fichiers
o Application de schémas
Apprentissage automatique dans Azure Databricks
Streaming dans Azure Databricks
Spark : concepts
Remise à niveau Python / Scala
RDD (Resilient Distributed Dataset)
DataFrame
SQL
Streaming
MLlib
GraphX
Spark : opérations
Transformations dans le RDD (Resilient Distributed Dataset)
Actions dans le RDD
Spark SQL et DataFrame
o SQLContext dans Spark SQL
o Travailler avec les DataFrames
o Implémentation d'un exemple pour Spark SQL
o Intégration de Hive et Spark SQL
o Support pour JSON et les formats des "Parquet Files"
o Implémentation de la Data Visualization avec Spark
o Chargement de données
o Les requêtes Hive à travers Spark
Spark Streaming
o Les transformations dans Spark Streaming
o La "fault tolerance" dans Spark Streaming
Niveaux de parallélismes
Machine Learning
2
o Types de données
o Algorithmes et statistiques
o Classification et régression
o Clustering
o Filtrage collaboratif