Spark avec Databricks
Qualiopi
Objectifs pédagogiques
A l'issue de cette formation, vous serez capable de :
- Identifier les caractéristiques principales de Spark et des Databricks
- Décrire comment les DataFrames sont créées et évaluées dans Spark
- Appliquer les transformations DataFrame pour traiter et analyser les données
- Appliquer le streaming structuré pour traiter les données en continu.
Programme de la formation
Jour 1
Introduction
- Qu'est-ce que Databricks ?
- Quels sont les composants de Databricks ?
- Démonstration : comprendre l'environnement de Databricks
- Créer un compte sur Databricks
- Créer un cluster sous Databricks
- Considération matérielle
- Databricks et le Cloud
Databricks : opérations
- Création de votre premier projet Spark sous Databricks
- Importer et exporter les données sous Databricks
- Accéder aux différentes sources de données
- Manager le cluster
- Créer un job sous Databricks
- Explorer les Data set
- Lancer le Notebook
- Premier code sous Notebook
- Exporter le code sous Databricks
Exemples de travaux pratiques (à titre indicatif)
- Explorer et configurer votre Databricks
- Coder sur Databricks
Jour 2
Spark : introduction
- Batch vs le temps réel dans le Big Data Analytics
- Introduction à Spark
- Vue d'ensemble de Spark
- Ecosystème Spark
- Spark vs Hadoop
- Architecture Spark
- Streaming Data Spark
- Spark Standalone cluster
- Spark Web UI
Jour 3
Azure Databricks
- Qu'est-ce que Azure Databricks ?
- Quels sont les composants d'Azure Databricks ?
- Démonstration : comprendre l'environnement Azure Databricks
- Chargement des données
- Transformer et nettoyer les données
- ETL dans Azure Databricks
- Extraction à partir des Azure Storage Services
- Lecture de plusieurs formats de fichiers
- Application de schémas
- Apprentissage automatique dans Azure Databricks
- Streaming dans Azure Databricks
Spark : concepts
- Remise à niveau Python / Scala
- RDD (Resilient Distributed Dataset)
- DataFrame
- SQL
- Streaming
- MLlib
- GraphX
Spark : opérations
- Transformations dans le RDD (Resilient Distributed Dataset)
- Actions dans le RDD
- Spark SQL et DataFrame
- SQLContext dans Spark SQL
- Travailler avec les DataFrames
- Implémentation d'un exemple pour Spark SQL
- Intégration de Hive et Spark SQL
- Support pour JSON et les formats des "Parquet Files"
- Implémentation de la Data Visualization avec Spark
- Chargement de données
- Les requêtes Hive à travers Spark
- Spark Streaming
- Les transformations dans Spark Streaming
- La "fault tolerance" dans Spark Streaming
- Niveaux de parallélismes
- Machine Learning
- Types de données
- Algorithmes et statistiques
- Classification et régression
- Clustering
- Filtrage collaboratif
Le contenu de ce programme peut faire l'objet d'adaptation selon les niveaux, prérequis et besoins des apprenants.
Modalités d’évaluation des acquis
- En cours de formation, par des études de cas ou des travaux pratiques
- Et, en fin de formation, par un questionnaire d'auto-évaluation

Proposé par
M2I
"Un leadership dans le domaine de la formation"
À partir de
2280 €
Durée
21h en 3 jours
Localisation
Partout en France

Proposé par
M2I
À partir de
2280 €
