PySpark - Traitement des données
Prérequis
Public admis
- Salarié en Poste
- Entreprise
Demandeur d'emploi et Etudiant non admis
Financement
- Votre OPCO
- Financement personnel
Financement CPF non pris en charge
Modalités
- En centre
- À distance
Objectifs pédagogiques
A l'issue de cette formation, vous serez capable de :
- Décrire le principe de fonctionnement de Spark
- Utiliser l'API PySpark pour interagir avec Spark en Python
- Mettre en oeuvre les méthodes de Machine Learning avec la librairie MLlib de Spark
- Traiter les flux de données avec Spark Streaming
- Manipuler les données avec Spark SQL.
Programme de la formation
Jour 1
Introduction à Hadoop
- L'ère du Big Data
- Architecture et composants de la plateforme Hadoop
- HDFS
- NameNode / DataNode / ResourceManager
- MapReduce et YARN
Introduction à Spark
- Qu'est-ce que Spark ?
- Spark vs MapReduce
- Fonctionnement
- RDD
- DataFrames
- Data Sets
- Comment interagir avec Spark ?
- PySpark : programmer avec Spark en Python
Installation de Spark
- Sur une infrastructure distribuée
- En local
- En Cloud (présentation avec Amazon AWS et Microsoft Azure)
Jour 2
Spark pour la manipulation des données - PySpark
- Utilisation de SparkSQL et des DataFrames pour manipuler des données
- Charger des données depuis Hadoop, depuis des fichiers CSV, texte, JSON...
- Transformer des données (création de DataFrames, ajout de colonnes, filtres...)
Exemple de travaux pratiques (à titre indicatif)
- Chargement et modifications de données avec Spark et PySpark
L'utilisation de spark.ml pour le Machine Learning
- Apprentissage supervisé
- Forêts aléatoires avec Spark
- Mise en place d'un outil de recommandation
- Traitement de données textuelles
- Automatiser vos analyses avec des pipelines
Jour 3
Spark Streaming
- Introduction à Spark Streaming
- La notion de "DStream"
- Principales sources de données
- Utilisation de l'API
- Manipulation des données
Spark SQL
- Initialisation à Spark SQL
- Création de DataFrames
- Manipulation des DataFrames (opérations basiques, agrégations et groupBy, missing data)
- Chargement et stockage de données (avec Hive, JSON...)
GraphX et GraphFrames
- Présentation de GraphX
- Principe de création des graphes
- API GraphX
- Présentation de GraphFrames
- GraphX vs GraphFrames
Le contenu de ce programme peut faire l'objet d'adaptation selon les niveaux, prérequis et besoins des apprenants.
Modalités d’évaluation des acquis
- En cours de formation, par des études de cas ou des travaux pratiques
- Et, en fin de formation, par un questionnaire d'auto-évaluation

Proposé par
M2I
"Un leadership dans le domaine de la formation"

Proposé par
M2I
