Se connecter Créer mon bilan

Formation - Big Data - Mise en oeuvre de traitements avec Spark

Qualiopi

Durée 3 jours (21 heures)

Localisation Partout en France

Proposé par

IB Cegos

Prérequis

Connaissance de Java ou Python
Avoir suivi le séminaire "Hadoop - Présentation de l'écosystème" (SEM35) ou avoir des bases Hadoop
Notions de calculs statistiques

Public admis

Salarié en Poste
Entreprise

Demandeur d'emploi et Etudiant non admis

Financement

Votre OPCO
Financement personnel

Financement CPF non pris en charge

Modalités

En entreprise
À distance
En centre

Objectifs pédagogiques

Cette formation fait l'objet d'une évaluation formative.

Programme de la formation

1 - Introduction

Présentation de Spark
Origine du projet
Apports et principes de fonctionnement
Langages supportés
Mise en oeuvre sur une architecture distribuée
Architecture : clusterManager, driver, worker, ...

2 - Premiers pas

Utilisation du Shell Spark avec Scala ou Python
Modes de fonctionnement
Interprété, compilé
Utilisation des outils de construction
Gestion des versions de bibliothèques
Mise en pratique en Java, Scala et Python
Notion de contexte Spark
Extension aux sessions Spark

3 - Règles de développement

Mise en pratique en Java, Scala et Python
Notion de contexte Spark
Différentes méthodes de création des RDD : depuis un fichier texte, un stockage externe
Manipulations sur les RDD (Resilient Distributed Dataset)
Fonctions, gestion de la persistance

4 - Cluster

Différents cluster managers : Spark interne, avec Mesos, avec Yarn, avec Amazon EC2
Architecture : SparkContext, SparkSession, Cluster Manager, Executor sur chaque noeud
Définitions : Driver program, Cluster manager, deploy mode, Executor, Task, Job
Mise en oeuvre avec Spark et Amazon EC2
Soumission de jobs, supervision depuis l'interface web

5 - Traitements

Lecture/écriture de données : texte, JSon, Parquet, HDFS, fichiers séquentiels
Jointures
Filtrage de données, enrichissement
Calculs distribués de base
Introduction aux traitements de données avec map/reduce

6 - Support Cassandra

Description rapide de l'architecture Cassandra
Mise en oeuvre depuis Spark
Exécution de travaux Spark s'appuyant sur une grappe Cassandra

7 - DataFrames

Spark et SQL
Objectifs : traitement de données structurées
L'API Dataset et DataFrames
Optimisation des requêtes
Mise en oeuvre des Dataframes et DataSet
Comptabilité Hive
Travaux pratiques : extraction, modification de données dans une base distribuée
Collections de données distribuées
Exemples

8 - Streaming

Objectifs , principe de fonctionnement : stream processing
Source de données : HDFS, Flume, Kafka, ...
Notion de Streaming
Contexte, DStreams, démonstrations
Travaux pratiques : traitement de flux DStreams en Scala
Watermarking
Gestion des micro-batches
Travaux pratiques : mise en oeuvre d'une chaîne de gestion de données en flux tendu (IoT, Kafka, SparkStreaming, Spark)
Analyse des données au fil de l'eau

9 - Intégration Hadoop

Rappels sur l'écosystème Hadoop de base : HDFS/Yarn
Création et exploitation d'un cluster Spark/YARN
Intégration de données sqoop, kafka, flume vers une architecture Hadoop et traitements par Spark
Intégration de données AWS S3

10 - Machine Learning

Fonctionnalités : Machine Learning avec Spark, algorithmes standards, gestion de la persistance, statistiques
Mise en oeuvre avec les DataFrames

11 - Spark GraphX

Fourniture d'algorithmes, d'opérateurs simples pour des calculs statistiques sur les graphes
Travaux pratiques : exemples d'opérations sur les graphes

Proposé par

IB Cegos

"Formations aux technologies et métiers du Numérique"

Voir la fiche entreprise

Formation - Big Data - Mise en oeuvre de traitements avec Spark

0 ville proposant cette formation

La 1ère plateforme pour trouver une formation, choisir son orientation ou construire son projet de reconversion.

Formations professionnelles Diplômes et certifications Métiers

Accès Organismes Rejoindre France Carrière Actualités Nous contacter

© 2024 France Carrière. Tous droits réservés.

Conditions Générales d'Utilisation Conditions Générales de Vente Mentions légales