Formation Spark
Apache Spark est un moteur d'analyse unifié (Unified Analytics Engine), créé pour le traitement rapide des données. Ce framework open source de calcul distribué permet l'analyse et le traitement de données à grandes échelles. Le framework permet le développement d'applications de traitement hautement performantes. Notre formation Apache Spark vous permettra de développer des applications permettant de traiter de larges quantités de données en temps réel et l'intégrer notamment dans un environnement Hadoop pour améliorer le temps d'exécution des applications Hadoop !
Public admis
- Salarié en Poste
- Entreprise
Demandeur d'emploi et Etudiant non admis
Financement
- Votre OPCO
- Financement personnel
Financement CPF non pris en charge
Modalités
- En centre
- En entreprise
- À distance
Objectifs pédagogiques
- Expliquer le fonctionnement d'Apache Spark et ses relations avec le Big Data et Hadoop
- Utiliser les RDD pour gérer les opérations et MapReduce
- Intégrer et utiliser HDFS avec Spark
- Mettre en place et déployer une structure de cluster Spark
- Appliquer le partitionnement et la programmation parallèle sur les données HDFS
- Concevoir et générer une application Spark
- Implémenter Spark Streaming pour le traitement des données en temps réel
- Appliquer des algorithmes de Machine Learning avec MLlib et optimiser Spark
Programme de la formation
Présentation de Apache Spark
Spark et le Big Data
Fonctionnement de Apache Spark
Spark et Hadoop: deux solutions différentes et complémentaires
Spark Shell
Environnement de travail
Outils
RDD (Resilient Distributed Datasets)
Fonctionnement
Cas d’usages
Gestion des opérations de RDD
MapReduce pour le RDD
Spark SQL
Combiner Spark à HDFS (Hadoop Distributed File System)
Intérêts
Cas d’usages
Intégration à Spark de HDFS
Utilisation de HDFS
Spark en cluster
Création d’une structure en clusters
Héberger la structure
Déployer la structure
Interface Web de Spark
Programmation parallèle, Partitionnement
Localiser les données du HDFS
Partitionnement de RDD
Programmation d’opérations parallèles
Exécution
Mise en cache du partitionnement
Gestion de la persistance des données
Conception d’une application à l’aide de Spark
Présentation de Spark
Configuration
Prototyper des opérations avec Spark Shell
Compiler
Générer l’application
Spark Streaming pour le traitement des données en temps réel
Fonctionnement
Principes de base
DStream
Intégrer, transformer des DStreams
Opérations de sortie
Gérer les performances
Implémenter des algorithmes, Machine Learning
Résoudre les problèmes à l’aide d’algorithmes itératifs
Machine Learning Library MLlib
Opérations sur les données graphiques
Optimiser Spark
Gérer les variables partagées
Données broadcastées
Accumulateurs
Optimiser les performances: méthodes et outils

Proposé par
Sparks
"Tout l'IT, vraiment tout"

Proposé par
Sparks
