Formation Spark

Public admis

  • Salarié en Poste
  • Demandeur d'emploi
  • Entreprise
  • Etudiant

Financements

Eligible CPF Votre OPCO Financement personnel

Objectifs de la formation

  • Expliquer le fonctionnement d'Apache Spark et ses relations avec le Big Data et Hadoop
  • Utiliser les RDD pour gérer les opérations et MapReduce
  • Intégrer et utiliser HDFS avec Spark
  • Mettre en place et déployer une structure de cluster Spark
  • Appliquer le partitionnement et la programmation parallèle sur les données HDFS
  • Concevoir et générer une application Spark
  • Implémenter Spark Streaming pour le traitement des données en temps réel
  • Appliquer des algorithmes de Machine Learning avec MLlib et optimiser Spark

Sparks


Tout l'IT, vraiment tout
Voir la fiche entreprise

Tarif

A partir de 2 250,00 €

Durée 3 jours
Modes
  • Centre
  • Entreprise
  • Distance
Sessions
Lieux Partout en France

Sparks


Tout l'IT, vraiment tout
Voir la fiche

Tarif

A partir de 2 250,00 €

Durée 3 jours
Modes
  • Centre
  • Entreprise
  • Distance
Sessions
Lieux Partout en France

Description

Apache Spark est un moteur d'analyse unifié (Unified Analytics Engine), créé pour le traitement rapide des données. Ce framework open source de calcul distribué permet l'analyse et le traitement de données à grandes échelles. Le framework permet le développement d'applications de traitement hautement performantes. Notre formation Apache Spark vous permettra de développer des applications permettant de traiter de larges quantités de données en temps réel et l'intégrer notamment dans un environnement Hadoop pour améliorer le temps d'exécution des applications Hadoop !

Programme

Présentation de Apache Spark

Spark et le Big Data
Fonctionnement de Apache Spark
Spark et Hadoop: deux solutions différentes et complémentaires
Spark Shell
Environnement de travail
Outils

RDD (Resilient Distributed Datasets)

Fonctionnement
Cas d’usages
Gestion des opérations de RDD
MapReduce pour le RDD
Spark SQL

Combiner Spark à HDFS (Hadoop Distributed File System)

Intérêts
Cas d’usages
Intégration à Spark de HDFS
Utilisation de HDFS

Spark en cluster

Création d’une structure en clusters
Héberger la structure
Déployer la structure
Interface Web de Spark

Programmation parallèle, Partitionnement

Localiser les données du HDFS
Partitionnement de RDD
Programmation d’opérations parallèles
Exécution
Mise en cache du partitionnement
Gestion de la persistance des données

Conception d’une application à l’aide de Spark

Présentation de Spark
Configuration
Prototyper des opérations avec Spark Shell
Compiler
Générer l’application

Spark Streaming pour le traitement des données en temps réel

Fonctionnement
Principes de base
DStream
Intégrer, transformer des DStreams
Opérations de sortie
Gérer les performances

Implémenter des algorithmes, Machine Learning

Résoudre les problèmes à l’aide d’algorithmes itératifs
Machine Learning Library MLlib
Opérations sur les données graphiques

Optimiser Spark

Gérer les variables partagées
Données broadcastées
Accumulateurs
Optimiser les performances: méthodes et outils

Prérequis

Connaissances basiques en Java, Scala ou Python, ainsi que sur Apache Hadoop

Public

Data scientists,

Ces formations pourraient vous intéresser

Objectifs de la formation

  • Cette formation fait l'objet d'une évaluation formative.
Tarif

Contacter l'organisme

Durée

4 jours (28 heures)

Modes
  • Distance
  • Centre

Objectifs de la formation

  • Cette formation fait l'objet d'une évaluation formative.
Tarif

Contacter l'organisme

Durée

2 jours (14 heures)

Modes
  • Distance
  • Centre

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Naviguer dans l'écosystème Spark en utilisant Scala comme langage de programmation.
Tarif

A partir de 2 280,00 €

Durée

3j / 21h

Modes
  • Centre
  • Distance

Formation Apache Spark

Proposé par DAWAN

Objectifs de la formation

- Développer des applications avec Spark - Utiliser les bibliothèques pour SQL, les flux de données et l'apprentissage automatique - Retranscrire des difficultés rencontrées sur le terrain dans des algorithmes parallèles - Développer des applications métier qui s'intègrent à  Spark
Tarif

A partir de 2 760,00 €

Durée

4j / 28h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Décrire le principe de fonctionnement de Spark
  • Utiliser l'API PySpark pour interagir avec Spark en Python
  • Mettre en oeuvre les méthodes de Machine Learning avec la librairie MLlib de Spark
  • Traiter les flux de données avec Spark Streaming
  • Manipuler les données avec Spark SQL.
Tarif

A partir de 2 280,00 €

Durée

3j / 21h

Modes
  • Centre
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Expérimenter les options de calcul et de stockage pour les workloads de Data Engineering dans Azure
  • Exécuter des requêtes interactives à l'aide de pools SQL sans serveur
  • Effectuer l'exploration et la transformation des données dans Azure Databricks
  • Explorer, transformer et charger des données dans le Data Warehouse à l'aide d'Apache Spark
  • Ingérer et charger des données dans le Data Warehouse
  • Transformer les données avec Azure Data Factory ou Azure Synapse Pipelines
  • Intégrer les données à partir des notebooks avec Azure Data Factory ou Azure Synapse Pipelines
  • Prendre en charge le traitement analytique transactionnel hybride (HTAP) avec Azure Synapse Link
  • Assurer la sécurité end-to-end avec Azure Synapse Analytics
  • Effectuer un traitement de flux en temps réel avec Stream Analytics
  • Créer une solution de traitement de flux avec Event Hubs et Azure Databricks.
Tarif

A partir de 2 680,00 €

Durée

4j / 28h

Modes
  • Centre
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Identifier les enjeux de la Data Science et de l'IA
  • Schématiser le cycle d'un projet Data Science
  • Appliquer les meilleures pratiques en matière de nettoyage et de préparation de vos données avant l'analyse
  • Modéliser un problème de Data Science.
Tarif

A partir de 1 520,00 €

Durée

2j / 14h

Modes
  • Centre
  • Distance

Objectifs de la formation

  • Cette formation fait l'objet d'une évaluation formative.
Tarif

Contacter l'organisme

Durée

1 jour ( 7 heures)

Modes
  • Distance
  • Centre

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Concevoir et tester un modèle de ML (Machine Learning) sur Google Cloud à partir d'un cas pratique fil rouge
  • Concevoir et tester un pipeline MLOps robuste
  • Déployer et automatiser votre pipeline MLOps de production et le passer à l'échelle
  • Surveiller votre modèle de production et corriger les écarts.
Tarif

A partir de 3 800,00 €

Durée

5j / 35h

Modes
  • Centre
  • Distance

Objectifs de la formation

  • Pendant la formation, le formateur évalue la progression pédagogique des participants via des QCM, des mises en situation et des travaux pratiques. Les participants passent un test de positionnement avant et après la formation pour valider leurs compétences acquises.
Tarif

Contacter l'organisme

Durée

8 jours (56 heures)

Modes
  • Distance
  • Centre

Je cherche à faire...