Formation Spark

Public admis

  • Salarié en Poste
  • Demandeur d'emploi
  • Entreprise
  • Etudiant

Financements

Eligible CPF Votre OPCO Financement personnel

Objectifs de la formation

  • Expliquer le fonctionnement d'Apache Spark et ses relations avec le Big Data et Hadoop
  • Utiliser les RDD pour gérer les opérations et MapReduce
  • Intégrer et utiliser HDFS avec Spark
  • Mettre en place et déployer une structure de cluster Spark
  • Appliquer le partitionnement et la programmation parallèle sur les données HDFS
  • Concevoir et générer une application Spark
  • Implémenter Spark Streaming pour le traitement des données en temps réel
  • Appliquer des algorithmes de Machine Learning avec MLlib et optimiser Spark

Sparks


Tout l'IT, vraiment tout
Voir la fiche entreprise

Tarif

A partir de 2 250,00 €

Durée 3 jours
Modes
  • Centre
  • Entreprise
  • Distance
Sessions
Lieux Partout en France

Sparks


Tout l'IT, vraiment tout
Voir la fiche

Tarif

A partir de 2 250,00 €

Durée 3 jours
Modes
  • Centre
  • Entreprise
  • Distance
Sessions
Lieux Partout en France

Description

Apache Spark est un moteur d'analyse unifié (Unified Analytics Engine), créé pour le traitement rapide des données. Ce framework open source de calcul distribué permet l'analyse et le traitement de données à grandes échelles. Le framework permet le développement d'applications de traitement hautement performantes. Notre formation Apache Spark vous permettra de développer des applications permettant de traiter de larges quantités de données en temps réel et l'intégrer notamment dans un environnement Hadoop pour améliorer le temps d'exécution des applications Hadoop !

Programme

Présentation de Apache Spark

Spark et le Big Data
Fonctionnement de Apache Spark
Spark et Hadoop: deux solutions différentes et complémentaires
Spark Shell
Environnement de travail
Outils

RDD (Resilient Distributed Datasets)

Fonctionnement
Cas d’usages
Gestion des opérations de RDD
MapReduce pour le RDD
Spark SQL

Combiner Spark à HDFS (Hadoop Distributed File System)

Intérêts
Cas d’usages
Intégration à Spark de HDFS
Utilisation de HDFS

Spark en cluster

Création d’une structure en clusters
Héberger la structure
Déployer la structure
Interface Web de Spark

Programmation parallèle, Partitionnement

Localiser les données du HDFS
Partitionnement de RDD
Programmation d’opérations parallèles
Exécution
Mise en cache du partitionnement
Gestion de la persistance des données

Conception d’une application à l’aide de Spark

Présentation de Spark
Configuration
Prototyper des opérations avec Spark Shell
Compiler
Générer l’application

Spark Streaming pour le traitement des données en temps réel

Fonctionnement
Principes de base
DStream
Intégrer, transformer des DStreams
Opérations de sortie
Gérer les performances

Implémenter des algorithmes, Machine Learning

Résoudre les problèmes à l’aide d’algorithmes itératifs
Machine Learning Library MLlib
Opérations sur les données graphiques

Optimiser Spark

Gérer les variables partagées
Données broadcastées
Accumulateurs
Optimiser les performances: méthodes et outils

Prérequis

Connaissances basiques en Java, Scala ou Python, ainsi que sur Apache Hadoop

Public

Data scientists,

Ces formations pourraient vous intéresser

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Expérimenter les options de calcul et de stockage pour les workloads de Data Engineering dans Azure
  • Exécuter des requêtes interactives à l'aide de pools SQL sans serveur
  • Effectuer l'exploration et la transformation des données dans Azure Databricks
  • Explorer, transformer et charger des données dans le Data Warehouse à l'aide d'Apache Spark
  • Ingérer et charger des données dans le Data Warehouse
  • Transformer les données avec Azure Data Factory ou Azure Synapse Pipelines
  • Intégrer les données à partir des notebooks avec Azure Data Factory ou Azure Synapse Pipelines
  • Prendre en charge le traitement analytique transactionnel hybride (HTAP) avec Azure Synapse Link
  • Assurer la sécurité end-to-end avec Azure Synapse Analytics
  • Effectuer un traitement de flux en temps réel avec Stream Analytics
  • Créer une solution de traitement de flux avec Event Hubs et Azure Databricks.
Tarif

A partir de 2 680,00 €

Durée

4j / 28h

Modes
  • Centre
  • Distance

Objectifs de la formation

À l'issue de cette formation Apache Spark Optimisation, vous aurez acquis les connaissances et compétences nécessaires pour :

  • S'approprier les cinq problématiques de performances les plus communes dans une application Spark et leurs principales méthodes de résolution
  • Investiguer, identifier et traiter des problèmes de performances les plus communs associés à l'ingestion de données
  • Appréhender les nouvelles fonctionnalités de Spark 3.x permettant de traiter les problèmes de performance dans vos applications Spark
  • Configurer des clusters Spark pour une performance maximale pour des besoins métier spécifiques
Tarif

A partir de 1 750,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise

Spark avec Databricks

Proposé par M2I

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Identifier les caractéristiques principales de Spark et des Databricks
  • Décrire comment les DataFrames sont créées et évaluées dans Spark
  • Appliquer les transformations DataFrame pour traiter et analyser les données
  • Appliquer le streaming structuré pour traiter les données en continu.
Tarif

A partir de 2 280,00 €

Durée

3j / 21h

Modes
  • Centre
  • Distance

Objectifs de la formation

Plus concrètement, à l'issue de cette formation Spark, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Comprendre la philosophie de Spark et ses limites
  • Utiliser Spark avec Hadoop
  • Développer avec Spark streaming pour de l’analyse de flux en temps réel
  • Développer des applications réparties avec Spark (parallélisme sur Cluster)
  • Accéder à des données structurées dans vos applications (Spark SQL)
  • Découvrir le machine learning avec Spark ML
Tarif

A partir de 1 995,00 €

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Développer une application s’appuyant sur Spark
  • Connaître les différents concepts sous-jacents et les APIs
  • Exécuter, tester, optimiser une application utilisant Spark
  • Appréhender les problématiques de machine learning avec SparkML
Tarif

Contacter l'organisme

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

À l'issue de cette formation Apache Spark, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Décrire les fondamentaux de Spark
  • Exploiter les APIs de base de Spark pour manipuler des données
  • Concevoir et implémenter des cas d’usage typiques de Spark
  • Construire des pipelines de données et requêter de larges jeux de données grâce à Spark SQL et aux DataFrames
  • Analyser les jobs Sparks à l’aide des interfaces d’administration et des logs au sein des environnements Databricks
  • Créer des jobs de type Structured Streaming
  • Découvrir les bases du fonctionnement interne de Spark
  • Découvrir le pattern Deltalake
Tarif

A partir de 1 780,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Pendant la formation, le formateur évalue la progression pédagogique des participants via des QCM, des mises en situation et des travaux pratiques. Les participants passent un test de positionnement avant et après la formation pour valider leurs compétences acquises.
Tarif

Contacter l'organisme

Durée

4 jours (28 heures)

Modes
  • Entreprise
  • Distance
  • Centre

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Identifier les enjeux de la Data Science et de l'IA
  • Schématiser le cycle d'un projet Data Science
  • Appliquer les meilleures pratiques en matière de nettoyage et de préparation de vos données avant l'analyse
  • Modéliser un problème de Data Science.
Tarif

A partir de 1 520,00 €

Durée

2j / 14h

Modes
  • Centre
  • Distance

Objectifs de la formation

Concrètement à l'issue de cette formation Kafka Streams & ksqlDB vous serez en mesure de :

  • Comprendre les fonctionnalités et les avantages de Kafka Streams par rapport aux autres infrastructures de traitement de flux
  • Appréhender l’offre de ksqlDB
  • Développer des micro-services qui transforment, enrichissent, filtrent et agrègent des flux d’événements
  • Construire, packager et déployer une application Kafka Streams
  • Monitorer une application Kafka Streams
Tarif

A partir de 1 480,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Utiliser le style fonctionnel Java pour définir des tâches complexes de traitement des données
  • Différencier les API RDD (Resilient Distributed Dataset) et DataFrame
  • Utiliser une syntaxe de style SQL pour produire des rapports sur des ensembles de Big Data
  • Mettre en place des algorithmes d'apprentissage automatique avec le Big Data et Spark ML (Machine Learning)
  • Connecter Spark à Apache Kafka pour traiter des flux de Big Data
  • Expliquer comment le streaming structuré peut être utilisé pour construire des pipelines avec Kafka.
Tarif

A partir de 2 280,00 €

Durée

3j / 21h

Modes
  • Centre
  • Distance

Je cherche à faire...