Formation Spark

Public admis

  • Salarié en Poste
  • Demandeur d'emploi
  • Entreprise
  • Etudiant

Financements

Eligible CPF Votre OPCO Financement personnel

Objectifs de la formation

  • Expliquer le fonctionnement d'Apache Spark et ses relations avec le Big Data et Hadoop
  • Utiliser les RDD pour gérer les opérations et MapReduce
  • Intégrer et utiliser HDFS avec Spark
  • Mettre en place et déployer une structure de cluster Spark
  • Appliquer le partitionnement et la programmation parallèle sur les données HDFS
  • Concevoir et générer une application Spark
  • Implémenter Spark Streaming pour le traitement des données en temps réel
  • Appliquer des algorithmes de Machine Learning avec MLlib et optimiser Spark

Sparks


Tout l'IT, vraiment tout
Voir la fiche entreprise

Tarif

A partir de 2 250,00 €

Durée 3 jours
Modes
  • Centre
  • Entreprise
  • Distance
Sessions
Lieux Partout en France

Sparks


Tout l'IT, vraiment tout
Voir la fiche

Tarif

A partir de 2 250,00 €

Durée 3 jours
Modes
  • Centre
  • Entreprise
  • Distance
Sessions
Lieux Partout en France

Description

Apache Spark est un moteur d'analyse unifié (Unified Analytics Engine), créé pour le traitement rapide des données. Ce framework open source de calcul distribué permet l'analyse et le traitement de données à grandes échelles. Le framework permet le développement d'applications de traitement hautement performantes. Notre formation Apache Spark vous permettra de développer des applications permettant de traiter de larges quantités de données en temps réel et l'intégrer notamment dans un environnement Hadoop pour améliorer le temps d'exécution des applications Hadoop !

Programme

Présentation de Apache Spark

Spark et le Big Data
Fonctionnement de Apache Spark
Spark et Hadoop: deux solutions différentes et complémentaires
Spark Shell
Environnement de travail
Outils

RDD (Resilient Distributed Datasets)

Fonctionnement
Cas d’usages
Gestion des opérations de RDD
MapReduce pour le RDD
Spark SQL

Combiner Spark à HDFS (Hadoop Distributed File System)

Intérêts
Cas d’usages
Intégration à Spark de HDFS
Utilisation de HDFS

Spark en cluster

Création d’une structure en clusters
Héberger la structure
Déployer la structure
Interface Web de Spark

Programmation parallèle, Partitionnement

Localiser les données du HDFS
Partitionnement de RDD
Programmation d’opérations parallèles
Exécution
Mise en cache du partitionnement
Gestion de la persistance des données

Conception d’une application à l’aide de Spark

Présentation de Spark
Configuration
Prototyper des opérations avec Spark Shell
Compiler
Générer l’application

Spark Streaming pour le traitement des données en temps réel

Fonctionnement
Principes de base
DStream
Intégrer, transformer des DStreams
Opérations de sortie
Gérer les performances

Implémenter des algorithmes, Machine Learning

Résoudre les problèmes à l’aide d’algorithmes itératifs
Machine Learning Library MLlib
Opérations sur les données graphiques

Optimiser Spark

Gérer les variables partagées
Données broadcastées
Accumulateurs
Optimiser les performances: méthodes et outils

Prérequis

Connaissances basiques en Java, Scala ou Python, ainsi que sur Apache Hadoop

Public

Data scientists,

Ces formations pourraient vous intéresser

Formation Spark SQL

Proposé par Sparks

Objectifs de la formation

  • Installer et configurer Spark SQL
  • Réaliser des analyses de données en utilisant Spark SQL
  • Requêter des jeux de données dans différents formats
  • Visualiser les données et effectuer des requêtes sur les résultats
Tarif

A partir de 1 400,00 €

Durée

2 jours

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

Plus concrètement, à l'issue de cette formation Spark, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Comprendre la philosophie de Spark et ses limites
  • Utiliser Spark avec Hadoop
  • Développer avec Spark streaming pour de l’analyse de flux en temps réel
  • Développer des applications réparties avec Spark (parallélisme sur Cluster)
  • Accéder à des données structurées dans vos applications (Spark SQL)
  • Découvrir le machine learning avec Spark ML
Tarif

A partir de 1 995,00 €

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Pendant la formation, le formateur évalue la progression pédagogique des participants via des QCM, des mises en situation et des travaux pratiques. Les participants passent un test de positionnement avant et après la formation pour valider leurs compétences acquises.
Tarif

Contacter l'organisme

Durée

12 jours (84 heures)

Modes
  • Distance
  • Centre

Objectifs de la formation

À l'issue de cette formation Développer des applications pour Apache Spark avec Python ou Scala vous aurez acquis les connaissances et les compétences nécessaires pour :

  • Identifier et définir les différents composants de l’écosystème Hadoop
  • Appréhender le fonctionnement de Spark
  • Développer des applications avec Apache Spark
  • Optimiser une application Spark
  • Utiliser Spark SQL et les dataframes
  • Faire de l’analyse en temps réel avec Spark streaming
  • Découvrir MLLib pour du machine learning sur Spark
  • Explorer, manipuler et visualiser vos données avec Zeppelin.
Tarif

A partir de 3 550,00 €

Durée

4j / 28h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

À l'issue de cette formation Big Data Développement, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Connaître les spécificités du Big Data
  • Savoir mettre en œuvre les technologies relatives au Big Data
  • Comprendre et exploiter le Machine Learning
  • Pouvoir tirer partie de la visualisation des données
Tarif

A partir de 2 390,00 €

Durée

4j / 28h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Développer des applications de Machine Learning et d'IA (Intelligence Artificielle) avec Spark et Python
  • Utiliser la programmation parallèle sur un cluster
  • Développer et optimiser des algorithmes standards de Machine Learning et d'IA
  • Utiliser les bibliothèques Python pour le Machine Learning et d'IA
  • Décrire le cycle de vie d'un projet Data Science.
Tarif

A partir de 3 800,00 €

Durée

5j / 35h

Modes
  • Centre
  • Distance

Objectifs de la formation

À l'issue de cette formation Big Data sur Amazon Web Services (AWS), vous aurez acquis les connaissances et compétences nécessaires pour :

  • Comprendre les applications d'Apache Hadoop dans le contexte d'Amazon EMR
  • Comprendre l'architecture d'un cluster Amazon EMR
  • Lancer un cluster Amazon EMR en utilisant une image machine Amazon (AMI) et des types d'instances Amazon EC2 adaptés
  • Connaître les options d'importation, de transfert et de compression des données destinées à Amazon EMR
  • Sélectionner les options de stockage de données sur AWS les plus adaptées à leur traitement dans Amazon EMR
  • Utiliser les frameworks de programmation courants compatibles avec Amazon EMR, notamment Hive, Pig et Streaming
  • Utiliser Amazon Redshift pour déployer une solution de Big Data
  • Utiliser un logiciel de visualisation des Big Data
  • Sélectionner les options de sécurité les plus adaptées à Amazon EMR et à vos données
  • Effectuer des analyses de données en mémoire avec Spark et Shark sur Amazon EMR
  • Sélectionner les options adaptées pour gérer votre environnement Amazon EMR de façon rentable
  • Comprendre les avantages d'Amazon Kinesis pour les applications de Big Data.
Tarif

Contacter l'organisme

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Formation Python, perfectionnement

Proposé par PLB CONSULTANT

Objectifs de la formation

Concrètement, à l'issue de cette formation Python Développement Avancé, vous saurez :

  • Optimiser vos programmes grâce au multi-threading et à la supervision (monitoring)
  • Connaître les manipulations avancées en Python : Context Manager, métaclasses, injection et introspection du code…
  • Maîtriser la manipulation des données
  • Connaître et savoir exploiter à un premier niveau les bibliothèques qui font (ou on fait) le succès de Python (Mathématiques, Scientifique, IA, Machine Learning, Réseau)
Tarif

A partir de 2 440,00 €

Durée

4j / 28h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

À l'issue de cette formation Big Data Analyse Visualisation, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Comprendre les spécificités du Big Data
  • Connaître les concepts fondamentaux et technologies associées au Big Data
  • Gérer, collecter et explorer des données
  • Analyser et visualiser ces données
Tarif

A partir de 2 390,00 €

Durée

4j / 28h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

Concrètement à l'issue de cette formation Kafka Streams & ksqlDB vous serez en mesure de :

  • Comprendre les fonctionnalités et les avantages de Kafka Streams par rapport aux autres infrastructures de traitement de flux
  • Appréhender l’offre de ksqlDB
  • Développer des micro-services qui transforment, enrichissent, filtrent et agrègent des flux d’événements
  • Construire, packager et déployer une application Kafka Streams
  • Monitorer une application Kafka Streams
Tarif

A partir de 1 480,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Je cherche à faire...