Formation Apache Spark

Public admis

  • Salarié en Poste
  • Demandeur d'emploi
  • Entreprise
  • Etudiant

Financements

Eligible CPF Votre OPCO Financement personnel

Objectifs de la formation

- Développer des applications avec Spark - Utiliser les bibliothèques pour SQL, les flux de données et l'apprentissage automatique - Retranscrire des difficultés rencontrées sur le terrain dans des algorithmes parallèles - Développer des applications métier qui s'intègrent à  Spark

DAWAN


Formez-vous à l’excellence.
Voir la fiche entreprise

Tarif

A partir de 2 760,00 €

Durée 4 jour(s)
Modes
  • Centre
  • Entreprise
  • Distance
Sessions
Lieux Partout en France

DAWAN


Formez-vous à l’excellence.
Voir la fiche

Tarif

A partir de 2 760,00 €

Durée 4 jour(s)
Modes
  • Centre
  • Entreprise
  • Distance
Sessions
Lieux Partout en France

Description

  • Un support et les exercices du cours pour chaque stagiaire
  • Un formateur expert ayant suivi une formation à la pédagogie
  • Boissons offertes pendant les pauses en inter-entreprises
  • Salles lumineuses et locaux facilement accessibles
  • Méthodologie basée sur l'Active Learning : 75% de pratique minimum
  • Matériel pour les formations présentielles informatiques : un PC par participant
  • Positionnement à l'entrée et à la sortie de la formation
  • Certification CPF quand formation éligible
  • Programme

    Introduction

    Définition du Big Data et des calculs
    À quoi sert Spark
    Quels sont les avantages de Spark

    Applications évolutives

    Identifier les limites de performances des CPU modernes
    Développer les modèles de traitement en parallèle traditionnels

    Créer des algorithmes parallèles

    Utiliser la programmation fonctionnelle pour l'exécution des programmes en parallèles
    Retranscrire des difficultés rencontrées sur le terrain dans des algorithmes parallèles

    Structures de données parallèles

    Répartir les données dans le cluster avec les RDD (Resilient Distributed Datasets) et les DataFrames
    Répartir l'exécution des tâches entre plusieurs nœuds
    Lancer les applications avec le modèle d'exécution de Spark

    Structure des clusters Spark

    Créer des clusters résilients et résistants aux pannes
    Mettre en place un système de stockage distribué évolutif

    Gestion du cluster

    Surveillance et administration des applications Spark
    Afficher les plans d'exécution et les résultats

    Choisir l'environnement de développement

    Réaliser une analyse exploratoire avec le shell Spark
    Créer des applications Spark autonomes

    Utiliser les API Spark

    Programmation avec Scala et d'autres langages compatibles
    Créer des applications avec les API de base
    Enrichir les applications avec les bibliothèques intégrées

    Interroger des données structurées

    Traiter les requêtes avec les DataFrames et le code SQL embarqué
    Développer SQL avec les fonctions définies par l'utilisateur (UDF)
    Utiliser les ensembles de données aux formats JSON et Parquet

    Intégration à des systèmes externes

    Connexion aux bases de données avec JDBC
    Lancer des requêtes Hive sur des applications externes

    Qu'appelle-t-on flux de données ?

    Utiliser des fenêtres glissantes
    Déterminer l'état d'un flux de données continu
    Traiter des flux de données simultanés
    Améliorer les performances et la fiabilité

    Traiter les flux des sources de données

    Traiter les flux des sources intégrées (fichiers journaux, sockets Twitter, Kinesis, Kafka)
    Développer des récepteurs personnalisés
    Traiter les données avec l'API Streaming et Spark SQL

    Classer les observations

    Prévoir les résultats avec l'apprentissage supervisé
    Créer un élément de classification pour l'arbre de décision

    Identifier les schémas récurrents

    Regrouper les données avec l'apprentissage non supervisé
    Créer un cluster avec la méthode k-means

    Développer des applications métier avec Spark

    Mise à disposition de Spark via un service Web RESTful
    Générer des tableaux de bord avec Spark

    Utiliser Spark sous forme de service

    Service cloud vs. sur site
    Choisir un fournisseur de services (AWS, Azure, Databricks, etc.)

    Développer Spark pour les clusters de grande taille
    Améliorer la sécurité des clusters multifournisseurs
    Suivi du développement continu de produits Spark sur le marché
    Projet Tungsten : repousser les performances à la limite des capacités des équipements modernes
    Utiliser les projets développés avec Spark
    Revoir l'architecture de Spark pour les plateformes mobiles

    Prérequis

    Maîtrise de la programmation orientée objet en Java ou en C#

    Public

    Développeurs, architectes système et responsables techniques qui veulent déployer des solutions Spark dans leur entreprise

    Ces formations pourraient vous intéresser

    Objectifs de la formation

    • Installer le serveur Web Apache sur différents systèmes d’exploitation.
    • Configurer le mode de fonctionnement d’Apache selon le système d’exploitation pour optimiser les performances.
    • Comprendre l'organisation de la configuration dans les différents fichiers.
    • Optimiser la configuration d'Apache vis à vis du chargement des modules nécessaires.
    • Réaliser la configuration minimale d'Apache pour son fonctionnement en tant que reverse-proxy.
    • Mettre en place une configuration optimale de la journalisation.
    • Mettre en place une stratégie de restriction d’accès par machine et par authentification utilisateur.
    • Sécuriser les échanges entre les navigateurs et le serveur avec HTTPS.
    • Gérer la répartition de charge et la tolérance de panne sur plusieurs serveurs backend.
    Tarif

    Contacter l'organisme

    Durée

    2j / 14h

    Modes
    • Centre
    • Entreprise
    • Distance

    Objectifs de la formation

    • Avoir une vue d'ensemble de l'architecture de Apache Pig ;
    • Connaître les fonctionnalités générales et les capacités de Apache Pig ;
    • Charger et de manipuler des données de types et formats différents ;
    • Optimiser les traitements générés ;
    • Utiliser des librairies Pig externes.
    Tarif

    Contacter l'organisme

    Durée

    2j / 14h

    Modes
    • Centre
    • Entreprise
    • Distance

    Objectifs de la formation

    • Cette formation fait l'objet d'une évaluation formative.
    Tarif

    Contacter l'organisme

    Durée

    4 jours (28 heures)

    Modes
    • Distance
    • Centre

    Objectifs de la formation

    • Développer une application de traitements distribués sur de gros volumes de données ;
    • Configurer et optimiser Hadoop pour chaque besoin ;
    • Organiser et construire un cluster Hadoop ;
    • Prototyper et intégrer rapidement de nouveaux besoins grâce à Hadoop Streaming et Python.
    Tarif

    Contacter l'organisme

    Durée

    5j / 35h

    Modes
    • Centre
    • Entreprise
    • Distance

    Objectifs de la formation

    A l'issue de cette formation, vous serez capable de :

    • Installer et administrer des bases de données sous la solution NoSQL Apache Cassandra
    • Décrire l'architecture de NoSQL Apache Cassandra et ses apports par rapport aux autres solutions
    • Installer et configurer le SGBD NoSQL Apache Cassandra
    • Administrer et sécuriser un cluster Cassandra
    • Définir le CQL (Cassandra Query Language)
    • Créer une base de données et manipuler ses objets
    • Expliquer la notion de grappe au sein de la base de données.
    Tarif

    A partir de 2 080,00 €

    Durée

    3j / 21h

    Modes
    • Centre
    • Distance

    Objectifs de la formation

    A l'issue de cette formation, vous serez capable de :

    • Utiliser le style fonctionnel Java pour définir des tâches complexes de traitement des données
    • Différencier les API RDD (Resilient Distributed Dataset) et DataFrame
    • Utiliser une syntaxe de style SQL pour produire des rapports sur des ensembles de Big Data
    • Mettre en place des algorithmes d'apprentissage automatique avec le Big Data et Spark ML (Machine Learning)
    • Connecter Spark à Apache Kafka pour traiter des flux de Big Data
    • Expliquer comment le streaming structuré peut être utilisé pour construire des pipelines avec Kafka.
    Tarif

    A partir de 2 280,00 €

    Durée

    3j / 21h

    Modes
    • Centre
    • Distance

    Objectifs de la formation

    Administrer les serveurs Apache, Nginx et les applications Tomcat
    Tarif

    A partir de 2 190,00 €

    Durée

    3j / 21h

    Modes
    • Centre
    • Entreprise
    • Distance

    Objectifs de la formation

    • Développer une application s’appuyant sur Spark
    • Connaître les différents concepts sous-jacents et les APIs
    • Exécuter, tester, optimiser une application utilisant Spark
    • Appréhender les problématiques de machine learning avec SparkML
    Tarif

    Contacter l'organisme

    Durée

    3j / 21h

    Modes
    • Centre
    • Entreprise
    • Distance

    Formation Apache ActiveMQ

    Proposé par Sparks

    Objectifs de la formation

    • Apprendre à utiliser Apache Active MQ
    • Savoir utiliser Java Message Service (JMS)
    • Pouvoir monitorer ActiveMQ
    • Manier la connectivité d'ActiveMQ
    • Savoir stocker des messages
    • Mettre en place la sécurité
    • Pouvoir embarquer ActiveMQ dans des applications Java et Spring
    • Intégrer ActiveMQ à des serveurs d'applications
    Tarif

    A partir de 1 800,00 €

    Durée

    3 jours

    Modes
    • Centre
    • Entreprise
    • Distance

    Objectifs de la formation

    A l'issue de cette formation, vous serez capable de :

    • Décrire le principe de fonctionnement de Spark
    • Utiliser l'API PySpark pour interagir avec Spark en Python
    • Mettre en oeuvre les méthodes de Machine Learning avec la librairie MLlib de Spark
    • Traiter les flux de données avec Spark Streaming
    • Manipuler les données avec Spark SQL.
    Tarif

    A partir de 2 280,00 €

    Durée

    3j / 21h

    Modes
    • Centre
    • Distance

    Je cherche à faire...