Spark Java - Traitement des données

Public admis

  • Salarié en Poste
  • Demandeur d'emploi
  • Entreprise
  • Etudiant

Financements

Eligible CPF Votre OPCO Financement personnel

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Utiliser le style fonctionnel Java pour définir des tâches complexes de traitement des données
  • Différencier les API RDD (Resilient Distributed Dataset) et DataFrame
  • Utiliser une syntaxe de style SQL pour produire des rapports sur des ensembles de Big Data
  • Mettre en place des algorithmes d'apprentissage automatique avec le Big Data et Spark ML (Machine Learning)
  • Connecter Spark à Apache Kafka pour traiter des flux de Big Data
  • Expliquer comment le streaming structuré peut être utilisé pour construire des pipelines avec Kafka.

M2I


Un leadership dans le domaine de la formation
Voir la fiche entreprise

Tarif

A partir de 2 280,00 €

Durée 3 jours  (21h00)
Modes
  • Centre
  • Distance
Sessions
Lieux Partout en France

M2I


Un leadership dans le domaine de la formation
Voir la fiche

Tarif

A partir de 2 280,00 €

Durée 3 jours  (21h00)
Modes
  • Centre
  • Distance
Sessions
Lieux Partout en France

Programme

Jour 1

Introduction

  • Architecture de Spark et les RDD

Installation du Spark

Reduce sur les RDD

Mapping et outputting

  • Les opérations de mapping
  • Outputting des résultats sur la console
  • Compter les éléments du Big Data
  • "NotSerializableException" avec Spark

Tuples

  • RDD des objets
  • Tuples et RDD

Pair RDD

  • Vue d'ensemble des Pair RDD
  • Construire Pair RDD
  • Coder le "reduceByKey"
  • Utilisation de l'API Fluent
  • Groupement par clé (BY KEY)

FlatMaps et filters

Lecture du disque

Classement des mots-clés en pratique

  • Exigences pratiques
  • Solution pratique (avec tri)

Tri et coalescence

  • Coalesce dans Spark ?

Déploiement vers AWS EMR (Amazon Elastic MapReduce)

  • Comment démarrer un cluster Spark pour EMR
  • Emballage d'un Spark JAR pour EMR
  • Exécuter un travail Spark sur EMR
  • Comprendre la sortie de la progression du travail
  • Calculer les coûts d'EMR et terminer le cluster

Jointures

  • Internes
  • Externes de gauche et optionnelles
  • Externes à droite
  • Complètes et cartésiennes

Exemples de travaux pratiques (à titre indicatif)

  • Big Data (grand exercice)
    • Présentation des exigences
    • Echauffement
    • Exigences de l'exercice principal
    • Marche à suivre

La performance des RDD

  • Transformations et actions
  • Le DAG (Directed Acyclic Graph) et Spark UI
  • Transformations étroites et larges
  • Shuffles
  • Gérer les BY KEY
  • "map-side-reduces"
  • Mise en cache et persistance

Jour 2

Spark SQL : introduction

  • Utilisation pratique de Spark SQL

Datasets

  • Les bases du Dataset
  • Filtrage en utilisant les expressions, lambda et colonnes

SQL : syntaxe

  • Utilisation d'une vue temporaire Spark pour SQL

Données en mémoire

Groupements et agrégations

Date Formatting

Multiple Groupings

Ordering

DataFrame API

  • SQL vs DataFrame
  • Groupement DataFrame

Pivot tables

  • Coder Pivot table en Spark

Plus d'agrégations

  • Comment utiliser la méthode "agg" en Spark

Exemples de travaux pratiques (à titre indicatif)

  • Comment utiliser lambda pour écrire un UDF (User Defined Functions) en Spark
  • Utilisation de multiples paramètres d'entrées en Spark UDF
  • Utilisation des UDF en Spark SQL

Performance de Spark SQL

  • Comprendre le Spark UI pour Spark SQL
  • Performances de SQL et de DataFrame ?
  • Mise à jour et réglage "spark.sql.shuffle.partitions"

HashAggregation

  • Explication des plans d'exécution
  • HashAggregation

Performance Spark SQL vs RDD

  • Introduction de ML
  • Apprentissage supervisé et non-supervisé
  • Processus de construction d'un modèle

Régression linéaire

  • Introduction
  • Programmation des modèles de régression linéaire
  • Assemblage des vecteurs des paramètres
  • Fitting des modèles

Données d'apprentissage

  • Training vs test et holdout Data
  • Guide pratique
  • Evaluation de la précision des modèles avec R2 et RMSE (Root Mean Square Error)

Paramètres d'ajustement des modèles

  • Ajustement des paramètres des modèles de régression linéaire
  • Training, test et holdout Data

Sélection des caractéristiques (features)

  • Description des caractéristiques
  • Corrélation des caractéristiques
  • Identification et élimination des caractéristiques dupliquées
  • Préparation des données

Données non numériques

  • Utilisation "OneHotEncoding"
  • Comprendre les Vectors

Pipelines

Cas d'étude

Régression logistique

  • True vs false / negatives vs postives
  • Implémentation de la régression logistique

Les arbres de décision

  • Aperçu des arbres de décision
  • Construction du modèle
  • Interprétation d'un arbre de décision
  • Random Forest

K-means clustering

Jour 3

Spark Streaming et streaming structuré avec Kafka

Introduction au streaming

  • DStreams
  • Commencer Streaming Job
  • Transformations et agrégations streaming
  • Spark UI pour les Streaming Jobs
  • Traitement des lots

Streaming avec Apache Kafka

  • Introduction et installation
  • Utilisation du Kafka Event Simulator
  • Intégration de Kafka avec Spark
  • Utilisation de KafkaUtils pour accéder au DStream
  • Ecrire une agrégation Kafka
  • Ajouter une fenêtre et "slide interval"

Streaming structuré

  • Aperçu du streaming structuré
  • Les puits de données
  • Les modes de sortie du streaming structuré
  • Fenêtres et filigranes
  • Batch pour le streaming structuré ?
  • Kafka Structured Streaming Pipelines

Le contenu de ce programme peut faire l'objet d'adaptation selon les niveaux, prérequis et besoins des apprenants.

Modalités d’évaluation des acquis

  • En cours de formation, par des études de cas ou des travaux pratiques
  • Et, en fin de formation, par un questionnaire d'auto-évaluation

Les + de la formation

Le cours comprend :

- un module couvrant Spark ML, un ajout passionnant à Spark qui vous permet d'appliquer des modèles d'apprentissage automatique à vos Big Data ! Aucune expérience mathématiques n'est nécessaire !

- un module complet de 3 heures couvrant Spark Streaming, où vous aurez une expérience pratique de l'intégration de Spark avec Apache Kafka pour gérer les flux de données en temps réel. Nous utilisons à la fois les API DStream et streaming structuré.

Prérequis

Avoir une connaissance préalable de Java est supposée, mais tout ce qui dépasse les bases est expliqué. Une connaissance préalable de SQL sera utile pour une partie du cours, mais si vous ne l'avez jamais utilisé auparavant, ce sera une bonne première expérience. Java 8 est requis pour le cours (Spark ne supporte pas actuellement Java 9+, cependant Java 8 est nécessaire pour la syntaxe lambda fonctionnelle).

Public

Développeurs, statisticiens, consultants Big Data, Data Analysts, Data Scientists, architectes.

Ces formations pourraient vous intéresser

Objectifs de la formation

  • Installer et configurer SQL Server
  • Gérer l'authentification
  • Contrôler l'accès aux ressources
  • Implémenter l'audit et le cryptage
  • Maîtriser les stratégies de sauvegarde
  • Utiliser SQL Server Agent
  • Surveiller et dépanner SQL Server
Tarif

A partir de 3 000,00 €

Durée

5 jours

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Appliquer les concepts et méthodes fondamentaux liés aux domaines des technologies de l'information et de la sécurité
  • Aligner les objectifs opérationnels globaux de l'organisation avec les fonctions et les mises en oeuvre de la sécurité
  • Protéger les actifs de l'organisation au cours de leur cycle de vie
  • Exploiter les concepts, principes, structures et normes utilisés pour concevoir, mettre en oeuvre, surveiller et sécuriser les systèmes d'exploitation, les équipements, les réseaux, les applications et les contrôles utilisés pour appliquer divers niveaux de confidentialité, d'intégrité et de disponibilité
  • Appliquer les principes de conception de la sécurité pour choisir les mesures d'atténuation appropriées des vulnérabilités présentes dans les types et les architectures de systèmes d'information courants
  • Expliquer l'importance de la cryptographie et des services de sécurité qu'elle peut fournir à l'ère du numérique et de l'information
  • Evaluer les éléments de sécurité physique par rapport aux besoins des systèmes d'information
  • Evaluer les éléments qui composent la sécurité des communications et des réseaux par rapport aux besoins de sécurité de l'information
  • Exploiter les concepts et l'architecture qui définissent les systèmes et les protocoles de technologie et de mise en oeuvre associés aux couches 1 à 7 du modèle OSI (Open Systems Interconnection) pour répondre aux besoins de sécurité de l'information
  • Déterminer les modèles de contrôle d'accès appropriés pour répondre aux besoins de sécurité de l'entreprise
  • Appliquer les modèles de contrôle d'accès physique et logique pour répondre aux besoins de sécurité de l'information
  • Différencier les principales méthodes de conception et de validation des stratégies de test et d'audit qui répondent aux exigences de sécurité de l'information
  • Appliquer les contrôles et contre-mesures de sécurité appropriés pour optimiser la fonction et la capacité de fonctionnement d'une organisation
  • Evaluer les risques liés aux systèmes d'information pour les activités opérationnelles d'une organisation
  • Déterminer les contrôles appropriés pour atténuer les menaces et les vulnérabilités spécifiques
  • Appliquer les concepts de sécurité des systèmes d'information pour atténuer le risque de vulnérabilité des logiciels et des systèmes tout au long du cycle de vie des systèmes
  • Passer l'examen CISSP.
Tarif

A partir de 4 250,00 €

Durée

5j / 35h

Modes
  • Centre
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Identifier les mécanismes importants mis en oeuvre pour les sauvegardes et restaurations d'une base de données Oracle en 12c
  • Contrôler et configurer l'outil RMAN
  • Sauvegarder les fichiers d'une base de données Oracle en 12c de différentes manières en mode ARCHIVELOG ou NOARCHIVELOG
  • Restaurer une base de données Oracle en 12c avec RMAN sans catalogue suivant le type de panne (perte totale, partielle, controlfile, spfile...)
  • Mettre en place et gérer le catalogue de RMAN
  • Sauvegarder et restaurer RMAN avec le catalogue
  • Utiliser quelques fonctions avancées de RMAN.
Tarif

A partir de 1 830,00 €

Durée

3j / 21h

Modes
  • Centre
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Mettre en pratique efficacement des concepts et fonctionnalités utilisés quotidiennement dans Calc : conception de formules, mise en forme et impression de tableaux et de graphiques.
Tarif

A partir de 410,00 €

Durée

1j / 7h

Modes
  • Centre
  • Distance

Objectifs de la formation

  • Préparer, passer et obtenir votre certification officielle du CCC Big Data Foundation !
  • Connaître les fondamentaux du Big Data
  • Connaître les sources, le Data Mining et les principales technologies Big Data
  • Maîtriser les fondamentaux de Apache Hadoop et MongoDB
Tarif

A partir de 2 250,00 €

Durée

3 jours

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Adapter votre organisation aux exigences légales et aux évolutions de l'hôpital
  • Optimiser la gestion du dossier patient
  • Valider les processus d'externalisation et de numérisation
Tarif

A partir de 1 450,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Pendant la formation, le formateur évalue la progression pédagogique des participants via des QCM, des mises en situation et des travaux pratiques. Les participants passent un test de positionnement avant et après la formation pour valider leurs compétences acquises.
Tarif

Contacter l'organisme

Durée

3 jours (21 heures)

Modes
  • Centre
  • Distance

Objectifs de la formation

  • Créer des macros en mode enregistrement
  • Exploiter les objets et collections Excel
  • Organiser le code en procédures
  • Déclarer et utiliser des variables et des constantes
  • Utiliser des conditions et des boucles pour agir sur le scénario d’exécution du code
  • Créer et gérer des boites de dialogues et des formulaires simples
  • Gérer les erreurs et utiliser les outils de débogage
Tarif

A partir de 1 050,00 €

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Pendant la formation, le formateur évalue la progression pédagogique des participants via des QCM, des mises en situation et des travaux pratiques. Les participants passent un test de positionnement avant et après la formation pour valider leurs compétences acquises.
Tarif

Contacter l'organisme

Durée

4 jours (28 heures)

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

A l'issue de cette formation de préparation à la certification Java 17 vous aurez acquis les connaissances et les compétences nécessaires pour : 

  • Effectuer un choix stratégique vous évitant de perdre du temps inutilement lors de l'examen
  • Déterminer les sujets qui nécessiteront un travail de préparation complémentaire
  • Augmenter vos chances de réussir l’examen de la certification
Tarif

A partir de 1 990,00 €

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Je cherche à faire...