Spark Java - Traitement des données

Public admis

  • Salarié en Poste
  • Demandeur d'emploi
  • Entreprise
  • Etudiant

Financements

Eligible CPF Votre OPCO Financement personnel

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Utiliser le style fonctionnel Java pour définir des tâches complexes de traitement des données
  • Différencier les API RDD (Resilient Distributed Dataset) et DataFrame
  • Utiliser une syntaxe de style SQL pour produire des rapports sur des ensembles de Big Data
  • Mettre en place des algorithmes d'apprentissage automatique avec le Big Data et Spark ML (Machine Learning)
  • Connecter Spark à Apache Kafka pour traiter des flux de Big Data
  • Expliquer comment le streaming structuré peut être utilisé pour construire des pipelines avec Kafka.

M2I


Un leadership dans le domaine de la formation
Voir la fiche entreprise

Tarif

A partir de 2 280,00 €

Durée 3 jours  (21h00)
Modes
  • Centre
  • Distance
Sessions
Lieux Partout en France

M2I


Un leadership dans le domaine de la formation
Voir la fiche

Tarif

A partir de 2 280,00 €

Durée 3 jours  (21h00)
Modes
  • Centre
  • Distance
Sessions
Lieux Partout en France

Programme

Jour 1

Introduction

  • Architecture de Spark et les RDD

Installation du Spark

Reduce sur les RDD

Mapping et outputting

  • Les opérations de mapping
  • Outputting des résultats sur la console
  • Compter les éléments du Big Data
  • "NotSerializableException" avec Spark

Tuples

  • RDD des objets
  • Tuples et RDD

Pair RDD

  • Vue d'ensemble des Pair RDD
  • Construire Pair RDD
  • Coder le "reduceByKey"
  • Utilisation de l'API Fluent
  • Groupement par clé (BY KEY)

FlatMaps et filters

Lecture du disque

Classement des mots-clés en pratique

  • Exigences pratiques
  • Solution pratique (avec tri)

Tri et coalescence

  • Coalesce dans Spark ?

Déploiement vers AWS EMR (Amazon Elastic MapReduce)

  • Comment démarrer un cluster Spark pour EMR
  • Emballage d'un Spark JAR pour EMR
  • Exécuter un travail Spark sur EMR
  • Comprendre la sortie de la progression du travail
  • Calculer les coûts d'EMR et terminer le cluster

Jointures

  • Internes
  • Externes de gauche et optionnelles
  • Externes à droite
  • Complètes et cartésiennes

Exemples de travaux pratiques (à titre indicatif)

  • Big Data (grand exercice)
    • Présentation des exigences
    • Echauffement
    • Exigences de l'exercice principal
    • Marche à suivre

La performance des RDD

  • Transformations et actions
  • Le DAG (Directed Acyclic Graph) et Spark UI
  • Transformations étroites et larges
  • Shuffles
  • Gérer les BY KEY
  • "map-side-reduces"
  • Mise en cache et persistance

Jour 2

Spark SQL : introduction

  • Utilisation pratique de Spark SQL

Datasets

  • Les bases du Dataset
  • Filtrage en utilisant les expressions, lambda et colonnes

SQL : syntaxe

  • Utilisation d'une vue temporaire Spark pour SQL

Données en mémoire

Groupements et agrégations

Date Formatting

Multiple Groupings

Ordering

DataFrame API

  • SQL vs DataFrame
  • Groupement DataFrame

Pivot tables

  • Coder Pivot table en Spark

Plus d'agrégations

  • Comment utiliser la méthode "agg" en Spark

Exemples de travaux pratiques (à titre indicatif)

  • Comment utiliser lambda pour écrire un UDF (User Defined Functions) en Spark
  • Utilisation de multiples paramètres d'entrées en Spark UDF
  • Utilisation des UDF en Spark SQL

Performance de Spark SQL

  • Comprendre le Spark UI pour Spark SQL
  • Performances de SQL et de DataFrame ?
  • Mise à jour et réglage "spark.sql.shuffle.partitions"

HashAggregation

  • Explication des plans d'exécution
  • HashAggregation

Performance Spark SQL vs RDD

  • Introduction de ML
  • Apprentissage supervisé et non-supervisé
  • Processus de construction d'un modèle

Régression linéaire

  • Introduction
  • Programmation des modèles de régression linéaire
  • Assemblage des vecteurs des paramètres
  • Fitting des modèles

Données d'apprentissage

  • Training vs test et holdout Data
  • Guide pratique
  • Evaluation de la précision des modèles avec R2 et RMSE (Root Mean Square Error)

Paramètres d'ajustement des modèles

  • Ajustement des paramètres des modèles de régression linéaire
  • Training, test et holdout Data

Sélection des caractéristiques (features)

  • Description des caractéristiques
  • Corrélation des caractéristiques
  • Identification et élimination des caractéristiques dupliquées
  • Préparation des données

Données non numériques

  • Utilisation "OneHotEncoding"
  • Comprendre les Vectors

Pipelines

Cas d'étude

Régression logistique

  • True vs false / negatives vs postives
  • Implémentation de la régression logistique

Les arbres de décision

  • Aperçu des arbres de décision
  • Construction du modèle
  • Interprétation d'un arbre de décision
  • Random Forest

K-means clustering

Jour 3

Spark Streaming et streaming structuré avec Kafka

Introduction au streaming

  • DStreams
  • Commencer Streaming Job
  • Transformations et agrégations streaming
  • Spark UI pour les Streaming Jobs
  • Traitement des lots

Streaming avec Apache Kafka

  • Introduction et installation
  • Utilisation du Kafka Event Simulator
  • Intégration de Kafka avec Spark
  • Utilisation de KafkaUtils pour accéder au DStream
  • Ecrire une agrégation Kafka
  • Ajouter une fenêtre et "slide interval"

Streaming structuré

  • Aperçu du streaming structuré
  • Les puits de données
  • Les modes de sortie du streaming structuré
  • Fenêtres et filigranes
  • Batch pour le streaming structuré ?
  • Kafka Structured Streaming Pipelines

Le contenu de ce programme peut faire l'objet d'adaptation selon les niveaux, prérequis et besoins des apprenants.

Modalités d’évaluation des acquis

  • En cours de formation, par des études de cas ou des travaux pratiques
  • Et, en fin de formation, par un questionnaire d'auto-évaluation

Les + de la formation

Le cours comprend :

- un module couvrant Spark ML, un ajout passionnant à Spark qui vous permet d'appliquer des modèles d'apprentissage automatique à vos Big Data ! Aucune expérience mathématiques n'est nécessaire !

- un module complet de 3 heures couvrant Spark Streaming, où vous aurez une expérience pratique de l'intégration de Spark avec Apache Kafka pour gérer les flux de données en temps réel. Nous utilisons à la fois les API DStream et streaming structuré.

Prérequis

Avoir une connaissance préalable de Java est supposée, mais tout ce qui dépasse les bases est expliqué. Une connaissance préalable de SQL sera utile pour une partie du cours, mais si vous ne l'avez jamais utilisé auparavant, ce sera une bonne première expérience. Java 8 est requis pour le cours (Spark ne supporte pas actuellement Java 9+, cependant Java 8 est nécessaire pour la syntaxe lambda fonctionnelle).

Public

Développeurs, statisticiens, consultants Big Data, Data Analysts, Data Scientists, architectes.

Ces formations pourraient vous intéresser

Les enjeux du merchandising

Proposé par GROUPE LEXOM

Objectifs de la formation

  • Exposer les objectifs, les principes et les applications du merchandising
  • Présenter sa mise en oeuvre en tant qu'élément du marketing mix
Tarif

A partir de 1 390,00 €

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Comment se mettre en conformité au RGPD

Proposé par CIT FORMATION INFORMATIQUE

Objectifs de la formation

Cette formation vous permettra de comprendre les impacts et plan d'actions pour se mettre en conformité avec le règlement européen.

À l'issue de la formation, le stagiaire sera capable de :

  • Comprendre les évolutions réglementaires et les enjeux du GDPR.
  • Identifier les impacts pour l’entreprise et son système d'information.
  • Préparer le plan d’actions de mise en conformité
Tarif

A partir de 970,00 €

Durée

1 jour(s)

Modes
  • Centre
  • Entreprise

Objectifs de la formation

- Optimiser la qualité de vos projets agiles grâce à  l'automatisation des tests - Développer des tests pour les histoires utilisateur et les fonctionnalités avec le développement piloté par les tests d'acceptation (ATDD) et par le comportement (BDD) afin de valider la valeur apportée par le produit - Utiliser des outils de tests fonctionnels et non fonctionnels - Appliquer des design patterns pour élargir la couverture des tests - Structurer le code et les données de test pour garantir la réussite de vos projets sur le long terme
Tarif

A partir de 1 450,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Définir les conditions de mobilisation de son équipe autour d'objectifs clairs et partagés
  • Développer son leadership et sa capacité à fédérer pour accroitre la performance de son équipe
  • Identifier les modes d'animation du collectif en conciliant efficacité, autonomie et bien-être au travail
Tarif

Contacter l'organisme

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Pendant la formation, le formateur évalue la progression pédagogique des participants via des QCM, des mises en situation et des travaux pratiques. Les participants passent un test de positionnement avant et après la formation pour valider leurs compétences acquises.
Tarif

Contacter l'organisme

Durée

5 jours (35 heures)

Modes
  • Centre
  • Entreprise
  • Distance

POWERPOINT De A à Z

Proposé par GROUPE ARKESYS

Objectifs de la formation

  • Créer modifier des diaporamas attractifs
  • Utiliser les fonctionnalités de PowerPoint
  • Intégrer du texte des symboles, des images et des graphiques
Tarif

A partir de 1 400,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Identifier les différentes composantes d'un bilan fonctionnel
  • Evaluer l'équilibre financier d'une entreprise à partir des données du bilan fonctionnel
  • Analyser les variations de la trésorerie nette à partir du tableau de financement
  • Etablir un plan de trésorerie à partir des prévisions de dépenses et de recettes
  • Prévoir les besoins de financement d'exploitation à partir de la loi Dailly, de l'affacturage, du découvert, des crédits de campagne et des autres crédits à court terme
  • Evaluer les différents types de financements d'investissement, notamment les fonds propres, les quasi-fonds propres et les financements externes
  • Identifier les éléments nécessaires à la constitution d'un dossier de financement
  • Calculer le seuil de rentabilité et évaluer la rentabilité d'un projet d'investissement
  • Etablir un résultat prévisionnel et des soldes intermédiaires de gestion pour évaluer la performance de l'entreprise
  • Effectuer les contrôles nécessaires à l'ouverture d'un compte bancaire, notamment les états de rapprochement et les dates de valeur.
Tarif

A partir de 1 380,00 €

Durée

2j / 14h

Modes
  • Centre
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Vous connecter au portail et utiliser les applications d'Office 365
  • Utiliser Delve pour retrouver des fichiers et consulter les profils des collègues
  • Utiliser le stockage individuel avec OneDrive
  • Créer, gérer et partager des fichiers et dossiers avec OneDrive
  • Rechercher et restaurer des fichiers dans OneDrive
  • Créer et gérer des équipes et des canaux dans Teams
  • Communiquer efficacement avec les conversations et les publications dans Teams
  • Organiser et mener des réunions avec Teams
  • Utiliser SharePoint pour stocker et gérer des fichiers
  • Collaborer avec des fichiers et des dossiers dans SharePoint
  • Utiliser la recherche intégrée à SharePoint
  • Stocker et gérer des données avec Microsoft Lists
  • Créer des présentations visuelles avec Sway
  • Gérer des tâches de manière collaborative avec Microsoft To Do ou Microsoft Planner
  • Concevoir et publier des enquêtes avec Forms
  • Prendre des notes avec OneNote et organiser les blocs-notes.
Tarif

A partir de 3 050,00 €

Durée

5j / 35h

Modes
  • Centre
  • Distance

EXCEL Remise à niveau

Proposé par GROUPE ARKESYS

Objectifs de la formation

  • Créer, modifier, présenter, imprimer des tableaux simples
  • Utiliser des formules et des fonctions.
  • Créer et modifier un graphique simple
Tarif

A partir de 700,00 €

Durée

1j / 7h

Modes
  • Centre
  • Entreprise
  • Distance

Spark avec Databricks

Proposé par M2I

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Identifier les caractéristiques principales de Spark et des Databricks
  • Décrire comment les DataFrames sont créées et évaluées dans Spark
  • Appliquer les transformations DataFrame pour traiter et analyser les données
  • Appliquer le streaming structuré pour traiter les données en continu.
Tarif

A partir de 2 280,00 €

Durée

3j / 21h

Modes
  • Centre
  • Distance

Je cherche à faire...