Spark avec Databricks

Public admis

  • Salarié en Poste
  • Demandeur d'emploi
  • Entreprise
  • Etudiant

Financements

Eligible CPF Votre OPCO Financement personnel

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Identifier les caractéristiques principales de Spark et des Databricks
  • Décrire comment les DataFrames sont créées et évaluées dans Spark
  • Appliquer les transformations DataFrame pour traiter et analyser les données
  • Appliquer le streaming structuré pour traiter les données en continu.

M2I


Un leadership dans le domaine de la formation
Voir la fiche entreprise

Tarif

A partir de 2 280,00 €

Durée 3 jours  (21h00)
Modes
  • Centre
  • Distance
Sessions
Lieux Partout en France

M2I


Un leadership dans le domaine de la formation
Voir la fiche

Tarif

A partir de 2 280,00 €

Durée 3 jours  (21h00)
Modes
  • Centre
  • Distance
Sessions
Lieux Partout en France

Programme

Jour 1

Introduction

  • Qu'est-ce que Databricks ?
  • Quels sont les composants de Databricks ?
  • Démonstration : comprendre l'environnement de Databricks
  • Créer un compte sur Databricks
  • Créer un cluster sous Databricks
  • Considération matérielle
  • Databricks et le Cloud

Databricks : opérations

  • Création de votre premier projet Spark sous Databricks
  • Importer et exporter les données sous Databricks
  • Accéder aux différentes sources de données
  • Manager le cluster
  • Créer un job sous Databricks
  • Explorer les Data set
  • Lancer le Notebook
  • Premier code sous Notebook
  • Exporter le code sous Databricks
Exemples de travaux pratiques (à titre indicatif)
  • Explorer et configurer votre Databricks
  • Coder sur Databricks

Jour 2

Spark : introduction

  • Batch vs le temps réel dans le Big Data Analytics
  • Introduction à Spark
  • Vue d'ensemble de Spark
  • Ecosystème Spark
  • Spark vs Hadoop
  • Architecture Spark
  • Streaming Data Spark
  • Spark Standalone cluster
  • Spark Web UI

Jour 3

Azure Databricks

  • Qu'est-ce que Azure Databricks ?
  • Quels sont les composants d'Azure Databricks ?
  • Démonstration : comprendre l'environnement Azure Databricks
  • Chargement des données
  • Transformer et nettoyer les données
  • ETL dans Azure Databricks
    • Extraction à partir des Azure Storage Services
    • Lecture de plusieurs formats de fichiers
    • Application de schémas
  • Apprentissage automatique dans Azure Databricks
  • Streaming dans Azure Databricks

Spark : concepts

  • Remise à niveau Python / Scala
  • RDD (Resilient Distributed Dataset)
  • DataFrame
  • SQL
  • Streaming
  • MLlib
  • GraphX

Spark : opérations

  • Transformations dans le RDD (Resilient Distributed Dataset)
  • Actions dans le RDD
  • Spark SQL et DataFrame
    • SQLContext dans Spark SQL
    • Travailler avec les DataFrames
    • Implémentation d'un exemple pour Spark SQL
    • Intégration de Hive et Spark SQL
    • Support pour JSON et les formats des "Parquet Files"
    • Implémentation de la Data Visualization avec Spark
    • Chargement de données
    • Les requêtes Hive à travers Spark
  • Spark Streaming
    • Les transformations dans Spark Streaming
    • La "fault tolerance" dans Spark Streaming
  • Niveaux de parallélismes
  • Machine Learning
    • Types de données
    • Algorithmes et statistiques
    • Classification et régression
    • Clustering
    • Filtrage collaboratif

Le contenu de ce programme peut faire l'objet d'adaptation selon les niveaux, prérequis et besoins des apprenants.

Modalités d’évaluation des acquis

  • En cours de formation, par des études de cas ou des travaux pratiques
  • Et, en fin de formation, par un questionnaire d'auto-évaluation

Prérequis

Etre capable de développer en Scala ou Python et avoir des connaissances en SQL.

Public

Développeurs d'applications, architectes, Data engineers, Data analysts.

Ces formations pourraient vous intéresser

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Utiliser le style fonctionnel Java pour définir des tâches complexes de traitement des données
  • Différencier les API RDD (Resilient Distributed Dataset) et DataFrame
  • Utiliser une syntaxe de style SQL pour produire des rapports sur des ensembles de Big Data
  • Mettre en place des algorithmes d'apprentissage automatique avec le Big Data et Spark ML (Machine Learning)
  • Connecter Spark à Apache Kafka pour traiter des flux de Big Data
  • Expliquer comment le streaming structuré peut être utilisé pour construire des pipelines avec Kafka.
Tarif

A partir de 2 280,00 €

Durée

3j / 21h

Modes
  • Centre
  • Distance

Objectifs de la formation

À l'issue de cette formation Apache Spark, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Décrire les fondamentaux de Spark
  • Exploiter les APIs de base de Spark pour manipuler des données
  • Concevoir et implémenter des cas d’usage typiques de Spark
  • Construire des pipelines de données et requêter de larges jeux de données grâce à Spark SQL et aux DataFrames
  • Analyser les jobs Sparks à l’aide des interfaces d’administration et des logs au sein des environnements Databricks
  • Créer des jobs de type Structured Streaming
  • Découvrir les bases du fonctionnement interne de Spark
  • Découvrir le pattern Deltalake
Tarif

A partir de 1 780,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Comprendre le principe de fonctionnement d’Apache Spark
  • Utiliser PySpark pour manipuler des données avec Python
  • Traiter les flux de données en temps réel avec Spark Streaming
Tarif

A partir de 2 050,00 €

Durée

3j / 21h

Modes
  • Entreprise

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Créer des applications et des pipelines de ML (Machine Learning) et d'IA (Intelligence Artificielle) sur Spark avec Python.
Tarif

A partir de 1 520,00 €

Durée

2j / 14h

Modes
  • Centre
  • Distance

Objectifs de la formation

À l'issue de cette formation Apache Spark Optimisation, vous aurez acquis les connaissances et compétences nécessaires pour :

  • S'approprier les cinq problématiques de performances les plus communes dans une application Spark et leurs principales méthodes de résolution
  • Investiguer, identifier et traiter des problèmes de performances les plus communs associés à l'ingestion de données
  • Appréhender les nouvelles fonctionnalités de Spark 3.x permettant de traiter les problèmes de performance dans vos applications Spark
  • Configurer des clusters Spark pour une performance maximale pour des besoins métier spécifiques
Tarif

A partir de 1 750,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise

Objectifs de la formation

  • Développer une application s’appuyant sur Spark
  • Connaître les différents concepts sous-jacents et les APIs
  • Exécuter, tester, optimiser une application utilisant Spark
  • Appréhender les problématiques de machine learning avec SparkML
Tarif

Contacter l'organisme

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Naviguer dans l'écosystème Spark en utilisant Scala comme langage de programmation.
Tarif

A partir de 2 280,00 €

Durée

3j / 21h

Modes
  • Centre
  • Distance

Objectifs de la formation

Plus concrètement, à l'issue de cette formation Spark, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Comprendre la philosophie de Spark et ses limites
  • Utiliser Spark avec Hadoop
  • Développer avec Spark streaming pour de l’analyse de flux en temps réel
  • Développer des applications réparties avec Spark (parallélisme sur Cluster)
  • Accéder à des données structurées dans vos applications (Spark SQL)
  • Découvrir le machine learning avec Spark ML
Tarif

A partir de 1 995,00 €

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Décrire le principe de fonctionnement de Spark
  • Utiliser l'API PySpark pour interagir avec Spark en Python
  • Mettre en oeuvre les méthodes de Machine Learning avec la librairie MLlib de Spark
  • Traiter les flux de données avec Spark Streaming
  • Manipuler les données avec Spark SQL.
Tarif

A partir de 2 280,00 €

Durée

3j / 21h

Modes
  • Centre
  • Distance

Objectifs de la formation

À l'issue de cette formation Google Cloud Platform : l'Essentiel du Big Data et du Machine Learning vous aurez acquis les connaissances et les compétences nécessaires pour :

  • Découvrir les objectifs et la valeur des principaux produits Big Data et Machine Learning disponibles dans la plate-forme Google Cloud
  • Utiliser Cloud SQL et Cloud Dataproc pour migrer les workloads MySQL et Hadoop / Pig / Spark / Hive existants vers Google Cloud Platform
  • Utiliser BigQuery et Cloud Datalab pour effectuer une analyse interactive des données
  • Former et utiliser un réseau de neurones en utilisant TensorFlow
  • Employer des API ML
  • Choisir parmi différents produits de traitement de données sur Google Cloud Platform
Tarif

A partir de 790,00 €

Durée

1j / 7h

Modes
  • Centre
  • Entreprise
  • Distance

Je cherche à faire...