Spark avec Databricks

Public admis

  • Salarié en Poste
  • Demandeur d'emploi
  • Entreprise
  • Etudiant

Financements

Eligible CPF Votre OPCO Financement personnel

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Identifier les caractéristiques principales de Spark et des Databricks
  • Décrire comment les DataFrames sont créées et évaluées dans Spark
  • Appliquer les transformations DataFrame pour traiter et analyser les données
  • Appliquer le streaming structuré pour traiter les données en continu.

M2I


Un leadership dans le domaine de la formation
Voir la fiche entreprise

Tarif

A partir de 2 280,00 €

Durée 3 jours  (21h00)
Modes
  • Centre
  • Distance
Sessions
Lieux Partout en France

M2I


Un leadership dans le domaine de la formation
Voir la fiche

Tarif

A partir de 2 280,00 €

Durée 3 jours  (21h00)
Modes
  • Centre
  • Distance
Sessions
Lieux Partout en France

Programme

Jour 1

Introduction

  • Qu'est-ce que Databricks ?
  • Quels sont les composants de Databricks ?
  • Démonstration : comprendre l'environnement de Databricks
  • Créer un compte sur Databricks
  • Créer un cluster sous Databricks
  • Considération matérielle
  • Databricks et le Cloud

Databricks : opérations

  • Création de votre premier projet Spark sous Databricks
  • Importer et exporter les données sous Databricks
  • Accéder aux différentes sources de données
  • Manager le cluster
  • Créer un job sous Databricks
  • Explorer les Data set
  • Lancer le Notebook
  • Premier code sous Notebook
  • Exporter le code sous Databricks
Exemples de travaux pratiques (à titre indicatif)
  • Explorer et configurer votre Databricks
  • Coder sur Databricks

Jour 2

Spark : introduction

  • Batch vs le temps réel dans le Big Data Analytics
  • Introduction à Spark
  • Vue d'ensemble de Spark
  • Ecosystème Spark
  • Spark vs Hadoop
  • Architecture Spark
  • Streaming Data Spark
  • Spark Standalone cluster
  • Spark Web UI

Jour 3

Azure Databricks

  • Qu'est-ce que Azure Databricks ?
  • Quels sont les composants d'Azure Databricks ?
  • Démonstration : comprendre l'environnement Azure Databricks
  • Chargement des données
  • Transformer et nettoyer les données
  • ETL dans Azure Databricks
    • Extraction à partir des Azure Storage Services
    • Lecture de plusieurs formats de fichiers
    • Application de schémas
  • Apprentissage automatique dans Azure Databricks
  • Streaming dans Azure Databricks

Spark : concepts

  • Remise à niveau Python / Scala
  • RDD (Resilient Distributed Dataset)
  • DataFrame
  • SQL
  • Streaming
  • MLlib
  • GraphX

Spark : opérations

  • Transformations dans le RDD (Resilient Distributed Dataset)
  • Actions dans le RDD
  • Spark SQL et DataFrame
    • SQLContext dans Spark SQL
    • Travailler avec les DataFrames
    • Implémentation d'un exemple pour Spark SQL
    • Intégration de Hive et Spark SQL
    • Support pour JSON et les formats des "Parquet Files"
    • Implémentation de la Data Visualization avec Spark
    • Chargement de données
    • Les requêtes Hive à travers Spark
  • Spark Streaming
    • Les transformations dans Spark Streaming
    • La "fault tolerance" dans Spark Streaming
  • Niveaux de parallélismes
  • Machine Learning
    • Types de données
    • Algorithmes et statistiques
    • Classification et régression
    • Clustering
    • Filtrage collaboratif

Le contenu de ce programme peut faire l'objet d'adaptation selon les niveaux, prérequis et besoins des apprenants.

Modalités d’évaluation des acquis

  • En cours de formation, par des études de cas ou des travaux pratiques
  • Et, en fin de formation, par un questionnaire d'auto-évaluation

Prérequis

Etre capable de développer en Scala ou Python et avoir des connaissances en SQL.

Public

Développeurs d'applications, architectes, Data engineers, Data analysts.

Ces formations pourraient vous intéresser

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Décrire le principe de fonctionnement de Spark
  • Utiliser l'API PySpark pour interagir avec Spark en Python
  • Mettre en oeuvre les méthodes de Machine Learning avec la librairie MLlib de Spark
  • Traiter les flux de données avec Spark Streaming
  • Manipuler les données avec Spark SQL.
Tarif

A partir de 2 280,00 €

Durée

3j / 21h

Modes
  • Centre
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Utiliser le style fonctionnel Java pour définir des tâches complexes de traitement des données
  • Différencier les API RDD (Resilient Distributed Dataset) et DataFrame
  • Utiliser une syntaxe de style SQL pour produire des rapports sur des ensembles de Big Data
  • Mettre en place des algorithmes d'apprentissage automatique avec le Big Data et Spark ML (Machine Learning)
  • Connecter Spark à Apache Kafka pour traiter des flux de Big Data
  • Expliquer comment le streaming structuré peut être utilisé pour construire des pipelines avec Kafka.
Tarif

A partir de 2 280,00 €

Durée

3j / 21h

Modes
  • Centre
  • Distance

Objectifs de la formation

  • Explorer les options de calcul et de stockage pour les charges de travail en matière d'ingénierie des données dans Azure
  • Explorer, transformer et charger des données dans l'entrepôt de données à l'aide d'Apache Spark
  • Effectuer l'exploration et la transformation des données dans Azure Databricks
  • Transformer les données avec Azure Data Factory ou Azure Synapse Pipelines
  • Optimiser les performances des requêtes avec des pools SQL dédiés dans Azure Synapse
  • Prendre en charge le traitement analytique transactionnel hybride (HTAP) avec Azure Synapse Link
  • Assurer la sécurité de bout en bout avec Azure Synapse Analytics
  • Effectuez un traitement de flux en temps réel avec Stream Analytics
  • Créer des rapports à l'aide de l'intégration Power BI avec Azure Synpase Analytics
  • Exécuter des processus d'apprentissage automatique intégrés dans Azure Synapse Analytics
Tarif

A partir de 2 590,00 €

Durée

4j / 28h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Comprendre les spécificités du traitement de données en temps réel
  • Connaître les différents composants et l'architecture d'un système de data streaming
  • Construire des pipelines pour le traitement de données en continu avec Kafka, Airflow ou Spark
Tarif

A partir de 3 000,00 €

Durée

4 jours

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Développer une application s’appuyant sur Spark
  • Connaître les différents concepts sous-jacents et les APIs
  • Exécuter, tester, optimiser une application utilisant Spark
  • Appréhender les problématiques de machine learning avec SparkML
Tarif

Contacter l'organisme

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Formation Apache Spark

Proposé par DAWAN

Objectifs de la formation

- Développer des applications avec Spark - Utiliser les bibliothèques pour SQL, les flux de données et l'apprentissage automatique - Retranscrire des difficultés rencontrées sur le terrain dans des algorithmes parallèles - Développer des applications métier qui s'intègrent à  Spark
Tarif

A partir de 2 760,00 €

Durée

4j / 28h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Naviguer dans l'écosystème Spark en utilisant Scala comme langage de programmation.
Tarif

A partir de 2 280,00 €

Durée

3j / 21h

Modes
  • Centre
  • Distance

Objectifs de la formation

Maîtriser l'installation, la configuration et la gestion des solutions de stockage de données sur Azure, incluant Cosmos DB, Data Lake Storage Gen2 et Azure Blob Storage - Développer des compétences avancées en traitement de données par lots et en temps réel en utilisant Azure Data Factory et Azure Databricks - Implémenter des mesures de sécurité robustes pour protéger les données, incluant le cryptage, le masquage des données et la configuration des points de terminaison sécurisés - Concevoir et optimiser des solutions de données pour garantir des performances élevées et une haute disponibilité, incluant la surveillance et la résolution des goulots d'étranglement - Préparer efficacement les participants aux examens de certification Microsoft Azure Data Engineer Associate en couvrant les compétences et connaissances évaluées.
Tarif

A partir de 3 750,00 €

Durée

5j / 35h

Modes
  • Centre
  • Entreprise
  • Distance

Formation Spark SQL

Proposé par Sparks

Objectifs de la formation

  • Installer et configurer Spark SQL
  • Réaliser des analyses de données en utilisant Spark SQL
  • Requêter des jeux de données dans différents formats
  • Visualiser les données et effectuer des requêtes sur les résultats
Tarif

A partir de 1 400,00 €

Durée

2 jours

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Créer des applications et des pipelines de ML (Machine Learning) et d'IA (Intelligence Artificielle) sur Spark avec Python.
Tarif

A partir de 1 520,00 €

Durée

2j / 14h

Modes
  • Centre
  • Distance

Je cherche à faire...