Spark avec Databricks

Public admis

  • Salarié en Poste
  • Demandeur d'emploi
  • Entreprise
  • Etudiant

Financements

Eligible CPF Votre OPCO Financement personnel

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Identifier les caractéristiques principales de Spark et des Databricks
  • Décrire comment les DataFrames sont créées et évaluées dans Spark
  • Appliquer les transformations DataFrame pour traiter et analyser les données
  • Appliquer le streaming structuré pour traiter les données en continu.

M2I


Un leadership dans le domaine de la formation
Voir la fiche entreprise

Tarif

A partir de 2 280,00 €

Durée 3 jours  (21h00)
Modes
  • Centre
  • Distance
Sessions
Lieux Partout en France

M2I


Un leadership dans le domaine de la formation
Voir la fiche

Tarif

A partir de 2 280,00 €

Durée 3 jours  (21h00)
Modes
  • Centre
  • Distance
Sessions
Lieux Partout en France

Programme

Jour 1

Introduction

  • Qu'est-ce que Databricks ?
  • Quels sont les composants de Databricks ?
  • Démonstration : comprendre l'environnement de Databricks
  • Créer un compte sur Databricks
  • Créer un cluster sous Databricks
  • Considération matérielle
  • Databricks et le Cloud

Databricks : opérations

  • Création de votre premier projet Spark sous Databricks
  • Importer et exporter les données sous Databricks
  • Accéder aux différentes sources de données
  • Manager le cluster
  • Créer un job sous Databricks
  • Explorer les Data set
  • Lancer le Notebook
  • Premier code sous Notebook
  • Exporter le code sous Databricks
Exemples de travaux pratiques (à titre indicatif)
  • Explorer et configurer votre Databricks
  • Coder sur Databricks

Jour 2

Spark : introduction

  • Batch vs le temps réel dans le Big Data Analytics
  • Introduction à Spark
  • Vue d'ensemble de Spark
  • Ecosystème Spark
  • Spark vs Hadoop
  • Architecture Spark
  • Streaming Data Spark
  • Spark Standalone cluster
  • Spark Web UI

Jour 3

Azure Databricks

  • Qu'est-ce que Azure Databricks ?
  • Quels sont les composants d'Azure Databricks ?
  • Démonstration : comprendre l'environnement Azure Databricks
  • Chargement des données
  • Transformer et nettoyer les données
  • ETL dans Azure Databricks
    • Extraction à partir des Azure Storage Services
    • Lecture de plusieurs formats de fichiers
    • Application de schémas
  • Apprentissage automatique dans Azure Databricks
  • Streaming dans Azure Databricks

Spark : concepts

  • Remise à niveau Python / Scala
  • RDD (Resilient Distributed Dataset)
  • DataFrame
  • SQL
  • Streaming
  • MLlib
  • GraphX

Spark : opérations

  • Transformations dans le RDD (Resilient Distributed Dataset)
  • Actions dans le RDD
  • Spark SQL et DataFrame
    • SQLContext dans Spark SQL
    • Travailler avec les DataFrames
    • Implémentation d'un exemple pour Spark SQL
    • Intégration de Hive et Spark SQL
    • Support pour JSON et les formats des "Parquet Files"
    • Implémentation de la Data Visualization avec Spark
    • Chargement de données
    • Les requêtes Hive à travers Spark
  • Spark Streaming
    • Les transformations dans Spark Streaming
    • La "fault tolerance" dans Spark Streaming
  • Niveaux de parallélismes
  • Machine Learning
    • Types de données
    • Algorithmes et statistiques
    • Classification et régression
    • Clustering
    • Filtrage collaboratif

Le contenu de ce programme peut faire l'objet d'adaptation selon les niveaux, prérequis et besoins des apprenants.

Modalités d’évaluation des acquis

  • En cours de formation, par des études de cas ou des travaux pratiques
  • Et, en fin de formation, par un questionnaire d'auto-évaluation

Prérequis

Etre capable de développer en Scala ou Python et avoir des connaissances en SQL.

Public

Développeurs d'applications, architectes, Data engineers, Data analysts.

Ces formations pourraient vous intéresser

Objectifs de la formation

  • Développer une application s’appuyant sur Spark
  • Connaître les différents concepts sous-jacents et les APIs
  • Exécuter, tester, optimiser une application utilisant Spark
  • Appréhender les problématiques de machine learning avec SparkML
Tarif

Contacter l'organisme

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Pendant la formation, le formateur évalue la progression pédagogique des participants via des QCM, des mises en situation et des travaux pratiques. Les participants passent un test de positionnement avant et après la formation pour valider leurs compétences acquises.
Tarif

Contacter l'organisme

Durée

3 jours (21 heures)

Modes
  • Entreprise
  • Distance
  • Centre

Objectifs de la formation

  • Décrire l’analyse de bout en bout dans Microsoft Fabric
  • Utiliser Lakehouses dans Microsoft Fabric
  • Utiliser Apache Spark dans Microsoft Fabric
  • Travailler avec les tables Delta Lake dans Microsoft Fabric
  • Ingérer des données avec Dataflows Gen2 dans Microsoft Fabric
  • Utiliser les pipelines Data Factory dans Microsoft Fabric
Tarif

Contacter l'organisme

Durée

1j / 7h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Développer des applications de Machine Learning et d'IA (Intelligence Artificielle) avec Spark et Python
  • Utiliser la programmation parallèle sur un cluster
  • Développer et optimiser des algorithmes standards de Machine Learning et d'IA
  • Utiliser les bibliothèques Python pour le Machine Learning et d'IA
  • Décrire le cycle de vie d'un projet Data Science.
Tarif

A partir de 3 800,00 €

Durée

5j / 35h

Modes
  • Centre
  • Distance

Objectifs de la formation

À l'issue de cette formation Big Data sur Amazon Web Services (AWS), vous aurez acquis les connaissances et compétences nécessaires pour :

  • Comprendre les applications d'Apache Hadoop dans le contexte d'Amazon EMR
  • Comprendre l'architecture d'un cluster Amazon EMR
  • Lancer un cluster Amazon EMR en utilisant une image machine Amazon (AMI) et des types d'instances Amazon EC2 adaptés
  • Connaître les options d'importation, de transfert et de compression des données destinées à Amazon EMR
  • Sélectionner les options de stockage de données sur AWS les plus adaptées à leur traitement dans Amazon EMR
  • Utiliser les frameworks de programmation courants compatibles avec Amazon EMR, notamment Hive, Pig et Streaming
  • Utiliser Amazon Redshift pour déployer une solution de Big Data
  • Utiliser un logiciel de visualisation des Big Data
  • Sélectionner les options de sécurité les plus adaptées à Amazon EMR et à vos données
  • Effectuer des analyses de données en mémoire avec Spark et Shark sur Amazon EMR
  • Sélectionner les options adaptées pour gérer votre environnement Amazon EMR de façon rentable
  • Comprendre les avantages d'Amazon Kinesis pour les applications de Big Data.
Tarif

Contacter l'organisme

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

Plus concrètement, à l'issue de cette formation Spark, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Comprendre la philosophie de Spark et ses limites
  • Utiliser Spark avec Hadoop
  • Développer avec Spark streaming pour de l’analyse de flux en temps réel
  • Développer des applications réparties avec Spark (parallélisme sur Cluster)
  • Accéder à des données structurées dans vos applications (Spark SQL)
  • Découvrir le machine learning avec Spark ML
Tarif

A partir de 1 995,00 €

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Créer des applications et des pipelines de ML (Machine Learning) et d'IA (Intelligence Artificielle) sur Spark avec Python.
Tarif

A partir de 1 520,00 €

Durée

2j / 14h

Modes
  • Centre
  • Distance

Objectifs de la formation

À l'issue de cette formation Développer des applications pour Apache Spark avec Python ou Scala vous aurez acquis les connaissances et les compétences nécessaires pour :

  • Identifier et définir les différents composants de l’écosystème Hadoop
  • Appréhender le fonctionnement de Spark
  • Développer des applications avec Apache Spark
  • Optimiser une application Spark
  • Utiliser Spark SQL et les dataframes
  • Faire de l’analyse en temps réel avec Spark streaming
  • Découvrir MLLib pour du machine learning sur Spark
  • Explorer, manipuler et visualiser vos données avec Zeppelin.
Tarif

A partir de 3 550,00 €

Durée

4j / 28h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

À l'issue de cette formation Apache Spark, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Décrire les fondamentaux de Spark
  • Exploiter les APIs de base de Spark pour manipuler des données
  • Concevoir et implémenter des cas d’usage typiques de Spark
  • Construire des pipelines de données et requêter de larges jeux de données grâce à Spark SQL et aux DataFrames
  • Analyser les jobs Sparks à l’aide des interfaces d’administration et des logs au sein des environnements Databricks
  • Créer des jobs de type Structured Streaming
  • Découvrir les bases du fonctionnement interne de Spark
  • Découvrir le pattern Deltalake
Tarif

A partir de 1 780,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

À l'issue de cette formation Google Cloud Platform : l'Essentiel du Big Data et du Machine Learning vous aurez acquis les connaissances et les compétences nécessaires pour :

  • Découvrir les objectifs et la valeur des principaux produits Big Data et Machine Learning disponibles dans la plate-forme Google Cloud
  • Utiliser Cloud SQL et Cloud Dataproc pour migrer les workloads MySQL et Hadoop / Pig / Spark / Hive existants vers Google Cloud Platform
  • Utiliser BigQuery et Cloud Datalab pour effectuer une analyse interactive des données
  • Former et utiliser un réseau de neurones en utilisant TensorFlow
  • Employer des API ML
  • Choisir parmi différents produits de traitement de données sur Google Cloud Platform
Tarif

A partir de 790,00 €

Durée

1j / 7h

Modes
  • Centre
  • Entreprise
  • Distance

Je cherche à faire...