Data Engineering avec Kafka, Cassandra et Spark

Public admis

  • Salarié en Poste
  • Demandeur d'emploi
  • Entreprise
  • Etudiant

Financements

Eligible CPF Votre OPCO Financement personnel

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Présenter les concepts fondamentaux de Spark, Cassandra et Kafka
  • Développer une application orientée use case avec Spark, Cassandra et Kafka
  • Définir le Data Engineering
  • Décrire l'architecture Big Data de manière approfondie.

M2I


Un leadership dans le domaine de la formation
Voir la fiche entreprise

Tarif

A partir de 3 040,00 €

Durée 4 jours  (28h00)
Modes
  • Centre
  • Distance
Sessions
Lieux Partout en France

M2I


Un leadership dans le domaine de la formation
Voir la fiche

Tarif

A partir de 3 040,00 €

Durée 4 jours  (28h00)
Modes
  • Centre
  • Distance
Sessions
Lieux Partout en France

Programme

Jour 1

Introduction à Kafka

  • Kafka : une plateforme de données de flux
  • Un aperçu de Kafka et de son efficacité
  • Producers
  • Brokers
  • Consumers

Installation et architecture

  • Installation et options avancées
  • Fichiers journaux de Kafka
  • Réplication et fiabilité
  • Chemins d'écriture et de lecture de Kafka
  • Partitions, consumer groups et scalability

Développement et mise en oeuvre

  • Cas d'utilisation de Kafka Streams
  • Kafka Streams
  • Etude d'une application et usage de Kafka Streams

Jour 2

Introduction à Cassandra

  • Introduction au NoSQL
  • Prérequis de Cassandra
  • Installation
  • Fichier de configuration : conf/cassandra.yaml
  • L'architecture
  • Les réplications
Exemples de travaux pratiques (à titre indicatif)
  • Commandes de base
    • Connexion au système de base de données
    • Création de colonnes
    • Insertion
    • Modification recherche
  • Définition des colonnes et des types de données
  • Définition d'une clé primaire
  • Reconnaître une clé de partition
  • Le CQL : Cassandra Query Language
  • Exécution de scripts
  • Data Modeling
  • Créer une application
  • Ajout des noeuds

Jour 3

Apache Spark

  • Introduction à Spark
  • Vue d'ensemble de Spark
  • Ecosystème Spark
  • Spark vs Hadoop
  • Installation et configuration
Exemples de travaux pratiques (à titre indicatif)
  • Remise à niveau Python / Scala
  • Spark :
    • RDD (Resilient Distributed Dataset)
    • DataFrame
    • SQL
    • Streaming
    • MLlib
    • GraphX
  • Création d'applications Spark

Jour 4

  • Projet avec la mise en oeuvre d'une solution bout en bout (ingestion, stockage et calcul) via :
    • Kafka
    • Cassandra
    • Spark

Le contenu de ce programme peut faire l'objet d'adaptation selon les niveaux, prérequis et besoins des apprenants.

Modalités d’évaluation des acquis

  • En cours de formation, par des études de cas ou des travaux pratiques
  • Et, en fin de formation, par un questionnaire d'auto-évaluation

Prérequis

Avoir des connaissances sur Shell, Python et/ou Scala.

Public

Développeurs, architectes, Data Analysts et/ou Data Engineers.

Ces formations pourraient vous intéresser

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Lister les possibilités clés et les composants de SQL Server 2022
  • Expliquer et appliquer les nouveautés et les améliorations concernant la performance dans SQL Server
  • Détecter et utiliser les nouveautés et les améliorations concernant la sécurité dans SQL Server
  • Citer et utiliser les nouveautés au niveau de la disponibilité et de l'évolutivité de SQL Server
  • Décrire et vous servir des nouvelles fonctionnalités et des améliorations concernant les rapports et la Power BI dans SQL Server 2022
  • Expliquer et gérer les nouveautés et les améliorations concernant l'accès aux données
  • Enumérer les nouveautés avec les SQL Server Big Data Clusters.
Tarif

A partir de 1 220,00 €

Durée

2j / 14h

Modes
  • Centre
  • Distance

Objectifs de la formation

Comprendre le Big Data et ses enjeux - Savoir déployer Hadoop et son écosystème - Comprendre HDFS, MapReduce - Structurer les données avec HBase - Ecrire des requêtes avec HiveQL - Installer les services d'un nœud Hadoop - Assembler plusieurs nœuds Hadoop - Déployer une nouvelle application sur un cluster existant - Effectuer une restauration de données suite à une reprise sur incident
Tarif

A partir de 3 875,00 €

Durée

5j / 35h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Écrire des scripts Python pour automatiser des tâches
  • Mettre en œuvre de façon efficace la programmation orientée objets de Python ainsi que les particularités du langage
  • Comprendre le rôle des librairies standards
  • Développer vos propres applications de Data Science et d’Intelligence Artificielle.
Tarif

A partir de 2 050,00 €

Durée

3j / 21h

Modes
  • Entreprise

Objectifs de la formation

  • Pendant la formation, le formateur évalue la progression pédagogique des participants via des QCM, des mises en situation et des travaux pratiques. Les participants passent un test de positionnement avant et après la formation pour valider leurs compétences acquises.
Tarif

Contacter l'organisme

Durée

8 jours (56 heures)

Modes
  • Distance
  • Centre

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Identifier les grandes catégories fonctionnelles de la salle informatique / Data Center
  • Reconnaître les missions spécifiques à chacune des fonctions et les principes généraux de leur mise en oeuvre
  • Décrire la nature des risques induits par l'existence de la salle informatique et les moyens de de leur gestion spécifique
  • Recenser les principales normes et réglementations applicables en phase de conception et en contexte d'exploitation courante.
Tarif

Contacter l'organisme

Durée

1j / 7h

Modes
  • Centre
  • Distance

Objectifs de la formation

Décrire les concepts de data warehouse (entrepôt de données) et les besoins en architecture - Sélectionner la plateforme matérielle appropriée pour un data warehouse - Concevoir et mettre en œuvre un data warehouse - Débugger et dépanner les packages SSIS - Déployer et configurer les packages SSIS
Tarif

A partir de 2 450,00 €

Durée

5j / 35h

Modes
  • Centre
  • Entreprise
  • Distance

Formation Spark

Proposé par Sparks

Objectifs de la formation

  • Expliquer le fonctionnement d'Apache Spark et ses relations avec le Big Data et Hadoop
  • Utiliser les RDD pour gérer les opérations et MapReduce
  • Intégrer et utiliser HDFS avec Spark
  • Mettre en place et déployer une structure de cluster Spark
  • Appliquer le partitionnement et la programmation parallèle sur les données HDFS
  • Concevoir et générer une application Spark
  • Implémenter Spark Streaming pour le traitement des données en temps réel
  • Appliquer des algorithmes de Machine Learning avec MLlib et optimiser Spark
Tarif

A partir de 2 250,00 €

Durée

3 jours

Modes
  • Centre
  • Entreprise
  • Distance

Formation Big data en banque et assurance

Proposé par LEFEBVRE DALLOZ COMPETENCES

Objectifs de la formation

  • Placer les enjeux technico-économiques du big data dans leur cadre juridique
  • Déployer des projets en conformité avec les principes applicables
  • Appliquer les principes juridiques et organisationnels en matière de propriété, confidentialité et gouvernance des données
Tarif

A partir de 1 257,00 €

Durée

1 jour

Modes
  • Entreprise
  • Centre
  • Distance

Objectifs de la formation

  • Développer une application s’appuyant sur Spark
  • Connaître les différents concepts sous-jacents et les APIs
  • Exécuter, tester, optimiser une application utilisant Spark
  • Appréhender les problématiques de machine learning avec SparkML
Tarif

Contacter l'organisme

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

Implémenter une couche de persistance performante avec Spring Data JPA
Tarif

A partir de 1 275,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Je cherche à faire...