Data Engineering avec Kafka, Cassandra et Spark

Public admis

  • Salarié en Poste
  • Demandeur d'emploi
  • Entreprise
  • Etudiant

Financements

Eligible CPF Votre OPCO Financement personnel

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Présenter les concepts fondamentaux de Spark, Cassandra et Kafka
  • Développer une application orientée use case avec Spark, Cassandra et Kafka
  • Définir le Data Engineering
  • Décrire l'architecture Big Data de manière approfondie.

M2I


Un leadership dans le domaine de la formation
Voir la fiche entreprise

Tarif

A partir de 3 040,00 €

Durée 4 jours  (28h00)
Modes
  • Centre
  • Distance
Sessions
Lieux Partout en France

M2I


Un leadership dans le domaine de la formation
Voir la fiche

Tarif

A partir de 3 040,00 €

Durée 4 jours  (28h00)
Modes
  • Centre
  • Distance
Sessions
Lieux Partout en France

Programme

Jour 1

Introduction à Kafka

  • Kafka : une plateforme de données de flux
  • Un aperçu de Kafka et de son efficacité
  • Producers
  • Brokers
  • Consumers

Installation et architecture

  • Installation et options avancées
  • Fichiers journaux de Kafka
  • Réplication et fiabilité
  • Chemins d'écriture et de lecture de Kafka
  • Partitions, consumer groups et scalability

Développement et mise en oeuvre

  • Cas d'utilisation de Kafka Streams
  • Kafka Streams
  • Etude d'une application et usage de Kafka Streams

Jour 2

Introduction à Cassandra

  • Introduction au NoSQL
  • Prérequis de Cassandra
  • Installation
  • Fichier de configuration : conf/cassandra.yaml
  • L'architecture
  • Les réplications
Exemples de travaux pratiques (à titre indicatif)
  • Commandes de base
    • Connexion au système de base de données
    • Création de colonnes
    • Insertion
    • Modification recherche
  • Définition des colonnes et des types de données
  • Définition d'une clé primaire
  • Reconnaître une clé de partition
  • Le CQL : Cassandra Query Language
  • Exécution de scripts
  • Data Modeling
  • Créer une application
  • Ajout des noeuds

Jour 3

Apache Spark

  • Introduction à Spark
  • Vue d'ensemble de Spark
  • Ecosystème Spark
  • Spark vs Hadoop
  • Installation et configuration
Exemples de travaux pratiques (à titre indicatif)
  • Remise à niveau Python / Scala
  • Spark :
    • RDD (Resilient Distributed Dataset)
    • DataFrame
    • SQL
    • Streaming
    • MLlib
    • GraphX
  • Création d'applications Spark

Jour 4

  • Projet avec la mise en oeuvre d'une solution bout en bout (ingestion, stockage et calcul) via :
    • Kafka
    • Cassandra
    • Spark

Le contenu de ce programme peut faire l'objet d'adaptation selon les niveaux, prérequis et besoins des apprenants.

Modalités d’évaluation des acquis

  • En cours de formation, par des études de cas ou des travaux pratiques
  • Et, en fin de formation, par un questionnaire d'auto-évaluation

Prérequis

Avoir des connaissances sur Shell, Python et/ou Scala.

Public

Développeurs, architectes, Data Analysts et/ou Data Engineers.

Ces formations pourraient vous intéresser

Objectifs de la formation

  • Découvrir et utiliser la puissance prédictive des modèles ensemblistes
  • Savoir effectuer un "feature engineering" performant
  • Appréhender les techniques de text-mining et de deep-learning à travers d'exemples concrets
  • Enrichir ses outils de data scientist
Tarif

A partir de 2 500,00 €

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

Plus précisément à l’issue de cette formation Elasticsearch, Logstash et Kibana vous aurez acquis les connaissances et les compétences pour :

  • Comprendre les différents cas d’usages de la pile et les différentes facettes de l’offre proposée par la société Elastic
  • Savoir installer et configurer les différents produits de la suite
  • Savoir mettre au point des pipelines Logstash
  • Savoir mettre en place des index Elastic Search ou data streams. (settings, mappings, cycle de vie)
  • Comprendre toutes les possibilités de recherche offertes par le moteur ElasticSearch
  • Savoir mettre en place les tableaux de bords prédéfinis de la suite
  • Savoir mettre en place ces propres tableaux de bord dans Kibana
  • Sécuriser l’architecture et personnaliser l’interface utilisateur Kibana en fonction des rôles
  • Avoir une introduction au Machine Learning
Tarif

A partir de 1 890,00 €

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Formation Kafka - Administration

Proposé par PLB CONSULTANT

Objectifs de la formation

À l'issue de cette formation Kafka Administration, vous serez en mesure de :

  • Comprendre les services offerts par une infra Kafka
  • Installer un cluster Kafka, utiliser ses commandes en ligne
  • Garantir des niveaux de fiabilités sur les topics Kafka
  • Sécuriser un cluster Kafka
  • Remonter les métriques Kafka dans des outils de visualisation tel que Promotheus/Grafana
  • Avoir un panorama des outils d'administration disponibles
Tarif

A partir de 2 100,00 €

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Azure Data Factory

Proposé par M2I

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Découvrir la plateforme Azure Data Factory
  • Préparer, collecter et extraire les données
  • Travailler les données
  • Administrer et monitorer.
Tarif

A partir de 2 130,00 €

Durée

3j / 21h

Modes
  • Centre
  • Distance

Objectifs de la formation

  • Décrire l’analyse de bout en bout dans Microsoft Fabric
  • Utiliser Lakehouses dans Microsoft Fabric
  • Utiliser Apache Spark dans Microsoft Fabric
  • Travailler avec les tables Delta Lake dans Microsoft Fabric
  • Ingérer des données avec Dataflows Gen2 dans Microsoft Fabric
  • Utiliser les pipelines Data Factory dans Microsoft Fabric
Tarif

Contacter l'organisme

Durée

1j / 7h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Identifier l'architecture et le fonctionnement du SGBD (Systèmes de Gestion de Bases de Données) NoSQL Apache Cassandra
  • Créer des bases de données
  • Requêter avec CQL (Cassandra Query Language)
  • Modéliser les données.
Tarif

A partir de 1 520,00 €

Durée

2j / 14h

Modes
  • Centre
  • Distance

Formation DigDash - Utilisateur

Proposé par PLB CONSULTANT

Objectifs de la formation

Concrètement, à l'issue de cette formation DigDash vous serez en mesure de :

  • Savoir charger des données de différentes sources
  • Créer des tableaux de bord interactifs
  • Explorer vos données métiers
  • Être capable de communiquer efficacement (Design, Data storytelling, Design)
  • Savoir exporter vos documents
  • Comprendre comment anticiper vos résultats (catégorisation, analyse prédictive, simulation)
Tarif

A partir de 1 480,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

À l'issue de cette formation Industrialisation Data Science, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Savoir emmener votre modèle de data science en production
  • Apprendre à gérer les nouvelles contraintes
  • Minimiser le coût de transfert de l’exploration à la production
  • Découvrir les concepts de Software Craftsmanship (clean code) appliqués à la Data Science
  • Découvrir le découpage d’un projet de Machine Learning en différentes briques et les organiser
  • Savoir construire l'architecture applicative d'un projet Data Science
  • Déployer son application de Machine Learning en production et interagir avec
  • Faire consommer des données chaque seconde à une application de Machine Learning
  • Mesurer les performances de son application de Machine Learning
Tarif

A partir de 3 825,00 €

Durée

5j / 35h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

À l'issue de cette formation Check Point R81 CCSA + CSSE, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Know how to perform periodic administrator tasks
  • Describe the basic functions of the Gaia operating system
  • Recognize SmartConsole features, functions, and tools
  • Understand how SmartConsole is used by administrators to give user access
  • Learn how Check Point security solutions and products work and how they protect networks
  • Understand licensing and contract requirements for Check Point security products
  • Describe the essential elements of a Security Policy
  • Understand the Check Point policy layer concept
  • Understand how to enable the Application Control and URL
  • Filtering software
  • Blades to block access to various applications
  • Describe how to configure manual and automatic NAT
  • Identify tools designed to monitor data, determine threats and recognize opportunities for performance improvements
  • Describe different Check Point Threat Prevention solutions for network attacks
  • Articulate how the Intrusion Prevention System is configured, maintained and tuned
  • Understand the Infinity Threat Prevention system
  • Knowledge about Check Point’s IoT Protect
  • Provide an overview of the upgrade service and options available
  • Explain how to perform management upgrade and migration
  • Articulate the process using CPUSE features
  • Articulate the purpose and function of Management High Availability
  • Explain Primary vs Secondary, Active vs Standby and Synchronization
  • Explain disaster recovery steps in case the primary management server becomes unavailable
  • Provide overview of Central Deployment in SmartConsole
  • Articulate an understanding of Security Gateway cluster upgrade methods
  • Explain about Multi Version Cluster (MVC) upgrades
  • Discuss Gaia Commands and how they are used
  • Explain the main processes on s and s
  • Describe how to work with scripts and SmartTasks to configure ?automatic actions
  • Explain the Management Data Plane Separation (MDPS)
  • Explain kernel operations and traffic flow
  • Articulate Dynamic and Updatable Objects in Security Gateways
  • Explain the policy installation flow and files used
  • Describe the use of policy installation history
  • Explain concurrent and accelerated install policy
  • Describe an overview of APIs and ways to use and authenticate
  • Explain how to make changes in GAIA and management configuration
  • Explain how to install policy using API
  • Explain how the SecureXL acceleration technology enhances and optimizes Security Gateway performance
  • Describe how the CoreXL acceleration technology enhances and improves Security Gateway performance
  • Articulate how utilizing multiple traffic queues can make traffic handling more efficient
  • Discuss Site-to-Site VPN basics, deployment and communities
  • Describe how to analyze and interpret VPN tunnel traffic
  • Explain Link Selection and ISP Redundancy options
  • Explain tunnel management features
  • Discuss Check Point Remote Access solutions and how they differ from each other
  • Describe how client security can be provided by Remote Access
  • Explain authentication methods including machine authentication
  • Explain Multiple Entry Point (MEP)
  • Discuss the Mobile Access Software Blade and how it secures communication and data exchange during remote connections
  • Describe Mobile Access deployment options
  • Discuss various features in Mobile Access like Portals, Link
  • Translation, running Native Applications, Reverse Proxy and more
  • Explain basic concepts of Clustering and ClusterXL
  • Explain about Cluster Control Protocol (CCP) and synchronization
  • Describe advanced ClusterXL functions and modes like Load Sharing, Active-Active, VMAC mode etc
  • Discuss Cluster Correction Layer (CCL) to provide connection stickyness
  • Advanced Logs and Monitoring
  • Explain how to determine if the configuration is compliant with the best practices
  • Explain how to set action items to meet the compliance
  • Discuss how SmartEvent functions to identify critical security issues
  • Describe the components of SmartEvent and their deployment options
  • Discuss how SmartEvent can assist in reporting security threats
  • Explain how to customize event definitions and set an Event Policy
Tarif

A partir de 6 000,00 €

Durée

6j / 42h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Créer des flux simples de l'ETL Data Services.
Tarif

Contacter l'organisme

Durée

3j / 21h

Modes
  • Centre
  • Distance

Je cherche à faire...