Formation - Big Data - Mise en oeuvre de traitements avec Spark

Public admis

  • Salarié en Poste
  • Demandeur d'emploi
  • Entreprise
  • Etudiant

Financements

Eligible CPF Votre OPCO Financement personnel

Objectifs de la formation

  • Cette formation fait l'objet d'une évaluation formative.

IB Cegos


Formations aux technologies et métiers du Numérique
Voir la fiche entreprise

Tarif

Contacter l'organisme

Durée 3 jours (21 heures)
Modes
  • Entreprise
  • Distance
  • Centre
Sessions
Lieux Partout en France

IB Cegos


Formations aux technologies et métiers du Numérique
Voir la fiche

Tarif

Contacter l'organisme

Durée 3 jours (21 heures)
Modes
  • Entreprise
  • Distance
  • Centre
Sessions
Lieux Partout en France

Programme

1 - Introduction

  • Présentation de Spark
  • Origine du projet
  • Apports et principes de fonctionnement
  • Langages supportés
  • Mise en oeuvre sur une architecture distribuée
  • Architecture : clusterManager, driver, worker, ...

2 - Premiers pas

  • Utilisation du Shell Spark avec Scala ou Python
  • Modes de fonctionnement
  • Interprété, compilé
  • Utilisation des outils de construction
  • Gestion des versions de bibliothèques
  • Mise en pratique en Java, Scala et Python
  • Notion de contexte Spark
  • Extension aux sessions Spark

3 - Règles de développement

  • Mise en pratique en Java, Scala et Python
  • Notion de contexte Spark
  • Différentes méthodes de création des RDD : depuis un fichier texte, un stockage externe
  • Manipulations sur les RDD (Resilient Distributed Dataset)
  • Fonctions, gestion de la persistance

4 - Cluster

  • Différents cluster managers : Spark interne, avec Mesos, avec Yarn, avec Amazon EC2
  • Architecture : SparkContext, SparkSession, Cluster Manager, Executor sur chaque noeud
  • Définitions : Driver program, Cluster manager, deploy mode, Executor, Task, Job
  • Mise en oeuvre avec Spark et Amazon EC2
  • Soumission de jobs, supervision depuis l'interface web

5 - Traitements

  • Lecture/écriture de données : texte, JSon, Parquet, HDFS, fichiers séquentiels
  • Jointures
  • Filtrage de données, enrichissement
  • Calculs distribués de base
  • Introduction aux traitements de données avec map/reduce

6 - Support Cassandra

  • Description rapide de l'architecture Cassandra
  • Mise en oeuvre depuis Spark
  • Exécution de travaux Spark s'appuyant sur une grappe Cassandra

7 - DataFrames

  • Spark et SQL
  • Objectifs : traitement de données structurées
  • L'API Dataset et DataFrames
  • Optimisation des requêtes
  • Mise en oeuvre des Dataframes et DataSet
  • Comptabilité Hive
  • Travaux pratiques : extraction, modification de données dans une base distribuée
  • Collections de données distribuées
  • Exemples

8 - Streaming

  • Objectifs , principe de fonctionnement : stream processing
  • Source de données : HDFS, Flume, Kafka, ...
  • Notion de Streaming
  • Contexte, DStreams, démonstrations
  • Travaux pratiques : traitement de flux DStreams en Scala
  • Watermarking
  • Gestion des micro-batches
  • Travaux pratiques : mise en oeuvre d'une chaîne de gestion de données en flux tendu (IoT, Kafka, SparkStreaming, Spark)
  • Analyse des données au fil de l'eau

9 - Intégration Hadoop

  • Rappels sur l'écosystème Hadoop de base : HDFS/Yarn
  • Création et exploitation d'un cluster Spark/YARN
  • Intégration de données sqoop, kafka, flume vers une architecture Hadoop et traitements par Spark
  • Intégration de données AWS S3

10 - Machine Learning

  • Fonctionnalités : Machine Learning avec Spark, algorithmes standards, gestion de la persistance, statistiques
  • Mise en oeuvre avec les DataFrames

11 - Spark GraphX

  • Fourniture d'algorithmes, d'opérateurs simples pour des calculs statistiques sur les graphes
  • Travaux pratiques : exemples d'opérations sur les graphes

Prérequis

Public

  • Chefs de projet
  • Data Scientists
  • Développeurs

Ces formations pourraient vous intéresser

Objectifs de la formation

Cette formation Certification Big Data Foundation du CCC (Cloud Credential Council) vous aurez acquis les connaissances et les compétences nécessaires pour :

  • Comprendre le phénomène Big Data et les notions qu’il recouvre
  • Expliquer le Data Mining
  • Appréhender les outils applicables au process Big Data
  • Comprendre et installer les technologies du Big Data : Hadoop et MongoDB
  • Réaliser les contraintes, les limites mais aussi l’intérêt du mode inductif permis par le Big Data
  • Passer dans les conditions optimales la certification internationale «Big Data Foundation» du CCC, Cloud Credential Council.
Tarif

Contacter l'organisme

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • S'approprier les principes fondamentaux pour utiliser Docker (conteneurs, images, volumes...)
  • Connaître les spécificités de conteneurisation d'APIs
  • Gérer son propre hub de conteneurs
  • Déployer un pipeline data dans le Cloud
Tarif

A partir de 3 000,00 €

Durée

4 jours

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Installer et configurer les hôtes ESXi
  • Déployer et configurer vCenter
  • Utiliser le client vSphere pour créer l'inventaire de vCenter et assigner des rôles aux utilisateurs de vCenter
  • Configurer vCenter HA (High Availability)
  • Créer et configurer des réseaux virtuels avec les switches standards et distribués vSphere
  • Créer et configurer des Data Stores en utilisant les technologies de stockage prises en charge par vSphere
  • Utiliser le client vSphere pour créer des VM (machines virtuelles), des templates, des clones et des snapshots
  • Configurer et gérer un référentiel VMware Tools
  • Créer une bibliothèque de contenu pour gérer les templates et déployer des VM
  • Gérer l'utilisation des ressources des VM
  • Migrer des VM avec vSphere vMotion et vSphere Storage vMotion
  • Créer et configurer un cluster vSphere qui est activé avec vSphere HA et vSphere DRS (Distributed Resource Scheduler)
  • Gérer le cycle de vie de vSphere pour maintenir vCenter, les hôtes ESXi et les VM à jour
  • Configurer et gérer la mise en réseau et le stockage vSphere pour une grande entreprise sophistiquée
  • Utiliser les profils d'hôtes pour gérer la conformité des hôtes VMware ESXi
  • Contrôler les performances de vCenter, ESXi et des VM dans le client vSphere.
Tarif

A partir de 4 450,00 €

Durée

5j / 35h

Modes
  • Centre
  • Distance

Objectifs de la formation

À l'issue de cette formation Salesforce Bases Essentielles, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Décrire la valeur commerciale principale de chacun des principaux cloud Salesforce
  • Gérer les utilisateurs et les données
  • Gérer la configuration de base de votre organisation
  • Créer des modèles d’e-mails
  • Créer des rapports et des tableaux de bord
  • Appliquer et sponsoriser Chatter
  • Comprendre le cycle de vie de mise en oeuvre et de maintenance de Salesforce
  • Étendre les fonctionnalités de Salesforce au-delà de la configuration de base
Tarif

A partir de 1 530,00 €

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Formation IBM QRadar SIEM - Avancé

Proposé par PLB CONSULTANT

Objectifs de la formation

Savoir tirer parti des possibilités de la plateforme IBM QRadar pour sécuriser encore davantage vos réseaux.

À l'issue de cette formation IBM QRadar SIEM Avancé, les participants auront acquis les compétences et connaissances nécessaires pour :

  • Learn how to create custom log sources
  • Discover how to work with reference data collections and custom rules
  • Use X-Force data and Threat Intelligence app
  • Use the Use Case Manager app
  • Learn how to use UBA and QRadar Advisor
  • Discover Tuning
  • Explore Custom action scripts
  • Discuss Integration with IBM SOAR
Tarif

A partir de 1 590,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Identifier les enjeux de l'étude de marché
  • Gérer le recueil et l'analyse des besoins
  • Mettre en oeuvre et exploiter une étude fiable
  • Adapter sur la méthodologie globale d'étude
Tarif

A partir de 1 390,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Décrire les options et les protocoles de transfert de la couche 2 et de la couche 3 utilisés dans un Data Center
  • Reconnaître les options de conception des racks, les modèles de trafic et l'accès, l'agrégation et le noyau de la couche de commutation du Data Center
  • Identifier la technologie Cisco Overlay Transport Virtualization (OTV) qui est utilisée pour interconnecter les Data Centers
  • Décrire le protocole de séparation Locator/ID
  • Concevoir une solution qui utilise le réseau local extensible virtuel (VXLAN) pour le transfert du trafic
  • Reconnaître les options de redondance matérielle (comment virtualiser le réseau, les fonctions de calcul et de stockage) et la mise en réseau virtuelle dans le Data Center
  • Définir les solutions qui utilisent des extensions de fabric et comparer Cisco Adapter Fabric Extender (FEX) avec la virtualisation entrée / sortie à racine unique (SR-IOV : Single Root Input / Output Virtualization)
  • Décrire les menaces et les solutions de sécurité dans le Data Center
  • Reconnaître les technologies avancées de sécurité des Data Centers et les bonnes pratiques
  • Gérer et orchestrer des appareils dans le Data Center
  • Décrire les options de stockage pour la fonction de calcul et les différents niveaux de RAID (Redundant Array of Independent Disks) du point de vue de la haute disponibilité et des performances
  • Identifier les concepts, les topologies, l'architecture et les termes de l'industrie Fibre Channel
  • Décrire Fibre Channel over Ethernet (FCoE)
  • Expliquer les options de sécurité dans le réseau de stockage
  • Reconnaître les options de gestion et d'automatisation de l'infrastructure de réseau de stockage
  • Utiliser les serveurs UCS Cisco et les cas d'utilisation pour diverses plateformes UCS Cisco
  • Expliquer les options de connectivité pour les interconnexions en tissu pour les connexions vers le sud et vers le nord
  • Décrire la solution hyperconvergente et les systèmes intégrés
  • Reconnaître les paramètres de l'ensemble du système pour la mise en place d'un domaine UCS Cisco
  • Contrôler l'accès basé sur les rôles RBAC (Role-Based Access Control) et intégrer avec les serveurs d'annuaire pour contrôler les droits d'accès sur Cisco UCS Manager
  • Définir les pools qui peuvent être utilisés dans les profils de service ou les modèles de profils de service sur Cisco UCS Manager
  • Lister les différentes politiques dans le profil de service
  • Décrire les politiques d'interface Ethernet et Fibre Channel et les technologies réseau supplémentaires
  • Reconnaître les avantages des modèles et la différence entre les modèles initiaux et les modèles mis à jour
  • Identifier les outils d'automatisation des Data Centers.
Tarif

A partir de 4 060,00 €

Durée

5j / 35h

Modes
  • Centre
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Décrire les fonctionnalités de Nagios
  • Installer, configurer et administrer le produit
  • Développer de nouveaux plug-ins et mettre en oeuvre la supervision dans un environnement hétérogène.
Tarif

A partir de 3 050,00 €

Durée

5j / 35h

Modes
  • Centre
  • Distance

Formation Spark

Proposé par Sparks

Objectifs de la formation

  • Expliquer le fonctionnement d'Apache Spark et ses relations avec le Big Data et Hadoop
  • Utiliser les RDD pour gérer les opérations et MapReduce
  • Intégrer et utiliser HDFS avec Spark
  • Mettre en place et déployer une structure de cluster Spark
  • Appliquer le partitionnement et la programmation parallèle sur les données HDFS
  • Concevoir et générer une application Spark
  • Implémenter Spark Streaming pour le traitement des données en temps réel
  • Appliquer des algorithmes de Machine Learning avec MLlib et optimiser Spark
Tarif

A partir de 2 250,00 €

Durée

3 jours

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Expliquer le cycle de vie du renseignement,
  • Appréhender les différentes cyber menaces,
  • Appréhender l’écosystème des attaquants et leurs modes opératoires,
  • Expliquer les concepts de base et types de CTI (Stratégique, Tactique, Opérationnelle et Technique),
  • Appréhender les applications de la Threat Intelligence : Détection, Réponse, Anticipation et Partage,
  • mettre en oeuvre les méthodologies et outils permettant de collecter et de traiter l’information sur les menaces (OSINT, MISP, …).
Tarif

A partir de 2 490,00 €

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Je cherche à faire...