Formation Hadoop - Développement

Public admis

  • Salarié en Poste
  • Demandeur d'emploi
  • Entreprise
  • Etudiant

Financements

Eligible CPF Votre OPCO Financement personnel

Objectifs de la formation

À l'issue de cette formation Hadoop vous aurez acquis les connaissances et compétences nécessaires pour :

  • Identifier les fonctionnalités d’Hadoop et son écosystème
  • Développer des algorithmes parallèles efficaces avec MapReduce
  • Mettre en œuvre des tâches Hadoop pour extraire des éléments pertinents d'ensembles de données volumineux et variés et apporter ainsi de la valeur à votre entreprise
  • Développer des tâches parallèles MapReduce performantes
  • Charger des données en environnement HDFS et HBase (données non structurées)
  • Découvrir la puissance des traitements de données avec Spark

PLB CONSULTANT


Informatique et Management
Voir la fiche entreprise

Tarif

A partir de 2 400,00 €

Durée 3 jours (21h)
Modes
  • Centre
  • Entreprise
  • Distance
Sessions
Lieux Partout en France

PLB CONSULTANT


Informatique et Management
Voir la fiche

Tarif

A partir de 2 400,00 €

Durée 3 jours (21h)
Modes
  • Centre
  • Entreprise
  • Distance
Sessions
Lieux Partout en France

Description

La gestion des ensembles de données volumineux offre aux entreprises de toutes tailles de nouvelles opportunités et de nouveaux défis à relever. Au cours de cette formation Développement Hadoop, vous allez acquérir les compétences pratiques de programmation nécessaires pour développer des solutions compatibles avec la plateforme Hadoop d'Apache grâce auxquelles vous pourrez traiter efficacement différents types de Big Data.

Lors de cette formation, vous utiliserez plusieurs produits dédiés au Big Data, Apache Hadoop, MapReduce, le système de fichiers distribué Hadoop (HDFS), HBase, Hive et Pig. Vous étudierez aussi d'autres composants de l'écosystème dont l’apport du standard Spark dans le traitement des données.

Selon la session choisie, la distribution peut changer entre Cloudera et Hortonworks. Contactez notre service commercial pour connaître la solution choisie sur les sessions à venir.

Programme

Jour 1

Introduction

Définir les fonctionnalités du framework Hadoop et son écosystème 
Identifier le projet et les modules : Hadoop Common, HDFS, YARN, MapReduce
Utilisation de Yarn pour piloter les jobs mapreduce

MapReduce

Déterminer le principe et objectifs du modèle de programmation MapReduce
Données structurées et non-structurées
Utiliser les fonctions map() et reduce().
Couples (clés, valeurs).
Implémentation par le framework Hadoop.
Étude d'exemples
Travaux PratiquesRédaction d'un premier programme et exécution avec Hadoop

Programmation

Configuration des jobs, notion de configuration.
Identifier les interfaces principales : mapper, reducer,
Importance de la configuration HDFS sur le découpage en blocs et les mappers
La chaîne de production : entrées, input splits, mapper, combiner, shuffle/sort, reducer, sortie.
Gérer le partitionnement des données afin d’équilibrer la charge sur un cluster..
Format des entrées et sorties d'un job MapReduce : InputFormat et OutputFormat.
Travaux PratiquesType personnalisés : création d'un writable spécifique. Utilisation. Contraintes.Jour 2

Outils complémentaires

Paramétrage d'un job : ToolRunner, transmission de propriétés.
Accès à des systèmes externes : S3, hdfs, har, ...
Configuration des sorties vers une unité de persistance
Travaux PratiquesRépartition du job sur la ferme au travers de yarn.

Streaming

Définir le streaming map/reduce.
Échantillonnage de données.
Définition de fenêtre temporelle en regard des données consommées.
Liaisons avec des systèmes externes.
Travaux PratiquesSuivi d'un job en streaming

HBase

Présentation des différentes interfaces disponibles
Commandes de base, syntaxe, variables, manipulation des données : create, list, put, scan, get
Désactiver une table ou l'effacer : disable (enable), drop, ...
Programmation de scripts (shell proposé par Hbase)
Gestion des tables : principe des filtres
Mise en œuvre de filtres de recherche, paramètres des tables
Présentation des espaces de nommage
Travaux PratiquesUtilisation de données structurée avec HBase en Map/Reduce. 
Traitement de données depuis un datalake vers un datalab
Jour 3

Hive

Simplification du requêtage.
Syntaxe de base.
Définition d’un mapping de données issus de HBase afin de requêter en SQL
Charger et stocker les données efficacement avec SerDes
Concevoir la disposition des données pour la performance
Automatisation de requêtes sur un flux de données
Travaux PratiquesCréation de tables. Ecriture de requêtes HiveQL.
Extraire des données en SQL avec utilisation de fonctions définies par l’utilisateur.

Introduction à Spark

Programmation de haut niveau pour le Big Data : RDD
Standard de fait : pour son approche SQL : DataFrame
Echantillonnage de données ou streaming structuré
Big Data sur les graphes : Page ranking
Machine Learning à partir de données structurées (Spark ML)
Travaux PratiquesExploitation de données CSV par une interprétation SQL Big Data

Prérequis

Pour suivre cette formation Hadoop Développement dans les meilleures conditions possibles, il est recommandé d’avoir une bonne connaissance d'un langage de programmation objet (Java, C#, Python, etc.) et du scripting.

Public

Ce cours Hadoop Développement s'adresse essentiellement aux chefs de projets, développeurs, data scientists et architectes amenés à développer des applications avec Hadoop dans un environnement Big Data. Il conviendra également aux ingénieurs ou à toute personne souhaitant comprendre les techniques de développement dans l'environnement Hadoop.

Ces formations pourraient vous intéresser

Objectifs de la formation

  • Connaître les opportunités et les solutions Big Data actuelles
  • Comprendre les enjeux et les pespectives pour son entreprise
  • Pouvoir stocker, traiter, analyser et visualiser les données
  • Maîtriser les aspects ethiques et juridiques du Big Data
Tarif

A partir de 1 500,00 €

Durée

2 jours

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Exploiter les architectures Big Data Hadoop On-Premise et Cloud
  • Mettre en place des socles techniques complets pour des projets Big Data.
Tarif

A partir de 3 800,00 €

Durée

5j / 35h

Modes
  • Centre
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Identifier les principaux risques touchant les solutions de traitement des données massives
  • Décrire le cadre juridique (RGPD)
  • Reconnaître les principales solutions techniques de base pour vous protéger des risques : SSO, Kerberos, chiffrement
  • Mettre en oeuvre une politique de sécurité pour traiter les risques, les menaces, les attaques
  • Sécuriser un cluster Big Data On-Premise ou sur le Cloud.
Tarif

A partir de 1 520,00 €

Durée

2j / 14h

Modes
  • Centre
  • Distance

Objectifs de la formation

Cette formation Hadoop vous invite à faire le point sur les différents éléments de l'écosystème Hadoop et leurs rôles respectifs.Egalement, elle vous aidera à comprendre l'architecture des applicatifs hadoop et à savoir quels sont les apports et les cas d'usage des solutions hadoop.

Tarif

A partir de 750,00 €

Durée

1j / 7h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

À l'issue de cette formation Hadoop HBase, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Positionner Hbase dans l’écosystème Hadoop
  • Comprendre l’architecture et le fonctionnement de HBase
  • Identifier les avantages de HBase pour le stockage distribué des données
  • Savoir dialoguer avec un système Hbase (shell)
  • Mettre en place un cluster Hbase en mode distribué
  • Comprendre comment Hbase est utilisé en production par les applications
Tarif

A partir de 1 410,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Comprendre les concepts fondamentaux du Big Data et son importance
  • Connaître l'écosystème Big Data et les principales technologies associées
  • Acquérir des compétences pratiques dans l'utilisation d'Apache Hadoop et Spark
  • Explorer les bases de données distribuées et leur rôle dans le Big Data
  • Maîtriser les outils d'analyse tels que Apache Hive, Pig, et Impala
  • Appliquer les connaissances acquises à travers des études de cas pratiques
Tarif

Contacter l'organisme

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Cette formation fait l'objet d'une évaluation formative.
Tarif

Contacter l'organisme

Durée

4 jours (28 heures)

Modes
  • Distance
  • Centre

Objectifs de la formation

  • Cette formation fait l'objet d'une évaluation formative.
Tarif

Contacter l'organisme

Durée

3 jours (21 heures)

Modes
  • Distance
  • Centre

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Installer et administrer des bases de données sous la solution NoSQL Apache Cassandra
  • Décrire l'architecture de NoSQL Apache Cassandra et ses apports par rapport aux autres solutions
  • Installer et configurer le SGBD NoSQL Apache Cassandra
  • Administrer et sécuriser un cluster Cassandra
  • Définir le CQL (Cassandra Query Language)
  • Créer une base de données et manipuler ses objets
  • Expliquer la notion de grappe au sein de la base de données.
Tarif

A partir de 2 080,00 €

Durée

3j / 21h

Modes
  • Centre
  • Distance

Objectifs de la formation

Concrètement à l’issue de cette formation Concevoir et piloter un projet Big Data vous aurez acquis les connaissances et compétences nécessaires pour :

  • Comprendre les spécificités d’un projet Big Data
  • Comprendre les risques et le cadre juridique d’un projet Big Data
  • Comprendre l’ensemble des technologies et les liens entre elles
  • Comprendre les métiers concernés par un projet Big Data
  • Savoir constituer et piloter l’équipe d’un projet Big Data
  • Savoir mettre en place une gouvernance des données efficace
  • Savoir piloter le cycle de vie des données (collecte, exploitation, analyse, visualisation)
  • Savoir mettre en place des tests cohérents.
Tarif

A partir de 2 100,00 €

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Je cherche à faire...