Formation Hadoop
Hadoop est le framework open source d'Apache pour le stockage des données le plus utilisé dans le monde du Big Data. Il permet le stockage et le traitement de vastes quantités de données en un temps court. Apache Hadoop offre des avantages considérables aux organismes disposant de quantités importantes de données. Grâce à notre formation Apache Hadoop de 3 jours, stockez, gérez et traitez vos données rapidement et à moindre coût !
Objectifs pédagogiques
- Comprendre l'écosystème Big Data, Hadoop et ses composants
- Connaître les composants Hadoop et les distributions du marché
- Installer Hadoop, son infrastructure, gérer un cluster
- Surveiller l'état du cluster
- Utiliser Hive, Pig et Oozie
- Optimiser l'éxécution de vos travaux
Programme de la formation
Présentation Apache Hadoop
Retour historique sur le du Big Data
Exploiter les données
Composants Hadoop
Écosystème Apache Hadoop
HDFS: Architecture
MapReduce : principes, architecture
HBase
Hive
Pig
Sqoop
Les distributions principales du marché
Hortonworks
MapR
Cloudera
Infrastructure Hadoop: Mise en place
Organiser un cluster
Réseau
Besoins matériels
Bien choisir le matériel
Installer et configurer Hadoop
Prérequis
Cloudera Manager
Surveillance du cluster
Développement Hadoop
Hive
Créer des bases de données
Créer des tables
Créer des vues
HiveSQL pour les requêtes
UDF pour manipuler les fonctions définies par l’utilisateur
Gérer les droits utilisateurs
Pig
Interroger les données avec Pig Latin
Communication entre Pig et Hive
Oozie
Planification des travaux
Workflows
Coordinateurs
Bundles
Optimisation de l’exécution des travaux
Hive pour partitionner les données
Archivage
JVM pour gérer la mémoire

Proposé par
Sparks
"Tout l'IT, vraiment tout"

Proposé par
Sparks
