Formation HBase : mise en œuvre et administration
Objectifs pédagogiques
- S'approprier l'écosystème Hadoop dans un contexte Big Data
- Connaître les principes de fonctionnement et l'architecture de HBase
- Savoir installer et configurer le système
- Manipuler les données en utilisant les commandes shell ou les APIs HBase
- Savoir mettre en place une configuration distribuée (cluster)
Programme de la formation
Introduction : retour sur l’écosystème Hadoop
Vue d’ensemble de l’écosystème Hadoop pour le Big Data
HDFS (Hadoop Distributed File System) et MapReduce
Les principales technologies de la plateforme : Spark, Hive, PIG, HBase…
L’importance des bases de données NoSQL dans Hadoop
Présentation et installation d’HBase
Bref historique, forces et faiblesses, intérêt et cas d’utilisation
Fonctionnalités principales : scalabilité, failover et sharding automatiques, interface avec jobs MapReduce…
La terminologie HBase : tables, cellules, lignes, familles de colonnes, régions…
Architecture : HMaster et RegionServer, HDFS
Le coordinateur Zookeeper
Choix des packages, modes d’installation et tests de connexion
Les tables HBase
Concepts fondamentaux
Manipuler et concevoir des tables sous HBase
Utiliser les commandes Shell pour la gestion des tables
Utiliser les commandes Shell pour manipuler des données
Scripts
Accès aux données : les APIs HBase
Vue d’ensemble des possibilités d’accès aux données : REST, Thrift, Java…
Créer et supprimer des tables
Extraire des données avec Get et Scan
Insérer et mettre à jour des données
Supprimer des données
Les filtres
Administration d’un cluster HBase : le mode distribué
Principes de fonctionnement
Les daemons HBase
Considérations pour l’utilisation de Zookeeper
Haute disponibilité
Utiliser le HBase Balancer
L’outil HBaseFsck (hbck)
La sécurité dans HBase, vue d’ensemble
Proposé par
Sparks
"Tout l'IT, vraiment tout"
Proposé par
Sparks