Apache Hadoop – Présentation de l’écosystème
Cette formation approfondie sur Apache Hadoop vous offre des compétences solides en matière de configuration, de supervision et d’exploitation des services Hadoop. Acquérez une compréhension détaillée de l’écosystème Hadoop, y compris MapReduce, Pig, Hive, Sqoop, et plus encore. Apprenez à gérer les utilisateurs, la sécurité, et les services généraux Hadoop dans un environnement de cluster. De plus, familiarisez-vous avec les outils de développement Hadoop et les techniques de monitoring, garantissant un fonctionnement optimal du cluster.
Objectifs pédagogiques
- Décrire l'architecture et identifier les composants d'Apache Hadoop
- Configurer et superviser les services
- Identifier et manipuler les outils de développement et de supervision Hadoop
- Exploiter et orchestrer les développements
Programme de la formation
Le projet et les modules
- Hadoop Common, HDFS, YARN, MapReduce Oozie, Pig, Hive, HBase
- Les fonctionnalités du framework Hadoop
- Les différentes versions
- Les principales distributions et leurs spécificités : Apache, Cloudera, Hortonworks, EMR, MapR
- Architecture et principe de fonctionnement
- Terminologie : NameNode, DataNode, ResourceManager, NodeManager
- Rôle des différents composants
Administration Hadoop
- Etude des fichiers de configuration core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml et capacity-scheduler.xml
- Gestion des utilisateurs pour les daemons hdfs et yarn
- Droits d'accès sur les exécutables et répertoires
- Architecture et gestion des services généraux Hadoop des utilisateurs pour les daemons hdfs et yarn
- HDFS
- YARN
- MapReduce
- HBase
- Monitoring du cluster Hadoop
- Suivi de charges
- Journaux (jConsole)
- Gestion des nœuds
- Accès JMX
- Mise en œuvre d'un client JMX
- Administration HDFS
- Stockage des fichiers : fsck, dfsadmin
- Gestion centralisée de caches avec Cacheadmin
- Sécurité
- Activation de la sécurité avec Kerberos dans core-site.xml, et hdfs-site.xml pour les NameNode et DataNode
- Gestion de la sécurité avec Apache Sentry
- Exploitation
- Supervision des éléments par le NodeManager
- Monitoring graphique avec Ambari, Kibana, Cloudera Manager
- Visualisation des alertes en cas d'indisponibilité d'un nœud
- Configuration des logs avec log4j
Développement Hadoop
- HDFS
- Architecture
- Commandes SHELL
- MapReduce
- Architecture de MapReduce
- Exécuter un code MapReduce
- Hue
- Introduction
- Fonctionnalités et utilisation
- HBase
- Architecture
- Commandes SHELL de création et d'interrogation de données
- Hive
- Architecture
- Méthodes d'accès à Hive
- HiveQL : création de bases de données/tables/vues, interrogation de données avec HiveQL, manipulation de fonctions définies par l'utilisateur (UDF), partitionner vos données, archivage de vos données
- Pig
- Introduction
- Méthodes d'exécution
- Pig Latin
- Communication entre Pig et Hive
- Sqoop
- Introduction
- Pour quels usages ?
- Méthodes d'utilisation
- Import et export des données
- Oozie
- Introduction
- Planification de workflows avec paramètres

Proposé par
ENI Service
"votre centre de formation informatique de confiance"

Proposé par
ENI Service
