Hadoop : l'écosystème
Cette formation en Big Data vous permettra d’acquérir une vision macro des principaux projets de l’écosystème Hadoop, d’en clarifier les rôles et les interactions.
Objectifs pédagogiques
- Disposer d’une vision claire des différents éléments de l’écosystème Hadoop, projet Open Source initié par Google, destiné à faciliter le stockage, l’exploitation et l’analyse de très grands volumes d’information hébergés sur plusieurs machines en réseaux
- Être à l’aise avec les concepts et termes propres à Hadoop et comprendre les rôles et les interactions des différents composants d’Hadoop au travers d’exemples significatifs
Programme de la formation
Introduction
Rappels sur NoSQL
Le théorème CAP
Historique du projet hadoop
Les fonctionnalités : stockage, outils d’extraction, de conversion, ETL, analyse, …
Exemples de cas d’utilisation sur des grands projets
Les principaux composants : HDFS pour le stockage et YARN pour les calculs
Les distributions et leurs caractéristiques : HortonWorks, Cloudera, MapR, GreenPlum, Apache, …
Architecture
Terminologie : NameNode, DataNode, ResourceManager
Rôle et interactions des différents composants
Présentation des outils :
. d’infrastructure (ambari, avro, zookeeper)
. de gestion des données (pig, oozie, falcon, pentaho, sqoop, flume)
. d’interfaçage avec les applications GIS
. de restitution et requêtage : webhdfs, hive, hawq, impala, drill, stinger, tajo, mahout, lucene, elasticSearch, Kibana
Les architectures connexes : spark, cassandra
Exemples interactifs
Démonstrations sur une architecture Hadoop multi-noeuds.
Mise à disposition d’un environnement pour des exemples de calcul
Travaux pratiques : Recherches dans des données complexes non structurées
Applications
Cas d’usages de Hadoop
Infrastructures hyperconvergées avec les appliances Hadoop
Calculs distribués sur des clusters Hadoop

Proposé par
DEMOS
"Leader de la formation professionnelle et du conseil en ressources humaines"

Proposé par
DEMOS
