Formation Pig, Hive et Impala avec Hadoop

Public admis

  • Salarié en Poste
  • Demandeur d'emploi
  • Entreprise
  • Etudiant

Financements

Eligible CPF Votre OPCO Financement personnel

Objectifs de la formation

  • Apprendre à manier Pig, Hive et Impala avec Hadoop
  • Savoir explorer Pig, l'utiliser pour traiter les données basiques et complexes
  • Analyser les données relationnelles, textuelles et sémantiques avec Hive
  • Savoir utiliser Impala pour exlorer, trier, filtrer et analyser les données
  • Utiliser efficacement la complémentarité des outils

Sparks


Tout l'IT, vraiment tout
Voir la fiche entreprise

Tarif

A partir de 2 800,00 €

Durée 4 jours
Modes
  • Centre
  • Entreprise
  • Distance
Sessions
Lieux Partout en France

Sparks


Tout l'IT, vraiment tout
Voir la fiche

Tarif

A partir de 2 800,00 €

Durée 4 jours
Modes
  • Centre
  • Entreprise
  • Distance
Sessions
Lieux Partout en France

Description

Cette formation vous apportera une grande expertise dans l’utilisation d’outils de traitement de données issues du Big Data. Apprenez à combiner et à mettre en œuvre Pig, Hive et Impala dans votre système Hadoop pour accroître votre potentiel BI. Vous serez en mesure d’exploiter ces outils et adapter leurs utilisations pour un traitement optimal des données : requêtes, transformations, combinaisons, interprétations, stockage, et plus encore !

Programme

Chapitre introductif

Les problématiques du Big Data
Retour sur l’architecture MapReduce
Le processus ETL
Hadoop : solutions apportées et manques
Retour sur le système de fichiers distribués Hadoop (HDFS)
L’environnement d’Hadoop

Exploration de l’outil Apache Pig

Pig : définition, caractéristiques et rayon d’action
Les cas d’utilisation de Pig
Le langage Pig Latin : caractéristiques et mise en œuvre
Démarrer avec Pig

Utilisation de Pig pour traiter des données basiques

Connaître les types et les caractéristiques de données simples
Charger les données et définir les champs
Gérer la sortie des données
Techniques de tri et de filtrage des données récoltées
Utiliser les principales fonctions de traitement

Utilisation de Pig pour traiter des données complexes

Les différents formats de stockage
Connaître les types et les caractéristiques des données complexes et emboîtées
Grouper les données et utiliser la fonction built-in
Programmer des itérations de traitement de données groupées

Utilisation avancée de Pig

Effectuer des combinaisons d’ensembles de données
Exécuter des opérations sur des groupes de données
Paramètres avancés
Utiliser des macros et des fonctions utilisateurs (UDF)
Utiliser Pig avec d’autres langages

Résolution de problèmes et optimisation

Méthodes de résolution de problèmes
Utiliser l’UI web d’Hadoop pour le trouble shooting
Méthodes de débogage par échantillonnage de données
Monitoring des performances

Exploration de l’outil Apache Hive

Hive : définition, caractéristiques et rayon d’action
Le modèle de stockage de données de Hive
Hive et Pig : concurrence et complémentarités
Le langage de requête HiveQL
Démarrer avec Hive

Utilisation de Hive pour l’analyse de données relationnelles

Les bases et tableaux de données sous Hive
Connaître les types de données et leurs caractéristiques
Les formats de données dans Hive
Méthodes d’assemblage de données et fonctions de built-in

Gestion des données avec Hive

Construire des bases de données et tableaux de gestion Hive
Utiliser des tableaux autogérés
Stocker le résultat des requêtes
Sécuriser l’accès aux données

Analyse de données textuelles et études sémantiques

Les principes du traitement de données textuelles
Utiliser les fonctions String
Principes et applications du « Opinion Mining »

Optimisation et utilisation avancée

Mettre en œuvre les bonnes pratiques pour la performance des requêtes
Paramétrer les requêtes
Contrôler l’exécution des tâches
Partitionnement des données, bucketing et indexation
Utiliser des scripts pour transformer les données
Mettre en œuvre des fonctions utilisateurs (UDF)

Exploration du moteur de requêtes Impala

Impala : définition, caractéristiques et rayon d’action
Impala, Pig et Hive : concurrence et complémentarités
Impala dans le monde des bases de données relationnelles
Exemples d’utilisations du Shell Impala

Utilisation d’Impala pour l’analyse de données

Utiliser la syntaxe Impala
Connaître les types de données et leurs caractéristiques
Techniques de tri et de filtrage des données récoltées
Méthodes d’assemblage de données
Optimiser les performances

Conclusion

Prérequis

Connaissances basiques en Hadoop et Big Data, en gestion de données et SQL

Public

Architectes techniques,

Ces formations pourraient vous intéresser

Objectifs de la formation

  • Pendant la formation, le formateur évalue la progression pédagogique des participants via des QCM, des mises en situation et des travaux pratiques. Les participants passent un test de positionnement avant et après la formation pour valider leurs compétences acquises.
Tarif

Contacter l'organisme

Durée

8 jours (56 heures)

Modes
  • Centre
  • Distance

Objectifs de la formation

Comprendre le Big Data et ses enjeux - Savoir déployer Hadoop et son écosystème - Comprendre HDFS, MapReduce - Structurer les données avec HBase - Ecrire des requêtes avec HiveQL - Installer les services d'un nœud Hadoop - Assembler plusieurs nœuds Hadoop - Déployer une nouvelle application sur un cluster existant - Effectuer une restauration de données suite à une reprise sur incident
Tarif

A partir de 3 875,00 €

Durée

5j / 35h

Modes
  • Centre
  • Entreprise
  • Distance

Formation Hadoop

Proposé par Sparks

Objectifs de la formation

  • Comprendre l'écosystème Big Data, Hadoop et ses composants
  • Connaître les composants Hadoop et les distributions du marché
  • Installer Hadoop, son infrastructure, gérer un cluster
  • Surveiller l'état du cluster
  • Utiliser Hive, Pig et Oozie
  • Optimiser l'éxécution de vos travaux
Tarif

A partir de 2 100,00 €

Durée

3 jours

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Comprendre les concepts fondamentaux du Big Data et son importance
  • Connaître l'écosystème Big Data et les principales technologies associées
  • Acquérir des compétences pratiques dans l'utilisation d'Apache Hadoop et Spark
  • Explorer les bases de données distribuées et leur rôle dans le Big Data
  • Maîtriser les outils d'analyse tels que Apache Hive, Pig, et Impala
  • Appliquer les connaissances acquises à travers des études de cas pratiques
Tarif

Contacter l'organisme

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Pendant la formation, le formateur évalue la progression pédagogique des participants via des QCM, des mises en situation et des travaux pratiques. Les participants passent un test de positionnement avant et après la formation pour valider leurs compétences acquises.
Tarif

Contacter l'organisme

Durée

12 jours (84 heures)

Modes
  • Centre
  • Distance

Objectifs de la formation

  • Alimentation de Hive ;
  • Créer des tables ;
  • Injecter des données ;
  • Réaliser des requêtes, mais aussi optimiser les traitements.
Tarif

A partir de 1 590,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Mettre en place l'écosystème Hadoop
  • Expliquer le fonctionnement et l'architecture de HBase
  • Identifier les apports d'HBase en termes de stockage distribué des données
  • Installer le système et mettre en place une configuration distribuée.
Tarif

A partir de 1 520,00 €

Durée

2j / 14h

Modes
  • Centre
  • Distance

Objectifs de la formation

Charger et récupérer des données de HBase et du système de fichiers distribué Hadoop (HDFS) - User Defined Functions de Hive et Pig
Tarif

A partir de 2 075,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

Comprendre le Big Data et ses enjeux - Savoir déployer Hadoop et son écosystème - Comprendre HDFS, MapReduce - Structurer les données avec HBase - Ecrire des requêtes avec HiveQL
Tarif

A partir de 2 325,00 €

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Les fondamentaux du NoSQL

Proposé par ENI Service

Objectifs de la formation

  • Identifier les différences entre SGBD SQL et SGBD NoSQL
  • Évaluer les apports et les inconvénients inhérents aux technologies NoSQL
  • Identifier les principaux acteurs et solutions du marché pour chaque modèle de données
  • Appréhender les champs d'application des SGBD NoSQL en opérationnel et en analytique
  • Appréhender les différentes architectures, modèles de données et implémentations techniques
  • Identifier les critères de choix
Tarif

A partir de 1 590,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Je cherche à faire...