Formation Pig, Hive et Impala

Public admis

  • Salarié en Poste
  • Demandeur d'emploi
  • Entreprise
  • Etudiant

Financements

Eligible CPF Votre OPCO Financement personnel

Objectifs de la formation

- Manipuler des ensembles de données complexes stockés dans Hadoop sans avoir à  écrire de code complexe avec Java - Automatiser le transfert des données dans le stockage Hadoop avec Flume et Sqoop - Filtrer les données avec les opérations Extract-Transform-Load (ETL) avec Pig - Interroger plusieurs ensembles de données pour une analyse avec Pig et Hive

DAWAN


Formez-vous à l’excellence.
Voir la fiche entreprise

Tarif

A partir de 2 760,00 €

Durée 4 jour(s)
Modes
  • Centre
  • Entreprise
  • Distance
Sessions
Lieux Partout en France

DAWAN


Formez-vous à l’excellence.
Voir la fiche

Tarif

A partir de 2 760,00 €

Durée 4 jour(s)
Modes
  • Centre
  • Entreprise
  • Distance
Sessions
Lieux Partout en France

Description

  • Un support et les exercices du cours pour chaque stagiaire
  • Un formateur expert ayant suivi une formation à la pédagogie
  • Boissons offertes pendant les pauses en inter-entreprises
  • Salles lumineuses et locaux facilement accessibles
  • Méthodologie basée sur l'Active Learning : 75% de pratique minimum
  • Matériel pour les formations présentielles informatiques : un PC par participant
  • Positionnement à l'entrée et à la sortie de la formation
  • Certification CPF quand formation éligible
  • Programme

    Introduction

    Vue d'ensemble de Hadoop
    Analyser les composants Hadoop
    Définir l'architecture Hadoop

    Stocker les données dans HDFS

    Réaliser un stockage fiable et sécurisé
    Surveiller les mesures du stockage
    Contrôler HDFS à partir de la ligne de commande

    Traitement parallèle avec MapReduce

    Détailler l'approche MapReduce
    Transférer les algorithmes et non les données
    Décomposer les étapes clés d'une tâche MapReduce

    Automatiser le transfert des données

    Faciliter l'entrée et la sortie des données
    Agréger les données avec Flume
    Configurer le fan in et le fan out des données
    Déplacer les données relationnelles avec Sqoop

    Décrire les caractéristiques d'Apache Pig

    Exposer les différences entre Pig et MapReduce
    Identifier les cas d'utilisation de Pig
    Identifier les configurations clés de Pig

    Structurer les données non structurées

    Représenter les données dans le modèle de données de Pig
    Exécuter les commandes Pig Latin au Grunt Shell
    Exprimer les transformations dans la syntaxe Pig Latin
    Appeler les fonctions de chargement et de stockage

    Transformer les données avec les opérateurs relationnels

    Créer des nouvelles relations avec des jointures
    Réduire la taille des données par échantillonnage
    Exploiter Pig et les fonctions définies par l'utilisateur

    Filtrer les données avec Pig

    Consolider les ensembles de données avec les unions
    Partitionner les ensembles de données avec les splits
    Ajouter des paramètres dans des scripts Pig

    Exploiter les avantages métier de Hive

    Factoriser Hive en composants
    Imposer la structure sur les données avec Hive

    Organiser les données dans Hive

    Créer des bases de données et des tables Hive
    Exposer les différences entre les types de données dans Hive
    Charger et stocker les données efficacement avec SerDes

    Concevoir la disposition des données pour la performance

    Remplir les tables à partir de requêtes
    Partitionner les tables de Hive pour des requêtes optimales
    Composer des requêtes HiveQL

    Réaliser des jointures sur des données non structurées

    Distinguer les jointures disponibles dans Hive
    Optimiser la structure des jointures pour les performances

    Repousser les limites de HiveQL

    Trier, répartir et regrouper des données
    Réduire la complexité des requêtes avec les vues
    Améliorer la performance des requêtes avec les index

    Déployer Hive en production

    Concevoir les schémas de Hive
    Établir la compression des données
    Déboguer les scripts de Hive

    Rationaliser la gestion du stockage avec HCatalog

    Unifier la vue des données avec HCatalog
    Exploiter HCatalog pour accéder au metastore Hive
    Communiquer via les interfaces HCatalog
    Remplir une table Hive à partir de Pig

    Traitement parallèle avec Impala

    Décomposer les composants fondamentaux d'Impala
    Soumettre des requêtes à Impala
    Accéder aux données Hive à partir d'Impala

    Lancer le framework Spark

    Réduire le temps d'accès aux données avec Spark-SQL
    Interroger les données Hive avec Spark-SQL


    Prérequis

    Connaissances fondamentales des bases de données et de SQL sont un atout majeur

    Public

    techniciens et spécialistes des bases de données, responsables, analystes métier et professionnels BI, souhaitant utiliser les technologies Big Data dans leur entreprise

    Ces formations pourraient vous intéresser

    Objectifs de la formation

    • Alimentation de Hive ;
    • Créer des tables ;
    • Injecter des données ;
    • Réaliser des requêtes, mais aussi optimiser les traitements.
    Tarif

    A partir de 1 590,00 €

    Durée

    2j / 14h

    Modes
    • Centre
    • Entreprise
    • Distance

    Objectifs de la formation

    • Apprendre à manier Pig, Hive et Impala avec Hadoop
    • Savoir explorer Pig, l'utiliser pour traiter les données basiques et complexes
    • Analyser les données relationnelles, textuelles et sémantiques avec Hive
    • Savoir utiliser Impala pour exlorer, trier, filtrer et analyser les données
    • Utiliser efficacement la complémentarité des outils
    Tarif

    A partir de 2 800,00 €

    Durée

    4 jours

    Modes
    • Centre
    • Entreprise
    • Distance

    Objectifs de la formation

    • Avoir une vue d'ensemble de l'architecture de Apache Pig ;
    • Connaître les fonctionnalités générales et les capacités de Apache Pig ;
    • Charger et de manipuler des données de types et formats différents ;
    • Optimiser les traitements générés ;
    • Utiliser des librairies Pig externes.
    Tarif

    Contacter l'organisme

    Durée

    2j / 14h

    Modes
    • Centre
    • Entreprise
    • Distance

    Formation Hadoop

    Proposé par Sparks

    Objectifs de la formation

    • Comprendre l'écosystème Big Data, Hadoop et ses composants
    • Connaître les composants Hadoop et les distributions du marché
    • Installer Hadoop, son infrastructure, gérer un cluster
    • Surveiller l'état du cluster
    • Utiliser Hive, Pig et Oozie
    • Optimiser l'éxécution de vos travaux
    Tarif

    A partir de 2 100,00 €

    Durée

    3 jours

    Modes
    • Centre
    • Entreprise
    • Distance

    Objectifs de la formation

    - Structurer et concevoir des bases de données Cassandra pour garder une longueur d'avance sur vos concurrents - Appliquer des modèles de requêtes pour modéliser les données de vos bases Cassandra - Accéder aux bases de données Cassandra avec CQL et Java - Trouver le juste équilibre entre le débit de lecture / écriture et la cohérence des données - Intégrer Cassandra à  Hadoop, Pig et Hive - Mettre en oeuvre les design patterns Cassandra les plus courants
    Tarif

    A partir de 2 070,00 €

    Durée

    3j / 21h

    Modes
    • Centre
    • Entreprise
    • Distance

    Objectifs de la formation

    À l'issue de cette formation Google Cloud Platform : l'Essentiel du Big Data et du Machine Learning vous aurez acquis les connaissances et les compétences nécessaires pour :

    • Découvrir les objectifs et la valeur des principaux produits Big Data et Machine Learning disponibles dans la plate-forme Google Cloud
    • Utiliser Cloud SQL et Cloud Dataproc pour migrer les workloads MySQL et Hadoop / Pig / Spark / Hive existants vers Google Cloud Platform
    • Utiliser BigQuery et Cloud Datalab pour effectuer une analyse interactive des données
    • Former et utiliser un réseau de neurones en utilisant TensorFlow
    • Employer des API ML
    • Choisir parmi différents produits de traitement de données sur Google Cloud Platform
    Tarif

    A partir de 790,00 €

    Durée

    1j / 7h

    Modes
    • Centre
    • Entreprise
    • Distance

    Objectifs de la formation

    À l'issue de cette formation Big Data sur Amazon Web Services (AWS), vous aurez acquis les connaissances et compétences nécessaires pour :

    • Comprendre les applications d'Apache Hadoop dans le contexte d'Amazon EMR
    • Comprendre l'architecture d'un cluster Amazon EMR
    • Lancer un cluster Amazon EMR en utilisant une image machine Amazon (AMI) et des types d'instances Amazon EC2 adaptés
    • Connaître les options d'importation, de transfert et de compression des données destinées à Amazon EMR
    • Sélectionner les options de stockage de données sur AWS les plus adaptées à leur traitement dans Amazon EMR
    • Utiliser les frameworks de programmation courants compatibles avec Amazon EMR, notamment Hive, Pig et Streaming
    • Utiliser Amazon Redshift pour déployer une solution de Big Data
    • Utiliser un logiciel de visualisation des Big Data
    • Sélectionner les options de sécurité les plus adaptées à Amazon EMR et à vos données
    • Effectuer des analyses de données en mémoire avec Spark et Shark sur Amazon EMR
    • Sélectionner les options adaptées pour gérer votre environnement Amazon EMR de façon rentable
    • Comprendre les avantages d'Amazon Kinesis pour les applications de Big Data.
    Tarif

    Contacter l'organisme

    Durée

    3j / 21h

    Modes
    • Centre
    • Entreprise
    • Distance

    Objectifs de la formation

    Charger et récupérer des données de HBase et du système de fichiers distribué Hadoop (HDFS) - User Defined Functions de Hive et Pig
    Tarif

    A partir de 2 075,00 €

    Durée

    2j / 14h

    Modes
    • Centre
    • Entreprise
    • Distance

    Objectifs de la formation

    A l'issue de cette formation, vous serez capable de :

    • Identifier les principaux risques touchant les solutions de traitement des données massives
    • Décrire le cadre juridique (RGPD)
    • Reconnaître les principales solutions techniques de base pour vous protéger des risques : SSO, Kerberos, chiffrement
    • Mettre en oeuvre une politique de sécurité pour traiter les risques, les menaces, les attaques
    • Sécuriser un cluster Big Data On-Premise ou sur le Cloud.
    Tarif

    A partir de 1 520,00 €

    Durée

    2j / 14h

    Modes
    • Centre
    • Distance

    Objectifs de la formation

    - Développer des algorithmes parallèles efficaces - Analyser des fichiers non structurés et développer des tâches Java MapReduce - Charger et récupérer des données de HBase et du système de fichiers distribué Hadoop (HDFS) - User Defined Functions de Hive et Pig
    Tarif

    A partir de 3 875,00 €

    Durée

    5j / 35h

    Modes
    • Centre
    • Entreprise
    • Distance

    Je cherche à faire...