Formation Big Data : Architecture et Infrastructure

Public admis

  • Salarié en Poste
  • Demandeur d'emploi
  • Entreprise
  • Etudiant

Financements

Eligible CPF Votre OPCO Financement personnel

Objectifs de la formation

À l'issue de cette formation Big Data Architecture Infrastructure, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Comprendre l’écosystème Big Data dans sa globalité (concepts, technologies, architecture)
  • Analyser les risques et les difficultés propres à un projet Big Data
  • Comprendre l’origine et le format des données manipulées
  • Appréhender les éléments de sécurité, d'éthique et les enjeux juridiques
  • Connaître les architectures distribuées dominantes du marché
  • Se repérer dans les technologies Big Data pour concevoir une architecture performante en fonction des projets
  • Mettre en œuvre un cluster Hadoop et l’exploiter
  • Déployer une application Hadoop/Spark sur une architecture Big Data

PLB CONSULTANT


Informatique et Management
Voir la fiche entreprise

Tarif

A partir de 1 995,00 €

Durée 3 jours (21h)
Modes
  • Centre
  • Entreprise
  • Distance
Sessions
Lieux Partout en France

PLB CONSULTANT


Informatique et Management
Voir la fiche

Tarif

A partir de 1 995,00 €

Durée 3 jours (21h)
Modes
  • Centre
  • Entreprise
  • Distance
Sessions
Lieux Partout en France

Description

Cette formation Big Data Architecture Infrastructure vous présente l’architecture et l’infrastructure sous-jacente d’un projet Big Data. Elle commence par définir le cadre des projets Big Data puis explique en quoi la nature des données manipulées et leur volume impactent l’architecture, que ce soit au niveau du stockage ou du traitement. Concrètement, quels sont les changements par rapport aux standards (serveur, SGBD, système de fichiers, etc.) et qu’apportent concrètement des solutions NoSQL ou des produits comme Hadoop ?

Mais quelle que soit votre architecture, se posera le problème de la « qualité » des données. Nous vous montrons donc comment la gérer avec des ETL, le master data management, les bases multiples, etc. Vous disposerez donc d’une vue claire et opérationnelle sur la façon de disposer de données « propres » pour l’analyse des données de votre infrastructure tout en étant sensibilisé aux obligations des entreprises sur les aspects éthiques, sécurité et responsabilité.

Ensuite nous vous présentons l’éventail des technologies Big Data en termes d’infrastructure pour accueillir ces données afin de vous aider à vous repérer et faire les bons choix en fonction des projets (Cloud, On premise, Hadoop, NoSQl, etc.). Le calcul distribué étant au cœur du Big Data, vous comprenez comment mettre à la disposition des développeurs des architectures distribuées scalables et performantes (HDFS, MapReduce, etc.). Parmi les standards du marché les deux solutions sont Hadoop et Spark. Aussi, vous comprenez leur complémentarité et leur concurrence dans le cadre d’une architecture complète que vous mettez en œuvre. Concrètement, vous apprenez à installer un cluster Hadoop à plusieurs nœuds, à le paramétrer, à le sécuriser, le surveiller (monitoring), et donc, au final, à proposer une infrastructure de qualité aux développeurs et aux analystes.

La formation se termine par le déploiement d’un traitement Hadoop/Spark sur l’architecture que nous avons conçue afin de valider votre vision globale et concrète d’une architecture Big Data.

Programme

Jour 1

Définition et contexte spécifique des projets Big Data

Les origines du Big Data
Les données au cœur des enjeux :
-  Explosion du nombre de données
-  Liens entre Big Data et IoT (internet des objets)
-  Données structurées, semi-structurées, non structurées
Les limites des architectures actuelles
Définition d’un système Big Data
Principes de fonctionnement
Les différentes offres des marchés
Compétences et qualités requises pour un architecte Big Data
Organiser la récupération, le stockage et la gestion des données brutes
Les responsabilités de l’architecte
Risques et difficultés rencontrés dans les projets Big Data
Étude de casAnalyse des risques et des difficultés autour d’un projet Big Data

Propriété de la donnée, environnement juridique du traitement, sécurité

Sécurité éthique et enjeux juridiques
Les données personnelles
Les informations sensibles
Les données interdites de collecte
Rôle de la CNIL au quotidien
Les accords intra-pays
Les responsabilités des personnes
Problématiques spécifiques au Big Data
Travaux pratiquesQuizz autour de situations concrètes où l’on demande si « telle action devant tel jeu de données » est autorisée par la loi ou non ? »

Impacts des choix technologiques (infrastructure, architecture)

Les architectures décisionnelles « traditionnelles » (datastore, datawarehouse, datamart, …)
DataLake comme support des architectures BigData ?
Philosophie des bases NoSQL : column family, orienté document, clé-valeur, graphe
Quelques acteurs (MongoDB, Cassandra…)
Les performances de Big Table en lecture/écriture
Requêter sur un gros volume de données avec le moteur Big Query
Les database machine (Exadata)
Les bases de données vectorielles (Sybase IQ)
Hadoop un système totalement autonome ?
Les offres techniques des éditeurs Cloud (Azure, GCP, AWS)
Monter sa propre infra Big Data ou s’orienter vers des solutions Cloud ?
Utiliser un DataLake « classique » ou monter une architecture Big Data ?
L’exemple de Hadoop-as-a-Service (stockage, analyse, pipeline, Spark, Machine Learning, …)
Impacts détaillés du choix d’une offre Cloud
Méthodes Agiles et DevOps dans le contexte du Big Data
Travaux pratiquesCas d’usage, Netflix migration vers AWS
Étude détaillée de l’offre d’un éditeur Cloud et de son impact en termes de d’infrastructure et d’architecture (liens avec les sources de données, les transferts de données, les services d’analyses de données, quelles performances dans les opérations de lecture/écriture ? d’analyse de données ? quelle maîtrise de la scalabilité et de la répartition des nœuds ? quels mécanismes de tolérance de panne et de reprise après sinistre ? et plus généralement quelles différences entre administrer un cluster Hadoop sur Amazon EMR par exemple par rapport à « on premise »  ?
Jour 2

Architectures distribuées et patterns

Problématiques et enjeux d’une architecture distribuée 
Des données cohérentes, disponibles et tolérantes aux pannes ?
Les architectures massivement parallèles
L’ouverture aux traitements complexes (datamining, machine learning, etc.)
Paradigmes de calculs distribués et liens avec mapreduce
Les bases NoSQL et le calcul distribué 
Compléments techniques sur les base NoSQL (clef-valeur, clef-colonne, orientée document, base graphe)
Exemples d’actions au quotidien sous MongoDB (base NoSQL)
La base distribuée de Hadoop au-dessus de HDFS (Hbase)
Les patterns d’architecture (Batch, Streaming, Lambda, Reactive
Quelques exemples en production (Google, Linkedin, Netflix, …)
Travaux pratiquesUn cahier des charges vous décrit l’organisation et les besoins d’une entreprise. 
Vous devez être force de proposition pour l’architecture Big Data préconisée.

Qualité des données (dataquality)

Liens entre infrastructure et qualité des données 
Maîtriser les formats de données (CSV, XML, JSPN, Avro, Parquet …)
Le format des messages des API et des web services
Les sources des données dans les architectures Big data
Pas de qualité pas d’analyse
Compatibilité entre qualité des données et les 5V du Big Data ?
Base à chaud, base à froid
Le Master Data Management (MDM) : phase indispensable de la réconciliation des données Big Data avec les données décisionnelles ?
Comment un ETL peut rendre « propre » les données ?
L’exemple de Talend pour le Big Data
Analyser les données en les fusionnant avec les données internes
Travaux pratiquesUtilisation d’un ETL pour formater un gros volume de données selon certains patterns (modèles)Jour 3

Mise en œuvre d’un cluster Hadoop

Vue globale de l’écosystème Hadoop (Hive, HBase, Flume, Spark, ...)
Installer Hadoop ou s’appuyer sur les offres cloud (AWS, GCP, Azure, OVH) ?
Le système de fichiers distribués (HDFS)
Prise en main des commandes HDFS
Design « type » d’un cluster Hadoop en production
Pré-requis à l’installation de Hadoop
Installation de Hadoop
Gestion des logs
Gestion des autorisations et de la sécurité
Gestion des nœuds du cluster Hadoop
Exemple de problèmes sur un cluster Hadoop (nœud invalide, lenteur, etc.)
Reprise sur échec d’un name node (MRV1)
NameNode high availability (MRV2/YARN)
Les outils de monitoring (Ambari, Cloudera Manager, etc.)
Aspect avancés (taille des blocs, tuning, …)
Les TaskTracker, JobTracker pour MapReduce
Gestion des tâches via les schedulers
Travaux pratiquesInstallation de Hadoop et des composants de base.
Import de données externes (fichiers, bases de données relationnelles) vers HDFS (Sqoop, Flume)
Manipulation des fichiers HDFS en ligne de commande
Ajout de nœuds au cluster et supervision de la charge
Utilisation du benchmark GridMix pour soumettre des jobs au cluster

Architecture et traitements (Spark)

Différences techniques et conceptuelles entre Spark et Hadoop MapReduce
Les différentes associations Hadoop/Spark
Comparaison des performances
Différences concernant la reprise après incident
Configuration d’un nœud Hadoop pour le calcul MapReduce Spark
Introduction à Hadoop Streaming pour le prototypage rapide de MapReduce Spark
Exemples de programmes MapReduce Spark pour le traitement de gros volume de données
Travaux pratiquesDéploiement d’un programme Mapreduce avec Spark afin de valider notre architecture Big Data dans sa globalité et proposer ainsi un socle technique complet et réaliste pour un projet Big Data.
Le programme est fourni et commentés globalement par le formateur, il n’est pas nécessaire d’être développeur.

Prérequis

Aucun

Ces formations pourraient vous intéresser

Objectifs de la formation

  • Concevoir une solution de gouvernance
  • Concevoir une solution de calcul
  • Concevoir une architecture d’application
  • Concevoir le stockage, non relationnel et relationnel
  • Concevoir des solutions d’intégration de données
  • Concevoir des solutions d’authentification, d’autorisation et d’identité
  • Concevoir des solutions réseau
  • Concevoir des solutions de haute disponibilité
  • Concevoir des solutions de sauvegarde et de reprise d’activité après sinistre
  • Concevoir des solutions de monitoring
  • Concevoir des solutions de migration

 

Tarif

A partir de 2 790,00 €

Durée

4j / 28h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

À l'issue de cette formation Parallel Sysplex, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Comprendre les étapes pour implémenter un Parallel Sysplex "basic" ou "full"
  • Savoir implémenter un Sysplex "basic", un Sysplex de base multi-système et la connectivité pour un Parallel Sysplex
  • Être capable d'implémenter les fonctionnalités et les fonctions de Parallel Sysplex
  • Savoir implémenter Coupling Facility (CF) et comprendre son architecture ainsi que Coupling Facility Control Code (CFCC)
Tarif

A partir de 3 985,00 €

Durée

5j / 35h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Choisir un modèle de licence approprié pour Windows Virtual Desktop
  • Mettre en place une mise en réseau pour Windows Virtual Desktop
  • Gérer les hôtes de session Windows Virtual Desktop à l'aide de Azure Bastion
  • Configurer le stockage des composants FSLogix
  • Créer et gérer des images d'hôtes de session
  • Implémenter les rôles Azure et le contrôle d'accès basé sur les rôles (RBAC) pour Windows Virtual Desktop
  • Configurer les paramètres d'expérience des utilisateurs du Windows Virtual Desktop
  • Installer et configurer des applications sur un hôte de session
  • Mettre en œuvre la continuité des activités et la reprise après sinistre
  • Contrôler et gérer les performances du Windows Virtual Desktop

 

Tarif

A partir de 2 790,00 €

Durée

4j / 28h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Créer des bases de données multidimensionnelles avec SSAS 2016
  • Gérer les cubes, les dimensions, les mesures dans SSAS
  • Maîtriser MDX, Tabular, DAX
  • Gérer le Data Mining
  • Gérer la sécurité et le déploiement de SSAS 2016
Tarif

A partir de 1 800,00 €

Durée

3 jours

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

À l'issue de cette formation Cisco Wireless Fondamentaux, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Décrire et mettre en œuvre la théorie fondamentale du sans fil
  • Décrire et mettre en œuvre la sécurité sans fil de base et l'accès client
  • Décrire et mettre en œuvre une architecture de réseau sans fil Cisco
  • Configurer les réseaux sans fil centralisés Cisco
  • Décrire et mettre en œuvre la maintenance et le dépannage du WLAN
Tarif

A partir de 3 990,00 €

Durée

5j / 35h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Savoir rappeler les concepts fondamentaux du Cloud Computing et de la virtualisation (notamment les avantages commerciaux du Cloud Computing et les risques associés)
  • Maîtriser les services des quatre fournisseurs cloud et disposer d'une analyse comparative des différentes options disponibles (serveurs, stockage et BdD)
  • Connaître les contraintes des architectures dans le Cloud
  • Être capable de concevoir des solutions intégrant des fonctions de sécurité, d'authentification et d'autorisation avec AWS, AZURE, GCP et OVH
  • Savoir identifier les procédures de migration vers le cloud et les bonnes pratiques associées
  • Mettre en œuvre des solutions des quatre fournisseurs cloud tout en optimisant les coûts
Tarif

A partir de 2 695,00 €

Durée

5j / 35h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Pendant la formation, le formateur évalue la progression pédagogique des participants via des QCM, des mises en situation et des travaux pratiques. Les participants passent un test de positionnement avant et après la formation pour valider leurs compétences acquises.
Tarif

Contacter l'organisme

Durée

3 jours (21 heures)

Modes
  • Entreprise
  • Distance
  • Centre

Objectifs de la formation

Concrètement à l'issue de cette foramtion vous serez en mesure de:

  • Décoder le vocabulaire informatique au niveau du développement logiciel
  • Classifier les technologies par famille (Langages, IDE, framework, bibliothèques, etc.)
  • Décrire le vocabulaire et les concepts d’une base de données
  • Connaître les briques de l’architecture d’une application
  • Comprendre le développement Agile et l’intégration continue
Tarif

A partir de 810,00 €

Durée

1j / 7h

Modes
  • Centre
  • Entreprise
  • Distance

AWS Architecture

Proposé par ENI Service

Objectifs de la formation

  • Employer les modèles d'architecture de solutions courantes sur AWS : applications Web, traitement par lot et hébergement d'applications informatiques interne
  • Utiliser les composants et les fonctionnalités de conception pour garantir évolutivité, élasticité et haute disponibilité
  • Concevoir des solutions intégrant des fonctions de sécurité, d'authentification et d'autorisation avec AWS
  • Identifier les procédures de migration vers le cloud
  • Concevoir des solutions en optimisant les coûts
Tarif

A partir de 2 250,00 €

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

À l'issue de cette formation Windows Server 2022 Nouveautés, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Savoir installer Windows Server 2022 ou mettre à niveau une version précédente
  • Pouvoir maîtriser les nouvelles fonctionnalités de Windows Server 2022
  • Comprendre comment exploiter efficacement les serveurs
  • Apprendre à utiliser Windows Server 2022 comme plate-forme applicative
  • Être en mesure de sécuriser une infrastructure Windows Server 2022
Tarif

A partir de 1 370,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Je cherche à faire...