Formation Big Data : Architecture et Infrastructure

Public admis

  • Salarié en Poste
  • Demandeur d'emploi
  • Entreprise
  • Etudiant

Financements

Eligible CPF Votre OPCO Financement personnel

Objectifs de la formation

À l'issue de cette formation Big Data Architecture Infrastructure, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Comprendre l’écosystème Big Data dans sa globalité (concepts, technologies, architecture)
  • Analyser les risques et les difficultés propres à un projet Big Data
  • Comprendre l’origine et le format des données manipulées
  • Appréhender les éléments de sécurité, d'éthique et les enjeux juridiques
  • Connaître les architectures distribuées dominantes du marché
  • Se repérer dans les technologies Big Data pour concevoir une architecture performante en fonction des projets
  • Mettre en œuvre un cluster Hadoop et l’exploiter
  • Déployer une application Hadoop/Spark sur une architecture Big Data

PLB CONSULTANT


Informatique et Management
Voir la fiche entreprise

Tarif

A partir de 1 995,00 €

Durée 3 jours (21h)
Modes
  • Centre
  • Entreprise
  • Distance
Sessions
Lieux Partout en France

PLB CONSULTANT


Informatique et Management
Voir la fiche

Tarif

A partir de 1 995,00 €

Durée 3 jours (21h)
Modes
  • Centre
  • Entreprise
  • Distance
Sessions
Lieux Partout en France

Description

Cette formation Big Data Architecture Infrastructure vous présente l’architecture et l’infrastructure sous-jacente d’un projet Big Data. Elle commence par définir le cadre des projets Big Data puis explique en quoi la nature des données manipulées et leur volume impactent l’architecture, que ce soit au niveau du stockage ou du traitement. Concrètement, quels sont les changements par rapport aux standards (serveur, SGBD, système de fichiers, etc.) et qu’apportent concrètement des solutions NoSQL ou des produits comme Hadoop ?

Mais quelle que soit votre architecture, se posera le problème de la « qualité » des données. Nous vous montrons donc comment la gérer avec des ETL, le master data management, les bases multiples, etc. Vous disposerez donc d’une vue claire et opérationnelle sur la façon de disposer de données « propres » pour l’analyse des données de votre infrastructure tout en étant sensibilisé aux obligations des entreprises sur les aspects éthiques, sécurité et responsabilité.

Ensuite nous vous présentons l’éventail des technologies Big Data en termes d’infrastructure pour accueillir ces données afin de vous aider à vous repérer et faire les bons choix en fonction des projets (Cloud, On premise, Hadoop, NoSQl, etc.). Le calcul distribué étant au cœur du Big Data, vous comprenez comment mettre à la disposition des développeurs des architectures distribuées scalables et performantes (HDFS, MapReduce, etc.). Parmi les standards du marché les deux solutions sont Hadoop et Spark. Aussi, vous comprenez leur complémentarité et leur concurrence dans le cadre d’une architecture complète que vous mettez en œuvre. Concrètement, vous apprenez à installer un cluster Hadoop à plusieurs nœuds, à le paramétrer, à le sécuriser, le surveiller (monitoring), et donc, au final, à proposer une infrastructure de qualité aux développeurs et aux analystes.

La formation se termine par le déploiement d’un traitement Hadoop/Spark sur l’architecture que nous avons conçue afin de valider votre vision globale et concrète d’une architecture Big Data.

Programme

Jour 1

Définition et contexte spécifique des projets Big Data

Les origines du Big Data
Les données au cœur des enjeux :
-  Explosion du nombre de données
-  Liens entre Big Data et IoT (internet des objets)
-  Données structurées, semi-structurées, non structurées
Les limites des architectures actuelles
Définition d’un système Big Data
Principes de fonctionnement
Les différentes offres des marchés
Compétences et qualités requises pour un architecte Big Data
Organiser la récupération, le stockage et la gestion des données brutes
Les responsabilités de l’architecte
Risques et difficultés rencontrés dans les projets Big Data
Étude de casAnalyse des risques et des difficultés autour d’un projet Big Data

Propriété de la donnée, environnement juridique du traitement, sécurité

Sécurité éthique et enjeux juridiques
Les données personnelles
Les informations sensibles
Les données interdites de collecte
Rôle de la CNIL au quotidien
Les accords intra-pays
Les responsabilités des personnes
Problématiques spécifiques au Big Data
Travaux pratiquesQuizz autour de situations concrètes où l’on demande si « telle action devant tel jeu de données » est autorisée par la loi ou non ? »

Impacts des choix technologiques (infrastructure, architecture)

Les architectures décisionnelles « traditionnelles » (datastore, datawarehouse, datamart, …)
DataLake comme support des architectures BigData ?
Philosophie des bases NoSQL : column family, orienté document, clé-valeur, graphe
Quelques acteurs (MongoDB, Cassandra…)
Les performances de Big Table en lecture/écriture
Requêter sur un gros volume de données avec le moteur Big Query
Les database machine (Exadata)
Les bases de données vectorielles (Sybase IQ)
Hadoop un système totalement autonome ?
Les offres techniques des éditeurs Cloud (Azure, GCP, AWS)
Monter sa propre infra Big Data ou s’orienter vers des solutions Cloud ?
Utiliser un DataLake « classique » ou monter une architecture Big Data ?
L’exemple de Hadoop-as-a-Service (stockage, analyse, pipeline, Spark, Machine Learning, …)
Impacts détaillés du choix d’une offre Cloud
Méthodes Agiles et DevOps dans le contexte du Big Data
Travaux pratiquesCas d’usage, Netflix migration vers AWS
Étude détaillée de l’offre d’un éditeur Cloud et de son impact en termes de d’infrastructure et d’architecture (liens avec les sources de données, les transferts de données, les services d’analyses de données, quelles performances dans les opérations de lecture/écriture ? d’analyse de données ? quelle maîtrise de la scalabilité et de la répartition des nœuds ? quels mécanismes de tolérance de panne et de reprise après sinistre ? et plus généralement quelles différences entre administrer un cluster Hadoop sur Amazon EMR par exemple par rapport à « on premise »  ?
Jour 2

Architectures distribuées et patterns

Problématiques et enjeux d’une architecture distribuée 
Des données cohérentes, disponibles et tolérantes aux pannes ?
Les architectures massivement parallèles
L’ouverture aux traitements complexes (datamining, machine learning, etc.)
Paradigmes de calculs distribués et liens avec mapreduce
Les bases NoSQL et le calcul distribué 
Compléments techniques sur les base NoSQL (clef-valeur, clef-colonne, orientée document, base graphe)
Exemples d’actions au quotidien sous MongoDB (base NoSQL)
La base distribuée de Hadoop au-dessus de HDFS (Hbase)
Les patterns d’architecture (Batch, Streaming, Lambda, Reactive
Quelques exemples en production (Google, Linkedin, Netflix, …)
Travaux pratiquesUn cahier des charges vous décrit l’organisation et les besoins d’une entreprise. 
Vous devez être force de proposition pour l’architecture Big Data préconisée.

Qualité des données (dataquality)

Liens entre infrastructure et qualité des données 
Maîtriser les formats de données (CSV, XML, JSPN, Avro, Parquet …)
Le format des messages des API et des web services
Les sources des données dans les architectures Big data
Pas de qualité pas d’analyse
Compatibilité entre qualité des données et les 5V du Big Data ?
Base à chaud, base à froid
Le Master Data Management (MDM) : phase indispensable de la réconciliation des données Big Data avec les données décisionnelles ?
Comment un ETL peut rendre « propre » les données ?
L’exemple de Talend pour le Big Data
Analyser les données en les fusionnant avec les données internes
Travaux pratiquesUtilisation d’un ETL pour formater un gros volume de données selon certains patterns (modèles)Jour 3

Mise en œuvre d’un cluster Hadoop

Vue globale de l’écosystème Hadoop (Hive, HBase, Flume, Spark, ...)
Installer Hadoop ou s’appuyer sur les offres cloud (AWS, GCP, Azure, OVH) ?
Le système de fichiers distribués (HDFS)
Prise en main des commandes HDFS
Design « type » d’un cluster Hadoop en production
Pré-requis à l’installation de Hadoop
Installation de Hadoop
Gestion des logs
Gestion des autorisations et de la sécurité
Gestion des nœuds du cluster Hadoop
Exemple de problèmes sur un cluster Hadoop (nœud invalide, lenteur, etc.)
Reprise sur échec d’un name node (MRV1)
NameNode high availability (MRV2/YARN)
Les outils de monitoring (Ambari, Cloudera Manager, etc.)
Aspect avancés (taille des blocs, tuning, …)
Les TaskTracker, JobTracker pour MapReduce
Gestion des tâches via les schedulers
Travaux pratiquesInstallation de Hadoop et des composants de base.
Import de données externes (fichiers, bases de données relationnelles) vers HDFS (Sqoop, Flume)
Manipulation des fichiers HDFS en ligne de commande
Ajout de nœuds au cluster et supervision de la charge
Utilisation du benchmark GridMix pour soumettre des jobs au cluster

Architecture et traitements (Spark)

Différences techniques et conceptuelles entre Spark et Hadoop MapReduce
Les différentes associations Hadoop/Spark
Comparaison des performances
Différences concernant la reprise après incident
Configuration d’un nœud Hadoop pour le calcul MapReduce Spark
Introduction à Hadoop Streaming pour le prototypage rapide de MapReduce Spark
Exemples de programmes MapReduce Spark pour le traitement de gros volume de données
Travaux pratiquesDéploiement d’un programme Mapreduce avec Spark afin de valider notre architecture Big Data dans sa globalité et proposer ainsi un socle technique complet et réaliste pour un projet Big Data.
Le programme est fourni et commentés globalement par le formateur, il n’est pas nécessaire d’être développeur.

Prérequis

Aucun

Ces formations pourraient vous intéresser

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Développer, surveiller, tester et déployer des applications basées sur des microservices à l'aide de Quarkus et de Red Hat OpenShift
  • Concevoir une architecture basée sur des microservices pour une application d'entreprise
  • Créer et tester rapidement des microservices avec Quarkus en vue d'un déploiement sur OpenShift Container Platform
  • Mettre en oeuvre des systèmes de tolérance aux pannes et de contrôles d'intégrité pour des microservices
  • Sécuriser des microservices pour empêcher tout accès non autorisé
  • Surveiller et suivre des microservices.
Tarif

Contacter l'organisme

Durée

5j / 26h

Modes
  • Centre
  • Distance

Objectifs de la formation

À l'issue de cette formation Cisco Wireless, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Décrire et mettre en œuvre une méthodologie de conception structurée recommandée par Cisco
  • Décrire et mettre en œuvre les normes, les modifications, les certifications et les RFC de l'industrie
  • Décrire et mettre en œuvre les fonctions sans fil améliorées de Cisco
  • Décrire et mettre en œuvre le processus de conception de la technologie sans fil
  • Décrire et mettre en œuvre des conceptions verticales spécifiques
  • Décrire et mettre en œuvre les processus d'étude de site
  • Décrire et mettre en œuvre les processus de validation du réseau
Tarif

A partir de 4 090,00 €

Durée

5j / 35h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Décrire les concepts de sécurité, de conformité et d’identité
  • Décrire les fonctionnalités de Microsoft Entra
  • Décrire les fonctionnalités des solutions de sécurité Microsoft
  • Décrire les fonctionnalités des solutions de conformité Microsoft
Tarif

A partir de 750,00 €

Durée

1 jour

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Modifier les systèmes d'exploitation Windows et Linux pour renforcer leur sécurité.
Tarif

A partir de 3 550,00 €

Durée

5j / 35h

Modes
  • Centre
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Expliquer ce qu'est un Data Center, les enjeux business qui lui sont associés et identifier les problématiques actuelles auxquelles ils font face
  • Présenter une vue holistique sur les infrastructures techniques qui soutiennent le fonctionnement d'un Data Center et qui sont indispensables à sa fonction primaire
  • Posséder une compréhension générale du fonctionnement d'un Data Center.
Tarif

A partir de 2 290,00 €

Durée

3j / 21h

Modes
  • Centre
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Expliquer les fondamentaux de SAP BW/4HANA
  • Créer et maintenir des fournisseurs de données
  • Charger des données de base et des données transactionnelles dans SAP BW/4HANA
  • Combiner des flux SAP BW/4HANA avec la modélisation native SAP HANA pour mettre en oeuvre des scénarios mixtes (opérationnel temps réel et Data Warehouse).
Tarif

A partir de 4 100,00 €

Durée

5j / 35h

Modes
  • Centre
  • Distance

Objectifs de la formation

À l'issue de cette formation Veeam Backup Replication v11, vous aurez acquis les compétences et connaissances nécessaires pour :

  • Concevoir et architecturer une solution Veeam dans un environnement réel.
  • Décrire les meilleures pratiques, passer en revue une infrastructure existante et évaluer les besoins de l'entreprise/du projet.
  • Identifier les mesures pertinentes de l'infrastructure et effectuer le dimensionnement quantitatif des composants (stockage, CPU, mémoire).
  • Fournir des directives de mise en œuvre et de test en accord avec les conceptions
  • Répondre de manière innovante aux défis de conception et aux points sensibles, en faisant correspondre les fonctionnalités appropriées de Veeam Backup & Replication aux exigences.
Tarif

A partir de 1 790,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

À l'issue de cette formation Fonctionnalités de SQL Server 2016 pour Big Data, vous aurez acquis les compétences et connaissances nécessaires pour:

  • Bien comprendre le Big Data
  • Maîtriser l'architecture de Polybase dans SQL Server 2016
  • Mettre en oeuvre l'exploitation et la configuration de Polybase
  • Savoir déterminer les composants Big Data présents dans Azure Feature Pack pour Integration Services
  • Savoir quand et comment utiliser les différents composants Big Data dans SQL Server Integration Services
  • Découvrir la Data Science
  • Savoir utiliser SQL Server R Services.
Tarif

A partir de 1 750,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

À l'issue de cette formation Sécurité de l'Active Directory, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Décrire les mécanismes internes Active Directory
  • Identifier les fonctionnalités de sécurité
  • Concevoir une architecture robuste
  • Identifier les attaques et principales exploitations dans un système existant
  • Mettre en oeuvre les contre-mesures
Tarif

A partir de 2 130,00 €

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

À l'issue de cette formation 5G Cybersécurité, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Comprendre les notions de base et les techniques essentiels de la cybersécurité
  • Identifier les menaces de sécurité en informatique et en télécoms
  • Adopter les bonnes pratiques pour protéger les réseaux mobiles
  • Conjuguer la technologie 5G avec l’intelligence artificielle et le Big Data
  • Connaitre les différentes mesures de sécurité et standards pour avoir une infrastructure et un système d’information sécurisé
Tarif

A partir de 1 240,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Je cherche à faire...