Formation Big Data : Architecture et Infrastructure

Public admis

Salarié en Poste
Demandeur d'emploi
Entreprise
Etudiant

Financements

Eligible CPF Votre OPCO Financement personnel

Objectifs de la formation

À l'issue de cette formation Big Data Architecture Infrastructure, vous aurez acquis les connaissances et compétences nécessaires pour :

Comprendre l’écosystème Big Data dans sa globalité (concepts, technologies, architecture)
Analyser les risques et les difficultés propres à un projet Big Data
Comprendre l’origine et le format des données manipulées
Appréhender les éléments de sécurité, d'éthique et les enjeux juridiques
Connaître les architectures distribuées dominantes du marché
Se repérer dans les technologies Big Data pour concevoir une architecture performante en fonction des projets
Mettre en œuvre un cluster Hadoop et l’exploiter
Déployer une application Hadoop/Spark sur une architecture Big Data

PLB CONSULTANT

Informatique et Management
Voir la fiche entreprise

Tarif	A partir de 1 995,00 €
Durée	3 jours (21h)
Modes	Centre Entreprise Distance
Sessions
Lieux	Partout en France

PLB CONSULTANT

Informatique et Management
Voir la fiche

Tarif	A partir de 1 995,00 €
Durée	3 jours (21h)
Modes	Centre Entreprise Distance
Sessions
Lieux	Partout en France

Programme
Prérequis & Public

Description

Cette formation Big Data Architecture Infrastructure vous présente l’architecture et l’infrastructure sous-jacente d’un projet Big Data. Elle commence par définir le cadre des projets Big Data puis explique en quoi la nature des données manipulées et leur volume impactent l’architecture, que ce soit au niveau du stockage ou du traitement. Concrètement, quels sont les changements par rapport aux standards (serveur, SGBD, système de fichiers, etc.) et qu’apportent concrètement des solutions NoSQL ou des produits comme Hadoop ?

Mais quelle que soit votre architecture, se posera le problème de la « qualité » des données. Nous vous montrons donc comment la gérer avec des ETL, le master data management, les bases multiples, etc. Vous disposerez donc d’une vue claire et opérationnelle sur la façon de disposer de données « propres » pour l’analyse des données de votre infrastructure tout en étant sensibilisé aux obligations des entreprises sur les aspects éthiques, sécurité et responsabilité.

Ensuite nous vous présentons l’éventail des technologies Big Data en termes d’infrastructure pour accueillir ces données afin de vous aider à vous repérer et faire les bons choix en fonction des projets (Cloud, On premise, Hadoop, NoSQl, etc.). Le calcul distribué étant au cœur du Big Data, vous comprenez comment mettre à la disposition des développeurs des architectures distribuées scalables et performantes (HDFS, MapReduce, etc.). Parmi les standards du marché les deux solutions sont Hadoop et Spark. Aussi, vous comprenez leur complémentarité et leur concurrence dans le cadre d’une architecture complète que vous mettez en œuvre. Concrètement, vous apprenez à installer un cluster Hadoop à plusieurs nœuds, à le paramétrer, à le sécuriser, le surveiller (monitoring), et donc, au final, à proposer une infrastructure de qualité aux développeurs et aux analystes.

La formation se termine par le déploiement d’un traitement Hadoop/Spark sur l’architecture que nous avons conçue afin de valider votre vision globale et concrète d’une architecture Big Data.

Programme

Jour 1

Définition et contexte spécifique des projets Big Data

Les origines du Big Data
Les données au cœur des enjeux :
- Explosion du nombre de données
- Liens entre Big Data et IoT (internet des objets)
- Données structurées, semi-structurées, non structurées
Les limites des architectures actuelles
Définition d’un système Big Data
Principes de fonctionnement
Les différentes offres des marchés
Compétences et qualités requises pour un architecte Big Data
Organiser la récupération, le stockage et la gestion des données brutes
Les responsabilités de l’architecte
Risques et difficultés rencontrés dans les projets Big DataÉtude de casAnalyse des risques et des difficultés autour d’un projet Big Data

Propriété de la donnée, environnement juridique du traitement, sécurité

Sécurité éthique et enjeux juridiques
Les données personnelles
Les informations sensibles
Les données interdites de collecte
Rôle de la CNIL au quotidien
Les accords intra-pays
Les responsabilités des personnes
Problématiques spécifiques au Big DataTravaux pratiquesQuizz autour de situations concrètes où l’on demande si « telle action devant tel jeu de données » est autorisée par la loi ou non ? »

Impacts des choix technologiques (infrastructure, architecture)

Les architectures décisionnelles « traditionnelles » (datastore, datawarehouse, datamart, …)
DataLake comme support des architectures BigData ?
Philosophie des bases NoSQL : column family, orienté document, clé-valeur, graphe
Quelques acteurs (MongoDB, Cassandra…)
Les performances de Big Table en lecture/écriture
Requêter sur un gros volume de données avec le moteur Big Query
Les database machine (Exadata)
Les bases de données vectorielles (Sybase IQ)
Hadoop un système totalement autonome ?
Les offres techniques des éditeurs Cloud (Azure, GCP, AWS)
Monter sa propre infra Big Data ou s’orienter vers des solutions Cloud ?
Utiliser un DataLake « classique » ou monter une architecture Big Data ?
L’exemple de Hadoop-as-a-Service (stockage, analyse, pipeline, Spark, Machine Learning, …)
Impacts détaillés du choix d’une offre Cloud
Méthodes Agiles et DevOps dans le contexte du Big DataTravaux pratiquesCas d’usage, Netflix migration vers AWS
Étude détaillée de l’offre d’un éditeur Cloud et de son impact en termes de d’infrastructure et d’architecture (liens avec les sources de données, les transferts de données, les services d’analyses de données, quelles performances dans les opérations de lecture/écriture ? d’analyse de données ? quelle maîtrise de la scalabilité et de la répartition des nœuds ? quels mécanismes de tolérance de panne et de reprise après sinistre ? et plus généralement quelles différences entre administrer un cluster Hadoop sur Amazon EMR par exemple par rapport à « on premise » ?Jour 2

Architectures distribuées et patterns

Problématiques et enjeux d’une architecture distribuée
Des données cohérentes, disponibles et tolérantes aux pannes ?
Les architectures massivement parallèles
L’ouverture aux traitements complexes (datamining, machine learning, etc.)
Paradigmes de calculs distribués et liens avec mapreduce
Les bases NoSQL et le calcul distribué
Compléments techniques sur les base NoSQL (clef-valeur, clef-colonne, orientée document, base graphe)
Exemples d’actions au quotidien sous MongoDB (base NoSQL)
La base distribuée de Hadoop au-dessus de HDFS (Hbase)
Les patterns d’architecture (Batch, Streaming, Lambda, Reactive
Quelques exemples en production (Google, Linkedin, Netflix, …)Travaux pratiquesUn cahier des charges vous décrit l’organisation et les besoins d’une entreprise.
Vous devez être force de proposition pour l’architecture Big Data préconisée.

Qualité des données (dataquality)

Liens entre infrastructure et qualité des données
Maîtriser les formats de données (CSV, XML, JSPN, Avro, Parquet …)
Le format des messages des API et des web services
Les sources des données dans les architectures Big data
Pas de qualité pas d’analyse
Compatibilité entre qualité des données et les 5V du Big Data ?
Base à chaud, base à froid
Le Master Data Management (MDM) : phase indispensable de la réconciliation des données Big Data avec les données décisionnelles ?
Comment un ETL peut rendre « propre » les données ?
L’exemple de Talend pour le Big Data
Analyser les données en les fusionnant avec les données internesTravaux pratiquesUtilisation d’un ETL pour formater un gros volume de données selon certains patterns (modèles)Jour 3

Mise en œuvre d’un cluster Hadoop

Vue globale de l’écosystème Hadoop (Hive, HBase, Flume, Spark, ...)
Installer Hadoop ou s’appuyer sur les offres cloud (AWS, GCP, Azure, OVH) ?
Le système de fichiers distribués (HDFS)
Prise en main des commandes HDFS
Design « type » d’un cluster Hadoop en production
Pré-requis à l’installation de Hadoop
Installation de Hadoop
Gestion des logs
Gestion des autorisations et de la sécurité
Gestion des nœuds du cluster Hadoop
Exemple de problèmes sur un cluster Hadoop (nœud invalide, lenteur, etc.)
Reprise sur échec d’un name node (MRV1)
NameNode high availability (MRV2/YARN)
Les outils de monitoring (Ambari, Cloudera Manager, etc.)
Aspect avancés (taille des blocs, tuning, …)
Les TaskTracker, JobTracker pour MapReduce
Gestion des tâches via les schedulersTravaux pratiquesInstallation de Hadoop et des composants de base.
Import de données externes (fichiers, bases de données relationnelles) vers HDFS (Sqoop, Flume)
Manipulation des fichiers HDFS en ligne de commande
Ajout de nœuds au cluster et supervision de la charge
Utilisation du benchmark GridMix pour soumettre des jobs au cluster

Architecture et traitements (Spark)

Différences techniques et conceptuelles entre Spark et Hadoop MapReduce
Les différentes associations Hadoop/Spark
Comparaison des performances
Différences concernant la reprise après incident
Configuration d’un nœud Hadoop pour le calcul MapReduce Spark
Introduction à Hadoop Streaming pour le prototypage rapide de MapReduce Spark
Exemples de programmes MapReduce Spark pour le traitement de gros volume de donnéesTravaux pratiquesDéploiement d’un programme Mapreduce avec Spark afin de valider notre architecture Big Data dans sa globalité et proposer ainsi un socle technique complet et réaliste pour un projet Big Data.
Le programme est fourni et commentés globalement par le formateur, il n’est pas nécessaire d’être développeur.

Prérequis

Aucun

Ces formations pourraient vous intéresser

Développement de microservices Cloud native Red Hat avec Quarkus

Proposé par M2I

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

Développer, surveiller, tester et déployer des applications basées sur des microservices à l'aide de Quarkus et de Red Hat OpenShift
Concevoir une architecture basée sur des microservices pour une application d'entreprise
Créer et tester rapidement des microservices avec Quarkus en vue d'un déploiement sur OpenShift Container Platform
Mettre en oeuvre des systèmes de tolérance aux pannes et de contrôles d'intégrité pour des microservices
Sécuriser des microservices pour empêcher tout accès non autorisé
Surveiller et suivre des microservices.

Tarif	Contacter l'organisme
Durée	5j / 26h
Modes	Centre Distance

Formation Concevoir des réseaux d'entreprise Cisco Wireless

Proposé par PLB CONSULTANT

Objectifs de la formation

À l'issue de cette formation Cisco Wireless, vous aurez acquis les connaissances et compétences nécessaires pour :

Décrire et mettre en œuvre une méthodologie de conception structurée recommandée par Cisco
Décrire et mettre en œuvre les normes, les modifications, les certifications et les RFC de l'industrie
Décrire et mettre en œuvre les fonctions sans fil améliorées de Cisco
Décrire et mettre en œuvre le processus de conception de la technologie sans fil
Décrire et mettre en œuvre des conceptions verticales spécifiques
Décrire et mettre en œuvre les processus d'étude de site
Décrire et mettre en œuvre les processus de validation du réseau

Tarif	A partir de 4 090,00 €
Durée	5j / 35h
Modes	Centre Entreprise Distance

Formation Fondamentaux de la sécurité, de la conformité et des identités Microsoft (SC-900)

Proposé par Sparks

Objectifs de la formation

Décrire les concepts de sécurité, de conformité et d’identité
Décrire les fonctionnalités de Microsoft Entra
Décrire les fonctionnalités des solutions de sécurité Microsoft
Décrire les fonctionnalités des solutions de conformité Microsoft

Tarif	A partir de 750,00 €
Durée	1 jour
Modes	Centre Entreprise Distance

Durcissement des systèmes et réseaux - Hardening

Proposé par M2I

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

Modifier les systèmes d'exploitation Windows et Linux pour renforcer leur sécurité.

Tarif	A partir de 3 550,00 €
Durée	5j / 35h
Modes	Centre Distance

Data Center - Infrastructure

Proposé par M2I

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

Expliquer ce qu'est un Data Center, les enjeux business qui lui sont associés et identifier les problématiques actuelles auxquelles ils font face
Présenter une vue holistique sur les infrastructures techniques qui soutiennent le fonctionnement d'un Data Center et qui sont indispensables à sa fonction primaire
Posséder une compréhension générale du fonctionnement d'un Data Center.

Tarif	A partir de 2 290,00 €
Durée	3j / 21h
Modes	Centre Distance

SAP BW/4HANA - Data Warehousing

Proposé par M2I

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

Expliquer les fondamentaux de SAP BW/4HANA
Créer et maintenir des fournisseurs de données
Charger des données de base et des données transactionnelles dans SAP BW/4HANA
Combiner des flux SAP BW/4HANA avec la modélisation native SAP HANA pour mettre en oeuvre des scénarios mixtes (opérationnel temps réel et Data Warehouse).

Tarif	A partir de 4 100,00 €
Durée	5j / 35h
Modes	Centre Distance

Formation Veeam Backup and Replication v11: Architecture and Design

Proposé par PLB CONSULTANT

Objectifs de la formation

À l'issue de cette formation Veeam Backup Replication v11, vous aurez acquis les compétences et connaissances nécessaires pour :

Concevoir et architecturer une solution Veeam dans un environnement réel.
Décrire les meilleures pratiques, passer en revue une infrastructure existante et évaluer les besoins de l'entreprise/du projet.
Identifier les mesures pertinentes de l'infrastructure et effectuer le dimensionnement quantitatif des composants (stockage, CPU, mémoire).
Fournir des directives de mise en œuvre et de test en accord avec les conceptions
Répondre de manière innovante aux défis de conception et aux points sensibles, en faisant correspondre les fonctionnalités appropriées de Veeam Backup & Replication aux exigences.

Tarif	A partir de 1 790,00 €
Durée	2j / 14h
Modes	Centre Entreprise Distance

Formation Fonctionnalités de SQL Server 2016 pour le Big Data

Proposé par PLB CONSULTANT

Objectifs de la formation

À l'issue de cette formation Fonctionnalités de SQL Server 2016 pour Big Data, vous aurez acquis les compétences et connaissances nécessaires pour:

Bien comprendre le Big Data
Maîtriser l'architecture de Polybase dans SQL Server 2016
Mettre en oeuvre l'exploitation et la configuration de Polybase
Savoir déterminer les composants Big Data présents dans Azure Feature Pack pour Integration Services
Savoir quand et comment utiliser les différents composants Big Data dans SQL Server Integration Services
Découvrir la Data Science
Savoir utiliser SQL Server R Services.

Tarif	A partir de 1 750,00 €
Durée	2j / 14h
Modes	Centre Entreprise Distance

Formation Sécurité de l'Active Directory

Proposé par PLB CONSULTANT

Objectifs de la formation

À l'issue de cette formation Sécurité de l'Active Directory, vous aurez acquis les connaissances et compétences nécessaires pour :

Décrire les mécanismes internes Active Directory
Identifier les fonctionnalités de sécurité
Concevoir une architecture robuste
Identifier les attaques et principales exploitations dans un système existant
Mettre en oeuvre les contre-mesures

Tarif	A partir de 2 130,00 €
Durée	3j / 21h
Modes	Centre Entreprise Distance

Formation 5G : Cybersécurité et système d'information sécurisé

Proposé par PLB CONSULTANT

Objectifs de la formation

À l'issue de cette formation 5G Cybersécurité, vous aurez acquis les connaissances et compétences nécessaires pour :

Comprendre les notions de base et les techniques essentiels de la cybersécurité
Identifier les menaces de sécurité en informatique et en télécoms
Adopter les bonnes pratiques pour protéger les réseaux mobiles
Conjuguer la technologie 5G avec l’intelligence artificielle et le Big Data
Connaitre les différentes mesures de sécurité et standards pour avoir une infrastructure et un système d’information sécurisé

Tarif	A partir de 1 240,00 €
Durée	2j / 14h
Modes	Centre Entreprise Distance

Calendrier des prochaines sessions

Formation Big Data : Architecture et Infrastructure

Rechercher une ville...

	Lieu	Date de Session
Contactez l'organisme de formation pour connaître les prochaines dates disponibles

Gestion des cookies

Formation Big Data : Architecture et Infrastructure

Public admis

Financements

Objectifs de la formation

PLB CONSULTANT

PLB CONSULTANT

Programme

Prérequis & Public

Description

Programme

Définition et contexte spécifique des projets Big Data

Propriété de la donnée, environnement juridique du traitement, sécurité

Impacts des choix technologiques (infrastructure, architecture)

Architectures distribuées et patterns

Qualité des données (dataquality)

Mise en œuvre d’un cluster Hadoop

Architecture et traitements (Spark)

Prérequis

Ces formations pourraient vous intéresser

Objectifs de la formation

Objectifs de la formation

Objectifs de la formation

Objectifs de la formation

Objectifs de la formation

Objectifs de la formation

Objectifs de la formation

Objectifs de la formation

Objectifs de la formation

Objectifs de la formation

Je souhaite obtenir des informations

Calendrier des prochaines sessions

Je cherche à faire...

Formations, Diplômes et Certifications

Bilan de compétence et VAE

Métiers