Formation - Big Data - Les fondamentaux de l'analyse de données

Public admis

  • Salarié en Poste
  • Demandeur d'emploi
  • Entreprise
  • Etudiant

Financements

Eligible CPF Votre OPCO Financement personnel

Objectifs de la formation

  • Pendant la formation, le formateur évalue la progression pédagogique des participants via des QCM, des mises en situation et des travaux pratiques. Les participants passent un test de positionnement avant et après la formation pour valider leurs compétences acquises.

IB Cegos


Formations aux technologies et métiers du Numérique
Voir la fiche entreprise

Tarif

Contacter l'organisme

Durée 3 jours (21 heures)
Modes
  • Centre
  • Entreprise
  • Distance
Sessions
Lieux Partout en France

IB Cegos


Formations aux technologies et métiers du Numérique
Voir la fiche

Tarif

Contacter l'organisme

Durée 3 jours (21 heures)
Modes
  • Centre
  • Entreprise
  • Distance
Sessions
Lieux Partout en France

Programme

Avant la session
  • Un quiz de consolidation des pré-requis
En présentiel / A distance

1 - Les nouvelles frontières du Big Data (Introduction)

  • Immersion
  • L'approche des 4 Vs
  • Cas d'usages du Big Data
  • Technologies
  • Architecture
  • Master-less vs Master-Slaves
  • Stockage
  • Machine Learning
  • Data Scientist et Big Data
  • Compétences
  • La vision du Gartner
  • Valeur ajoutée du Big Data en entreprise

2 - La collecte des données Big Data

  • Typologie des sources
  • Les données non structurées
  • Typologie 3V des sources
  • Les données ouvertes (Open Data)
  • Caractéristiques intrinsèques des sources
  • Nouveau paradigme de l'ETL à l'ELT
  • Du "schema On Write" au "Schema on Read"
  • Le concept du Data Lake
  • La vision d'Hortonworks
  • Les collecteurs Apache on Hadoop
  • SQOOP versus NIFI
  • Apache SQOOP - Présentation
  • Apache NIFI - Présentation
  • Les API de réseaux sociaux
  • Lab : Ingestion de données dans un cluster avec Apache NIFI

3 - Le calcul massivement parallèle

  • Genèse et étapes clés
  • Hadoop : Fonctions coeurs
  • HDFS - Différenciation
  • HDFS - Un système distribué
  • HDFS - Gestion des blocs et réplication
  • Exemples de commandes de base HDFS
  • MapReduce : aspects fonctionnels et techniques
  • Apache PIG et Apache HIVE
  • Comparatif des 3 approches
  • Les limitations de MapReduce
  • L'émergence de systèmes spécialisés
  • Le moteur d'exécution Apache TEZ
  • La rupture Apache SPARK
  • SPARK point clés principaux
  • SPARK vs Hadoop Performance
  • L'écosystème SPARK
  • IMPALA - Moteur d'exécution scalable natif SQL
  • Le moteur d'exécution Apache TEZ
  • Hive in Memory : LLAP
  • Big Deep Learning
  • La rupture Hardware à venir
  • Labs : Exemples de manipulations HDFS + HIVE et Benchmark moteurs d'exécutions HIVE

4 - Les nouvelles formes de stockage

  • Enjeux
  • Le "théorème" CAP
  • Nouveaux standards : ACID => BASE
  • Les bases de données NoSQL
  • Panorama des solutions
  • Positionnement CAP des éditeurs NoSQL
  • Les bases de données Clé-Valeur
  • Focus Redis
  • Les Bases de données Document
  • Focus mongoDB
  • Les bases de données colonnes
  • Focus Cassandra et HBase
  • Les bases de données Graphes
  • Tendances 1 : Le NewSQL
  • Tendances 2 : OLAP distribué
  • Lab : Exemple d'utilisation d'une base NoSQL (HBASE)

5 - Le Big Data Analytics (Partie I - Fondamentaux)

  • Analyse de cas concrets
  • Définition de l'apprentissage machine
  • Exemples de tâches (T) du machine learning
  • Que peuvent apprendre les machines ?
  • Les différentes expériences (E)
  • L'apprentissage
  • Approche fonctionnelle de base
  • Les variables prédictives
  • Les variables à prédire
  • Les fonctions hypothèses
  • Pléthore d'algorithmes
  • Choisir un algorithme d'apprentissage machine
  • Sous et sur-apprentissage
  • La descente de gradient
  • Optimisation batch et stochastique
  • Anatomie d'un modèle d'apprentissage automatique
  • La chaîne de traitement standard
  • Composantes clés et Big Data
  • Trois familles d'outils machine Learning
  • Les librairies de machine Learning standards et Deep Learning
  • Les librairies Scalables Big Data
  • Les plates-formes de Data Science
  • Lab : Exemples de traitement Machine Learning avec Notebook

6 - Le Big Data Analytics (Partie II - L'écosystème SPARK )

  • Les différents modes de travail avec Spark
  • Les trois systèmes de gestion de cluster
  • Modes d'écriture des commandes Spark
  • Les quatre API Langage de Spark
  • Le machine Learning avec Spark
  • Spark SQL - Le moteur d'exécution SQL
  • La création d'une session Spark
  • Spark Dataframes
  • Spark ML
  • L'API pipeline
  • Travail sur les variables prédictives
  • La classification et la régression
  • Clustering et filtrage coopératif
  • Lab : Exemple d'un traitement machine learning avec Spark

7 - Traitement en flux du Big Data (​streaming​ )

  • Architectures types de traitement de Streams Big Data
  • Apache NIFI - Description, composants et interface
  • Apache KAFKA - Description, terminologies, les APIs
  • Articulation NIFI et KAFKA (NIFI ON KAFKA)
  • Apache STORM - Description, terminologies, langage (agnostique)
  • Articulation KAFKA et STORM (KAFKA ON STORM)
  • Apache SPARK Streaming et Structured Streaming
  • Articulation KAFKA et SPARK
  • Comparatif STORM / SPARK
  • Deux cas concrets
  • Lab : Réalisation d'un traitement Big Data en Streaming (Big Data streaming analytics)

8 - Déploiement d'un projet Big Data

  • Qu'est ce que le Cloud Computing
  • Cinq caractéristiques essentielles
  • Trois modèles de services
  • Services Cloud et utilisateurs
  • Mode SaaS
  • Mode PaaS
  • Mode IaaS
  • Modèles de déploiement
  • Tendances déploiement
  • Cloud Privé Virtuel (VPC)
  • Focus offre de Cloud Public
  • Caractéristiques communes des différentes offres de Cloud Public
  • Focus Amazon AWS
  • Focus Google Cloud Platform
  • Focus Microsoft Azure
  • Classement indicatif des acteurs
  • Points de vigilance
  • Lab : Visite d'une plate-forme de Cloud

9 - Hadoop écosystème et distributions

  • L'écosystème Hadoop
  • Apache Hadoop - Fonctions coeurs
  • HDFS - Système de gestion de fichiers distribué (rappel)
  • Map Reduce : système de traitement distribué (rappel)
  • L'infrastructure YARN
  • YARN - Gestion d'une application
  • Docker on YARN
  • Les projets Apache principaux et associés
  • Les architectures types Hadoop
  • Les distributions Hadoop
  • Qu'est ce qu'une distribution Hadoop
  • Les acteurs aujourd'hui
  • Focus Cloudera
  • Cloudera Distribution including Apache Hadoop (CDH)
  • Focus Hortonworks
  • Hortonworks Platforms HDP et HDF
  • Nouvelle plate-forme Cloudera
  • Vision Cloudera
  • Cloudera Data Platform
  • Cloudera Data Flow
  • Lab : Visite d'une distribution Hortonworks dans le Cloud

10 - Architectures de traitement Big Data

  • A - Traitement de données par lots (BATCH) : - le batch en Big Data - schéma de fonctionnement - usages types du batch processing - l'orchestrateur Apache OOZIE - les workflows OOZIE - les coordinateurs OOZIE (Coordinators) - limitations de OOZIE => FALCON - points de vigilance
  • B - Traitement de données en flux (Streaming) : - principes - fonctionnement - rappel : modèles types de traitement de Flux Big Data - points de vigilance
  • C - Modèles d'architecture de traitements de données Big Data : - objectifs - les composantes d'une architecture Big Data - deux modèles génériques : λ et Κ - architecture Lambda - les 3 couches de l'architecture Lambda - architecture Lambda : schéma de fonctionnement - solutions logicielles Lambda - exemple d'architecture logicielle Lambda - architecture Lambda : les + et les - - architecture Kappa - architecture Kappa : schéma de fonctionnement - solutions logicielles Kappa - architecture Kappa : les + et les -
  • L'heure du choix
  • Lab : Analyse architecturale de deux cas de figure

11 - La gouvernance des données Big Data

  • Challenges Big Data pour la gouvernance des données
  • L'écosystème des outils de gouvernance Big Data
  • Les 3 piliers de la gouvernance Big Data
  • Mise en perspective dans une architecture Big Data
  • Management de la qualité des données Big Data
  • Tests de validation de données dans Hadoop
  • Les acteurs face à la qualité des données Big Data
  • Management des métadonnées Big Data
  • Focus Apache HCatalog
  • Focus Apache ATLAS
  • Management de la sécurité, de la conformité et la confidentialité Big Data
  • Focus Apache RANGER
  • Tendances sécurisation des SI
  • Points de vigilance
  • Lab : Réflexion collective ou individuelle sur des opportunités de projets Big Data dans l'organisation et définition des objectifs et des premiers jalons
Après la session
  • Un quiz pédagogique pour évaluer vos acquis et approfondir les sujets de votre choix
  • Des vidéocasts pour revenir sur les points clés de la formation
  • Des vidéos-tutos pour vous accompagner dans la mise en oeuvre de vos acquis

Prérequis

Public

  • MOA, chef de projet, urbaniste fonctionnel, responsable de domaine, analystes, développeurs, data miners ...
  • Futurs data scientists, data analysts et data stewards

Ces formations pourraient vous intéresser

Objectifs de la formation

  • Identifier les enjeux de l'étude de marché
  • Gérer le recueil et l'analyse des besoins
  • Mettre en oeuvre et exploiter une étude fiable
  • Adapter sur la méthodologie globale d'étude
Tarif

A partir de 1 390,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Intégrer les objectifs et les indicateurs de mesure dès la conception du plan marketing/communication.
  • Acquérir une méthodologie et des outils.
  • Concevoir des tableaux de bord opérationnels avec des indicateurs de performance (KPI) adaptés à ses actions.
  • Exploiter efficacement les résultats et communiquer.
Tarif

A partir de 1 565,00 €

Durée

2 jours (14 heures)

Modes
  • Entreprise
  • Distance
  • Centre

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Passer la certification Lean Six Sigma Green Belt (IASSC) et devenir certifié Green Belt Lean Six Sigma
  • Analyser les données recueillies, en extraire les variables pertinentes et manipuler les tests d'hypothèse et autres outils statistiques de façon opérationnelle
  • Chercher et concevoir les plans d'expérience simples permettant de collecter les données
  • Expliquer la modélisation de processus et détecter les corrélations entre variables
  • Diagnostiquer un problème d'amélioration.
Tarif

A partir de 2 990,00 €

Durée

5j / 35h

Modes
  • Centre
  • Distance

Formation SQL : les fondamentaux

Proposé par PLB CONSULTANT

Objectifs de la formation

A l'issue de cette formation SQL, vous aurez acquis les connaissances et compétences nécessaires pour : 

  • Comprendre le modèle d’algèbre relationnelle sur lequel repose le SQL
  • Appréhender l'écriture des requêtes SQL (conception et compréhension des requêtes SQL)
  • Décrire les principales fonctions d’un SGBDR
  • Être à l’aise dans son environnement de développement SQL (IDE)
  • Extraire des données avec le SQL (select)
  • Mettre à jour les données avec le SQL (insert, update, delete)
  • Extraire les données de plusieurs tables (jointure)
  • Connaître les principales fonctions du langage SQL
  • Comprendre la place du SQL dans les applications et les outils
Tarif

A partir de 1 790,00 €

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Utiliser les outils de manipulation, de traitement et de représentation graphique des données spatiales dans R
  • Importer, manipuler et traiter des données géographiques au format vectoriel
  • Effectuer des opérations géomatiques telles que les jointures spatiales, les zones tampons et le calcul d’indices topographiques
  • Produire des cartes statiques et interactives, légendées et annotées
Tarif

A partir de 2 250,00 €

Durée

3 jours

Modes
  • Centre
  • Entreprise
  • Distance

Formation - MySQL - Tuning

Proposé par IB Cegos

Objectifs de la formation

  • Cette formation fait l'objet d'une évaluation formative.
Tarif

Contacter l'organisme

Durée

4 jours (28 heures)

Modes
  • Entreprise
  • Distance
  • Centre

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Expliquer ce qu'est DevOps et planifier un parcours de transformation DevOps
  • Expliquer les concepts de la stratégie de livraison continue et les considérations en matière de stratégie de mise en production pour configurer les phases de déploiement, la cadence de livraison et de déploiement ainsi que vos approbations de mise en production
  • Présenter le concept d'intégration continue (CI) avec Azure Pipelines et GitHub Actions et fournir des instructions pour configurer ces services et créer des applications
  • Définir le concept de commentaires continus et expliquer comment l'implémenter dans votre cycle DevOps
  • Découvrir une stratégie d'infrastructure et de configuration ainsi qu'un ensemble d'outils appropriés pour un pipeline de mise en production et une infrastructure d'application
  • Déterminer les portes de mise en production automatisées, les secrets et la gestion des secrets dans votre pipeline
  • Implémenter des mécanismes d'alerte, créer des rapports sur la qualité et recevoir des notifications en utilisant des crochets de service
  • Découvrir le concept d'infrastructure en tant que code (IaC) et gérer votre environnement d'opérations de la même façon que vos applications ou tout autre code en vue d'une version générale
  • Examiner la gestion des dépendances dans le développement de logiciels
  • Identifier les dépendances dans votre codebase et comment les empaqueter et les gérer dans des flux de packages.
Tarif

A partir de 2 840,00 €

Durée

4j / 28h

Modes
  • Centre
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Analyser et corriger des problèmes de conformité du système à l'aide d'OpenSCAP et de SCAP Workbench
  • Utiliser et adapter le contenu de politiques de référence fourni avec Red Hat Enterprise Linux
  • Gérer les activités en lien avec la sécurité sur vos systèmes à l'aide de l'infrastructure d'audit du noyau
  • Mettre en oeuvre des techniques SELinux avancées pour restreindre l'accès au niveau des utilisateurs, des processus et des machines virtuelles
  • Déterminer l'intégrité des fichiers et leurs permissions avec l'utilitaire AIDE
  • Bloquer l'utilisation de périphériques USB non autorisés à l'aide d'USBGuard
  • Protéger des données au repos avec déchiffrement automatique sécurisé dès le démarrage avec NBDE
  • Identifier des risques et des erreurs de configuration de façon proactive sur les systèmes et correction à l'aide de Red Hat Insights
  • Analyser l'état de conformité et corriger à grande échelle à l'aide d'OpenSCAP, de Red Hat Insights, de Red Hat Satellite et de Red Hat Ansible Tower.
Tarif

Contacter l'organisme

Durée

5j / 26h

Modes
  • Centre
  • Distance

Objectifs de la formation

  • Appréhender la terminologie utilisée sur les projets de reprise et continuité d’activité
  • Expliquer comment définir les besoins de continuité de l’entreprise, anticiper et préparer les scénarios de risques majeurs
  • Expliquer les étapes essentielles à la mise en œuvre d'un PCA / PRA
  • Mettre en oeuvre les concepts et solutions techniques permettant de répondre aux exigences de reprise des activités
Tarif

Contacter l'organisme

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

Plus concrètement, cette formation Préparation à la certification PgMP du PMI vous aurez acquis les connaissances et les compétences nécessaires pour : 

  • Réussir la certification PMI-PgMP : Program Management Professional
  • Étudier les 5 groupes de processus des programmes du Standard for Program Management du PMI
  • Acquérir des connaissances et compétences en management de programme
  • Acquérir de nouveaux concepts, méthodes, outils ainsi que les données d’entrée et de sortie de chacun des processus
  • Préparer, Réviser et Acquérir les trucs et astuces de l'examen PMI-PgMP
Tarif

A partir de 3 990,00 €

Durée

5j / 35h

Modes
  • Centre
  • Entreprise
  • Distance

Je cherche à faire...