Formation - Cursus Data Steward

Public admis

  • Salarié en Poste
  • Demandeur d'emploi
  • Entreprise
  • Etudiant

Financements

Eligible CPF Votre OPCO Financement personnel

Objectifs de la formation

  • Pendant la formation, le formateur évalue la progression pédagogique des participants via des QCM, des mises en situation et des travaux pratiques. Les participants passent un test de positionnement avant et après la formation pour valider leurs compétences acquises.

IB Cegos


Formations aux technologies et métiers du Numérique
Voir la fiche entreprise

Tarif

Contacter l'organisme

Durée 8 jours (56 heures)
Modes
  • Distance
  • Centre
Sessions
Lieux Partout en France

IB Cegos


Formations aux technologies et métiers du Numérique
Voir la fiche

Tarif

Contacter l'organisme

Durée 8 jours (56 heures)
Modes
  • Distance
  • Centre
Sessions
Lieux Partout en France

Programme

1 - Big Data – Les fondamentaux de l'analyse de données (3j)

  • Objectif : Disposer des connaissances et compétences nécessaires pour identifier et collecter des données et s'assurer de leur qualité et de leur alignement sur les besoins et usages métiers de l'entreprise
  • Les nouvelles frontières du Big Data (introduction) : immersion, l'approche des 4 Vs, cas d'usages du Big Data, technologies, architecture, master-less vs master-slaves, stockage, Machine Learning, Data Scientist et Big Data, compétences, la vision du Gartner, valeur ajoutée du Big Data
  • La collecte des données : typologie des sources, les données non structurées, typologie 3V des sources, les données ouvertes (Open Data), nouveau paradigme de l'ETL à l'ELT, le concept du Data Lake, les API de réseaux sociaux, ...
  • Le calcul massivement parallèle : genèse et étapes clés, Hadoop, HDFS, MapReduce, Apache PIG et Apache HIVE, comparatif des 3 approches, limitations de MapReduce, moteur d'exécution Apache TEZ, la rupture Apache SPARK, Hive in Memory (LLAP), Big Deep Learning, ...
  • Les nouvelles formes de stockage : enjeux, le "théorème" CAP, nouveaux standards : ACID => BASE, panorama des bases de données NoSQL, bases de données Clé-Valeur, bases de données Document, bases de données colonnes, bases de données Graphes, ...
  • Le Big Data Analytics (fondamentaux) : analyse de cas concrets, que peuvent apprendre les machines ?, les différentes expériences (E), l'apprentissage, choisir un algorithme d'apprentissage machine, anatomie d'un modèle d'apprentissage automatique, les librairies de machine learning standards et Deep Learning, les plates-formes de Data Science
  • Le Big Data Analytics (écosystème SPARK) : les différents modes de travail, les 3 systèmes de gestion de cluster, modes d'écriture des commandes Spark, machine learning avec Spark , travail sur les variables prédictives, la classification et la régression
  • Traitement en flux du Big Data (​streaming​ ) : architectures types de traitement de Streams Big Data, Apache NIFI, Apache KAFKA, articulation NIFI et KAFKA, Apache STORM, articulation KAFKA et STORM, comparatif STORM/SPARK
  • Déploiement d'un projet Big Data : Cloud Computing , 5 caractéristiques essentielles, 3 modèles de services, modes (SaaS , PaaS, IaaS), Cloud Privé virtuel (VPC), focus AWS, GCP et Azure
  • Hadoop écosystème et distributions : écosystème, fonctions coeurs, HDFS, MapReduce, infrastructure YARN, distributions Hadoop, focus Cloudera, Focus Hortonworks,...
  • Architecture de traitement Big Data : traitement de données par lots, traitement de données en flux, modèles d'architecture de traitement de données Big Data, l'heure du choix
  • La gouvernance des données Big Data : outils de gouvernance Big Data, les 3 piliers, le management de la qualité des données, le management des métadonnées Big Data, management de la sécurité, de la conformité et la confidentialité

2 - Les bases de l'apprentissage Machine (Machine Learning) (3j)

  • Objectif : Maîtriser le Data Mining et le Machine Learning pour explorer de très importants volumes de données et construire des modèles répondant aux problèmes très variés des professionnels
  • L'apprentissage machine : champs de compétences, focus : Data Science, Machine Learning, Big Data, Deep Learning, définition de l'apprentissage machine, les différents modes d'entraînement
  • Les fondamentaux de l'apprentissage machine : préambule, jeux de données d'entraînement, fonctions hypothèses, fonctions de coûts, algorithmes d'optimisations
  • La classification : introduction, la régression logistique, SVM, arbres de décision, K plus proches voisins (kNN), synthèse
  • Les pratiques : prétraitement, ingénierie des variables prédictives (feature engineering), réglages des hyper-paramètres et évaluation des modèles, synthèse
  • L'apprentissage d'ensembles (ensemble learning) : introduction, l'approche par vote, une variante, le bagging, les forêts aléatoires, le boosting, la variante Adaboost, gradient boosting, fiches synthèses
  • La régression : régression linéaire simple et multi-variée, relations entre les variables, valeurs aberrantes, évaluation de la performance des modèles de régression, régularisation des modèles de régression linéaire, régression polynomiale, régression avec les forêts aléatoires, synthèse
  • Le clustering : introduction, regroupement d'objets par similarité avec les k-moyens, k-means, l'inertie d'un cluster, variante k-means++, clustering flou, clustering hiérarchique, clustering par mesure de densité DBSCAN, autres approches du clustering, synthèse

3 - Big Data - Analyse, Data Visualization et introduction au Data StoryTelling pour la restitution de données (2j)

  • Objectif : Être en mesure de concevoir des modèles de documents adaptés aux besoins métiers de l'entreprise et savoir mettre en oeuvre différentes techniques de visualisation graphique, de mise en récit et de présentation permettant de valoriser les données.
  • Data Visualisation ou la découverte de la grammaire graphique : des chiffres aux graphiques, les 3 dimensions, présentation de Tableau Software, de l'idée d'un graphique à sa formalisation dans un outil
  • Data Storytelling : présentation, exemples, techniques de la mise en récit des données, Storytelling des idées et des données
  • Comment construire son histoire : Pitch, scénario, schéma narratif
  • Les outils : fonctions de Storytelling des outils de BI, le module Data Storytelling de Tableau Software, autres outils
Après la session
  • Un vidéocast "L'écosystème Hadoop"
  • Deux vidéos-tutos "Installation d'un environnement Hadoop de base" et "Développement d'un premier MapReduce"

Prérequis

Public

  • Chefs de projet
  • Développeurs
  • Analystes
  • Toute personne souhaitant évoluer vers une fonction de Data Steward

Ces formations pourraient vous intéresser

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Analyser, trier, traiter des données brutes pour les présenter sous forme de graphiques, de cartes ou d'organigrammes attrayants
  • Simplifier la lisibilité et accroître la compréhension.
Tarif

A partir de 1 240,00 €

Durée

2j / 14h

Modes
  • Centre
  • Distance

Objectifs de la formation

  • Installer et configurer R – R Studio
  • Installer et charger un package
  • Utiliser R en mode console
  • Exécuter et exploiter des scripts simples
  • Obtenir de l'aide en ligne, rechercher des commandes permettant de réaliser l'action souhaitée
  • Créer et manipuler les objets suivants : vecteurs, facteurs, data frames
  • Filtrer un tableau de données
  • Importer des données contenues dans un fichier ASCII ou dans une feuille de calcul Excel
  • Créer et modifier un graphique simple : boîte à moustaches, nuages de points…
  • Mettre en œuvre des analyses statistiques de bases sous R : Analyse descriptive des données, Intervalles de confiance, test de Student, test de Wilcoxon, test du Chi2
Tarif

A partir de 4 650,00 €

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Définir le rôle du responsable QHSE dans l'entreprise
  • Acquérir des compétences techniques
  • Utiliser les outils permettant de déployer une démarche de prévention
  • Mettre en oeuvre, gérer et animer des systèmes QHSE
  • Etablir une communication pertinente auprès des parties intéressées
Tarif

A partir de 1 390,00 €

Durée

20j / 140h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Présenter une vision globale des technologies et solutions les plus importantes, dans des domaines qui ne sont pas nécessairement les vôtres
  • Anticiper les évolutions des métiers de l'informatique
  • Suggérer les meilleurs conseils auprès de vos usagers ou clients
  • Reconnaître les domaines les plus actifs ayant un impact fort sur les SI actuels (voir en détail l'état de l'art des domaines suivants : architectures du SI, Cloud, technologies du Data Center, postes de travail, serveurs, virtualisation, stockage, évolution des OS, réseaux, sécurité, développement et architectures d'applications, ERP, e-commerce, CRM, décisionnel, administration...)
  • Analyser en instantané "ce qu'il se passe" et ce que l'on ne peut pas ignorer.
Tarif

A partir de 1 720,00 €

Durée

2j / 14h

Modes
  • Centre
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Utiliser Scikitlearn pour créer des modèles d'apprentissage machine
  • Concevoir des expériences et interpréter les résultats des tests A/B
  • Visualiser l'analyse de clustering et de régression en Python à l'aide de Matplotlib
  • Produire des recommandations automatisées de produit ou de contenu avec des techniques de filtrage collaboratif
  • Appliquer les meilleures pratiques en matière de nettoyage et de préparation de vos données avant l'analyse.
Tarif

A partir de 2 280,00 €

Durée

3j / 21h

Modes
  • Centre
  • Distance

Formation Data Management

Proposé par Sparks

Objectifs de la formation

  • Comprendre les concepts clés du Data Management
  • Identifier les données de référence et métadonnées pertinentes
  • Définir les rôles et responsabilités en Data Governance
  • Sélectionner une solution de gestion des données appropriée
  • Évaluer la qualité d'un jeu de données
  • Mettre en place une stratégie de Data Quality
  • Comprendre le contexte législatif et réglementaire autour des données
  • Appliquer les principes de sécurité et d'éthique dans la gestion des données
Tarif

A partir de 1 500,00 €

Durée

2 jours

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

Comprendre le Big Data et ses enjeux - Savoir déployer Hadoop et son écosystème - Comprendre HDFS, MapReduce - Structurer les données avec HBase - Ecrire des requêtes avec HiveQL - Installer les services d'un nœud Hadoop - Assembler plusieurs nœuds Hadoop - Déployer une nouvelle application sur un cluster existant - Effectuer une restauration de données suite à une reprise sur incident
Tarif

A partir de 3 875,00 €

Durée

5j / 35h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

Maîtriser l'installation, la configuration et la gestion des solutions de stockage de données sur Azure, incluant Cosmos DB, Data Lake Storage Gen2 et Azure Blob Storage - Développer des compétences avancées en traitement de données par lots et en temps réel en utilisant Azure Data Factory et Azure Databricks - Implémenter des mesures de sécurité robustes pour protéger les données, incluant le cryptage, le masquage des données et la configuration des points de terminaison sécurisés - Concevoir et optimiser des solutions de données pour garantir des performances élevées et une haute disponibilité, incluant la surveillance et la résolution des goulots d'étranglement - Préparer efficacement les participants aux examens de certification Microsoft Azure Data Engineer Associate en couvrant les compétences et connaissances évaluées.
Tarif

A partir de 3 750,00 €

Durée

5j / 35h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Enumérer les cas d'usage de vRealize Operations
  • Décrire les caractéristiques et avantages de vRealize Operations
  • Déterminer le cluster vRealize Operations qui répond à vos besoins de surveillance
  • Déployer et configurer un cluster vRealize Operations
  • Utiliser les fonctionnalités de l'interface pour évaluer et résoudre les problèmes opérationnels
  • Décrire les certificats vRealize Operations
  • Créer des politiques pour répondre aux besoins opérationnels de votre environnement
  • Reconnaître les moyens efficaces d'optimiser les performances, la capacité et les coûts dans les Data Centers
  • Dépanner et gérer les problèmes à l'aide de Workbench, des alertes et des tableaux de bord prédéfinis
  • Gérer les configurations
  • Configurer la surveillance des applications en utilisant VMware vRealize Application Remote Collector
  • Créer des définitions de symptômes et d'alertes, des rapports et des vues personnalisés
  • Créer divers tableaux de bord personnalisés à l'aide du canevas
  • Configurer des widgets et leurs interactions pour les tableaux de bord
  • Créer des "Super Mesures"
  • Configurer des utilisateurs et des groupes d'utilisateurs pour contrôler l'accès à votre environnement
  • Etendre les capacités de vRealize Operations en ajoutant des packs de gestion et en configurant des solutions
  • Surveiller l'état du cluster vRealize Operations à l'aide de tableaux de bord d'autosurveillance.
Tarif

Contacter l'organisme

Durée

5j / 35h

Modes
  • Centre
  • Distance

Objectifs de la formation

  • Pouvoir mettre en oeuvre une solution d'analyse Big Data
  • Comprendre les fondamentaux du Big Data et de son implémentation
  • Utiliser les outils pour la collecte, le stockage et le traitement des données
  • Savoir analyser les données et faire de la datavisualisation
Tarif

A partir de 3 750,00 €

Durée

5 jours

Modes
  • Centre
  • Entreprise
  • Distance

Je cherche à faire...