Formation - Cursus Data Scientist

Public admis

  • Salarié en Poste
  • Demandeur d'emploi
  • Entreprise
  • Etudiant

Financements

Eligible CPF Votre OPCO Financement personnel

Objectifs de la formation

  • Pendant la formation, le formateur évalue la progression pédagogique des participants via des QCM, des mises en situation et des travaux pratiques. Les participants passent un test de positionnement avant et après la formation pour valider leurs compétences acquises.

IB Cegos


Formations aux technologies et métiers du Numérique
Voir la fiche entreprise

Tarif

Contacter l'organisme

Durée 18 jours (126 heures)
Modes
  • Distance
  • Centre
Sessions
Lieux Partout en France

IB Cegos


Formations aux technologies et métiers du Numérique
Voir la fiche

Tarif

Contacter l'organisme

Durée 18 jours (126 heures)
Modes
  • Distance
  • Centre
Sessions
Lieux Partout en France

Programme

Avant la session
  • Un quiz de consolidation des pré-requis
En présentiel / A distance

1 - Big Data – Les fondamentaux de l'analyse de données (3j)

  • Objectif : Disposer des connaissances et compétences nécessaires pour identifier et collecter des données et s'assurer de leur qualité et de leur alignement sur les besoins et usages métiers de l'entreprise
  • Les nouvelles frontières du Big Data (introduction) : immersion, l'approche des 4 Vs, cas d'usages du Big Data, technologies, architecture, master-less vs master-slaves, stockage, Machine Learning, Data Scientist et Big Data, compétences, la vision du Gartner, valeur ajoutée du Big Data
  • La collecte des données : typologie des sources, les données non structurées, typologie 3V des sources, les données ouvertes (Open Data), nouveau paradigme de l'ETL à l'ELT, le concept du Data Lake, les API de réseaux sociaux, ...
  • Le calcul massivement parallèle : genèse et étapes clés, Hadoop, HDFS, MapReduce, Apache PIG et Apache HIVE, comparatif des 3 approches, limitations de MapReduce, moteur d'exécution Apache TEZ, la rupture Apache SPARK, Hive in Memory (LLAP), Big Deep Learning, ...
  • Les nouvelles formes de stockage : enjeux, le "théorème" CAP, nouveaux standards : ACID => BASE, panorama des bases de données NoSQL, bases de données Clé-Valeur, bases de données Document, bases de données colonnes, bases de données Graphes, ...
  • Le Big Data Analytics (fondamentaux) : analyse de cas concrets, que peuvent apprendre les machines ? , les différentes expériences (E), l'apprentissage, choisir un algorithme d'apprentissage machine, anatomie d'un modèle d'apprentissage automatique, les librairies de machine learning standards et Deep Learning, les plates-formes de Data Science
  • Le Big Data Analytics (écosystème SPARK) : les différents modes de travail, les 3 systèmes de gestion de cluster, modes d'écriture des commandes Spark, machine learning avec Spark , travail sur les variables prédictives, la classification et la régression
  • Traitement en flux du Big Data (​streaming​ ) : architectures types de traitement de Streams Big Data, Apache NIFI, Apache KAFKA, articulation NIFI et KAFKA, Apache STORM, articulation KAFKA et STORM, comparatif STORM/SPARK
  • Déploiement d'un projet Big Data : Cloud Computing , 5 caractéristiques essentielles, 3 modèles de services, modes (SaaS , PaaS, IaaS), Cloud Privé virtuel (VPC), focus AWS, GCP et Azure
  • Hadoop écosystème et distributions : écosystème, fonctions coeurs, HDFS, Map Reduce, infrastructure YARN, distributions Hadoop, focus Cloudera, Focus Hortonworks,...
  • Architecture de traitement Big Data : traitement de données par lots, traitement de données en flux, modèles d'architecture de traitement de données Big Data, l'heure du choix
  • La gouvernance des données Big Data : outils de gouvernance Big Data, les 3 piliers, le management de la qualité des données, le management des métadonnées Big Data, management de la sécurité, de la conformité et la confidentialité

2 - Les fondamentaux de l'analyse statistique avec R (3j)

  • Objectif : Disposer des connaissances nécessaires pour utiliser le logiciel libre de traitement des données "R" qui permet de réaliser des analyses statistiques et de les restituer sous forme graphique
  • Introduction : présentation de R
  • Installation de R ou Microsoft R Open sur MS Windows ou Scientific Linux
  • Utilisation : console de commande, dossier de travail, espace de travail, historique des commandes, script
  • Manipulation de packages : installation, désinstallation, mise à jour
  • Types de données : manipulations de scalaires, de nombres complexes, de variables, de vecteurs, de matrices, de textes, de dates et de durées
  • Import et export de données : données Excel, Access, csv, xm, json, MySQL, Oracle, fichiers SAS
  • Manipulation de données : utilisation du SQL, data frames, tris, filtres, fusions, doublons
  • Analyse de données : synthèses, valeurs absentes, variables pseudo-aléatoires, statistiques descriptives, intégration numérique et algébrique

3 - Analyse statistique avancée avec R (3j)

  • Objectif : Être en mesure d'exploiter les fonctionnalités avancées de R et être ainsi à même d'analyser tous types de données dans un projet Big Data
  • Introduction : analyses avancées avec R
  • Travailler avec des échantillons
  • Réaliser des tests d'ajustement : tests d'Anderson-Darling et de Shapiro-Wilk
  • Estimation et intervalles de confiance
  • Analyses statistiques avancées : test t-Student, test de Poisson, test binomial exact, proportions, transformations de Box-Cox et de Johnson
  • Analyse de la variance et de la covariance : ANOVA à facteur(s) fixe(s), test de Student, test de Tukey HSD, test de Levene et Bartlett, ACP, AFE

4 - Les bases de l'apprentissage Machine (Machine Learning) (3j)

  • Objectif : Maîtriser le Data Mining et le Machine Learning pour explorer de très importants volumes de données et construire des modèles répondant aux problèmes très variés des entreprises
  • L'apprentissage machine : champs de compétences, focus : Data Science, Machine Learning, Big Data, Deep Learning, définition de l'apprentissage machine, les différents modes d'entraînement
  • Les fondamentaux de l'apprentissage machine : préambule, jeux de données d'entraînement, fonctions hypothèses, fonctions de coûts, algorithmes d'optimisations
  • La classification : introduction, la régression logistique, SVM, arbres de décision, K plus proches voisins (kNN), synthèse
  • Les pratiques : prétraitement, ingénierie des variables prédictives (feature engineering), réglages des hyper-paramètres et évaluation des modèles, synthèse
  • L'apprentissage d'ensembles (ensemble learning) : introduction, l'approche par vote, une variante, le bagging, les forêts aléatoires, le boosting, la variante Adaboost, gradient boosting, fiches synthèses
  • La régression : régression linéaire simple et multi-variée, relations entre les variables, valeurs aberrantes, évaluation de la performance des modèles de régression, régularisation des modèles de régression linéaire, régression polynomiale, régression avec les forêts aléatoires, synthèse
  • Le clustering : introduction, regroupement d'objets par similarité avec les k-moyens, k-means, l'inertie d'un cluster, variante k-means++, clustering flou, clustering hiérarchique, clustering par mesure de densité DBSCAN, autres approches du clustering, synthèse

5 - Big Data : mise en oeuvre pratique d'une solution complète d'analyse des données (4j)

  • Objectif : Savoir mettre en oeuvre une solution complète de Big Data en environnement Hadoop et disposer des compétences nécessaires au traitement et à l'analyse des données
  • Introduction : objectifs, schématisation du projet, écosystème et stack technologique, résultats attendus
  • Ingestion de données massives : description, caractéristiques clés des outils d'ingestion, focus Apache NIFI et KAFKA, ingestion de données en streaming NIFI sur KAFKA, réalisation d'un workflow NIFI d'ingestion de donnée streaming dans HDFS
  • Traitement de données Big Data en batch : diagramme de fonctionnement, solutions logicielles associées, Big Data Batch scripting, Data Warehousing Big Data, Big Data analytics
  • Traitement avancé Big Data : l'apprentissage machine, l'écosystème Spark, création d'un modèle de ML, d'un modèle de clusterisation de données, d'un modèle d'analyse prédictive supervisé, application d'un modèle ML
  • Stockage de données distribuées : principes des bases de donnes distribuées, solutions (NoSQL, NewSQL), création, ingestion de données et interrogation d'une base de données distribuées
  • Automatisation de chaîne de traitement Batch : l'orchestrateur Oozie, ordonnancement de scripts HIVE, combinaison avec des scripts SPARK
  • Traitement de données massives en flux (streaming) : principe de fonctionnement, solutions logicielles, l'inscription de streams à un Hub Streaming, le traitement avancé de données en flux (machine learning)
  • Mise en oeuvre dans une architecture Big Data : approches standards, réalisation d'une solution complète de traitement de données de type Lamda ou Kappa

6 - Big Data - Analyse, Data Visualisation et introduction au Data StoryTelling pour la restitution de données (2j)

  • Objectif : Être en mesure de concevoir des modèles de documents adaptés aux besoins métiers de l'entreprise et savoir mettre en oeuvre différentes techniques de visualisation graphique, de mise en récit et de présentation permettant de valoriser les données
  • Data Visualisation ou la découverte de la grammaire graphique : des chiffres aux graphiques, les 3 dimensions, Tableau Software, de l'idée d'un graphique à sa formalisation dans un outil
  • Data Storytelling : présentation, exemples, techniques et outils de la mise en récit des données, Storytelling des idées et des données
  • Comment construire son histoire : pitch, scénario, schéma narratif, méthodologies
  • Les outils : fonctions de Storytelling des outils de BI, le module Data Storytelling de Tableau Software, autres outils
Après la session
  • Un vidéocast "L'écosystème Hadoop"
  • Deux vidéos-tutos "Installation d'un environnement Hadoop de base" et "Développement d'un premier MapReduce"

Prérequis

Public

  • Analystes
  • Statisticiens
  • Spécialistes BI
  • Toute personne souhaitant évoluer vers une fonction de Data Scientist

Ces formations pourraient vous intéresser

Objectifs de la formation

À l'issue de cette formation Check Point R81 CCSA + CSSE, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Know how to perform periodic administrator tasks
  • Describe the basic functions of the Gaia operating system
  • Recognize SmartConsole features, functions, and tools
  • Understand how SmartConsole is used by administrators to give user access
  • Learn how Check Point security solutions and products work and how they protect networks
  • Understand licensing and contract requirements for Check Point security products
  • Describe the essential elements of a Security Policy
  • Understand the Check Point policy layer concept
  • Understand how to enable the Application Control and URL
  • Filtering software
  • Blades to block access to various applications
  • Describe how to configure manual and automatic NAT
  • Identify tools designed to monitor data, determine threats and recognize opportunities for performance improvements
  • Describe different Check Point Threat Prevention solutions for network attacks
  • Articulate how the Intrusion Prevention System is configured, maintained and tuned
  • Understand the Infinity Threat Prevention system
  • Knowledge about Check Point’s IoT Protect
  • Provide an overview of the upgrade service and options available
  • Explain how to perform management upgrade and migration
  • Articulate the process using CPUSE features
  • Articulate the purpose and function of Management High Availability
  • Explain Primary vs Secondary, Active vs Standby and Synchronization
  • Explain disaster recovery steps in case the primary management server becomes unavailable
  • Provide overview of Central Deployment in SmartConsole
  • Articulate an understanding of Security Gateway cluster upgrade methods
  • Explain about Multi Version Cluster (MVC) upgrades
  • Discuss Gaia Commands and how they are used
  • Explain the main processes on s and s
  • Describe how to work with scripts and SmartTasks to configure ?automatic actions
  • Explain the Management Data Plane Separation (MDPS)
  • Explain kernel operations and traffic flow
  • Articulate Dynamic and Updatable Objects in Security Gateways
  • Explain the policy installation flow and files used
  • Describe the use of policy installation history
  • Explain concurrent and accelerated install policy
  • Describe an overview of APIs and ways to use and authenticate
  • Explain how to make changes in GAIA and management configuration
  • Explain how to install policy using API
  • Explain how the SecureXL acceleration technology enhances and optimizes Security Gateway performance
  • Describe how the CoreXL acceleration technology enhances and improves Security Gateway performance
  • Articulate how utilizing multiple traffic queues can make traffic handling more efficient
  • Discuss Site-to-Site VPN basics, deployment and communities
  • Describe how to analyze and interpret VPN tunnel traffic
  • Explain Link Selection and ISP Redundancy options
  • Explain tunnel management features
  • Discuss Check Point Remote Access solutions and how they differ from each other
  • Describe how client security can be provided by Remote Access
  • Explain authentication methods including machine authentication
  • Explain Multiple Entry Point (MEP)
  • Discuss the Mobile Access Software Blade and how it secures communication and data exchange during remote connections
  • Describe Mobile Access deployment options
  • Discuss various features in Mobile Access like Portals, Link
  • Translation, running Native Applications, Reverse Proxy and more
  • Explain basic concepts of Clustering and ClusterXL
  • Explain about Cluster Control Protocol (CCP) and synchronization
  • Describe advanced ClusterXL functions and modes like Load Sharing, Active-Active, VMAC mode etc
  • Discuss Cluster Correction Layer (CCL) to provide connection stickyness
  • Advanced Logs and Monitoring
  • Explain how to determine if the configuration is compliant with the best practices
  • Explain how to set action items to meet the compliance
  • Discuss how SmartEvent functions to identify critical security issues
  • Describe the components of SmartEvent and their deployment options
  • Discuss how SmartEvent can assist in reporting security threats
  • Explain how to customize event definitions and set an Event Policy
Tarif

A partir de 6 000,00 €

Durée

6j / 42h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Pendant la formation, le formateur évalue la progression pédagogique des participants via des QCM, des mises en situation et des travaux pratiques. Les participants passent un test de positionnement avant et après la formation pour valider leurs compétences acquises.
Tarif

Contacter l'organisme

Durée

9 jours (63 heures)

Modes
  • Distance
  • Centre

Objectifs de la formation

  • Connaître le cycle de vie des données : conception, format, stockage, extraction, visualisation, exploitation, etc.
  • Connaître les principes de base sur les systèmes distribués et plus classique non distribués
  • Connaître les périmètres et les recouvrements des projets : Big Data, Data Science, bases de données relationnelles, BI (Business Intelligence), etc.
  • Connaître les métiers autour de la data (compétences) : administrateur de base de données, consultant BI, développeur SQL, analyste, data scientist, etc.
  • Connaître les outils et technologies standards autour de la data (SGBDR, Talend, Power BI, Hadoop, Spark, NoSQL, Kafka, etc.)
Tarif

A partir de 1 990,00 €

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Définir les missions du responsable de communication
  • Mettre en place un plan de communication
  • Évaluer les retombées de vos actions de communication
  • Gérer les différents moyens de communication
Tarif

A partir de 1 390,00 €

Durée

18j / 126h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

Concrètement à l'issue de cette formation IBM Integration Bus V10, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Décrire les caractéristiques et les utilisations d'IBM Integration Bus
  • Développer, déployer et tester les applications de flux de messages
  • Générer des applications de flux de messages à partir de modèles prédéfinis
  • Utiliser des outils d'aide à la détermination de problème dans IBM Integration Bus pour diagnostiquer et résoudre les erreurs de développement et d'exécution
  • Décrire la fonction et l'utilisation appropriée de noeuds de traitement dans IBM Integration Bus
  • Ecrire des programmes simples en Extended SQL et Java pour transformer les données
  • Utiliser l'éditeur de mapping IBM de données graphiques pour transformer les données
  • Définir, utiliser et tester XML et Data Format Description Language (DFDL) comme modèles de données
  • Décrire les protocoles de transport pris en charge et comment les nommer dans les flux de messages.
Tarif

A partir de 3 550,00 €

Durée

5j / 35h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

À l'issue de cette formation Applications Data Visualisation, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Définir les principes fondamentaux de la visualisation de données
  • Identifier les enjeux juridiques de la gestion de données
  • Déterminer les technologies et APIS pour la visualisation de données
  • Utiliser les principaux frameworks pour créer des applications de datavisualisation
Tarif

A partir de 2 490,00 €

Durée

4j / 28h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

Cette formation DB2 12 System Administration vous donne les connaissances et compétences pour : 

  • Start and stop a Db2 subsystem
  • Use the SET SYSPARM command
  • Access the system log to gather information about the subsystem initialization, operation, or shutdown
  • Describe the components and address space structure of a Db2 subsystem
  • Explain the use of RACF (or another external security program) for Db2 connection security
  • Explain the use of Roles and Trusted Contexts
  • Implement security procredures for a Db2 subsystem
  • Explain Db2 program flow for all environments
  • Explain parameter setting for the IRLM
  • Invoke and utilitze Db2 TSO facilities
  • Use the Db2 Catalog to monitor subsystem authorizations
  • Work with the Active Log data sets
  • Explain Db2 logging
  • Use SET LOG SUSPEND and SET LOG RESUME
  • Use DSNJU004 to print log map and interpret the results
  • Use DSNJU003 to rename Db2 data sets
  • Plan for recovery of a BSDS failure
  • Monitor and control a Db2 subsystem
  • Explain transaction flow in IMS and CICS environments (optional)
  • Describe the CICS and DB2 environment (optional)
  • Explain the difference between JDBC and SQLJ
Tarif

A partir de 2 350,00 €

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

Sortie en 2016, la solution Data Studio de Google permet de créer des tableaux de bord avec des données sourcées directement depuis les outils Google (principalement Google Analytics, Google Ads et Google BigQuery, mais également YouTube, GoogleCloud SQL, Attribution 360, etc.) et via les connecteurs de ses partenaires tels qu'Amazon, eBay, Facebook, Bing...

C'est donc un outil riche pour créer des reportings alimentés en temps réel, personnalisés et interactifs.

Cette formation Google Data Studio vous apportera les connaisances et compétences nécessaires pour savoir implémenter et utiliser Data Studio pour créer vos outils de reporting.

Tarif

A partir de 760,00 €

Durée

1j / 7h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Gérer et mettre en place une sécurité complète sur du contenu dans SAP Analytics Cloud
  • Utiliser Business Content Network pour partager du contenu entre plusieurs tenants SAP Analytics Cloud
  • Auditer et surveiller l'utilisation d'un système SAP Analytics Cloud avec SAP Administration Cockpit
  • Configurer SAP Analytics Cloud pour authentifier les utilisateurs en utilisant un Identity Provider personnalisé (SAP NetWeaver)
  • Configurer et activer l'authentification SSO via le MFA (Multi Factor Authentication) et via les réseaux sociaux (X (ex Twitter), Facebook, LinkedIn, Google) dans SAP Analytics Cloud
  • Identifier les différents types de connexion aux sources de données depuis SAP Analytics Cloud
  • Installer et configurer des composants logiciels (SAP Cloud Connector, SAP Cloud Agent) pour créer et utiliser des connexions en mode Import à des sources de données On-Premise (base de données SQL, serveur de fichiers) et Cloud (SAP SuccessFactors)
  • Mettre en place, créer et utiliser des connexions en mode Live (direct, SAML SSO, par tunnel) à des sources de données On-Premise (SAP HANA, SAP S/4HANA, SAP BI4) et Cloud SAP (S/4HANA Cloud, SAP HANA Cloud)
  • Installer et configurer le composant SAP Data Provisioning Agent pour combiner plusieurs modèles de données dans une connexion (Blending SAP)
  • Identifier les bonnes pratiques pour troubleshooter les connexions en mode Live et en mode Import.
Tarif

A partir de 4 100,00 €

Durée

5j / 35h

Modes
  • Centre
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Utiliser Scikitlearn pour créer des modèles d'apprentissage machine
  • Concevoir des expériences et interpréter les résultats des tests A/B
  • Visualiser l'analyse de clustering et de régression en Python à l'aide de Matplotlib
  • Produire des recommandations automatisées de produit ou de contenu avec des techniques de filtrage collaboratif
  • Appliquer les meilleures pratiques en matière de nettoyage et de préparation de vos données avant l'analyse.
Tarif

A partir de 2 280,00 €

Durée

3j / 21h

Modes
  • Centre
  • Distance

Je cherche à faire...