Formation - Cursus Data Scientist

Public admis

  • Salarié en Poste
  • Demandeur d'emploi
  • Entreprise
  • Etudiant

Financements

Eligible CPF Votre OPCO Financement personnel

Objectifs de la formation

  • Pendant la formation, le formateur évalue la progression pédagogique des participants via des QCM, des mises en situation et des travaux pratiques. Les participants passent un test de positionnement avant et après la formation pour valider leurs compétences acquises.

IB Cegos


Formations aux technologies et métiers du Numérique
Voir la fiche entreprise

Tarif

Contacter l'organisme

Durée 18 jours (126 heures)
Modes
  • Distance
  • Centre
Sessions
Lieux Partout en France

IB Cegos


Formations aux technologies et métiers du Numérique
Voir la fiche

Tarif

Contacter l'organisme

Durée 18 jours (126 heures)
Modes
  • Distance
  • Centre
Sessions
Lieux Partout en France

Programme

Avant la session
  • Un quiz de consolidation des pré-requis
En présentiel / A distance

1 - Big Data – Les fondamentaux de l'analyse de données (3j)

  • Objectif : Disposer des connaissances et compétences nécessaires pour identifier et collecter des données et s'assurer de leur qualité et de leur alignement sur les besoins et usages métiers de l'entreprise
  • Les nouvelles frontières du Big Data (introduction) : immersion, l'approche des 4 Vs, cas d'usages du Big Data, technologies, architecture, master-less vs master-slaves, stockage, Machine Learning, Data Scientist et Big Data, compétences, la vision du Gartner, valeur ajoutée du Big Data
  • La collecte des données : typologie des sources, les données non structurées, typologie 3V des sources, les données ouvertes (Open Data), nouveau paradigme de l'ETL à l'ELT, le concept du Data Lake, les API de réseaux sociaux, ...
  • Le calcul massivement parallèle : genèse et étapes clés, Hadoop, HDFS, MapReduce, Apache PIG et Apache HIVE, comparatif des 3 approches, limitations de MapReduce, moteur d'exécution Apache TEZ, la rupture Apache SPARK, Hive in Memory (LLAP), Big Deep Learning, ...
  • Les nouvelles formes de stockage : enjeux, le "théorème" CAP, nouveaux standards : ACID => BASE, panorama des bases de données NoSQL, bases de données Clé-Valeur, bases de données Document, bases de données colonnes, bases de données Graphes, ...
  • Le Big Data Analytics (fondamentaux) : analyse de cas concrets, que peuvent apprendre les machines ? , les différentes expériences (E), l'apprentissage, choisir un algorithme d'apprentissage machine, anatomie d'un modèle d'apprentissage automatique, les librairies de machine learning standards et Deep Learning, les plates-formes de Data Science
  • Le Big Data Analytics (écosystème SPARK) : les différents modes de travail, les 3 systèmes de gestion de cluster, modes d'écriture des commandes Spark, machine learning avec Spark , travail sur les variables prédictives, la classification et la régression
  • Traitement en flux du Big Data (​streaming​ ) : architectures types de traitement de Streams Big Data, Apache NIFI, Apache KAFKA, articulation NIFI et KAFKA, Apache STORM, articulation KAFKA et STORM, comparatif STORM/SPARK
  • Déploiement d'un projet Big Data : Cloud Computing , 5 caractéristiques essentielles, 3 modèles de services, modes (SaaS , PaaS, IaaS), Cloud Privé virtuel (VPC), focus AWS, GCP et Azure
  • Hadoop écosystème et distributions : écosystème, fonctions coeurs, HDFS, Map Reduce, infrastructure YARN, distributions Hadoop, focus Cloudera, Focus Hortonworks,...
  • Architecture de traitement Big Data : traitement de données par lots, traitement de données en flux, modèles d'architecture de traitement de données Big Data, l'heure du choix
  • La gouvernance des données Big Data : outils de gouvernance Big Data, les 3 piliers, le management de la qualité des données, le management des métadonnées Big Data, management de la sécurité, de la conformité et la confidentialité

2 - Les fondamentaux de l'analyse statistique avec R (3j)

  • Objectif : Disposer des connaissances nécessaires pour utiliser le logiciel libre de traitement des données "R" qui permet de réaliser des analyses statistiques et de les restituer sous forme graphique
  • Introduction : présentation de R
  • Installation de R ou Microsoft R Open sur MS Windows ou Scientific Linux
  • Utilisation : console de commande, dossier de travail, espace de travail, historique des commandes, script
  • Manipulation de packages : installation, désinstallation, mise à jour
  • Types de données : manipulations de scalaires, de nombres complexes, de variables, de vecteurs, de matrices, de textes, de dates et de durées
  • Import et export de données : données Excel, Access, csv, xm, json, MySQL, Oracle, fichiers SAS
  • Manipulation de données : utilisation du SQL, data frames, tris, filtres, fusions, doublons
  • Analyse de données : synthèses, valeurs absentes, variables pseudo-aléatoires, statistiques descriptives, intégration numérique et algébrique

3 - Analyse statistique avancée avec R (3j)

  • Objectif : Être en mesure d'exploiter les fonctionnalités avancées de R et être ainsi à même d'analyser tous types de données dans un projet Big Data
  • Introduction : analyses avancées avec R
  • Travailler avec des échantillons
  • Réaliser des tests d'ajustement : tests d'Anderson-Darling et de Shapiro-Wilk
  • Estimation et intervalles de confiance
  • Analyses statistiques avancées : test t-Student, test de Poisson, test binomial exact, proportions, transformations de Box-Cox et de Johnson
  • Analyse de la variance et de la covariance : ANOVA à facteur(s) fixe(s), test de Student, test de Tukey HSD, test de Levene et Bartlett, ACP, AFE

4 - Les bases de l'apprentissage Machine (Machine Learning) (3j)

  • Objectif : Maîtriser le Data Mining et le Machine Learning pour explorer de très importants volumes de données et construire des modèles répondant aux problèmes très variés des entreprises
  • L'apprentissage machine : champs de compétences, focus : Data Science, Machine Learning, Big Data, Deep Learning, définition de l'apprentissage machine, les différents modes d'entraînement
  • Les fondamentaux de l'apprentissage machine : préambule, jeux de données d'entraînement, fonctions hypothèses, fonctions de coûts, algorithmes d'optimisations
  • La classification : introduction, la régression logistique, SVM, arbres de décision, K plus proches voisins (kNN), synthèse
  • Les pratiques : prétraitement, ingénierie des variables prédictives (feature engineering), réglages des hyper-paramètres et évaluation des modèles, synthèse
  • L'apprentissage d'ensembles (ensemble learning) : introduction, l'approche par vote, une variante, le bagging, les forêts aléatoires, le boosting, la variante Adaboost, gradient boosting, fiches synthèses
  • La régression : régression linéaire simple et multi-variée, relations entre les variables, valeurs aberrantes, évaluation de la performance des modèles de régression, régularisation des modèles de régression linéaire, régression polynomiale, régression avec les forêts aléatoires, synthèse
  • Le clustering : introduction, regroupement d'objets par similarité avec les k-moyens, k-means, l'inertie d'un cluster, variante k-means++, clustering flou, clustering hiérarchique, clustering par mesure de densité DBSCAN, autres approches du clustering, synthèse

5 - Big Data : mise en oeuvre pratique d'une solution complète d'analyse des données (4j)

  • Objectif : Savoir mettre en oeuvre une solution complète de Big Data en environnement Hadoop et disposer des compétences nécessaires au traitement et à l'analyse des données
  • Introduction : objectifs, schématisation du projet, écosystème et stack technologique, résultats attendus
  • Ingestion de données massives : description, caractéristiques clés des outils d'ingestion, focus Apache NIFI et KAFKA, ingestion de données en streaming NIFI sur KAFKA, réalisation d'un workflow NIFI d'ingestion de donnée streaming dans HDFS
  • Traitement de données Big Data en batch : diagramme de fonctionnement, solutions logicielles associées, Big Data Batch scripting, Data Warehousing Big Data, Big Data analytics
  • Traitement avancé Big Data : l'apprentissage machine, l'écosystème Spark, création d'un modèle de ML, d'un modèle de clusterisation de données, d'un modèle d'analyse prédictive supervisé, application d'un modèle ML
  • Stockage de données distribuées : principes des bases de donnes distribuées, solutions (NoSQL, NewSQL), création, ingestion de données et interrogation d'une base de données distribuées
  • Automatisation de chaîne de traitement Batch : l'orchestrateur Oozie, ordonnancement de scripts HIVE, combinaison avec des scripts SPARK
  • Traitement de données massives en flux (streaming) : principe de fonctionnement, solutions logicielles, l'inscription de streams à un Hub Streaming, le traitement avancé de données en flux (machine learning)
  • Mise en oeuvre dans une architecture Big Data : approches standards, réalisation d'une solution complète de traitement de données de type Lamda ou Kappa

6 - Big Data - Analyse, Data Visualisation et introduction au Data StoryTelling pour la restitution de données (2j)

  • Objectif : Être en mesure de concevoir des modèles de documents adaptés aux besoins métiers de l'entreprise et savoir mettre en oeuvre différentes techniques de visualisation graphique, de mise en récit et de présentation permettant de valoriser les données
  • Data Visualisation ou la découverte de la grammaire graphique : des chiffres aux graphiques, les 3 dimensions, Tableau Software, de l'idée d'un graphique à sa formalisation dans un outil
  • Data Storytelling : présentation, exemples, techniques et outils de la mise en récit des données, Storytelling des idées et des données
  • Comment construire son histoire : pitch, scénario, schéma narratif, méthodologies
  • Les outils : fonctions de Storytelling des outils de BI, le module Data Storytelling de Tableau Software, autres outils
Après la session
  • Un vidéocast "L'écosystème Hadoop"
  • Deux vidéos-tutos "Installation d'un environnement Hadoop de base" et "Développement d'un premier MapReduce"

Prérequis

Public

  • Analystes
  • Statisticiens
  • Spécialistes BI
  • Toute personne souhaitant évoluer vers une fonction de Data Scientist

Ces formations pourraient vous intéresser

Objectifs de la formation

  • Construire une stratégie de recrutement 2.0 et 3.0
  • Organiser l'utilisation des réseaux sociaux et de son site carrière
Tarif

A partir de 1 772,00 €

Durée

2 jours

Modes
  • Entreprise
  • Centre
  • Distance

Blender 4.X

Proposé par SHURAFORM - FORMAEREM

Objectifs de la formation

L'objectif de cette formation sera de vous apprendre les bases sur la modélisation, on se concentrera uniquement sur les primitives de type (Mesh, Curve, et un peu de sculpture).

But faire en sorte que vous soyez capable de modéliser des objets simples à base de mesh ou curve afin de créer des premières scènes.

Tous les modèles seront fournis au niveau du module Ressource
Tarif

A partir de 550,00 €

Durée

1j / 5h

Modes
  • Entreprise
  • Distance

Objectifs de la formation

  • Analyser la réglementation et les enjeux RH qui encadre l'entretien professionnel et le bilan à 6 ans
  • Conduire efficacement les campagnes d'entretiens professionnels
  • Examiner les enjeux RH lors de l'animation et le suivi de l'entretien professionnel
Tarif

A partir de 1 731,00 €

Durée

2 jours

Modes
  • Entreprise
  • Centre

Objectifs de la formation

  • Expliquer le fonctionnement des macros et des fonctions en VBA
  • Identifier les applications possibles de VBA
  • Appliquer une méthode pour développer des projets VBA pas à pas
  • Automatiser des tâches récurrentes en les fiabilisant
Tarif

A partir de 1 510,00 €

Durée

2 jours

Modes
  • Entreprise
  • Centre
  • Distance

Objectifs de la formation

  • Comprendre les concepts fondamentaux liés à la modélisation avec Enterprise Architect
  • Appliquer les techniques de modélisation UML et BPMN avec Enterprise Architect
  • Utiliser les fonctionnalités avancées d'Enterprise Architect pour gérer et optimiser les projets
  • Collaborer efficacement avec les parties prenantes grâce aux fonctionnalités de partage et de documentation
  • Maîtriser les fonctionnalités d'automatisation et de personnalisation
Tarif

A partir de 2 800,00 €

Durée

4 jours

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Comprendre l’intérêt et la structure des packages R
  • Mettre en œuvre les meilleures pratiques pour écrire et documenter des fonctions
  • Développer des packages personnalisés
  • Utiliser les outils de debug appropriés et réaliser des tests unitaires
  • Distribuer des packages à son équipe ou au public
  • Versionner son code avec Git et s’approprier les principes de base de l’intégration continue
Tarif

A partir de 2 250,00 €

Durée

3 jours

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Identifier les déclarations concernées par la Déclaration Sociale Nomenclature (DSN)
  • Décrire l'utilité de la DSN et les obligations de l'employeur
  • Etablir la DSN et respecter les échéances déclaratives
Tarif

A partir de 1 390,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Etablir un lien entre Marketing Opérationnel et Marketing Stratégique
  • Utiliser les outils permettant de bâtir un plan marketing opérationnel
  • Utiliser les différents outils de promotion et de communication en multicanal
  • Identifier les principes clés pour construire les arguments clients et les messages clés
Tarif

A partir de 1 390,00 €

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Cette formation fait l'objet d'une évaluation formative.
Tarif

Contacter l'organisme

Durée

2 jours (14 heures)

Modes
  • Distance
  • Centre

Objectifs de la formation

  • Savoir administrer le SGBD Oracle 12c
  • Savoir installer Oracle, créer une base
  • Gérer l'instance, les fichiers de contrôles, le stockage
  • Gérer les strctures, les objets et le partitionnement
  • Gérer les pannes et les utilisateurs
Tarif

A partir de 3 000,00 €

Durée

5 jours

Modes
  • Centre
  • Entreprise
  • Distance

Je cherche à faire...