Formation Data Scientist : Les fondamentaux de la Data Science

Public admis

  • Salarié en Poste
  • Demandeur d'emploi
  • Entreprise
  • Etudiant

Financements

Eligible CPF Votre OPCO Financement personnel

Objectifs de la formation

Plus concrètement, à l'issue de cette formation Data Scientist Fondamentaux vous aurez acquis les connaissances et compétences nécessaires pour :

  • Découvrir le métier de Data Scientist et les grandes familles de problèmes
  • Savoir modéliser un problème de Data Science
  • Créer vos premières variables
  • Constituer votre boîte à outils de Data Scientist
  • Participer à une première compétition.

PLB CONSULTANT


Informatique et Management
Voir la fiche entreprise

Tarif

A partir de 2 500,00 €

Durée 3 jours (21h)
Modes
  • Centre
  • Entreprise
  • Distance
Sessions
Lieux Partout en France

PLB CONSULTANT


Informatique et Management
Voir la fiche

Tarif

A partir de 2 500,00 €

Durée 3 jours (21h)
Modes
  • Centre
  • Entreprise
  • Distance
Sessions
Lieux Partout en France

Description

Le métier de Data Scientist est apparu ces dernières années pour faire face à la multiplication des données, à la diversité de leurs formes et de leurs sources : le Big Data. Le rôle du Data Scientist : rendre les données exploitables, les traiter pour leur donner du sens et ainsi permettre à la direction générale d'adapter la stratégie de l'entreprise. C'est donc un acteur-clé aux compétences multiples.

Cette formation Data Scientist Fondamentaux se concentre sur l'aspect technique de ce métier. Vous découvrirez les méthodes et les outils du Data Scientist et partagerez les retours d'expériences des formateurs. Des exercices pratiques et la participation à une compétition vous permettront d'expérimenter vos nouvelles connaissances.

Programme

Jour 1
Introduction au Big Data

Qu’est-ce-que le Big Data ?
L’écosystème technologique du Big Data

Introduction à la Data Science, le métier de Data Scientist

Le vocabulaire d’un problème de Data Science
De l’analyse statistique au machine learning
Overview des possibilités du machine learning

Modélisation d’un problème

Input / ouput d’un problème de machine learning

Travaux Pratiques « OCR» :

Comment modéliser le problème de la reconnaissance optique de caractère

Identifier les familles d’algorithmes de machine learning

Analyse supervisée
Analyse non supervisée
Classification / régression

Sous le capot des algorithmes : la régression linéaire

Quelques rappels : fonction hypothèse, fonction convexe, optimisation
La construction de la fonction de coût
Méthode de minimisation : la descente de gradient

Sous le capot des algorithmes : la régression logistique

Frontière de décision
La construction d’une fonction de coût convexe pour la classification

La boîte à outil du Data Scientist

Introduction aux outils
Introduction à Python, Pandas et Scikit-learn

Cas pratique n°1 : « Prédire les survivants du Titanic »

Exposé du problème
Première manipulation en Python

Jour 2
Rappels et révisions du jour 1
Qu’est-ce qu’un bon modèle ?

Cross-validation
Les métriques d’évaluation : precision, recall, ROC, MAPE, etc

Les pièges du machine learning

Overfitting ou sur-apprentissage
Biais vs variance
La régularisation : régression Ridge et Lasso

Data Cleaning

Les types de données : catégorielles, continues, ordonnées, temporelles
Détection des outliers statistiques, des valeurs aberrantes
Stratégie pour les valeurs manquantes

Travaux Pratiques :

« Remplissage des valeurs manquantes»

Feature Engineering

Stratégies pour les variables non continues
Détecter et créer des variables discriminantes

Cas pratique n°2 : « Prédire les survivants du Titanic »

Identification et création des bonnes variables
Réalisation d’un premier modèle
Soumission sur Kaggle

Data visualisation

La visualisation pour comprendre les données : histogramme, scatter plot, etc
La visualisation pour comprendre les algorithmes : train / test loss, feature importance, etc

Introduction aux méthodes ensemblistes

Le modèle de base : l’arbre de décision, ses avantages et ses limites
Présentation des différentes stratégies ensemblistes : bagging, boosting, etc

Travaux Pratiques "Retour sur le Titanic" :

Utilisation d’une méthode ensembliste sur la base du précédent modèle

Apprentissage semi-supervisé

Les grandes classes d’algorithmes non supervisées : clustering, PCA, etc

Travaux Pratiques « Détection d’anomalies dans les prises de paris» :

Comment un algorithme non supervisé permet-il de détecter des fraudes dans les prises de paris?

Jour 3
Rappels et révisions

Synthèse des points abordés en journées 1 et 2
Approfondissement des sujets sélectionnés avec l’intervenant

Mise en pratique

Le dernier jour est entièrement consacré à des mises en pratique

Sélection et participation à une compétition

Le formateur sélectionnera une compétition en cours sur Kaggle ou datascience.net qui sera démarrée en jour 3 par l’ensemble des participants

Prérequis

Pour suivre ce cours dans les meilleures conditions possibles, il vous faut avoir certaines connaissances de base en programmation ou scripting, ainsi que quelques souvenirs de statistiques qui peuvent être un plus.

Public

Ce stage s'adresse aux Analystes, Statisticiens, Architectes, Développeurs.

Ces formations pourraient vous intéresser

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Identifier les solutions d'accès aux données avec .NET
  • Simplifier l'écriture d'une couche d'accès aux données ou Data Access Layer
  • Utiliser LINQ to SQL
  • Mapper des entités avec LINQ to Entities
  • Gérer l'aspect transactionnel.
Tarif

A partir de 2 440,00 €

Durée

4j / 28h

Modes
  • Centre
  • Distance

Objectifs de la formation

À l'issue de cette formation Marché du Data Center, vous aurez les connaissances et compétences nécessaires pour :

  • Décrire les principaux rôles des acteurs des datacenter et situer leur positionnement entre eux
  • Différencier les principales technologies présentes au sein d’un datacenter
  • Expliquer les modèles économiques
  • Décrire les évolutions possibles du marché : consolidation, convergence
Tarif

A partir de 1 240,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Pendant la formation, le formateur évalue la progression pédagogique des participants via des QCM, des mises en situation et des travaux pratiques. Les participants passent un test de positionnement avant et après la formation pour valider leurs compétences acquises.
Tarif

Contacter l'organisme

Durée

5 jours (35 heures)

Modes
  • Entreprise
  • Distance
  • Centre

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Décrire l'architecture et les principaux composants de VMware Cloud Director
  • Identifier les fonctionnalités et les avantages de VMware Cloud Director
  • Déployer le cluster VMware Cloud Director à haute disponibilité
  • Créer des organisations et des Data Centers virtuels fournisseurs de VMware Cloud Director
  • Configurer et créer des vApps et des VM (machines virtuelles)
  • Créer des utilisateurs et un contrôle d'accès basé sur les rôles
  • Créer et gérer des catalogues VMware Cloud Director
  • Créer et gérer des réseaux VMware Cloud Director
  • Créer des politiques de dimensionnement et de placement des VM
  • Décrire des fonctionnalités supplémentaires de VMware Cloud Director.
Tarif

Contacter l'organisme

Durée

5j / 35h

Modes
  • Centre
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Identifier l'ensemble des concepts et acronymes qui composent le marché de la publicité en ligne et du programmatique
  • Dédramatiser l'usage de la technologie
  • Analyser les différentes solutions de publicités en ligne
  • Utiliser les modes d'achats programmatiques
  • Décrire les fonctionnalités de chaque type de plateforme
  • Anticiper les nouvelles attentes du marché (formats, services opérationnels...)
  • Décrire une vue d'ensemble sur les futures tendances d'achats programmatiques
  • Exploiter au mieux la Data au regard d'une sous-utilisation chronique du potentiel
  • Créer des formats publicitaires impactants selon les bonnes pratiques
  • Dresser un plan média digital.
Tarif

A partir de 1 420,00 €

Durée

2j / 14h

Modes
  • Centre
  • Distance

Formation Cassandra

Proposé par Sparks

Objectifs de la formation

  • Savoir exploiter le SGBD Apache Cassandra
  • Comprendre le Big Data et l'intérêt de Cassandra
  • Savoir installer, configurer et mettre en oeuvre Cassandra
  • Connaître les différents outils de Cassandra, son architecture
  • Savoir travailler avec le write et read path
  • Pouvoir résoudre les problèmes
Tarif

A partir de 1 950,00 €

Durée

3 jours

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

À l'issue de cette formation IBM System z, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Décrire et catégoriser les divers serveurs que l'on peut trouver dans les data centers
  • Identifier et décrire les charges de travail qui sont couramment utilisées pour les mainframes et les serveurs distributés
  • Décrire un data center typique avec des plateformes de serveurs différentes :
    Pourquoi autant de serveurs
    Les préoccupations actuelles et des considérations
    Les actions futures possibles
  • Identifier quand le premier mainframe IBM pour un usage général a été présenté
  • Décrire les nombreuses stratégies clés informatiques sur le mainframe présentées dans les années 2000
  • Identifier les tendances actuelles et futures des data centers
  • Décrire pourquoi des systèmes plus intelligents sont nécessaires pour répondre aux besoins futurs
  • Présenter le système zEnterprise et expliquer comment il peut s'appliquer aux besoins actuels et futurs
  • Décrire les fonctions de base, les caractéristiques et la terminologie des serveurs System z
  • Identifier et lister les différents serveurs System z et les modèles matériels, depuis le serveur zSeries server jusqu'au dernier zEnterprise EC12
  • Identifier le nombre de processeurs (CP) et lister les processeurs spécialisés disponibles pour les différents serveurs System z
  • Faire la liste des performances relatives des serveurs System z récents par rapport aux précédents serveurs
  • Identifier et lister les serveurs mainframe IBM prenant en charge plusieurs sous-systèmes de canaux et architecture z
  • Identifier les composants clés du système zEnterprise et leur intérêt
  • Décrire et comparer les divers composants System z :
    Frame layout et utilisation de cage
    Modèles de serveurs, livres, mémoire et structure du cache
    Performance et millions of service units (MSUs)
  • Décrire et comparer les infrastructures I/O et l'utilisateur du processeur des mainframes de zEC12 à z10 :
    cages I/O , tiroirs et technologie utilisée
    PU, cache, et réserver la connectivité en fan-out
  • Décrire comment et quels composants phyisques System z sont utilisés lors du traitement des instructions et la réalisation d'opérations I/O
  • Identifier les options de Capacity on Demand (CoD) sur System z disponibles pour les pannes planifiées et non planifiées
  • Décrire l'architecture de provisionnement de CoD et quels serveurs peuvent l'utiliser
  • Décrire comment le partitionnement logique est utilisé, les affectations de ressources et les activités d'initialisation
  • Décrire les canaux, leur usage et l'affection de CHPID
  • Décrire le but et l'utilisation de HCD
  • Identifier les systèmes d'exploitation des mainframes et les serveurs mainframe supportés :
    Décrire comment les OS de mainframe ont évolué des serveurs System 360 vers le serveur zEC12 actuel
    Lister quelques-unes des améliorations principales fournies par les récentes versions de z/OS et quels serveurs peuvent les utiliser
    Expliquer la coexistence de versions de z/OS et la stratégie de support
    Décrire les diverses files d'attente qui sont utilisées pour distribuer le travail
  • Décrire la différence entre une base et Parallel Sysplex :
    Lister les caractéristiques principales de Parallel Sysplex
    Décrire le but et l'utilisation des possibilités de couplage
    Identifier les différences entre les configurations suivantes sysplex : MULTISYSTEM, MONOPLEX et XCFLOCAL
  • Identifier et décrire les améliorations principales fournies par le logiciel System z et la plateforme matériel :
    Architecture 64-bit, IRD, HiperSockets, MLCSS, MIDAW
    Ensembles de sous-canaux multiples, zHPF, CPM, HiperDispatch, zDAC
    TEF, RI, DAT2, Flash Express, zAware, RoCE, zEDC et calcul autonome
  • Identifier les modes d'architecture des processeurs et les implémentations d'adressage supportées : bimodal, trimodal, espaces d'addresse, adressage virtuel et usage du stockage
  • Décrire les diverses files d'attente qui sont utilisées pour distribuer le travail
  • Utiliser les commandes système qui affichent les espaces d'adresses actives et identifient leurs statuts actuels
  • Décrire les hauts niveaux d'intéraction entre z/OS, CSS et les périphériques I/O pendant les traitements I/O
  • Décrire le rôle de HMC et SE pour les serveurs System z
  • Identifier et changer le style de l'interface utilisateur pour HMC
  • Identifier CPC et l'usage des objets dans HMC
  • Concevoir et personnaliser des groupes définis d'utilisateurs
  • Identifier des types de profils, d'usage et assigner des profils à des objets
  • Utiliser la fenêtre Détails pour déterminer le statut des objets et leurs besoins
  • Décrire comment et pourquoi des conditions de statuts inacceptables et des messages matériels sont présentés à HMC
  • Identifier le processus d'activation de HMC pour les CPC et les images
  • Envoyer des messages au système d'exploitation
Tarif

A partir de 1 610,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Inventorier les types de menace à circonscrire
  • Lister les principales sources réglementaires et normatives de référence
  • Identifier les moyens de prévention des intrusions et malveillances
  • Identifier les moyens de prévention et de traitement des incendies
  • Adapter la gestion du risque environnemental
  • Décrire les mesures de réduction du risque d'accident électrique
  • Tenir compte des capacités de charge des éléments constitutifs de la salle
  • Identifier les mesures de réduction du risque de blessure en exploitation courante.
Tarif

Contacter l'organisme

Durée

2j / 14h

Modes
  • Centre
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Présenter la philosophie des référentiels de données et la méthode à adopter pour mieux appréhender un projet de mise en place d'un MDM (Master Data Management)
  • Identifier les enjeux de la donnée de référence
  • Démontrer l'impact du Big Data sur la donnée de référence.
Tarif

A partir de 1 520,00 €

Durée

2j / 14h

Modes
  • Centre
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Utiliser une méthode d'accompagnement d'une organisation détentrice d'un projet de relocalisation (déménagement de salle informatique / Data Center), depuis la qualification de l'expression des besoins jusqu'au transfert physique
  • Mettre en adéquation le processus de relocalisation avec les normes à disposition et l'impératif de la continuité des services informatiques
  • Coordonner la diversité des centres de compétences impliqués par la relocalisation
  • Ordonnancer, planifier et contrôler la réalisation des tâches
  • Identifier la nature et le rôle des livrables spécifiques d'un projet de transfert
  • Piloter sereinement le déménagement réel le jour J, puis contrôler la bonne exécution des services.
Tarif

Contacter l'organisme

Durée

3j / 21h

Modes
  • Centre
  • Distance

Je cherche à faire...