Formation - L'apprentissage Machine avec Spark (Spark ML)
Prérequis
Public admis
- Salarié en Poste
- Entreprise
Demandeur d'emploi et Etudiant non admis
Financement
- Votre OPCO
- Financement personnel
Financement CPF non pris en charge
Modalités
- En entreprise
- À distance
- En centre
Objectifs pédagogiques
- Pendant la formation, le formateur évalue la progression pédagogique des participants via des QCM, des mises en situation et des travaux pratiques. Les participants passent un test de positionnement avant et après la formation pour valider leurs compétences acquises.
Programme de la formation
1 - L'écosystème SPARK et l'apprentissage Big Data
- Enjeux machine learning et Big Data
- L'écosystème Apache Spark
- Les différentes briques de base
- Focus SPARK SQL
- Dataframes et Datasets
- Lab : Mise en oeuvre de l'écosystème SPARK pour l'apprentissage machine Big Data
2 - Le chargement de données d'entraînement massives
- Chargement générique de données
- Chargement de fichiers de formats spécifiques
- Interrogation de bases HIVE
- Interrogation de bases externes
- Lab : Chargement de données de sources diverses sur un cluster SPARK
3 - L'exploration de données d'entraînement massives
- Réalisation de statistiques de base avec SPARK
- Exploitation des librairies graphiques statistiques dans un cadre Big Data
- Lab : Exploration de données d'entraînement sur un cas concret
4 - Le "Pipelining"
- Le concept de Pipeline Spark
- Les composants d'un Pipeline
- Le fonctionnement d'un Pipeline
- La gestion des paramètres
- Persistance et chargement de Pipelines
- Lab : Création d'un premier pipeline d'apprentissage machine avec SPARK
5 - Le prétraitement et l'ingénierie des variables prédictives
- Extraction de variables prédictives
- Transformation de variables
- Sélection de variables prédictives
- Hachage de variables
- Lab : Prétraitement et ingénierie des variables prédictives sur un cas concret
6 - La création de modèles d'apprentissage Big Data
- Classification de données massives
- Régression de données massives
- Clustering de données massives
- Systèmes de recommandation Big Data
- Règles d'association de données massives
- Lab : Réalisation de modèles d'apprentissage sur des cas concrets Big Data
7 - L'optimisation du réglage des modèles d'apprentissage
- Réglage des hyper-paramètres des modèles
- Validation croisée
- Séparation des données (entraînement, validation)
- Lab : Optimisation du réglage de modèles d'apprentissage sur cas concrets
8 - Déploiement de modèles d'apprentissage Big Data
- Création d'application prédictive en batch
- Création d'application prédictive en streaming
- Mise en oeuvre concrète sur un cluster Big Data
- Bonnes pratiques de déploiement
- Lab : Création d'applications en batch et en streaming sur cas concrets
Proposé par
IB Cegos
"Formations aux technologies et métiers du Numérique"
Proposé par
IB Cegos