Data Science - Les fondamentaux
Prérequis
Public admis
- Salarié en Poste
- Entreprise
Demandeur d'emploi et Etudiant non admis
Financement
- Votre OPCO
- Financement personnel
Financement CPF non pris en charge
Modalités
- En centre
- À distance
Objectifs pédagogiques
A l'issue de cette formation, vous serez capable de :
- Identifier les enjeux de la Data Science et de l'IA
- Schématiser le cycle d'un projet Data Science
- Appliquer les meilleures pratiques en matière de nettoyage et de préparation de vos données avant l'analyse
- Modéliser un problème de Data Science.
Programme de la formation
Jour 1
Introduction à la Data Science
- Qu'est-ce que la Data Science ?
- Différence entre statistiques, Data Science et IA
- Champs d'application de la Data Science
- Outils et algorithmes pour faire la Data Science
- Les cycles d'un projet Data Science
L'apprentissage automatique
- L'apprentissage
- Automatique dans le passé
- Supervisé
- Non supervisé
- Renforcé
Rappel Python
- Introduction à Python
- Les structures / propriétés / fonctions spéciales
- La programmation orientée objet
- Manipuler les librairies :
- NumPy
- SciPy
- Pandas
- Matplotlib
Les algorithmes de l'apprentissage automatique
- Réduction de la dimensionnalité avec l'Analyse en Composantes Principales (ACP)
- Analyse de régression linéaire, multilinéaire, polynomiale, logistique et régularisation
- Classification supervisée
- Classification non supervisée et régression avec arbres de décision
- KNN (K-Nearest Neighbors)
- Le K-Means clustering
- Le perceptron et le support des machines vectorielles (SVM)
- Réseaux de neurones artificiels
Exemples de travaux pratiques (à titre indicatif)
- Réalisation d'un projet Data Science de bout en bout
- Collecte des besoins et de l'objectif du projet
- Exploration des données avec Python
- Visualisation avec Matplotlib
- Nettoyage des données
- Imputation des valeurs manquantes (avec moyenne, médiane, most frequent, KNN)
- Réduction de la dimension avec une ACP
- Entraînement de modèles de Machine Learning selon différents algorithmes et comparaison des performances selon différentes métriques
Jour 2
Les indispensables de la Data Science
- Cross-validation
- Les métriques d'évaluation
- Overfitting ou surapprentissage
- Biais vs variance
- Etapes de préparation des données (du nettoyage des données à la compréhension des données)
- Feature Engineering
- Data Visualisation
- La malédiction de la dimension
- Bonnes pratiques
Exemples de travaux pratiques (à titre indicatif)
- Reprise du projet précédent, ingénierie des attributs, amélioration de la qualité des données, et réapprentissage
Data Science et le Big Data
- Initiation aux traitements parallèles avec Spark MLlib
Le contenu de ce programme peut faire l'objet d'adaptation selon les niveaux, prérequis et besoins des apprenants.
Modalités d’évaluation des acquis
- En cours de formation, par des études de cas ou des travaux pratiques
- Et, en fin de formation, par un questionnaire d'auto-évaluation

Proposé par
M2I
"Un leadership dans le domaine de la formation"

Proposé par
M2I
