Data Science avec Python (Scikitlearn)
Prérequis
Public admis
- Salarié en Poste
- Entreprise
Demandeur d'emploi et Etudiant non admis
Financement
- Votre OPCO
- Financement personnel
Financement CPF non pris en charge
Modalités
- En centre
- À distance
Objectifs pédagogiques
A l'issue de cette formation, vous serez capable de :
- Utiliser Scikitlearn pour créer des modèles d'apprentissage machine
- Concevoir des expériences et interpréter les résultats des tests A/B
- Visualiser l'analyse de clustering et de régression en Python à l'aide de Matplotlib
- Produire des recommandations automatisées de produit ou de contenu avec des techniques de filtrage collaboratif
- Appliquer les meilleures pratiques en matière de nettoyage et de préparation de vos données avant l'analyse.
Programme de la formation
Jour 1
Introduction à la Data Science (la science des données)
- Qu'est-ce que la Data Science ?
- Définition
- Différence entre statistiques et Data Science
- Champs d'application de la Data Science
- Outils et algorithmes pour faire de la Data Science
- Les méthodes de Machine Learning (apprentissage automatique)
- L'apprentissage supervisé
- L'apprentissage non supervisé
- L'apprentissage renforcé
Le langage de programmation Python - Bases
- Introduction à Python
- Les structures / propriétés / fonctions spéciales
- La Programmation Orientée Objet (POO)
- La bibliothèque standard
Le langage de programmation Python - Avancé
- Notions avancées de Python
- Respecter de bonnes pratiques de développement
- Manipuler les librairies NumPy, SciPy, Pandas et Matplotlib
Préparation de données pour la Data Science
- Pourquoi la préparation des données est-elle si importante en Data Science ?
- Étapes de préparation des données (du nettoyage des données à la compréhension des données)
Jour 2
Exemples de travaux pratiques sur Scikitlearn (à titre indicatif)
- Maîtriser les techniques d'apprentissage automatique et d'exploration de données avec Scikitlearn de Python
- Extraction de caractéristiques et prétraitement
- Réduction de la dimensionnalité avec l'Analyse des Composants Principaux (PCA)
- Analyse de régression linéaire, multi-linéaire, polynomiale, logistique et régularisation
- Classification supervisée
- Classification non supervisée et régression avec arbres de décision
- K-means clustering
- Perceptron et le Support des Machines Vectorielles (SVM)
- Réseaux de neurones artificiels
Jour 3
Exemples de travaux pratiques sur Scikitlearn (à titre indicatif) - Suite
- Maîtriser les techniques d'apprentissage automatique et d'exploration de données avec MLlib d'Apache Spark
- Analyse en composantes principales
- Analyse de régression
- K-means clustering
- Train / Test et validation croisée
- Méthodes bayésiennes
- Arbres de décision et forêts aléatoires
- Régression multivariée
- Modèles multiniveaux
- Support des Machines Vectorielles (SVM)
- Apprentissage par renforcement
- Filtrage collaboratif
- K plus proche voisin
- Le compromis biais / variance
- Apprentissage d'ensemble
- Fréquence de terme / Fréquence inverse de documents
- Conception expérimentale et A/B testing
Cas d'usage particuliers de Data Science
- Algorithmes de classification / supervisés et non supervisés
- Classification des itinéraires / chemins (basée sur les matrices origines / destinations temporelles)
- Détection de mode de transport ou forme de mobilité à partir de jeux de données images
- Algorithmes de recommandation
- Filtrage collaboratif pour les recommandations : basé sur le contenu, les éléments, l'utilisateur ou filtrage hybride
- Clustering pour les recommandations
- Deep Learning pour les recommandations
Le contenu de ce programme peut faire l'objet d'adaptation selon les niveaux, prérequis et besoins des apprenants.
Modalités d’évaluation des acquis
- En cours de formation, par des études de cas ou des travaux pratiques
- Et, en fin de formation, par un questionnaire d'auto-évaluation
Proposé par
M2I
"Un leadership dans le domaine de la formation"
Proposé par
M2I