Formation - Big Data - Python pour l'analyse de données
Qualiopi
Objectifs pédagogiques
- Cette formation fait l'objet d'une évaluation formative.
Programme de la formation
1 - Positionnement Python
- Besoins des data-scientist : calculs, analyse d'images, machine learning, interface avec les bases de données
- Apports de python : grande variété d'outils, expertise dans le domaine du calcul scientifique
- Tour d'horizon des outils : pandas, agate, bokeh, scikit-learn, pybrain, tensorflow, keras, mxnet, caffe
2 - Calculs et graphiques
- NumPy : base du calcul sur des tableaux
- SciPy : Scientific Tools for Python, couche scientifique
- Manipulation de tableaux, fonctions mathématiques
- Représentation graphique avec basemap et matplotlib
- Mise en oeuvre de SciPy/NumPy : manipulation d'images, détection de contours
Mise en oeuvre de SciPy/NumPy : manipulation d'images, détection de contours
3 - Être capable d'extraire des données d'un fichier
- Pandas : manipulation de tables de données
- Tableaux avec Pandas : indexation, opérations, algèbre relationnelle
- Stockage dans des fichiers : CSV, h5py, netCDF
- Comparaison et performances Pandas / NumPy
Construction d'ETL de base entre json et csvkagglt.com,
4 - Comprendre les mécanismes d'interconnexion aux bases de données
- Définitions : pilotes, connexions, curseurs, CRUD, transactions
- Les pilotes : postgresql, mysql, mariadb
- Présentation de sql-alchemy
- Opérations : gestion du curseur, chargement de données, insertion et modification d'enregistrements
Mise en oeuvre avec postgresql. Construction d'ETL SQL/json
5 - Comprendre les principaux outils de traitement et d'analyse de données pour Python
- Présentation des outils d'apprentissage Python : scikit-learn, pybrain, TensorFlow/keras, mxnet, caffe
Mise en oeuvre de scikit-learn
6 - Créer des sélections et des classements dans de grands volumes de données pour dégager des tendances
- Présentation de pyspark
- Machine learning et deep learning : les solutions Python
- TensorFlow : principe de fonctionnement, plateformes supportées, distribution
7 - Sites de références data-sciences
- Ressources d'apprentissage, datasets, modèles de données pré-entrainés
- Présentation de : kaggle.com, data-puzzles.com, huggingface.co
8 - Optimisation des développements
- Tour d'horizon des outils actuels et futurs : Jupyter notebook
- Aide à la vérification de code
- Respect des recommandations PEP8 : exemples avec pydecodestyle, Pylint, Black
- Analyse et production de code informatique avec une IA
- Génération de code avec OpenAI : démonstrations ChatGPT, apports, bonnes pratiques.
Utilisation de la génération de code et de snippets Python avec ChatGPT

Proposé par
IB Cegos
"Formations aux technologies et métiers du Numérique"
Durée
4 jours (28 heures)
Localisation
Partout en France

Proposé par
IB Cegos
