Web scraping avec Python
Qualiopi
Objectifs pédagogiques
A l'issue de cette formation, vous serez capable de :
- Réaliser du scraping de données
- Faire les actions d'ingestion nécessaires pour alimenter un Data Lake.
Programme de la formation
Les bases du langage Python
- Les caractéristiques du langage Python
- Pourquoi choisir Python pour l'analyse de données ?
- Types de bases
- Les instructions de bases
- Les procédures et fonctions
L'ingestion avec Python
- Utiliser la librairie Pandas pour manipuler les données
- Introduction du concept de DataFrame
- Les structures :
- Interrogation
- Indexation
- Traitement de "données manquantes"
- Fusion de DataFrames
- Manipulation des dates
- Application de mesures statistiques variées sur les DataFrames
- Bonne compréhension des problèmes d'échelle de mesure, de normalisation
- Création de métriques d'analyse
Scraping de données
- Qu'est-ce que le scraping ?
- Définition du scraping et de ses différents niveaux de difficulté sur plusieurs supports
- Depuis le Web
- Depuis du papier
- Depuis des PDF
- Exemples de projets réalisés grâce au scraping
- L'architecture d'Internet
- Qu'est-ce qu'un "client" ? Qu'est-ce qu'un "serveur" ? Pourquoi est-ce important ?
- Comment HTTP et HTML impactent-t-ils nos scrapers ?
- Qu'est-ce qu'une balise HTML ? Un attribut ?
- Comment identifier certains éléments avec une "class" ou un "id" ?
Python comme solution ETL
- Les formats de données structurées : CSV, flux XML et JSON
- Lecture et écriture de fichiers
- Exploitation des données de fichiers de différentes sources
- Fonctions d'accès et de chargement de données en blocs de lignes
- Outils spécifiquement dédiés au scraping :
- Beautiful Soup
- CSS Select
Mise en oeuvre d'un scraper
- Un scraper simple (requêtes GET, pages séquencées)
- Identifier la stratégie à adopter pour naviguer sur le site
- Coder le scraper
- Un scraper complexe : envoyer des données à un site Internet pour obtenir des résultats plus complexes
- Qu'est ce qu'une requête POST et une requête GET ?
- Parcourir un site pour trouver les données
- Identifier la stratégie à adopter
- Coder le scraper
Le contenu de ce programme peut faire l'objet d'adaptation selon les niveaux, prérequis et besoins des apprenants.
Modalités d’évaluation des acquis
- En cours de formation, par des études de cas ou des travaux pratiques
- Et, en fin de formation, par un questionnaire d'auto-évaluation

Proposé par
M2I
"Un leadership dans le domaine de la formation"
À partir de
2010 €
Durée
21h en 3 jours
Localisation
Partout en France

Proposé par
M2I
À partir de
2010 €
