Spark en Python : analyse de données et machine learning

Qualiopi

Cette formation en Big Data présente le framework Spark de calcul distribué. Vous écrirez les tâches avec le langage Python en utilisant la bibliothèque PySpark. Vous utiliserez la bibliothèque Machine Learning MLlib ainsi que les technologies Spark SQL, Spark Streaming.

À partir de 2050 €

Durée 21h en 3 jours

Localisation Partout en France

Proposé par

DEMOS

Prérequis

Cette formation ne nécessite aucun pré-requis.

Public admis

Salarié en Poste
Entreprise

Demandeur d'emploi et Etudiant non admis

Financement

Votre OPCO
Financement personnel

Financement CPF non pris en charge

Modalités

En entreprise

Objectifs pédagogiques

Comprendre le principe de fonctionnement d’Apache Spark
Utiliser PySpark pour manipuler des données avec Python
Traiter les flux de données en temps réel avec Spark Streaming

Programme de la formation

Introduction au big data
Environnements big data : Hadoop, Mapreduce, Spark, etc.
Découvrir l’environnement Spark
Utilisation Spark : Quels avantages ?
Comment installer Apache Spark
Quelle infrastructure pour utiliser Spark en entreprise ?
Les principes et fonctionnement de l’environnement Spark : RDD, DataFrame, DataSet…

Manipuler des données avec Python, Pyspark
Rappels sur Python et la manipulation des données
Utilisation de SparkSQL et des DataFrames pour manipuler des données
Bonnes pratiques de Spark pour la manipulation de volume important de données

Architecture et composants de la plateforme Hadoop
Chargement des données depuis Hadoop, depuis des fihiers csv…
Transformer des données (création de DataFrames, ajout de colonnes, filtres…)
Cas pratiques de chargement et de modifications de données avec PySpark

Comprendre MLlib avec les principaux algorithmes d’apprentissage et méthodes statistiques (régression, discrimination, foret aléatoires, etc.)
Utiliser spark.ml pour la machine learning
Traitement de données textuelles

Automatiser vos analyses avec des pipelines
Analyser en temps réel avec Spark streaming
Principe de fonctionnement
Présentation des Discretized Streams
Les différents types de sources
Manipulation de l’API
Comparaison avec Apache Storm

Proposé par

DEMOS

"Leader de la formation professionnelle et du conseil en ressources humaines"

Voir la fiche entreprise

À partir de 2050 €

Spark en Python : analyse de données et machine learning

Prérequis

Public admis

Financement

Modalités

Objectifs pédagogiques

Programme de la formation

DEMOS

Spark en Python : analyse de données et machine learning

0 ville proposant cette formation

Demande de devis

Votre projet de formation

Vos coordonnées

Prérequis

Public admis

Financement

Modalités

Objectifs pédagogiques

Programme de la formation

DEMOS

Ces formations pourraient vous intéresser

Spark en Python : analyse de données et machine learning

0 ville proposant cette formation