PySpark - Traitement des données

Public admis

  • Salarié en Poste
  • Demandeur d'emploi
  • Entreprise
  • Etudiant

Financements

Eligible CPF Votre OPCO Financement personnel

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Décrire le principe de fonctionnement de Spark
  • Utiliser l'API PySpark pour interagir avec Spark en Python
  • Mettre en oeuvre les méthodes de Machine Learning avec la librairie MLlib de Spark
  • Traiter les flux de données avec Spark Streaming
  • Manipuler les données avec Spark SQL.

M2I


Un leadership dans le domaine de la formation
Voir la fiche entreprise

Tarif

A partir de 2 280,00 €

Durée 3 jours  (21h00)
Modes
  • Centre
  • Distance
Sessions
Lieux Partout en France

M2I


Un leadership dans le domaine de la formation
Voir la fiche

Tarif

A partir de 2 280,00 €

Durée 3 jours  (21h00)
Modes
  • Centre
  • Distance
Sessions
Lieux Partout en France

Programme

Jour 1

Introduction à Hadoop

  • L'ère du Big Data
  • Architecture et composants de la plateforme Hadoop
  • HDFS
  • NameNode / DataNode / ResourceManager
  • MapReduce et YARN

Introduction à Spark

  • Qu'est-ce que Spark ?
  • Spark vs MapReduce
  • Fonctionnement
    • RDD
    • DataFrames
    • Data Sets
  • Comment interagir avec Spark ?
  • PySpark : programmer avec Spark en Python

Installation de Spark

  • Sur une infrastructure distribuée
  • En local
  • En Cloud (présentation avec Amazon AWS et Microsoft Azure)

Jour 2

Spark pour la manipulation des données - PySpark

  • Utilisation de SparkSQL et des DataFrames pour manipuler des données
  • Charger des données depuis Hadoop, depuis des fichiers CSV, texte, JSON...
  • Transformer des données (création de DataFrames, ajout de colonnes, filtres...)
Exemple de travaux pratiques (à titre indicatif)
  • Chargement et modifications de données avec Spark et PySpark

L'utilisation de spark.ml pour le Machine Learning

  • Apprentissage supervisé
    • Forêts aléatoires avec Spark
  • Mise en place d'un outil de recommandation
  • Traitement de données textuelles
  • Automatiser vos analyses avec des pipelines

Jour 3

Spark Streaming

  • Introduction à Spark Streaming
  • La notion de "DStream"
  • Principales sources de données
  • Utilisation de l'API
  • Manipulation des données

Spark SQL

  • Initialisation à Spark SQL
  • Création de DataFrames
  • Manipulation des DataFrames (opérations basiques, agrégations et groupBy, missing data)
  • Chargement et stockage de données (avec Hive, JSON...)

GraphX et GraphFrames

  • Présentation de GraphX
  • Principe de création des graphes
  • API GraphX
  • Présentation de GraphFrames
  • GraphX vs GraphFrames

Le contenu de ce programme peut faire l'objet d'adaptation selon les niveaux, prérequis et besoins des apprenants.

Modalités d’évaluation des acquis

  • En cours de formation, par des études de cas ou des travaux pratiques
  • Et, en fin de formation, par un questionnaire d'auto-évaluation

Prérequis

Avoir des notions de SQL et des connaissances de base en mathématiques et statistiques. Une première expérience en programmation Python est requise.

Public

Développeurs, Data analysts, Data scientists, architectes Big Data et toute personne souhaitant acquérir des connaissances dans le domaine de la Data Science et sur Spark.

Ces formations pourraient vous intéresser

Objectifs de la formation

  • Pendant la formation, le formateur évalue la progression pédagogique des participants via des QCM, des mises en situation et des travaux pratiques. Les participants passent un test de positionnement avant et après la formation pour valider leurs compétences acquises.
Tarif

Contacter l'organisme

Durée

2 jours (14 heures)

Modes
  • Entreprise
  • Distance
  • Centre

Objectifs de la formation

À l'issue de cette formation Flask, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Construire une API REST avec Flask
  • Sécuriser cette API REST
  • Automatiser la chaîne de construction du projet
  • Déployer le projet élaboré à l'aide de Flask
Tarif

A partir de 1 480,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Choisir le bon mode de communication selon l'interlocuteur et la situation
  • Construire un plan afin de produire un écrit professionnel clair et logique
  • Identifier la fonction de votre écrit afin de présenter un document adapté et soigné
  • Utiliser la méthode QQOQCPC pour collecter toutes les données nécessaires
  • Identifier les différentes méthodes permettant de retranscrire de façon claire
  • Choisir une mise en page et une police adaptées
  • Identifier les principales caractéristiques de la communication par courriel et les impacts sur le contenu
  • Adapter la rédaction du courriel en fonction de votre objectif
  • Ecrire un objet de courriel qui incite votre destinataire à lire votre message
  • Identifier les codes informels du courriel afin d'écrire des messages en phase avec les codes en vigueur
  • Identifier les règles de diffusion, de mise en copie et de réponse des courriels afin de communiquer de façon appropriée
  • Identifier les outils qui vous permettront d'améliorer votre orthographe et votre grammaire.
Tarif

A partir de 2 070,00 €

Durée

3j / 21h

Modes
  • Centre
  • Distance

Formation MLOps

Proposé par Sparks

Objectifs de la formation

  • Définir les concepts clés de MLOps
  • Maîtriser l'ingénierie en Machine Learning
  • Appliquer des techniques de compression des modèles
  • Analyser et corriger les erreurs des modèles
  • Déployer et mettre à l'échelle des modèles ML
Tarif

A partir de 1 500,00 €

Durée

2 jours

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Définir les mécanismes de la Bourse
  • Décrire les mécanismes de régulation de l'économie de marché
  • Appréhender le processus lié aux marchés financiers
  • Analyser l'intérêt éventuel d'une cotation en Bourse
Tarif

A partir de 1 390,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Connaître le métabolisme normal et pathologique des lipoprotéines
  • Interpréter les examens
  • Identifier les examens de biologie utiles pour l’exploration hépatique
Tarif

A partir de 1 160,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Expliquer le contexte général des déchets et le cadre juridique applicable
  • Distinguer les modes de collecte, de stockage, et de traitement des déchets
  • Décrire les règles applicables à la préparation et à la traçabilité des déchets en vue de leur expédition
Tarif

A partir de 2 210,00 €

Durée

3 jours

Modes
  • Entreprise
  • Centre
  • Distance

Formation AutoCAD - Perfectionnement

Proposé par PLB CONSULTANT

Objectifs de la formation

Cette formation se fonde sur une trame pédagogique largement ouverte sur les questions des apprenants. Le programme est donc prévu pour prendre en compte les besoins particuliers. Le but de ce stage est de vous permettre de dresser un inventaire de vos interrogations et de trouver une réponse technique adaptée, à partir des difficultés que vous avez rencontrées dans votre pratique d’Autocad.
A cette occasion, vous pourrez renforcer la stabilité de vos méthodes, préciser différentes options en tenant compte d’objectifs spécifiques, améliorer la fluidité des échanges avec les différents acteurs des projets, découvrir enfin des aspects insuffisamment explorés d’Autocad mais souvent importants à connaitre.

Ce stage vous permettra de développer des aspects spécifiques de vos compétences, en rapport avec des cas concrets et avec des appuis méthodologiques renforcés.

La formation se déroule sur la dernière version en cours mais peut tout à fait être adaptée sur les versions antérieures selon les besoins. Contactez notre service commercial pour connaitre les modalités d'inscription.

Tarif

A partir de 960,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise

Objectifs de la formation

À l'issue de cette formation NetApp VMware, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Décrire la solution de virtualisation VMware Vsphere 6.x
  • Comprendre l'articulation entre Data OnTap et Vsphere 6.x
  • Configurer les infrastructures physiques et virtuelles
  • Provisionner votre infrastructure virtuelle sur stockage NetApp, avec Clustered OnTap
  • Créer, migrer et cloner des VMs
  • Protéger, surveiller et optimiser l'infrastructure virtuelle
Tarif

A partir de 1 800,00 €

Durée

2j / 14h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Pendant la formation, le formateur évalue la progression pédagogique des participants via des QCM, des mises en situation et des travaux pratiques. Les participants passent un test de positionnement avant et après la formation pour valider leurs compétences acquises.
Tarif

Contacter l'organisme

Durée

4 jours (28 heures)

Modes
  • Entreprise
  • Distance
  • Centre

Je cherche à faire...