Formation Apache Spark : Programmer avec Apache Spark de Databricks

Public admis

  • Salarié en Poste
  • Demandeur d'emploi
  • Entreprise
  • Etudiant

Financements

Eligible CPF Votre OPCO Financement personnel

Objectifs de la formation

À l'issue de cette formation Apache Spark, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Décrire les fondamentaux de Spark
  • Exploiter les APIs de base de Spark pour manipuler des données
  • Concevoir et implémenter des cas d’usage typiques de Spark
  • Construire des pipelines de données et requêter de larges jeux de données grâce à Spark SQL et aux DataFrames
  • Analyser les jobs Sparks à l’aide des interfaces d’administration et des logs au sein des environnements Databricks
  • Créer des jobs de type Structured Streaming
  • Découvrir les bases du fonctionnement interne de Spark
  • Découvrir le pattern Deltalake

PLB CONSULTANT


Informatique et Management
Voir la fiche entreprise

Tarif

A partir de 1 780,00 €

Durée 2 jours (14h)
Modes
  • Centre
  • Entreprise
  • Distance
Sessions
Lieux Partout en France

PLB CONSULTANT


Informatique et Management
Voir la fiche

Tarif

A partir de 1 780,00 €

Durée 2 jours (14h)
Modes
  • Centre
  • Entreprise
  • Distance
Sessions
Lieux Partout en France

Description

Apache Spark est un moteur d'analyses unifiées ultra-rapide pour le big data et le machine learning. Depuis sa sortie, il a connu une adoption rapide par les entreprises de secteurs très divers. Des acteurs majeurs du monde de l'internet tels que Netflix, Yahoo et eBay l’ont déployé à très grande échelle, traitant ensemble plusieurs peta-octets de données sur des clusters de plus de 8 000 nœuds.

En deux jours, cette formation propose un panorama pratique de la solution Apache Spark en alternant des présentations théoriques et des exercices pratiques. Ce module couvre les APIs de base de Spark, les fondamentaux et les mécanismes du framework, mais aussi les outils de plus haut-niveau, dont SQL, ainsi que ses capacités de traitement en streaming et l’API de machine learning.

À l’issue de la session, les notebooks peuvent être conservés et être réutilisés dans le service cloud gratuit Databricks Community Edition, pour lequel la compatibilité est garantie. Il est également possible d’exporter le notebook sous forme de code source pour exécution sur n’importe quel environnement Spark.

Programme

Jour 1

Aperçu de Spark et DataFrames

Introduction
L’écosystème Databricks
Spark SQL
Lecture et écriture de données
Dataframe et colonnes

Transformations et manipulations de données

Agrégations
Datetimes
Types complexes
Fonctions additionnelles
UDF : User Defined Functions

Jour 2

Optimisation de Spark

Architecture
Shuffle et Cache
Optimisation des requêtes
Spark UI
Gestion des partitions

Structured Streaming

Exposés
Streaming et requêtes
Processing streaming
Agrégations
Deltalake

Conclusion

Prérequis

Pour suivre cette formation Apache Spark dans de bonnes conditions, une expérience de programmation en langage objet ou fonctionnel est impérative.
Une première expérience avec Apache Spark et Spark DataFrames sont également souhaitables, en particulier si vous visez la certification associée.

Public

Ce cours Apache Spark s'adresse principalement aux data engineers et data analysts ayant l'expérience des traitements Big Data, souhaitant apprendre à utiliser Apache Spark, à construire des jobs Spark et à déboguer des applications Spark.

Ces formations pourraient vous intéresser

Formation Cursus Data Scientist

Proposé par PLB CONSULTANT

Objectifs de la formation

À l'issue de ce cursus Data Scientist, vous serez à même de maîtriser tous les tenants et aboutissants du Big Data grâce à l'assimilation des connaissances et compétences suivantes :

  • Comprendre le vocabulaire des statisticiens et savoir effectuer des calculs récurrents
  • Savoir situer la frontière entre statistiques et probabilités
  • Savoir choisir le bon outil pour représenter vos études statistiques, et bien communiquer dessus
  • Connaître les acteurs du Big Data et leur niveau d'interdépendance
  • Connaître les spécificités d'une infrastructure Big Data : stockage de données, analyse, visualisation...
  • Manipuler des données, des objets et programmer avec R
  • Maîtriser les fonctionnalités plus avancées de R : packages, structrures de données, Rmarkdown, purr...
  • Comprendre les différences entre apprentissage automatique supervisé, non supervisé et meta-apprentissage
  • Maîtriser l’utilisation d’algorithmes d'auto-apprentissage adaptés à une solution d'analyse, et appliquer ces techniques à des projets Big Data
  • Gérer, collecter, analyser et visualiser vos données
  • Mettre en récit vos analyses pour les promouvoir en interne ou en externe
Tarif

A partir de 9 890,00 €

Durée

19j / 133h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Comprendre les spécificités du traitement de données en temps réel
  • Connaître les différents composants et l'architecture d'un système de data streaming
  • Construire des pipelines pour le traitement de données en continu avec Kafka, Airflow ou Spark
Tarif

A partir de 3 000,00 €

Durée

4 jours

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

Plus concrètement cette formation Outlook 2016 Initiation vous aurez acquis les connaissances et les compétences nécessaires pour :

  • Savoir utiliser de façon opérationnelle les fonctions de messagerie et des gestions des contacts
  • Savoir utiliser plusieurs calendriers pour programmer des rendez-vous et des réunions
  • Créer des tâches et des notes
Tarif

A partir de 390,00 €

Durée

1j / 7h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

À l'issue de cette formation Kafka Flux de données, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Comprendre le fonctionnement d’Apache Kafka
  • Connaître et mettre en œuvre les bonnes pratiques liées à l’utilisation d’une messagerie distribuée
  • Savoir intégrer les flux d’évènements et d’autres données liées au Big Data à Kafka
  • Être capable d’interagir avec les APIs de Kafka
  • Connaître le fonctionnement et les différences entre KSQL et Kafka Streams
  • Savoir intégrer la sécurité au sein d’un projet Apache Kafka
Tarif

A partir de 1 995,00 €

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Développer une application s’appuyant sur Spark
  • Connaître les différents concepts sous-jacents et les APIs
  • Exécuter, tester, optimiser une application utilisant Spark
  • Appréhender les problématiques de machine learning avec SparkML
Tarif

Contacter l'organisme

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Formation Cassandra

Proposé par PLB CONSULTANT

Objectifs de la formation

À l'issue de cette formation Cassandra vous aurez acquis les connaissances et compétences nécessaires :

  • Connaître l’architecture, le fonctionnement et les apports de Cassandra dans l’écosystème NoSQL
  • Savoir installer et configurer Apache Cassandra
  • Être capable d’administrer et de sécuriser un cluster Cassandra
  • Connaître les commandes de base ainsi que le CQL (Cassandra Query Language)
  • Être capable de gérer une base de données Cassandra au quotidien (création, manipulation…)
  • Être capable de monter un cluster (grappe) de serveurs hautement disponibles
  • Savoir surveiller l’état de santé, les logs et métriques applicatifs
Tarif

A partir de 1 950,00 €

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Utiliser les API de programmation avancée de la plate-forme Java
  • Écrire des programmes accédants aux bases de données
  • Mettre en œuvre la programmation parallèle par l’utilisation des Threads
  • Ecrire des programmes manipulant les entrées/sorties et l’accès aux ressources réseau
  • Implémenter efficacement un système de journalisation dans une application Java
  • Concevoir des interfaces graphiques avancées
  • Externaliser les chaînes de caractères des codes sources et mettre en œuvre l’internationalisation des applications
  • Superviser une application Java avec JMX
Tarif

Contacter l'organisme

Durée

4j / 28h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

A l'issue de cette formation Apache, Administrer un Serveur Web perfectionnement, vous aurez acquis les connaissances et compétences nécessaires pour : 

  • Utiliser Apache comme serveur de fichiers afin d'enrichir les fonctionnalités de votre site
  • Gérer les logs et des statistiques, ainsi que la virtualisation (Xen)
  • Maîtriser les fonctionnalités offertes par ce marché en sécurisant fortement son fonctionnement
Tarif

Contacter l'organisme

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

À l'issue de cette formation Big Data sur Amazon Web Services (AWS), vous aurez acquis les connaissances et compétences nécessaires pour :

  • Comprendre les applications d'Apache Hadoop dans le contexte d'Amazon EMR
  • Comprendre l'architecture d'un cluster Amazon EMR
  • Lancer un cluster Amazon EMR en utilisant une image machine Amazon (AMI) et des types d'instances Amazon EC2 adaptés
  • Connaître les options d'importation, de transfert et de compression des données destinées à Amazon EMR
  • Sélectionner les options de stockage de données sur AWS les plus adaptées à leur traitement dans Amazon EMR
  • Utiliser les frameworks de programmation courants compatibles avec Amazon EMR, notamment Hive, Pig et Streaming
  • Utiliser Amazon Redshift pour déployer une solution de Big Data
  • Utiliser un logiciel de visualisation des Big Data
  • Sélectionner les options de sécurité les plus adaptées à Amazon EMR et à vos données
  • Effectuer des analyses de données en mémoire avec Spark et Shark sur Amazon EMR
  • Sélectionner les options adaptées pour gérer votre environnement Amazon EMR de façon rentable
  • Comprendre les avantages d'Amazon Kinesis pour les applications de Big Data.
Tarif

Contacter l'organisme

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Canva : Créez des Designs Pro en un clin d'œil

Proposé par Bureau de la Formation

Objectifs de la formation

  • Connaitre les différentes interfaces de Canva.
  • Savoir organiser ses projets.
  • Être capable de modifier et personnaliser un modèle Canva à son image.
  • Savoir exporter un projet dans un format adapté à sa destination.
  • Être capable de programmer la mise en ligne d’une publication sur un réseaux social.
  • Savoir créer des publications personnalisées pour Facebook et Instagram.
Tarif

A partir de 1 050,00 €

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Je cherche à faire...