Spark Scala - Traitement des données

Public admis

  • Salarié en Poste
  • Demandeur d'emploi
  • Entreprise
  • Etudiant

Financements

Eligible CPF Votre OPCO Financement personnel

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Naviguer dans l'écosystème Spark en utilisant Scala comme langage de programmation.

M2I


Un leadership dans le domaine de la formation
Voir la fiche entreprise

Tarif

A partir de 2 280,00 €

Durée 3 jours  (21h00)
Modes
  • Centre
  • Distance
Sessions
Lieux Partout en France

M2I


Un leadership dans le domaine de la formation
Voir la fiche

Tarif

A partir de 2 280,00 €

Durée 3 jours  (21h00)
Modes
  • Centre
  • Distance
Sessions
Lieux Partout en France

Programme

Jour 1

Introduction à Scala pour Apache Spark

  • Présentation de Scala
  • Pourquoi Scala avec Spark ?
  • Scala dans les autres framework
  • Introduction à Scala REPL
  • Les opérations basiques sur Scala
  • Les types de variables dans Scala
  • Les structures de contrôles dans Scala
    • Les boucles
    • Les fonctions
    • Les procédures
  • Les collections dans Scala (Array, ArrayBuffer, Map, Tuples, Lists...)

Introduction au Big Data et Apache Spark

  • Introduction au Big Data
  • Les challenges du Big Data
  • Batch vs le temps réel dans le Big Data Analytics
  • Analyse en Batch Hadoop
  • Vue d'ensemble de l'écosystème
  • Les options de l'analyse en temps réel
  • Streaming Data Spark
  • In-memory Data Spark
  • Présentation de Spark
  • Ecosystème Spark
  • Les modes de Spark
  • Installation de Spark
  • Vue d'ensemble de Spark en cluster
  • Spark Standalone cluster
  • Spark Web UI

Jour 2

Les opérations communes sur Spark

  • Utilisation de Spark Shell
  • Création d'un contexte Spark
  • Chargement d'un fichier en Shell
  • Réalisation d'opérations basiques sur un fichier avec Spark Shell
  • Présentation du l'environnement de développement SBT
  • Créer un projet Spark avec SBT
  • Exécuter un projet Spark avec SBT
  • Le mode local
  • Le mode Spark
  • Le caching sur Spark
  • Persistance distribuée

Introduction aux RDD et DataFrame

  • Transformations dans le RDD
  • Actions dans le RDD
  • Chargement de données dans RDD
  • Enregistrement des données à travers RDD
  • Paire clé-valeur "RDD MapReduce" et les paires "RDD Operations"
  • Intégration HDFS avec Spark et Hadoop
  • Intégration YARN avec Spark et Hadoop
  • Gestion des fichiers de séquences et les partitionner
Exemple de travaux pratiques (à titre indicatif)
  • Data PreProcessing avec Spark DataFrame

Jour 3

Spark Streaming et MLlib

  • Architecture de Spark Streaming
  • Premier programme avec Spark Streaming
  • Les transformations dans Spark Streaming
  • La "fault tolerance" dans Spark Streaming
  • Checkpointing
  • Niveaux de parallélismes
  • Machine Learning avec Spark
  • Types de données
  • Algorithmes et statistiques
  • Classification et régression
  • Clustering
  • Filtrage collaboratif

GraphX, SparkSQL et amélioration des performances dans Spark

  • Analyse de l'architecture de Hive et Spark SQL
  • SQLContext dans Spark SQL
  • Travailler avec les DataFrames
  • Implémentation d'un exemple pour Spark SQL
  • Intégration de Hive et Spark SQL
  • Support pour JSON et les formats des "Parquet File"
  • Implémentation de la Data Visualization avec Spark
  • Chargement de données
  • Les requêtes Hive à travers Spark
  • Les techniques de tests dans Scala
  • Les astuces d'amélioration de performance dans Spark
  • Les variables partagées
  • Diffusion des variables
  • Partage de variables
  • Accumulateurs

Le contenu de ce programme peut faire l'objet d'adaptation selon les niveaux, prérequis et besoins des apprenants.

Modalités d’évaluation des acquis

  • En cours de formation, par des études de cas ou des travaux pratiques
  • Et, en fin de formation, par un questionnaire d'auto-évaluation

Prérequis

Connaître la programmation fonctionnelle et avoir des connaissances sur la gestion des bases de données.

Public

Statisticiens, consultants Big Data, data analysts, data scientists.

Ces formations pourraient vous intéresser

Objectifs de la formation

  • Comprendre les grands enjeux et étapes de l'analyse métier dans un projet
  • Identifier et décrire des processus et données métiers
  • Recueillir, spécifier, documenter et analyser les besoins métiers et utilisateurs
  • Décrire l'architecture fonctionnelle et technique d'un système à développer
Tarif

A partir de 1 500,00 €

Durée

2 jours

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

Apprendre à  installer et à  administrer Windows Server - Gérer les utilisateurs - Découvrir NTFS - Configurer une imprimante
Tarif

A partir de 1 590,00 €

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

• Connaître les leviers de la performance sociale
• Mesurer, piloter et déployer une politique de performance sociale

Tarif

A partir de 1 400,00 €

Durée

Nous contacter

Modes

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Reconnaître et appliquer les différentes fonctionnalités avancées de ce logiciel de dessin pour produire des documents informatiques de vos projets.
Tarif

A partir de 1 530,00 €

Durée

3j / 21h

Modes
  • Centre
  • Distance

Objectifs de la formation

  • Pendant la formation, le formateur évalue la progression pédagogique des participants via des QCM, des mises en situation et des travaux pratiques. Les participants passent un test de positionnement avant et après la formation pour valider leurs compétences acquises.
Tarif

Contacter l'organisme

Durée

2 jours (14 heures)

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

A l'issue de cette formation, vous serez capable de :

  • Analyser et corriger des problèmes de conformité du système à l'aide d'OpenSCAP et de SCAP Workbench
  • Utiliser et adapter le contenu de politiques de référence fourni avec Red Hat Enterprise Linux
  • Gérer les activités en lien avec la sécurité sur vos systèmes à l'aide de l'infrastructure d'audit du noyau
  • Mettre en oeuvre des techniques SELinux avancées pour restreindre l'accès au niveau des utilisateurs, des processus et des machines virtuelles
  • Déterminer l'intégrité des fichiers et de leurs permissions avec l'utilitaire AIDE
  • Bloquer l'utilisation de périphériques USB non autorisés à l'aide d'USBGuard
  • Protéger des données au repos avec déchiffrement automatique sécurisé dès le démarrage avec NBDE
  • Identifier des risques et des erreurs de configuration de façon proactive sur les systèmes et correction à l'aide de Red Hat Insights
  • Analyser l'état de conformité et corriger à grande échelle à l'aide d'OpenSCAP, de Red Hat Insights, de Red Hat Satellite et de Red Hat Ansible Tower.
Tarif

Contacter l'organisme

Durée

5j / 30h

Modes
  • Centre
  • Distance

Ethique au laboratoire

Proposé par BIOFORMATION

Objectifs de la formation

  • Se positionner dans les situations difficiles : traitement d’un dossier particulier, expertise supplémentaire, confidentialité ...
  • Former et informer les nouveaux arrivants sur les problématiques d’éthique au laboratoire
  • Elaborer une charte d’éthique au laboratoire
Tarif

A partir de 580,00 €

Durée

1j / 7h

Modes
  • Centre
  • Entreprise
  • Distance

Objectifs de la formation

  • Cette formation fait l'objet d'une évaluation formative.
Tarif

Contacter l'organisme

Durée

5 jours (35 heures)

Modes
  • Centre
  • Distance

Formation Community Manager

Proposé par LEFEBVRE DALLOZ COMPETENCES

Objectifs de la formation

  • Identifier les enjeux du community manager
  • Créer son dispositif d'écoute active sur les réseaux sociaux
  • Animer et fédérer sa communauté
  • Identifier les meilleurs réseaux sociaux où être présent
  • Faire vivre sa marque grâce aux média sociaux
Tarif

Contacter l'organisme

Durée

Nous contacter

Modes

SQL – Les fondamentaux

Proposé par ENI Service

Objectifs de la formation

  • Appréhender les principaux concepts des SGDBR (Système de Gestion des Bases de Données Relationnelles) et d'algèbre relationnelle utilisés dans le langage SQL
  • Prendre en main un environnement SQL
  • Appréhender l'écriture des requêtes SQL pour extraire des données et mettre à jour la base
  • Manipuler les données dans une base avec SQL
  • Extraire les informations de plusieurs tables
  • Assimiler les fonctions standards du langage SQL
Tarif

A partir de 1 790,00 €

Durée

3j / 21h

Modes
  • Centre
  • Entreprise
  • Distance

Je cherche à faire...