Formation - Big Data - Architectures
Qualiopi
Objectifs pédagogiques
- Cette formation fait l'objet d'une évaluation formative.
Programme de la formation
1 - Introduction
- L'essentiel du Big Data : calcul distribué, données non structurées
- Besoins fonctionnels et caractéristiques techniques des projets
- La valorisation des données
- Le positionnement respectif des technologies de Cloud, Big Data et NoSQL et les liens, implications
- Concepts clés : ETL, Extract Transform Load, CAP, 3V, 4V, données non structurées, prédictif, Machine Learning
- Exemple d'application : Amazon Rekognition, Polly, EMR
- L'écosystème du Big Data : les acteurs, les produits, état de l'art
- Cycle de vie des projets Big Data
- Emergence de nouveaux métiers : Data scientists, Data labs, Hadoop scientists, CDO, ...
- Rôle de la DSI dans la démarche Big Data
- Gouvernance des données : importance de la qualité des données, fiabilité, durée de validité, sécurité des données
- Aspects législatifs : sur le stockage, la conservation de données, etc ... sur les traitements, la commercialisation des données, des résultats
2 - Stockage distribué
- Caractéristiques NoSQL
- Les différents modes et formats de stockage
- Les types de bases de données : clé/valeur, document, colonne, graphe
- Besoin de distribution
- Définition de la notion d'élasticité
- Principe du stockage réparti
- Définitions : réplication, sharding, gossip, hachage
- Systèmes de fichiers distribués : GFS, HDFS, Ceph
- Les bases de données : Redis, Cassandra, DynamoDB, Accumulo, HBase, MongoDB, BigTable, Neo4j, ...
- Données structurées et non structurées, documents, images, fichiers XML, JSON, CSV, ...
- Moteurs de recherche
- Principe de fonctionnement
- Méthodes d'indexation
- Recherche dans les bases de volumes importants
- Présentation d'Elasticsearch et SolR
- Principe du schemaless, schéma de stockage, clé de distribution, clé de hachage
3 - Calcul et restitution, intégration
- Différentes solutions : calculs en mode batch, ou en temps réel, sur des flux de données ou des données statiques
- Les produits : langage de calculs statistiques, R Statistics Language, sas, RStudio
- Outils de visualisation : Tableau, QlikView
- Ponts entre les outils statistiques et les bases Big Data
- Outils de calcul sur des volumes importants : Kafka/Spark Streaming/Storm en temps réel, Hadoop/Spark en mode batch
- Zoom sur Hadoop : complémentarité de HDFS et YARN
- Restitution et analyse : logstash, kibana, elk, zeppelin
- Principe de map/reduce et exemples d'implémentations, langages et sur-couches
- Présentation de Pig pour la conception de tâches map/reduce sur une grappe Hadoop
Proposé par
IB Cegos
"Formations aux technologies et métiers du Numérique"
Durée
2 jours (14 heures)
Localisation
Partout en France
Proposé par
IB Cegos