Je sais faire les actions suivantes :
Les missions de l'expert Big Data Engineer recouvrent les domaines suivants : ANALYSER L’EXISTANT ET PROPOSER DES SOLUTIONS LIÉES A LA DATA Analyse des besoins et des problématiques : * Référencement et regroupement de l'ensemble des sources de données structurées ou non structurées nécessaires et pertinentes à l'analyse ; * Analyse de la problématique liée aux données (data) ; * Conception d’un projet data avec les parties prenantes ; * Prise en compte de l’outil informatique existant (serveurs de stockage). Identification des données de l’organisation * Supervision d’une réunion d’équipe ; * Management de projet de la team data ; * Collecte des données auprès des différents services/responsables métiers ; * Cartographie des données. Formalisation du besoin et des solutions techniques : * Formalisation du besoin et des enjeux ; * Analyse de manière qualitative et quantitative du projet dans son ensemble ; * Analyse des données (data) et des données non-structurées ; * Réalisation d’un cahier des charges. Préconisations de stratégies en matière de possession, gestion et transformation des données : * Proposition d’une stratégie data ; * Prise en compte du droit des données ; * Prise en compte du cloud computing (serveurs, stockage, mise en réseau, logiciels) de l’entreprise/collectivité dans sa stratégie ; * Prise en compte des risques liés à la donnée ; * Proposition de serveurs auprès des utilisateurs de l’organisation privée/public DÉPLOYER DES INFRASTRUCTURES INFORMATIQUES POUR ANALYSER LA DATA Définition de l’architecture de stockage * Identification des solutions de stockage possibles des données ; * Utilisation d’un logiciel de stockage des données (Hadoop) ; * Proposition de solutions d’entrepôts de données (stockage interne, stockage en ligne) en fonction de l’organisation ; * Explication et documentation du choix de la solution proposée ; * Prise en compte de la législation des données selon la situation des serveurs (UE/hors UE). Tests et mise en place de protocoles * Réalisation de tests sur lesweb services ; * Rédaction des protocoles à destination des utilisateurs de ces outils ; * Communication auprès des équipes sur les protocoles existants et sur leur utilisation. Extraction d’information (Information Retrieval) * Utilisation d’outils de visualisation de tendances en grandes dimensions ; * Mise en place d’enrichissement des données ; * Calcul d’indicateurs ; * Mise en œuvre d’interconnexion et visualisation de graphes sociaux distribués. TRAITER ET VISUALISER DE LA DATA Mise en œuvre de langages et outils de programmation * Utilisation d’une programmation pour l’analyse décisionnelle ; * Utilisation de langages et outils de programmation (ElasticSearch Java mapReduce, Python, R, SCALA) ; * Mise en œuvre des algorithmes de traitement de grosses volumétries de données. Réalisation d’une visualisation dynamique * Choix d’une solution de visualisation adaptée (Chart.js DataHero, Dygraphs, Instant Atlas Plotly, Kibana , Raw, …) ; * Utilisation d’outils de visualisation des données. Analyse des données et conseil auprès du commanditaire : * analyse et visualisation spatio-temporelles ; * utilisation de Scalable MultiMedia Analytics ; * visualisation des données permettant de découvrir un phénomène non connu / de confirmer ou d’affirmer une information ou une hypothèse de travail ; * interprétation des graphiques obtenues ; * formalisation de rapports et de conseils (stratégiques, économique, organisationnelle …) auprès des utilisateurs dédiés. ANALYSER ET MODÉLISER LA DATA Utilisation de données en grande dimension * Utilisation d’un système de gestion de bases de données (Bigtable, HyperTable NoSQL, SQL …) ; * Transformation de la donnée ; * Recherche de cibles (targets) ou de motifs (patterns) enfouis dans les données ; * Segmentation des données afin d’évaluer des probabilités ; * Mise en place d’un algorithme issu du Machine Learning pour prédire ou comprendre et expliquer. Déploiement d’un modèle d’apprentissage en profondeur (Deep learning) * Mise en place d’applications de Deep Learning ; * Déploiement d’un modèle via une interface de programmation (API) dans le web ; * Réalisation d’un tableau de bord (Dashboard) pour présenter le travail de modélisation ; * Communication sur le modèle d’apprentissage auprès des utilisateurs ; * Prise en compte de la consommation d’énergie dans le choix des outils ou prestataires. . Traitements de volumes de données * Mise en œuvre avec le logiciel des applications sur des machines standards ; * Traitement de grandes quantités de données ; * Prise en compte de la consommation d’énergie dans le choix des outils ou prestataires