XLSTAT Analyses multivariées, classification et PLS (ACP, CAH, K-MEANS, AFD, PLS)
Prérequis
- Il est nécessaire que les participants aient de bonnes connaissances sur les outils statistiques de base : corrélation, écart-type, variance, intervalles de confiance, tests d'hypothèses.
Public admis
- Salarié en Poste
- Entreprise
Demandeur d'emploi et Etudiant non admis
Financement
- Votre OPCO
- Financement personnel
Financement CPF non pris en charge
Modalités
- En centre
- En entreprise
- À distance
Objectifs pédagogiques
- Identifier quelle méthode d'analyse multivariée ou de classification utiliser selon le contexte
- Décrire les concepts mathématiques inhérents à ces méthodes
- Mettre en œuvre les analyses suivantes : ACP, CAH, K-MEANS, AFD, PLS
- Maitriser les coefficients et les paramètres permettant d'estimer la qualité des analyses statistiques ci-dessus
- Expliquer la différence entre les notions de contribution et de cosinus carré
- Identifier les contextes d'utilisation des différentes versions de la régression PLS
- Comprendre les concepts mathématiques inhérents à la régression PLS
- Interpréter les résultats et les graphiques qui découlent des analyses
Programme de la formation
Prise en main de l'interface d'XlStat
- Généralités et interface utilisateur
- Interface de base
- Rappel sur quelques outils Excel nécessaires à la manipulation d'XlStat.
- Activation, chargement et fermeture d'XlStat
- Gestion et organisation des données
- L'interface XlStat
- Menus et barre d'outils
- Principes de paramétrage des boîtes de dialogue
- Gestion des classeurs et des feuilles Excel
- Paramétrage de base de l'outil
- Présentations des différentes analyses statistiques disponibles
- Complémentarités entre Excel et XlStat
- Outils XlStat non statistiques
- Repérage de données selon critères
- Différents types de fonctionnalités de préparation des données
- Regroupement des données en classes
- Transformation de données
- Outils complémentaires aux graphiques (étiquettes, axes, facteur de zoom…)
- Codage de données
Généralités sur les différentes méthodes d'analyses multidimensionnelles
- Limites des statistiques classiques
- Champs d'application des différentes méthodes d'analyses multidimensionnelles
- Introduction sur le data mining - Les objectifs
- Objectifs de description
- Objectifs de prédiction
- Structure des jeux de données
- Présentation de l'éventail des méthodes
- Analyse en composantes principales
- Analyse factorielle des correspondances simples et multiples
- Analyse factorielle discriminante
- Méthodes de classification : classification ascendante hiérarchique, k-means
- Régressions PLS et PLS-DA
- Principes généraux des différentes méthodes - Notions de :
- Distance,
- Inertie et variance
- Axes factoriels
- Variables latentes
Notions de corrélation
- Définition du coefficient de corrélation
- Interprétation de la valeur du coefficient de corrélation
- Les confusions : corrélation, causalité, pente…
- Les différents coefficients de corrélation
- Coefficient de Pearson
- Coefficient de Spearman
Mise en œuvre d'une Analyse en Composante principales (ACP)
- Structure du jeu de données et contexte d'application
- Objectifs détaillés de l'ACP
- Choix des axes de représentation (choix du nombre de composantes principales)
- Interprétation des sorties graphiques : cercle factoriel et graphique des individus
- Interprétation des axes factoriels
- Contribution des individus et des variables aux axes
- Qualité de représentation des individus et des variables sur les axes : les cosinus carrés
- Les différentes ACP :
- ACP normée et non normée
- ACP non paramétrique
- Positionnement d'une variable illustrative catégorielle
- Les confusions et erreurs à ne pas commettre
- Présentation rapide des Analyses des correspondances simple et multiple si souhaité
- Différences entre ACP et AFC
Mise en œuvre d'une classification par une classification ascendante hiérarchique (CAH)
- Présentation des objectifs de la classification ascendante hiérarchique
- Structure du jeu de données
- Choix de la distance
- Choix du linkage (saut, critère de « rapprochement » entre les classes) : méthode de Ward…
- Lecture d'un dendrogramme
- Choix du nombre de classes
- Classification sur les individus
- Classification sur les variables
- Interprétation des sorties logiciel
Mise en œuvre d'une classification par une k-means
- Présentation des objectifs de la méthode des k-means
- Avantages et inconvénients de la CAH et des k-means
- Détermination des clusters
- Présentation des différentes versions de l'algorithme
- Utilisation de la k-means en complément de l'ACP
- Classification sur grand jeu de données
- Conseils de mise en œuvre
- Interprétation des sorties logiciel
Mise en œuvre d'une analyse factorielle fiscriminante (AFD)
- Structure du jeu de données et contexte d'application
- Objectifs détaillés de l'AFD
- Notions de classement et de discrimination
- Méthodologie de l'AFD
- Comparaison avec l'ACP
- Interprétation des sorties logiciel : cercle factoriels, corrélations variables x axes
- Qualité de l'AFD (de la discrimination obtenue)
- Tests univariés et multivariés (lambda de Wilks)
- Graphique des individus
- Matrice de confusion (et éventuellement courbe ROC)
- Les confusions et erreurs à ne pas commettre
Mise en œuvre d'une analyse discriminante PLS (PLS-DA)
- Problématique :
- Des multi colinéarités
- Des petits échantillons
- Présentation de la PCR (Principal Component Regression)
- Méthodologie générale de PLS
- Présentation des différentes versions de la régression PLS
- Structure du jeu de données et contexte d'application de la PLS-DA
- Objectifs détaillés de la PLS-DA
- Choix du nombre de composante de la PLS : critère du Q carré
- Interprétation des sorties logiciel : cercle factoriels, corrélations variables x axes
- Importance des variables pour la discrimination des groupes : les VIP
- Qualité de la PLS-DA
- Indicateurs Q carrés et R carrés
- Matrice de confusion
- Les confusions et erreurs à ne pas commettre
Mise en œuvre d'une régression PLS
- Contexte et objectifs
- Présentation des différentes méthodes de régression sur des données colinéaires : PCR, régression de Ridge et PLS
- Principes et concepts mathématiques inhérents à la PCR et la régression PLS
- Présentation des différentes versions de la régression PLS
- Mise en œuvre et interprétation des résultats : graphiques, coefficients du modèle…
- Choix du nombre de composantes (validation croisée)
- Composantes et coefficients de régression
- Qualité d'ajustement, qualité de prédiction
- Coefficients Q² et R²
- Importance des variables explicatives pour la prédiction
- Coefficients normalisés
- VIP
- Sélection de variables

Proposé par
GROUPE ARKESYS
"La formation maintenant pour vos talents de demain"

Proposé par
GROUPE ARKESYS
