Analyses multivariées, classification (ACP, AFC, ACM, CAH, k-means, AFD)
Prérequis
- Il est nécessaire que les participants aient de bonnes connaissances sur les outils statistiques de base : corrélation, écart-type, variance, intervalles de confiance, tests d'hypothèses.
Public admis
- Salarié en Poste
- Entreprise
Demandeur d'emploi et Etudiant non admis
Financement
- Votre OPCO
- Financement personnel
Financement CPF non pris en charge
Modalités
- En centre
- En entreprise
- À distance
Objectifs pédagogiques
- Identifier quelle méthode d'analyse multivariée ou de classification utiliser selon le contexte
- Décrire les concepts mathématiques inhérents à ces méthodes
- Mettre en œuvre les analyses factorielles multivariées suivantes : ACP, AFC, AFCM, AFD
- Interpréter les résultats et les graphiques qui découlent des analyses ci-dessus
- Maitriser les coefficients et les paramètres permettant d'estimer la qualité des analyses statistiques ci-dessus
- Expliquer la différence entre les notions de contribution et de cosinus carré
- Expliquer les distances et les méthodes d'agrégation les plus adaptées à l'objectif de classification
- Comprendre les différences entre la CAH et les k-means
- Mettre en œuvre et interpréter les résultats d'une méthode de classification de type CAH et k-means
Programme de la formation
Généralités sur les différentes méthodes d'analyses multidimensionnelles
- Limites des statistiques classiques
- Champs d'application des différentes méthodes d'analyses multidimensionnelles
- Introduction sur le data mining - Les objectifs
- Objectifs de description
- Objectifs de prédiction
- Structure des jeux de données
- Présentation de l'éventail des méthodes
- Analyse en composantes principales
- Analyse factorielle des correspondances simples et multiples
- Analyse canonique des corrélations
- Analyse factorielle discriminante
- Méthodes de classification : classification ascendante hiérarchique, k-means
- Principes généraux des différentes méthodes - Notions de :
- Distance,
- Inertie et variance
- Axes factoriels
Notion de corrélation
- Définition du coefficient de corrélation
- Interprétation de la valeur du coefficient de corrélation
- Les confusions : corrélation, causalité, pente…
- Les différents coefficients de corrélation
- Coefficient de Pearson
- Coefficient de Spearman
Mise en œuvre d'une analyse en composante principales (ACP)
- Structure du jeu de données et contexte d'application
- Objectifs détaillés de l'ACP
- Choix des axes de représentation (choix du nombre de composantes principales)
- Interprétation des sorties graphiques : cercle factoriel et graphique des individus
- Interprétation des axes factoriels
- Contribution des individus et des variables aux axes
- Qualité de représentation des individus et des variables sur les axes : les cosinus carrés
- Les différentes ACP :
- ACP normée et non normée
- ACP non paramétrique
- Positionnement d'une variable illustrative catégorielle
- Les confusions et erreurs à ne pas commettre
- Présentation rapide des Analyses des correspondances simple et multiple si souhaité
- Différences entre ACP et AFC
Mise en œuvre d'une analyse factorielle des correspondances (AFC)
- Structure du jeu de données : tableau de contingence, données individuelles (variables qualitatives)
- Contexte d'application et objectifs détaillés de l'AFC
- Différence entre ACP et AFC
- Méthodologie de l'AFC
- Distance du Chi²
- Profils lignes
- Profils colonnes
- Choix des axes de représentation (choix du nombre d'axes)
- Interprétation des sorties graphiques : graphique des modalités
- Contributions et cosinus carrés des modalités aux axes
- Les confusions et erreurs à ne pas commettre
Mise en œuvre d'une analyse des correspondances multiples (ACM ou AFCM)
- Structure du jeu de données
- Contexte d'application et objectifs détaillés de l'AFCM
- Différence entre AFC et AFCM
- Méthodologie de l'AFCM
- Choix des axes de représentation (choix du nombre d'axes)
- Correction de Benzecri : valeurs propres et taux d'inertie expliquée corrigés
- Interprétation des sorties graphiques :
- Graphique des modalités
- Graphique des variables
- Contributions et cosinus carrés des modalités aux axes
- Les confusions et erreurs à ne pas commettre
Mise en œuvre d'une classification par une classification ascendante hiérarchique (CAH)
- Structure du jeu de données
- Contexte d'application et objectifs détaillés de la CAH
- Lecture d'un dendrogramme
- Choix du nombre de classes
- Classification sur les individus
- Classification sur les variables
- Classification sur les modalités
- Choix de la distance selon le contexte : classification sur les individus, les variables ou les modalités
- Choix du linkage (saut, critère de « rapprochement » entre les classes) : méthode de Ward, lien simple, lien complet…
- Interprétation des sorties logiciel
Mise en œuvre d'une classification par une k-means
- Présentation des objectifs de la méthode des k-means
- Avantages et inconvénients de la CAH et des k-means
- Détermination des clusters
- Présentation des différentes versions de l'algorithme
- Utilisation de la k-means en complément de l'ACP
- Classification sur grand jeu de données
- Conseils de mise en œuvre
- Interprétation des sorties logiciel
Mise en œuvre d'une analyse factorielle discriminante (AFD)
- Structure du jeu de données et contexte d'application
- Objectifs détaillés de l'AFD
- Notions de classement et de discrimination
- Méthodologie de l'AFD
- Comparaison avec l'ACP
- Interprétation des sorties logiciel : cercle factoriels, corrélations variables x axes
- Qualité de l'AFD (de la discrimination obtenue)
- Tests univariés et multivariés (lambda de Wilks)
- Graphique des individus
- Matrice de confusion (et éventuellement courbe ROC)
- Les confusions et erreurs à ne pas commettre

Proposé par
GROUPE ARKESYS
"La formation maintenant pour vos talents de demain"

Proposé par
GROUPE ARKESYS
