En résumé (à savoir)

Pour résumer, la pratique de l'analyse factorielle comme l'analyse critique de résultats demande une expertise minimum. Avec Tabachnik et Fidell (2013) on peut résumer les points à vérifier systématiquement :

®Les variables présentes dans une analyse factorielle doivent avoir une sensibilité suffisante (doivent discriminer les positions des individus).

®Pour qu'une solution factorielle soit prise en considération stable, il faut un nombre suffisant d'observations. La règle veut qu'il y ait un minimum de 5 observations par variable (minimum).

®Les variables utilisées pour l'analyse devraient se distribuer normalement. Toutefois, on peut "transgresser" cette règle (en mode exploratoire) en utilisant des procédure d'extraction* qui prennent en compte les caractéristiques ces distributions. On peut aussi effectuer des transformations normalisant les distributions.

®La relation entre les variables est supposée linéaire.

®La matrice de corrélation ne doit pas être singulière (une variable ne peut pas être une combinaison linéaire d'une ou plusieurs autres variables). Lorsqu'une variable est trop fortement corrélée avec une ou plusieurs autres variables on peut avoir un problème de calcul de la solution factorielle (cas Heywood) avec des saturations qui deviennent supérieures à 1 (ce qui est théoriquement impossible) !

®Certains ensembles de variables doivent corrélés entre eux (l'indice Kaiser-Meyer-Olkin [KMO] doit être suffisant, devrait être supérieur à .60).

®La solution factorielle doit expliquer une proportion suffisante de la variance (sinon la perte d'information est trop importante).

®Toutes les variables doivent faire partie de la solution factorielle (elles doivent avoir au moins une saturation supérieure à .20 ou .30 sur un des facteurs retenus dans l'AFE).

®Après rotation, un facteur doit saturer suffisamment (supérieure à .20 ou .30) plus d'une variable. On doit en général avoir au moins deux variables, sinon 3 qui ont des saturations suffisantes dans chaque facteur.

®Dans l'interprétation des données, on doit connaître (et prendre en compte) les caractéristiques des variables mais aussi celle de la population. L'analyse factorielle exploratoire est une statistique descriptive.

®Une structure factorielle peut être différente pour différentes populations. Comme pour les corrélations (paradoxe de Simpson**), on ne doit pas regrouper dans une analyse des populations trop différentes.

----------------

(*) La méthode du maximum de vraisemblance (ML pour maximum likelihood en anglais) est sensible aux déviations à la normalité des distributions. Pour des échelles ordinales (type likert) ou lorsque les distributions ne sont pas normales, on peut utiliser par exemple la méthode des moindres carrés non pondérés (ULS = Unweighted Least Square en anglais) qui minimise les résidus.

(**) Le paradoxe de Simpson est un paradoxe statistique décrit en 1951 par Edward Simpson (mais aussi par George U. Yule en 1903) dans lequel un résultat observé sur plusieurs groupes s'inverse lorsque les groupes sont combinés. Ce paradoxe est souvent rencontré en sciences sociales (et souvent oublié !). On trouve de nombreux exemple de ce paradoxe sur le web.