Analyse en Composantes Principales (ACP)

L'objectif, lorsque l'on utilise une ACP, est de réduire les données, c'est-à-dire avoir une méthode pour obtenir un nombre réduit de composantes non corrélées. En terme clair c'est une technique d'analyse de données qui consiste à transformer des variables corrélées entres elles en nouvelles variables (composantes) non corrélées. Il faut savoir que :

®Le nombre de composantes extrait est initialement identique au nombre des variables initiales (et explique toute la variance du nuage des points dans l'espace à n dimensions défini par les variables initiales) mais, en pratique, on interprétera uniquement les premières composantes qui sont par construction (cf. plus loin) les plus explicatives (rendent compte d'une part significative de la variance).

®Lors de l'extraction des facteurs ou des composantes (première étape de l'analyse), ceux-ci sont définis comme indépendants les uns des autres (« orthogonaux »), c'est-à-dire que la position d'un individu sur un facteur n'implique en rien sa position sur un autre facteur.

®Une hypothèse complémentaire est ajoutée pour permettre de résoudre le système : la première composante doit expliquer le plus de variance possible (i.e doit être au plus près de tous les points du nuage de points. La seconde (orthogonale à la première) doit expliquer le plus de la variance non expliquée, la troisième composante le plus de variance non expliquée par les deux premières, etc.

®Enfin, le plus souvent, l'analyse est faite sur des variables centrées-réduites (note z). En effet, si les variables n'étaient pas réduites (variances toutes égales à 1), et qu'une des variables a une variance plus importante que les autres (quantitativement), la première composante aurait naturellement tendance à expliquer cette variable (cf. ci-dessus). Les réduire (ramener la variance à 1) fait que toutes les variables ont le même poids dans l'analyse.

En pratique, pour effectuer une ACP, on doit successivement (démarche générale simplifiée) :

•construire ou sélectionner une batterie d'épreuves ou de mesures (par exemple plusieurs tests d'intelligence verbale, spatiale, numérique, etc.).

•sélectionner la population sur laquelle on administre ces épreuves.

•calculer la corrélation entre les scores pour toutes les paires de tests ; on obtient ainsi une matrice de corrélations.

•effectuer la première étape de l'ACP (via un logiciel d'analyse) et regarder plus particulièrement le tableau des valeurs propres mais aussi l'évolution des communautés en fonction du nombre de composantes que l'on pourrait retenir.

•décider du nombre de composantes (facteurs) à retenir.

•vérifier que les épreuves sont bien expliquées par ce système de facteurs (le pourcentage de variance cumulée expliqué par les facteurs doit être proche des communautés observées avec les facteurs retenus).

•décider si on va procéder à une rotation des facteurs obtenus. Il s'agit de passer de facteurs initiaux à de nouveaux facteurs plus aisément interprétables.

•interpréter les facteurs/composantes.

Ce sont ces éléments que nous allons reprendre dans les parties suivantes.