La matrice des corrélations est tout simplement la matrice des coefficients de corrélation (de Bravais-Pearson pour l'ACP). Comme le montre l'exemple suivant les valeurs au-dessus et au-dessous de la diagonale sont donc identiques puisque la corrélation entre un test A et B est évidemment la même que celle observée entre B et A.
Exemple d'une matrice de corrélation pour l'ACP |
||||||||||
V1 |
V2 |
V3 |
V4 |
V5 |
V6 |
V7 |
V8 |
V9 |
V10 |
|
V1 |
1.00 |
.41 |
.16 |
.003 |
.61 |
.07 |
.20 |
.13 |
.24 |
.09 |
V2 |
.41 |
1.00 |
.20 |
.06 |
.36 |
-.01 |
.15 |
-.03 |
.09 |
.05 |
V3 |
.16 |
.20 |
1.00 |
-.01 |
-.15 |
-.09 |
.06 |
.04 |
.11 |
.24 |
V4 |
.003 |
.06 |
-.01 |
1.00 |
.23 |
-.03 |
.41 |
.10 |
-.04 |
-.06 |
V5 |
.51 |
.36 |
-.15 |
.23 |
1.00 |
.01 |
.20 |
.12 |
.09 |
.03 |
V6 |
.07 |
-.01 |
-.09 |
-.03 |
.01 |
1.00 |
.23 |
.11 |
.31 |
.00 |
V7 |
.20 |
.15 |
.36 |
.41 |
.20 |
.28 |
1.00 |
.07 |
.18 |
.03 |
V8 |
.13 |
-.03 |
.04 |
.10 |
.12 |
.11 |
.07 |
1.00 |
.34 |
.05 |
V9 |
.24 |
.09 |
.11 |
-.04 |
.09 |
.31 |
.18 |
.34 |
1.00 |
.01 |
V10 |
.00 |
-.05 |
.24 |
-.06 |
.03 |
.09 |
.03 |
.05 |
.01 |
1.00 |
Pourquoi cette matrice est aussi une matrice de variance-covariance ?
Les analyses en composantes principales effectuées en psychologie sont le plus souvent des ACP normées (on effectue les analyses sur les variables centrées et réduites de façon à ce que chaque variable ait le même poids dans l'analyse). La corrélation étant la covariance divisée par le produit des écart-types, la covariance est donc égale à la corrélation lorsque les variables sont centrées et réduites. Dans la diagonale se trouve des 1 qui correspondent à la variance de chaque variable. Lorsque les variables sont centrées réduites la matrice de corrélation est donc identique à la matrice de variance-covariance.
A vérifier avant de commencer une analyse
•Si tous les coefficients de corrélation d'une matrice de corrélations étaient faibles (proches de 0) il n'y aurait absolument aucun intérêt à procéder à une ACP car pour que celle-ci ait un sens il faut qu'il existe suffisamment de corrélations significatives entre les variables. A l'extrême, la matrice pourrait être une matrice d'identité (matrice dont le déterminant serait de 1). Pour savoir si on a affaire à une matrice de ce type, il existe le test de Bartlett. Quand il est significatif, on rejette l'hypothèse d'identité. Ce test de sphéricité de Bartlett (non présenté ici) nous permet, pour cette matrice, de ne pas rejeter l'hypothèse nulle et d'affirmer qu'il ne s'agit pas d'une matrice d'identité.
•A l'inverse, il ne faut pas non plus, dans cette matrice, qu'il y ait des variables parfaitement corrélées (condition dite de « singularité ») ou qu'une variable soit parfaitement corrélée avec une combinaison de plusieurs variables. Pour savoir si la matrice est "singulière", on peut calculer le « déterminant » de la matrice. Ce déterminant ne devrait pas être inférieur à 0.00001.
Exemple : pour la matrice présentée, le déterminant est 0.20 (la matrice n'est pas singulière).
•Le déterminant et le test de sphéricité de Bartlett nous aident à vérifier si une matrice de corrélation possède les propriétés nécessaires pour effectuer une ACP. Il est également important d'examiner chacune des variables. En effet si une variable ne corrèle avec aucune autre il est recommandé de retirer cette variable de l'analyse.
L'examen des variables peut être réalisé par le calcul d'un indice le KMO (Kaiser-Meyer-Olkin) pour chacune des variables et pour la matrice globale. Il nous renseigne sur la qualité des corrélations (mesure d'adéquation de l'échantillon ou en anglais Measure of Sampling Adequacy). Cet indice prend des valeurs entre 0 et 1 et sa valeur devrait être égale ou supérieure à .50 [on accepte la gradation suivante : inacceptable en dessous de .50, médiocre entre .50 et .60, moyen entre .60 et .70, bien entre .70 et .80, très bien entre .80 et .90 et excellent au delà de .90].
Remarque : pour les termes comme singularité, déterminant, etc. cf. le glossaire.