La réduction des données est une des réponses nécessaire pour faire face à l'explosion du nombre d'indicateurs lorsque le nombre de mesure (variables) augmente. En statistique descriptive, la mesure (une VD) sur un grand nombre de personnes (par exemple la taille, le poids ou une aptitude comme la mémoire, l'attention ou l'intelligence) peut être résumée par un indicateur de tendance centrale (ex. : la moyenne ou la médiane) et un indicateur de la dispersion de la distribution (ex. : l'écart-type ou l'écart inter-quartile). Pour une dimension mesurée, c'est-à-dire une variable, deux nombres a minima sont donc nécessaires pour résumer les données.
Si on étudie deux variables (la taille et le poids, les temps de réponse dans une tâche de mémorisation et la qualité de la réponse, les performances dans des tâches verbales et non verbales, etc.), 5 nombres seront nécessaires pour résumer les données : un indice de tendance centrale et un indice de dispersion pour chacune des deux variables, mais aussi un indice d'association (coefficient de corrélation de Bravais-Pearson par exemple) entre ces deux variables. Le nombre des descripteurs pour résumer les données explose avec le nombre des variables (cf. tableau ci-dessous). Les techniques d'analyse factorielle auront pour intérêt (entre autres) de permettre de résumer et réduire les données.
Nombre de VD |
Nombre de résumés |
|
1 variable -> |
2 |
1 tendance centrale et 1 dispersion |
2 variables -> |
5 |
2 tendances centrales, 2 dispersions, 1 corrélation |
3 variables -> |
9 |
3 tendances centrales, 3 dispersions, 3 corrélations |
10 variables -> |
65 |
10 tendances centrales, 10 dispersions, 45 corrélations |
n variables -> |
2n+n(n-1)/2 |
n tendances centrales, n dispersions, n*(n-1)/2 corrélations |