La réduction des données

La réduction des données constitue une réponse pertinente à l’explosion du nombre d’indicateurs lorsque le nombre de mesures (ou de variables) augmente. En statistique descriptive, une mesure peut être résumée par un indicateur de tendance centrale (ex. : la moyenne ou la médiane) et un indicateur de dispersion (ex. : l’écart-type ou l’écart interquartile). Ainsi, pour une dimension mesurée, deux valeurs au minimum sont nécessaires pour résumer l’information. Certains auteurs suggèrent d’ajouter également des indicateurs de forme de la distribution, tels que l’asymétrie ou l’aplatissement.

Lorsqu’on étudie deux variables (par exemple la taille et le poids, les temps de réponse et la qualité des réponses dans une tâche de mémorisation, ou encore les performances verbales et non verbales), cinq valeurs sont alors nécessaires pour résumer les données : un indice de tendance centrale et un indice de dispersion pour chacune des deux variables, ainsi qu’un indice d’association (comme le coefficient de corrélation de Bravais-Pearson) entre elles. Avec trois variables, neuf indicateurs sont requis ; avec dix variables, on atteint soixante-cinq indicateurs !

Le nombre de descripteurs nécessaires pour résumer les données croît donc très rapidement avec le nombre de variables (cf. tableau ci-dessous). Les techniques d’analyse factorielle présentent, entre autres, l’intérêt de permettre une réduction et une synthèse des données afin de les rendre plus intelligibles.

Nombre de VD	Nombre de résumés
1 variable ->	2	1 tendance centrale et 1 dispersion
2 variables ->	5	2 tendances centrales, 2 dispersions, 1 corrélation
3 variables ->	9	3 tendances centrales, 3 dispersions, 3 corrélations
10 variables ->	65	10 tendances centrales, 10 dispersions, 45 corrélations
n variables ->	2n+n(n-1)/2	n tendances centrales, n dispersions, n*(n-1)/2 corrélations