Sensibilité et mesure d'une dimension

Parent Previous Next

Lorsque l'on cherche à évaluer une dimension (exemples : une aptitude, un trait de personnalité) le test doit permettre de différencier le plus possible les personnes. La sensibilité est alors le pouvoir séparateur, différenciateur d'un test. Si un test n'est pas sensible, deux sujets qui ont les mêmes notes peuvent en fait être "différents" sur la dimension que l'on mesure. La sensibilité est donc la capacité d'un test à détecter une variation du score vrai sur le trait mesuré (dans la théorie classique des tests). La méthode de sélection des items permet normalement de d'assurer de la sensibilité des tests.

Pour étudier la sensibilité d'un test, une première méthode consiste à établir la distribution des résultats et d'examiner sa forme via le calcul d'indices de dispersion (écart-type ou autre), d'asymétrie ou d'aplatissement. Si l'épreuve est trop facile ou trop difficile, on observe une distribution asymétrique (effet plancher = trop difficile ou effet plafond = trop facile). On préfère en général une distribution plutôt normale, symétrique, au mieux légèrement aplatie qui présente une dispersion et un pourvoir différenciateur plus important.

Si la distribution n'est pas une distribution normale, la sélection des questions étaient probablement incorrecte et le choix des questions doit être revue et/ou les questions remaniées. Lorsque l'on sélectionne les items on cherche à rendre la courbe « plus normale » d'une part et, d'autre part, à maximiser la dispersion de l'épreuve. Ce remaniement de l'épreuve s'effectue souvent en augmentant le nombre d'items de difficulté moyenne.

Remarque : La sensibilité d'une épreuve dépend du nombre d'items mais aussi des caractéristiques des items. Par exemple, si dans une version provisoire d'un test on retient 10 items sur les 20 initiaux, on peut avoir les deux cas de figures suivants :

  1. les 10 items sont de difficulté croissante ce qui permet de classer les sujets en 11 classes (notes allant de 0 réussite à 10 réussites).
  2. Si les 10 items se regroupent en k sous-groupes ayant le même niveau de difficulté, les sujets sont répartis uniquement en k+1 classes distinctes même si un sujet particulier peut avoir entre 0 et 10.

Conclusion : dans l'exemple (a) le test sera plus sensible ou plus « discriminant », bien que le nombre d'items retenus soit identique. Augmenter le nombre des items sans contrôler leur difficulté n'augmente donc pas nécessairement la sensibilité d'une épreuve.


Le psychologue praticien et la sensibilité d'un test.

Pour un praticien, la sensibilité d'un test peut être parfois évaluée à travers les tables d'étalonnage. Par exemple, ci-dessous se trouve reproduit une table de conversion des scores bruts en scores standards (table d'étalonnage) d'une ancienne épreuve d'évaluation de l'intelligence. Pour chaque épreuve (CUB, SIM, MCH, etc.) on trouve dans les colonnes les notes brutes (scores possibles des personnes) qui sont associés à une note standard (en première colonne) pouvant varier de 1 à 19 (ici, le score standard a pour moyenne 10 et pour écart-type 3). Cette table de conversion concerne des enfants de 6;0 ans à 6;3 ans et on observe (colonnes encadrées en rouge) une faible sensibilité de certaines épreuves qui peut impacter l'analyse qualitative. En effet, si j'échoue par exemple à l'épreuve SIM (note de 0) ma note standard est de 6. Elle serait significativement supérieure à une note standard de 1 obtenue avec un échec complet aussi à l'épreuve MCH. Par ailleurs on notera que l'épreuve INF est peu sensible car les scores standards possibles varient de 1 à 19 mais se limitent à : 1, 3, 5, 7, 9, 11, 13, 15, 17, 19. Pour cette classe d'âge, cette épreuve montre une sensibilité réduite des notes standards et les résultats devront être interprétés avec prudence.

Figure E.2 : Extrait d'une table d'étalonnage du WISC IV (Wechsler, 2005)


Pour aller plus loin.

Souvent, naïvement, on pense qu'augmenter le nombre d'items d'un test augmente son pouvoir discriminatif, sa sensibilité. En fait ce problème est complexe. Lorsque l'on ajoute des items à un test on doit s'assurer que ces items corrèlent entre eux ce qui permettra d'augmenter la variance de l'épreuve (puisque la variance totale est la somme des variances observées à chacun des items plus la somme des covariances entre ces items pris 2 à 2. Pour ceux que qui doutent, il est assez facile de démontrer ce théorème). Si les items ne sont pas homogènes (ne covarient pas), ils contribuent donc peu à l'augmentation de variance du score total dans un test.  Pour qu'un test soit discriminatif, une solution consiste donc à augmenter le nombre d'items mais ceux ci-doivent être homogènes (corrélés entre eux) mais on doit aussi préserver la capacité du test à discriminer sur l'ensemble de l'échelle (donc avoir des items avec des niveaux différents de difficulté). Par ailleurs, il faut rappeler qu'un score total sera aussi "plus facilement" ou "moins difficilement" interprétable si les items qui le composent sont les plus homogènes possibles  (sinon le même score peut avoir des significations différentes). Ce problème renvoie à l'unidimensionnalité des épreuves et soulignent que tous les choix, lors de la construction d'une épreuve, sont interdépendants. En effet, il faut savoir aussi, qu'augmenter la variance d'un test est nécessaire (non suffisante) pour pouvoir s'assurer d'une bonne fidélité et validité des tests.