Sélectionner les bons items

Parent Previous Next

La sélection ou l'élimination des items constituant une épreuve est une étape importante. Elle participe à la fidélité et la validité de l'épreuve. La méthode dépend de la nature des items mais aussi des objectifs que l'on se fixe. Le plus souvent on retient les items en prenant en compte leur difficulté et leur capacité à discriminer (ces deux indices ne sont cependant pas totalement indépendants). On peut tenir compte d'autres critères (qui ne seront pas présentés ici) comme la corrélation entre le score à l'item et le score total à l'épreuve divisé par l'écart-type de l'item (statistique que l'on appelle parfois la fidélité de l'item). On peut aussi tenir compte de la contribution de l'item à la dimension mesurée (analyse factorielle).

Cette sélection doit prendre en considération aussi d'autres aspects et pas seulement ces indicateurs. Par exemple, dans des taches cognitives, des items très "faciles" (ayant indice de puissance élevée) seront conservés même s'ils apportent peu d'information car ils peuvent permettre de mettre en confiance.  Dans une épreuve de personnalité, on peut avoir des items que l'on garde mais non pris en compte dans le score total (items de remplissage). Comme nous l'avons mentionné en introduction de ce chapitre, il n'est pas possible de tout présenter et nous avons choisi simplement d'illustrer ce qui est un "bon item" en montrant comment dans la construction d'une échelle de performance on utilise conjointement le p-index  et le d-index.

Prise en compte conjointe du d-index et p-index.

Pour repérer les bons items, on doit tenir compte que l'index de discrimination qui a théoriquement une valeur comprise entre +1 et -1. Cette valeur est cependant contrainte par la difficulté de l'item et pour interpréter cet indice on doit tenir compte de cette contrainte. Par exemple, admettons que sur 100 personnes, 10 réussissent l'item (p-index = 0.1). Si ceux qui réussissent sont tous des sujets appartenant au groupe des 27% qui réussissent la tâche (cas de discrimination parfaite), le pourcentage de ceux qui réussissent sera donc de 10/27 = 0.37  et les 27 appartenant au groupe des plus faibles échoueront (rappel : pour calculer le d-index on contraste les 27% de personnes ayant les scores les plus élevés au 27% ayant les scores les plus faibles). L'indice de discrimination sera donc dans ce cas de 0.37 et ne pourra jamais être supérieur. Si le p-index était de 0.05, l'indice de discrimination maximum serait de 0.185 ! Pour un item facile (p-index = 0.90),  la valeur serait aussi contrainte et égale à 0.37 (faites la démonstration si vous le souhaitez).

Pour identifier les "bons items" on peut les projeter dans un espace à deux dimensions. Dans cet espace, les coordonnées des items seront : (a) en abscisse le niveau de difficulté de l'item et, (2) en ordonnée la valeur de l'indice de Findley (d-index). Sur ce graphique tous les points ne sont pas possibles (zone grisée sur le graphique) et on peut identifier des zones de  rejets clairs (valeurs négatives de d-index). Pour les valeurs positives, une première zone (d-index > .50 est habituellement considérée comme acceptable. Pour les autres valeurs du d-index, la décision dépend de la valeur maximale du d-index pour le p-index de l'item.

Exemple : dans la figure suivante, on observe que l'item a est clairement un bon item. Les items b et c sont à rejeter (le c à une valeur négative et le b à une valeur faible du d-index alors que, pour ce niveau de difficulté, les valeurs possibles vont jusqu'à 1). Pour l'item d, la valeur du d-index est faible, mais le niveau de difficulté de l'item ne permettait pas un indice supérieur, on peut donc considérer l'item comme bon ou acceptable.

Représentation pour une aide à la prise de décision
(acceptation ou rejet) concernant les items d'un test.
(adapté de Laveault & Grégoire, 2012)