Lorsque l'on cherche à évaluer une dimension (exemples : une aptitude, un trait de personnalité) le test doit permettre de différencier le plus possible les personnes. La sensibilité est alors le pouvoir séparateur, différenciateur d'un test. La sensibilité est donc la capacité d'un test à détecter une variation du score vrai sur le trait mesuré (dans la théorie classique des tests). La méthode de sélection des items permet normalement de s'assurer de la sensibilité des tests (cf. chap. E $4).
Pour étudier la sensibilité d'un test, une première méthode consiste à établir la distribution des résultats et d'examiner sa forme via le calcul d'indices de dispersion (écart-type ou autre), d'asymétrie ou d'aplatissement. Si l'épreuve est trop facile ou trop difficile, on observe une distribution asymétrique (effet plancher = trop difficile ou effet plafond = trop facile). On préfère en général une distribution plutôt normale, symétrique, au mieux légèrement aplatie qui présente une dispersion et un pourvoir différenciateur plus important.
Si la distribution n'est pas une distribution normale, la sélection des questions étaient probablement incorrecte et le choix des questions doit être revue et/ou les questions remaniées. Lorsque l'on sélectionne les items on cherche à rendre la courbe « plus normale » d'une part et, d'autre part, à maximiser la dispersion de l'épreuve. Ce remaniement de l'épreuve s'effectue souvent en augmentant le nombre d'items de difficulté moyenne.
Remarque : La sensibilité d'une épreuve dépend du nombre d'items mais aussi des caractéristiques des items. Par exemple, si dans une version provisoire d'un test on retient 10 items sur les 20 initiaux, on peut avoir les deux cas de figures suivants :
(a)les 10 items sont de difficulté croissante ce qui permet de classer les sujets en 11 classes (notes allant de 0 réussite à 10 réussites).
(b)Si les 10 items se regroupent en k sous-groupes ayant le même niveau de difficulté, les sujets sont répartis uniquement en k+1 classes distinctes même si un sujet particulier peut avoir entre 0 et 10.
Conclusion : dans l'exemple (a) le test sera plus sensible ou plus « discriminant », bien que le nombre d'items retenus soit identique. Augmenter le nombre des items sans contrôler leur difficulté n'augmente donc pas nécessairement la sensibilité d'une épreuve.
Pour aller plus loin.
Souvent, naïvement, on pense qu'augmenter le nombre d'items d'un test augmente son pouvoir discriminant, sa sensibilité. En fait ce problème est complexe. Lorsque l'on ajoute des items à un test on doit s'assurer que ces items corrèlent entre eux ce qui permettra d'augmenter la variance de l'épreuve (puisque la variance totale est la somme des variances observées à chacun des items plus la somme des covariances entre ces items pris 2 à 2. Pour ceux qui en doutent, il est assez facile de démontrer ce théorème). Si les items ne sont pas homogènes (ne covarient pas), ils contribuent donc peu à l'augmentation de variance du score total dans un test. Pour qu'un test soit discriminatif, une solution consiste donc à augmenter le nombre d'items mais ceux ci-doivent être homogènes (corrélés entre eux) mais on doit aussi préserver la capacité du test à discriminer sur l'ensemble de l'échelle (donc avoir des items avec des niveaux différents de difficulté). Par ailleurs, il faut rappeler qu'un score total sera aussi "plus facilement" ou "moins difficilement" interprétable si les items qui le composent sont les plus homogènes possibles (sinon le même score peut avoir des significations différentes). Ce problème renvoie à l'unidimensionnalité des épreuves et soulignent que tous les choix, lors de la construction d'une épreuve, sont interdépendants. En effet, il faut savoir aussi, qu'augmenter la variance d'un test ou maximiser la sensibilité est une condition nécessaire (non suffisante) pour pouvoir s'assurer d'une bonne fidélité et validité des tests.