Il existe, dans le cadre de la théorie classique des tests deux méthodes de calcule de l'intervalle de confiance:
•la première centrée sur le score observée peut être considérée comme la méthode classique (fréquente).
•La seconde méthode (celle qui est devrait être recommandée) centre l'intervalle de confiance non pas sur le score observé mais sur un score vrai estimé.
Ces deux méthodes utilisent l'erreur standard de mesure (ESM ou SEM en anglais) pour évaluer l'intervalle de confiance et sont encore largement utilisées. Elles supposent cependant que l'ESM est constant quel que soit le score observé, ce qui est faux généralement. En effet l'erreur standard de mesure pourrait doubler aux extrémités de la distribution. Les recommandations du "Standards for Educational and Psychological Testing" (1999) aux éditeurs de tests indiquent que normalement on se doit de calculer une erreur standard de mesure conditionnelle (C-ESM ou CSEM) pour chaque valeur observée, ou pour des intervalles de valeurs : "For each total score, subscore, or combination of scores that is to be inter- preted, estimates of reliabilities and standard errors of measurement or test information functions should be reported" (p.31).
Les méthodes d'estimations de l'erreur standard de mesure conditionnelle (C-SEM) ne sont cependant pas développées dans ce cours. Ces méthodes sont nombreuses et donnent des résultats proches. Pour ceux que cela intéresse, une présentation claire de ces méthodes est celle de Tong & Kolen (2005) dans "Encyclopedia of Statistics in Behavioral Science". Il existe aussi une méthode faisant référence à la théorie de la généralisabilité (pour une introduction, cf. Laveault et Grégoire, 2014) mais cette méthode est plus réservée à l'évaluation dans le cadre des sciences de l'éducation même si sa mise en œuvre peut concerner les tests mentaux.