Pour comprendre le concept de fidélité et ses différentes méthodes d'études, nous nous inscrivons dans le cadre de la théorie classique des tests. Dans ce cadre, une mesure observée X, peut être décomposée en deux sources T et ε : X = T + ε (rappel : T est la quantité représentant le score vrai et ε l'erreur de mesure). Onn appelle, index de fidélité la corrélation existante entre les scores observés (X) et les scores vrais (T). Le coefficient de fidélité (ρ2TX) est égal au carré de l'index de fidélité.
Le coefficient de fidélité est donc (cf. pré-requis : variance expliquée) le rapport entre la variance de T dans la population (qui évaluent l'amplitude des différences réelles entre les individus) et la variance de T + ε (qui correspond à la variance de X observée donc l'amplitude des différences observées). En d'autres termes, c'est la proportion de variance des scores observés imputable à la variance des scores vrais (des différences réelles entre individus).

Le calcul du coefficient de fidélité peut paraître impossible car, si on peu connaître les scores X, on ne connaît pas les scores vrais (par définition). Dans le cadre de la théorie classique des tests, le coefficient de fidélité (ρ2TX) peut cependant être estimé en calculant par exemple la corrélation entre deux séries de mesures prises sur les mêmes individus (sous conditions). Cette estimation est souvent notée rxx (ce qui parfois prête à confusion car il s'agit bien d'une simple corrélation qui est une estimation du coefficient de fidélité qui est lui le carré d'une corrélation).
Cette propriété à conduit à développer différentes méthodes de mesure de la fidélité comme la méthode du test re-test, la méthode des tests parallèles, la méthode du partage, les méthodes s'appuyant sur la consistance interne, etc. (Revelle, & Condon, 2018). Il existe une quatrième méthode distincte des précédentes. Cette méthode dite méthode inter-juges (ou accord inter-juges ou encore accord inter-cotateurs) est utilisée quand l'erreur de mesure à apprécier a pour origine "la difficulté de cotation" (contextes particuliers comme certaines épreuves de personnalité).
A savoir
▪La fidélité consiste à estimer la part des facteurs aléatoires dans la mesure. Un coefficient de fidélité n'est pas suffisant pour interpréter ou même garantir l'existence d'une dimension ou de la validité d'un test. Un test peut-être fidèle mais non valide (on mesure quelque chose mais on ne mesure pas ce que l'on voulait mesurer !).
▪La fidélité est le rapport entre la variance vraie (due à un ou plusieurs facteurs de différenciation des sujets) et la variance observée dans le test (on la note souvent rxx).
→le coefficient de fidélité varie entre 0 et 1.
→si le coefficient de fidélité est de .80, cela signifie que 80% de la variance observée est de la variance vraie et 20% de la variance d'erreur.
→plus la fidélité est grande plus, plus l'erreur de mesure est faible. Une bonne fidélité assure donc que le test mesure quelque chose.
▪Plusieurs méthodes permettent d'évaluer la fidélité et ces méthodes évaluent l'importance de l'erreur de mesure mais ces méthodes n'évaluent pas nécessairement la même source d'erreur de mesure.
▪Il ne faut pas confondre indice (ou index) de fidélité (corrélation entre score vrai et score observé) et coefficient de fidélité (qui est le carré de l'indice de fidélité). C'est toujours le coefficient de fidélité qui est reporté dans les manuels.
ATTENTION / IMPORTANT : dans de nombreux ouvrages, sur internet ou lors d'interventions orales, on donne comme définition de la fidélité, la constance ou la reproductibilité des scores d’un test (ce qui fait que les IA conversationnelles se tromperont aussi si vous demandez une définition !). Constance ou reproductibilité, ne sont pas des définitions de la fidélité mais des manifestations d'un score fidèle (i.e. avec une erreur aléatoire de mesure minimale). Malheureusement actuellement c'est parfois la seule que l'on donne alors que la définition à retenir, nous le rappelons, est que la fidélité d’un test est le degré auquel les scores observés sont exempts d’erreurs de mesure aléatoire ou encore “Reliability refers to the precision of measurement (or degree of error) in an instrument.” (AERA, APA, & NCME, 2014).
Pour aller plus loin
Il est toujours surprenant de calculer un coefficient estimant la relation qui existe entre un score observé et un score vrai que l'on ne connaît pas. Il est indiqué ci-dessus que ce coefficient est estimé à partir de deux formes parallèles d'un test. Dans la théorie classique des tests (TCT), deux formes d'un test sont dites parallèles si leurs scores vrais et l'erreur type de mesure sont égales. A partir de ce postulat, on peut démontrer que la corrélation entre deux tests parallèles est une estimation du coefficient de fidélité (donc une estimation du carré de l'index de fidélité). Pour ceux que la démonstration intéresse, ils peuvent se reporter à la page 107 de l'ouvrage de Laveault et Grégoire (2014).