Étalonnages continus et inférentiels

Parent Previous Next

L'étalonnage est toujours un reflet de la distribution des scores dans une population. La présentation des procédures d'étalonnage parait simple, mais leur mise en pratique pose plus de problèmes qu'il n'y parait. En effet : 

1)Les scores observés  peuvent être affectés de façon significative par différents facteurs comme l'âge, le sexe, le niveau d'étude, les professions, etc. Quels facteurs doivent être pris en compte pour déterminer les sous-groupes d'étalonnage (faut-il construire des tables par âge, âge et sexe, par catégorie socioprofessionnelle, etc.) ?

2)Quel est le "juste" nombre des sous-groupes (le nombre des tables d'étalonnage) à construire ? Multiplier les tables d'étalonnage peut conduire à stratifier l'échantillon de standardisation en sous-groupes ayant un nombre de représentants trop restreint. Par exemple, pour une simple variable comme l'âge, dans une épreuve concernant des enfants de 6 à 17 ans, il faudra décider, en fonction de l'importance de l'effet de l'âge, l'opportunité de construire un étalonnage par tranche d'âge d'un an (les 6 ans, les 7 ans, etc.) ou par tranche d'âge de 6 mois, voir 4 mois. Plus le nombre des catégories sera important plus la taille de l'échantillon dans chacune des strates sera potentiellement faible ou très difficile à constituer (pour tenir compte des facteurs à contrôler).

3)Lorsque l'on utilise, pour subdiviser l'échantillon de standardisation, une variable comme l'âge la taille de l'intervalle peut avoir des conséquences sur l'interprétation des scores. Si les intervalles sont d'une taille trop importante (relativement à la taille de l'effet) un enfant dont l'âge est à la limite d'une classe pourrait, selon qu'il sera examiné 10 jours avant ou 10 jours après, voir son score brut comparé à des échantillons peu représentatifs pour cet enfant (remarque: en pratique, on devrait toujours regarder, lorsqu'un enfant est à la limite d'une classe d'âge, le score de l'enfant dans les deux groupes d'âge).

Ces quelques questions montrent que construire un étalonnage n'est pas la simple mise en œuvre  d'une technique. Les réponses à ces questions sont multiples et on se doit de trouver  un compromis entre l'importance de l'effet des facteurs à contrôler (âge, par exemple), la taille de l'échantillon de standardisation et le nombre de groupes de comparaisons (nombre de tables d'étalonnage à construire). 

La normalisation continue : une réponse à ces questions 

Pour répondre à certains problème, les techniques ont évoluées et les plus utilisées sont actuellement regroupées sous le nom de  «normalisation continue» (Lenhard, Lenhard, Suggate et Segerer, 2016, Voncken, Albers et Timmerman, 2016, Zachary et Gorsuch, 1985), ou «normalisation inférentielle» (Zhu & Chen, 2011).  De façon très résumée, le principe de ces méthodes consistent à modéliser les paramètres de la distribution des scores des tables d'étalonnage par des techniques de régression. 

L'intérêt de certaines de ces techniques est qu'elles permettent d'estimer les caractéristiques de chaque groupe (donc chaque table d'étalonnage) en prenant en compte l'ensemble de l'échantillon et non plus simplement le sous-groupe concerné par la table. Elles peuvent parfois permettre  d'extrapoler des données ou de s'affranchir des tables d'étalonnage en permettant de calculer pour chaque personne (chaque score observé) un score étalonné en fonction des variables que l'on souhaite contrôler (cet aspect est encore peu peu développé et suppose pour l'utilisateur final d'utiliser non plus des tables d'étalonnage mais un algorithme de calcul pour convertir le score, algorithme le plus souvent automatisé via une application web ou non).

Ces techniques  apportent une contribution importante à la construction des étalonnages mais impliquent de respecter des hypothèses comme la normalité des scores bruts et/ou l'homogénéité des variances. Malheureusement, ces hypothèses sont rarement vérifiées dans les échelles surtout lorsqu'il s'agit d'épreuves développementales (asymétrie droite de la distribution pour les plus jeunes par exemple). Des solutions ont été proposées (normalisation des distributions par des transformations comme celle de Box-Cox) mais restent limitées. Une des solution prometteuse est probablement celle proposée par Lenhard, Lebard,  Suggate et Segerer en 2016 qui est une technique non paramétrique s’appuyant sur les polynômes de Taylor. Elle ne sera pas détaillée ici mais vous pouvez voir un  exemple de mise en oeuvre dans la batterie FEE évaluant les fonctions exécutives chez l'enfant (Roy et al. 2021). 

Pour conclure, quel que soit la technique utilisée, le score étalonné sera exprimé sous forme d'un score T, d'un QI, d'un score z ou autres. L'interprétation pour le psychologue reste identique, seule la façon de construire l'étalonnage change de façon à ce qu'il soit optimisé. On regrettera cependant que les auteurs, lorsqu'ils utilisent la normalisation continue, donnent trop peu de détails sur le modèle utilisée.