L'étalonnage est toujours un reflet de la distribution des scores dans une population et sa qualité dépend potentiellement de nombreux facteurs comme l'âge, le sexe, le niveau d'étude, les conditions de vie, les professions, etc. La présentation des procédures d'étalonnage parait simple, mais leur mise en pratique pose plus de problèmes qu'il n'y parait. En effet
1)Quels facteurs doivent être pris en compte pour déterminer les sous-groupes d'étalonnage (doit-on construire des tables par âge, âge et sexe, par catégorie socioprofessionnelle, etc.) ?
2)Quel est le "juste" nombre des sous-groupes (le nombre des tables d'étalonnage) à construire ? Multiplier les tables d'étalonnage peut conduire à stratifier l'échantillon normatif en sous-groupes ayant un nombre de représentants trop restreint. Par exemple, pour une simple variable comme l'âge, dans une épreuve concernant des enfants de 6 à 17 ans, il faudra décider, en fonction de l'importance de l'effet de l'âge, l'opportunité de construire un étalonnage par tranche d'âge d'un an (les 6 ans, les 7 ans, etc.) ou par tranche d'âge de 6 mois, voir 4 mois. Plus le nombre des catégories sera important plus la taille de l'échantillon dans chacune des strates sera potentiellement faible.
3)Lorsque l'on utilise pour stratifier l'échantillon normatif une variable comme l'âge la taille de l'intervalle peut avoir des conséquences sur l'interprétation des scores. Si les intervalles sont d'une taille trop importante (relativement à la taille de l'effet) un enfant dont l'âge est à la limite d'une classe pourrait, selon qu'il sera examiné 10 jours avant ou 10 jours après, voir son score brut comparé à des échantillons très différents et conduire à des conclusions très différents ! (remarque: en pratique, on devrait toujours regarder, lorsqu'un enfant est à la limite d'une classe d'âge, comment varie son score étalonné).
4)La multiplicité des facteurs déterminants la performance comme les fluctuations aléatoires dans les sous-groupes que l'on décidera d'utiliser pour construire les tables d'étalonnages peut contribuer à sur-estimer ou sous-estimer des moyennes et des variances et plus généralement à conduire à des distributions imparfaitement représentatives de celles que l'on obtiendrait avec l'ensemble de la population. Cette plus faible représentativité par sous groupe peut impacter de façon plus ou moins importante les scores étalonnés..
Ces quelques questions montrent que construire un étalonnage n'est pas la simple mise en œuvre d'une technique. Les réponses à ces questions sont multiples et on se doit de trouver un compromis entre l'importance de l'effet des facteurs à contrôler (âge, par exemple), la taille de l'échantillon normatif et le nombre de groupes de comparaisons (nombre de tables d'étalonnage à construire).
Pour répondre à certains problème, les techniques ont évoluées et les plus utilisées sont actuellement regroupées sous le nom de «normalisation continue» (Lenhard, Lenhard, Suggate et Segerer, 2016, Voncken, Albers et Timmerman, 2016, Zachary et Gorsuch, 1985), ou «normalisation inférentielle» (Zhu & Chen, 2011). De façon très résumée, le principe de ces méthodes consistent à modéliser les paramètres de la distribution des scores des tables d'étalonnage par des techniques de régression. L'intérêt de certaines de ces techniques est qu'elles permettent d'estimer les caractéristiques de chaque groupe (table d'étalonnage) en prenant en compte l'ensemble de l'échantillon normatif et non plus simplement le sous-groupe concerné par la table. Elles peuvent parfois permettre d'extrapoler des données ou de s'affranchir des tables d'étalonnage en permettant de calculer pour chaque personne (chaque score observé) un score étalonné en fonction des variables que l'on souhaite contrôler (cet aspect est encore peu peu développé et suppose pour l'utilisateur final d'utiliser non plus des tables d'étalonnage mais un algorithme de calcul pour convertir le score, algorithme le plus souvent automatisé via une application web ou non).
Ces techniques apportent une contribution importante à la construction des étalonnages mais impliquent de respecter des hypothèses comme la normalité des scores brutes et/ou l'homogénéité des variances. Malheureusement, ces hypothèses sont cependant rarement vérifiées dans les échelles surtout lorsqu'il s'agit d'épreuves développementales (asymétrie droite de la distribution pour les plus jeunes par exemple). Des solutions ont été proposées (normalisation des distributions par des transformations comme celle de Box-Cox) mais restent limitées. Une des solution prometteuse est probablement celle proposée par Lenhard, Lebard, Suggate et Segerer en 2016 qui est une technique non paramétrique s’appuyant sur les polynômes de Taylor (elle ne sera pas détaillée ici)
Pour conclure, quel que soit la technique utilisée, le score étalonné sera exprimé sous forme d'un score T, d'un QI, d'un score z ou autres. L'interprétation pour le psychologue reste identique, seule la façon de construire l'étalonnage change de façon à ce qu'il soit optimisé. On regrettera cependant que les auteurs, lorsqu'ils utilisent la normalisation continue, donnent trop peu de détails sur le modèle utilisée.