Certains tests proposent des valeurs seuils ou critiques permettant de définir un risque (difficulté d'apprentissage de la lecture, pronostic de démence, dépression, etc.). Ces valeurs seuils sont parfois fixées a priori à partir de critères comme un score inférieur ou supérieur à 2 écarts-types à celui observé en moyenne. Cependant, quand un test permet de prédire l'apparition d'une maladie ou des difficultés d'apprentissage, il est possible, d'utiliser les notions de sensibilité et spécificité telles que nous les avons vues dans le chapitre (Qualités métrologiques - Sensibilité et spécificité).
Pour rappel la sensibilité dans ce contexte est la capacité de l'instrument à identifier correctement les personnes présentant la caractéristique que l'on souhaite étudier et la spécificité est la capacité de l'instrument à identifier correctement les personnes ne portant pas cette caractéristique.
Supposons que nous construisions une batterie permettant d'évaluer la mémoire sous toutes ses formes et donnant un score global de mémoire pour les personnes âgées entre 70 et 75 ans qui présentent des plaintes mnésiques (vie quotidienne). On pense que les résultats à cette batterie, lorsqu'ils sont élevées (scores de performances inversés), devraient être aussi prédicteurs d'une évolution vers une démence dans les années à venir (exemple fictif). Dans ce cadre on va faire passer l'épreuve à un échantillon représentatif de cette population et regarder, deux ou trois ans après, l'évolution de ces personnes. Nous aurons alors deux groupes de personnes, celles présentant une démence et celles ne présentant pas de démence. Nous pourrons représenter les résultats initiaux à cette batterie sur un graphique en séparant ceux qui présentent un trouble et ceux qui n'en présentent pas :
Figure G.2 : Distribution des scores (proportions) des personnes qui présentent un trouble (T) et de ceux qui n'en présentent pas (NT)
On observe bien entendu que parmi ceux qui présentent des troubles, le score initial pouvait être faible (sans difficulté particulière initialement) et inversement, parmi ceux qui ne présentent pas de trouble, le score initial pouvait être élevé. Si les deux courbes sont confondues ou presque confondues (moyenne proche) il ne sera pas possible de trouver une valeur critique. Si ces deux courbes sont suffisamment distinctes, il faudra se fixer une valeur critique en minimisant les faux positifs (FP) et les faux négatifs (FN).
Le graphique précédent permet de comprendre que selon la valeur seuil que l'on prendra, soit on diminue la probabilité de FP (faux positifs) mais on on augmente la probabilité d'avoir des FN (faux négatifs), soit on diminue la probabilité des FN mais on augmente celle des FP. Le bon positionnement dépend des risques que l'on veut prendre et de la nature de la décision à prendre. Si, comme dans notre exemple, on cherche une valeur critique pour identifier les personnes à risque de démences ne vaut-il pas mieux faire des FN plutôt que des faux positifs connaissant l'impact du diagnostic dans l'évolution de ces maladies (une discussion sur ce sujet n'est pas l'objet de ce cours, mais regarder ce qu'il en est par exemple pour la maladie d'Alzheimer). A l'inverse si, pour une autre recherche avec des enfants, l'objet est d'identifier des possibles troubles d'apprentissage ultérieurs (lors de la scolarisation obligatoire), n'est-il pas à l'inverse préférable de faire un minimum de faux négatifs.
Ce rapport entre FN et FP et la qualité diagnostic de l'épreuve peut être évaluée au moyen d'une courbe que l'on appelle courbe ROC (Receiver Operating Charateristic). Pour tracer cette courbe, on met en abscisse la spécificité (plus exactement 1-la spécificité) et en ordonnée la sensibilité (pour le calcul de ces valeurs, voir Qualités métrologiques - Sensibilité et spécificité). Cette technique revient à représenter l'évolution des FP et FN en fonction de la valeur critique choisie.
Plus la courbe se rapprochera de la diagonale (surface entre la diagonale et la courbe), plus la classification est faite au hasard. Un bon test diagnostic doit donc présenter une courbe ROC plus haute que cette diagonale. En fonction des risques que l'on veut prendre, on choisira une valeur critique en fonction des objectifs mais le plus souvent on préfère le point le plus proche du point (0,1). Ce point est un bon compromis entre spécificité et sensibilité.
Figure G.3 : Exemples de deux courbes ROC. En rouge (pointillé) une courbe ROC associée à un mauvais test diagnostic et en noir (traitillé) une courbe ROC associé à un meilleur test diagnostic (rem : la spécificité et la sensibilité varient entre 0 et 1) |
Pour aller plus loin
La présentation qui est faite ici des courbes ROC est simplifiée. Cet outil est très utilisé dans le domaine médical et plus rarement en psychologie. Pour aller un peu plus loin sur la compréhension des courbes ROC, vous pouvez lire un article introductif (Morin, Morin, Mercier, Moineau, & Codet, 1998) dans le domaine médical ou ces articles montrant une application en psychologie (Lacot et al., 2011, Pintea, Moldovan, 2009).