Il s'agit ici, d'analyser l'adéquation du contenu du test avec le construit qu'il veut mesurer. La notion de contenu est large et renvoie à la fois à la formulation des questions, au type de tache proposée, au format des items, à la représentativité des items, mais fait aussi référence aux procédures d'administration comme de cotations. Cet aspect de la validation d'un test a donc plusieurs facettes. Elle implique le jugement d'experts et peut aussi concerner la question de l'interprétation des scores observés dans différents sous-groupes de façon à s'assurer que la sélection des items ne conduise pas à donner (par sélection d'items non pertinents ou autres) des biais spécifiques à un ou plusieurs sous-groupes.
Cette preuve de la validité d'une épreuve est à rapprocher de la validité de contenu ou validité représentative, (ancienne terminologie) mais elle est bien plus large. Elle est différente de ce qu'on appelait (qu'on appelle toujours) la validité apparente (face validity) qui repose sur une analyse de surface des items, analyse non effectuée par des experts.