A utilização do quociente de inteligência (QI) como métrica diagnóstica é amplamente disseminada na prática psicológica clínica e educacional. No entanto, a suposição de que diferentes testes de inteligência produzem escores equivalentes em um mesmo indivíduo raramente é posta à prova com o rigor que exige a tomada de decisões de alto impacto, como o encaminhamento para educação especial ou diagnósticos clínicos. O estudo conduzido por Hagmann-von Arx, Lemola e Grob (2016) se destaca exatamente por enfrentar essa questão, ao analisar comparativamente os escores de QI obtidos por 206 crianças em cinco diferentes testes de inteligência padronizados e amplamente utilizados em países de língua alemã.
Os autores investigaram o RIAS, SON-R 6-40, IDS, WISC-IV e CFT 20-R, aplicados individualmente em crianças de 6 a 11 anos. Em nível amostral, os resultados mostraram alta correlação entre os escores dos diferentes testes (r = 0,70 a 0,84), com pequenas diferenças de médias — um achado consistente com a ideia de que os testes mensuram um fator comum, a chamada inteligência geral (g). Essa convergência amostral, porém, mascara uma disparidade significativa em nível individual: entre 12% e 38% das crianças apresentaram diferenças de escore superiores ao intervalo crítico de confiança de 90%, o que coloca em xeque a equivalência dos testes em decisões diagnósticas individualizadas (Hagmann-von Arx et al., 2016).
É importante destacar que essas discrepâncias não foram atribuíveis à escolha do teste em si, mas sim a variabilidade não sistemática, ou seja, erro não explicado, identificado pela análise de generalizabilidade. Apenas 4% da variância nos escores foi associada ao tipo de teste, enquanto até 42% foi atribuída a interações entre indivíduo e teste — incluindo fatores como estado motivacional, fadiga, ou familiaridade com o formato. Notei, ao revisar o artigo, que os autores sublinham a relevância de considerar fatores contextuais e psicométricos na interpretação dos resultados, algo frequentemente negligenciado na prática clínica, que tende a tomar o QI como uma medida estática e precisa.
Outro aspecto notável é o impacto do chamado efeito Flynn — o aumento progressivo da média de QI nas populações ao longo das décadas — que explica parcialmente as menores médias em testes mais recentemente normatizados, como o RIAS e o SON-R 6-40. Embora as diferenças entre os testes tenham sido pequenas (1 a 5 pontos de QI), elas adquirem relevância prática quando se considera limiares diagnósticos estritos, como os adotados para deficiência intelectual.
O estudo também fornece diretrizes pragmáticas: para decisões de alto impacto, a administração de ao menos dois testes é recomendada, com a combinação de RIAS com IDS ou WISC-IV, e SON-R com IDS ou CFT 20-R sendo as mais confiáveis (coeficiente de generalizabilidade > 0,80). Em contraste, certas combinações devem ser evitadas conforme o nível intelectual estimado da criança — por exemplo, o par RIAS-WISC-IV mostrou-se menos confiável em crianças com inteligência acima da média.
Em síntese, este estudo reforça uma conclusão tecnicamente relevante e eticamente imperativa: o QI obtido em um único teste pode não ser suficiente para decisões críticas. A precisão psicométrica exige uma abordagem plural, que combine instrumentos, analise intervalos de confiança e interprete os resultados dentro de contextos individuais. Como cientista, noto que tal rigor ainda é raro na aplicação prática, e que pesquisas como esta contribuem decisivamente para uma psicometria mais responsável e informada.
Referência:HAGMANN-VON ARX, Priska; LEMOLA, Sakari; GROB, Alexander. Does IQ = IQ? Comparability of intelligence test scores in typically developing children. Assessment, [S. l.], 2016. Disponível em: https://doi.org/10.1177/1073191116662911. Acesso em: 10 maio 2025.