La fiabilidad en los tests referidos al criterio

La fiabilidad en los tests referidos al criterio

Tests referidos al criterio

Tienen sus orígenes en los trabajos de FLANAGAN y NEDELSKY.

La denominación Tests Referidos al Criterio (T.R.C.) se debe EBEL y su diferenciación respecto de los tests normativos fue establecida por GLASER.

Las principales causas que generan su aparición son:

  • La necesidad de conocer la eficacia de los programas educativos.

  • El interés por evaluar el nivel de habilidades básicas alcanzado por los sujetos.

  • El clima contrario al uso de tests que caracteriza a la sociedad norteamericana en los años 60.

Un test referido al criterio se utiliza para evaluar el estatus absoluto del sujeto con respecto a algún dominio de conductas bien definido.

No constituyen un nuevo marco teórico en la Teoría Clásica de los Tests, sino un nuevo enfoque que responde a preguntas y necesidades distintas de los tests referidos a las normas.

Diferencias entre TRN y TRC

En cuanto a la construcción del test:

  • En los T.R.C. se delimita claramente el dominio de contenidos o conducta y el uso pretendido del test.

  • En los T.R.N. los ítems suelen derivarse de alguna teoría de rasgos y no se hace tanto hincapié en la especificación clara del dominio de contenidos.

En cuanto a los criterios de selección de ítems:

  • En los T.R.N. el objetivo es maximizar las diferencias individuales, por lo que se eligen ítems de dificultad media y alto índice de discriminación.

  • En los T.R.C. la selección de ítems se basa en los objetivos del test y en el propósito y finalidad del mismo.

Se suelen utilizar para dos tipos de objetivos:

  1. la estimación de la puntuación dominio de los sujetos (test referido al dominio), y

  2. el establecimiento de estándares mediante punto de corte (test de maestría).

En cuanto a la evaluación de los sujetos:

  • En los T.R.N. la puntuación obtenida por los sujetos se considera un indicador de su puntuación verdadera y sólo tiene significado en relación a los resultados del grupo normativo.

  • En los T.R.C. la puntuación representa el estándar muestral del rendimiento del sujeto en el dominio y tiene significado en términos absolutos.

Longitud del test

Si el número de ítems es pequeño, la interpretación que hagamos de las puntuaciones tiene un valor limitado.

Si el propósito que se persigue es el poder establecer el grado de maestría de un sujeto, la determinación de la longitud del test está directamente relacionada con el número de errores de clasificación tolerables.

Cuando el número de elementos del test es elevado, se pueden asegurar valores de probabilidad de clasificación incorrecta mínimos.

Se pueden considerar dos maneras de reducir el número de errores que se pueden cometer sin tener que aumentar la longitud del test: la utilización de modelos bayesianos y los métodos basados en tests computerizados.

Método de MILLMAN

Está basado en el modelo binomial.

Podemos calcular la longitud del test, supuesta una determinada proporción de aciertos para ser considerado apto y el error máximo admisible.

Fiabilidad de los tests referidos al criterio

El enfoque de los tests de maestría es el más utilizado. Se considera que un test es fiable si, tras su aplicación a los mismos sujetos en distintas ocasiones, o la aplicación de dos formas paralelas, se clasifica a los sujetos siempre en la misma categoría.

Métodos basados en dos aplicaciones del test

Índice pc

  • Calcula la proporción de sujetos que son consistentemente clasificados en ambos tests.

  • El valor máximo es 1.

  • El valor mínimo es el que cabe esperar por mero azar, pa, y viene dado en función de las frecuencias marginales

  • Este índice tiende a aumentar cuando el punto de corte se ubica en zonas extremas de la distribución.

Coeficiente kappa

  • Elimina el valor de la proporción esperada por azar.

  • Su valor oscila entre 0 y 1.

  • Los valores cercanos a 0 indicarían que las clasificaciones hechas por el test no mejoran el azar.

  • K tiende a aumentar cuando el punto de corte se ubica en zonas próximas a la media de la distribución.

  • Podemos obtener la significación estadística del K obtenido en la muestra, formando un intervalo confidencial:

    • Si el 0 está dentro del intervalo, el K no es significativo.

    • Si el 0 no está dentro del intervalo, el K es significativo.

Índice de CROCKER y ALGINA

  • Se propone como alternativa al K.

  • Se basa en que la probabilidad mínima de una decisión consistente es 0’50.

  • Su valor oscila entre 0 y 1.

Métodos basados en una aplicación del test

Método de HUYNH

  • Tiene la ventaja de que sólo se precisa un test y una sola aplicación.

  • Es un método para estimar los coeficientes pc y K.

  • Se basa en el supuesto de que si se aplicasen dos formas paralelas, la distribución conjunta sería aproximadamente normal.

Pasos a seguir:

  • Se calcula la media y la desviación típica de las puntuaciones del test,

  • Se calcula la desviación normal correspondiente al punto de corte: Z

  • Se busca en la tabla N(0,1) la proporción pz por debajo de la Z obtenida

  • Se busca en la tabla de SUBKOVIAK la proporción pzz que resulta del cruce de Z (fila) y el valor de alfa (KR21) (columna),

  • Se procede al cálculo de pc y Kappa,

  • Los especialistas no se ponen de acuerdo sobre cuál de los dos es preferible utilizar.

Coeficiente de LIVINGSTON

  • Se desarrolla en el contexto de la T.C.T.

  • Tiene en cuenta la importancia relativa de las clasificaciones incorrectas.

  • Considera más importantes los errores de clasificación de los sujetos más distanciados del punto de corte que aquéllos que están más cerca del punto de corte.

  • Aumenta si aumenta alfa.

  • Cuando el punto de corte coincide con la media del test, su valor es igual a alfa.

  • Por lo que este coeficiente es siempre igual o mayor que alfa.

  • Se puede obtener el valor de este coeficiente al cambiar la longitud del test.

  • Ligeramente modificado puede utilizarse también en el caso de que se disponga de dos formas paralelas del test

Método de SUBKOVIAK

  • Simula las puntuaciones de una segunda forma paralela del test.

  • Al igual que HUYNH, proporciona una buena estimación de los valores de pc y K.