La fiabilidad de las puntuaciones

La fiabilidad de las puntuaciones

Error de medida

El error de medida se define como la diferencia entre la puntuación empírica obtenida por un sujeto en un test y su puntuación verdadera.

Los errores de medida podemos clasificarlos en:

  • Sistemáticos: los que afectan a todas las puntuaciones

  • Aleatorios: los que no son debidos al propio instrumento.

Estos últimos son los errores de los que se va a ocupar la fiabilidad.

Para analizar el error de medida se va a exponer el Modelo Lineal clásico de Spearman.

Modelo de Spearman

El Modelo Lineal de Spearman establece que la puntuación empírica obtenida por un sujeto en un test (X) puede considerarse como una combinación lineal de dos componentes: la puntuación verdadera de ese sujeto (V) en el rasgo que mide el test y el error de medida cometido (E): X = V + E.

Para poder estimar V el modelo se basa en una serie de supuestos

De los supuestos se siguen una serie de deducciones

Tests paralelos

Si a una misma muestra de sujetos se le aplican dos tests, X y X’, podemos considerar que son paralelos si, además de cumplirse los supuestos anteriores, se cumplen dos condiciones:

  1. Las puntuaciones verdaderas de los sujetos son iguales en ambos tests

  2. La varianza de los errores de medida es la misma en ambos tests.

Deducciones:

  • Todos los estadísticos grupales (varianzas, medias,….) deben ser iguales en ambas formas paralelas.

Interpretación teórica del coeficiente de fiabilidad

El Coeficiente de Fiabilidad es un indicador de la precisión relativa del test.

Es función de la cuantía de los errores de medida.

Nunca puede ser negativo.

Oscila entre 0 (toda la varianza es de error) y 1 (la varianza de error es 0)

Expresa la proporción que la varianza de las puntuaciones verdaderas es de la varianza de las puntuaciones empíricas.

Debemos desconfiar de un test cuyo coeficiente de fiabilidad sea inferior a 0’80.

Al término rxv se le denomina índice de fiabilidad. Es siempre mayor o igual que el coeficiente.

El rxv expresa la proporción de desviación típica verdadera que hay en la desviación típica empírica del test.

Tipos de errores de medida

Sistemáticos: afectan a todas las puntuaciones del test. Pueden ser:

  • EXTRÍNSECOS: según la forma de aplicación.

  • INTRÍNSECOS: según la forma de construcción.

Aleatorios: son los que se presentan en todo instrumento de medida.

Error de Medida:

  • Es la diferencia entre la puntuación empírica y la verdadera.

  • Individual.

  • Puede ser + o –

Error Típico de Medida:

  • Es la desviación típica de los errores de medida.

  • Es un indicador de la precisión absoluta del test.

  • Aumenta a medida que disminuye la fiabilidad del test.

  • Aumenta a medida que aumenta la desviación típica del test.

  • Colectivo.

  • Sólo puede ser +

Error de Estimación de la Puntuación Verdadera V:

  • Es la diferencia entre la puntuación verdadera y la puntuación verdadera pronosticada.

  • Individual.

  • Puede ser + o –

Error Típico de Estimación de la Puntuación Verdadera V:

  • Es la desviación típica de los errores de estimación de la puntuación verdadera

  • Colectivo.

  • Sólo puede ser +

Error de Sustitución:

  • Es el cometido al tomar una medida en un test por la obtenida en otro paralelo.

  • Individual.

  • Puede ser + o –

Error Típico de Sustitución:

  • Es la desviación típica de los errores de sustitución.

  • Colectivo.

  • Sólo puede ser +

Error de Predicción:

  • Es la diferencia entre una puntuación y la pronosticada a través de la obtenida en una forma paralela del test.

  • Individual.

  • Puede ser + o –

Error Típico de Predicción:

  • Es la desviación típica de los errores de predicción.

  • Colectivo.

  • Sólo puede ser +.

Estimación empírica del coeficiente de fiabilidad

Este tema está dedicado al estudio de la fiabilidad de los tests normativos. El tema siguiente se dedica a los tests referidos al criterio.

Los Tests Normativos son aquéllos cuyo objetivo es evaluar la actuación del sujeto en relación a la actuación de otros sujetos en el test.

Zona donde pretende una máxima discriminación: a lo largo de toda la escala, para poder escalarlos con mayor precisión.

Si no conocemos los datos directos de todos los sujetos en todas las preguntas del test: Usaremos la definición del coeficiente de fiabilidad

Si conocemos los datos directos de todos los sujetos, pueden darse dos situaciones:

Dos aplicaciones del test:

Indica estabilidad temporal:

a) Test -Restest: (Coeficiente de Estabilidad)

  • Un grupo al que se le pasa dos veces la misma prueba.

  • Una cuestión difícil de delimitar es el tiempo óptimo que debe transcurrir entre ambas aplicaciones.

b) Formas paralelas: (Coeficiente de Equivalencia)

  • Un grupo al que se le aplican dos formas paralelas del mismo test.

  • El problema fundamental es la construcción de dichas formas paralelas.

Una aplicacion del test:

Indica la consistencia interna de las respuestas de los sujetos a los ítems del test en una sola aplicación.

--> No conocemos los datos de todos los sujetos en todos los ítems del test:

  • Conoceremos los datos de los sujetos en las dos mitades, o la varianza de los ítems pares, de los impares, el coeficiente de correlación de las dos mitades, etc,..

  • Se asume el test dividido en dos mitades paralelas.

a) Spearman-brown:

  • r12 es el coeficiente de fiabilidad de cada una de las mitades.

  • Para aplicar este procedimiento hay que comprobar previamente que las dos mitades son paralelas.

b) Rulon:

  • Se puede utilizar cuando no son estrictamente paralelas ambas mitades, sino que son tau-equivalentes (puntuaciones verdaderas iguales, pero no las varianzas de error) o esencialmente tau-equivalentes (puntuaciones verdaderas en una mitad son iguales a las de la otra más una constante).

c) Guttman-Flanagan:

Las tres formas (a, b, c) dan el mismo resultado.

--> Sí conocemos los datos de todos los sujetos en todos los ítems:

a) Coeficiente alfa de Cronbach:

  • Se usa cuando los ítems son politómicos.

  • Constituye un indicador de la consistencia interna del test.

  • Expresa la fiabilidad del test en función del número de ítems y de la proporción de la varianza total del test debida a la covariación entre los ítems.

  • El valor de alfa aumenta si el test contiene ítems similares.

  • Alfa se interpreta como el valor medio obtenido al calcularlo en todas las posibles mitades en las que se puede dividir el test.

  • Alfa es una estimación del límite inferior del coeficiente de fiabilidad del test.

  • Por tanto, alfa no puede ser mayor que el índice de fiabilidad.

b) KR20 y KR21:

  • Se usan en lugar de alfa cuando los ítems son dicotómicos.

  • Son casos particulares de alfa.

  • Si los ítems son de distinta dificultad se usa KR20, y si son de igual dificultad KR21.