Análisis de los ítems

Propiedades psicométricas de los ítems

La calidad métrica de los ítems se puede evaluar con el análisis de las respuestas de los sujetos a dos elementos importantes del ítem: la alternativa correcta y las alternativas incorrectas.

Las respuestas a la alternativa correcta son las que ofrecen mayor información acerca de la calidad métrica del ítem.

Cuatro aspectos fundamentales del ítem son:

La Dificultad: se establece “a priori” y está en función del contenido y de la complejidad de las operaciones demandadas al sujeto para responder correctamente.
La Discriminación: un ítem presenta poder discriminativo cuando es capaz de diferencias adecuadamente a los sujetos de diferentes niveles de una variable criterio.
La Fiabilidad y la Validez, estrechamente relacionadas con la discriminación del ítem.

El análisis de las respuestas a las alternativas incorrectas (análisis de distractores), informa sobre la utilidad de cada alternativa incorrecta en el ítem y de su contribución a la calidad del mismo.

Parámetros de los ítems

Dificultad del ítem

Se han propuesto varios estadísticos. El más utilizado y sencillo es el estadístico “p” (proporción de sujetos que responden correctamente al ítem).

Varía de 0 (ítem muy difícil) a 1 (ítem muy fácil).

Los ítems con valores extremos deben ser descartados.

Para ítems dicotómicos, el índice de dificultad coincide con la media de los sujetos en el ítem.

Los ítems que mejor discriminan son aquellos que son respondidos correctamente por la mitad de los sujetos.

El índice de dificultad depende de la muestra utilizada.

Corrección para ítems de elección múltiple.

Varianza de un ítem: pi.qi

Varianza del test: Sumatorio de p.q

Media del test: Sumatorio de p

Discriminación del ítem

El poder discriminativo del ítem se define como la capacidad del ítem para distinguir a los sujetos de alta, media y baja puntuación en un criterio.

El criterio puede ser:

INTERNO (el test y el ítem miden el mismo constructo) (el índice de discriminación se puede interpretar como Índice de Homogeneidad).
EXTERNO (la puntuación en otro test) (el índice de discriminación es una medida del grado de validez del ítem).

Dos son los tipos de medidas utilizados con más frecuencia:

A) EL ÍNDICE DE DISCRIMINACIÓN

Se basa en la información que proporciona la comparación del rendimiento de dos grupos extremos (bajo y alto) en las puntuaciones en el test.
Se toma el 27 % de los sujetos de más baja puntuación y el 27 % de más alta puntuación en el test.
D = 0 refleja que el ítem no discrimina adecuadamente.
D > 0’40 refleja que el ítem tiene gran poder discriminativo.
Un valor negativo en D indicaría una disminución en la precisión del instrumento de medida.

B) LOS COEFICIENTES DE DISCRIMINACIÓN

El índice de discriminación es la correlación entre las puntuaciones de los sujetos en el ítem y sus puntuaciones en el test, descontada la del ítem.

Presentan la ventaja de considerar a todos los sujetos de la muestra.

Cuál haya de ser el coeficiente de correlación dependerá de la naturaleza de las variables:

Correlación Biserial-Puntual
- Cuando una variable es dicotómica y la otra es continua.
- Varía de -1 a +1.
- Pero en la realidad es muy poco probable que sea < -0’10 y > 0’75.
- Para su cálculo empírico introduciremos en la calculadora, en el Mode REG, las puntuaciones del ítem J y las del test menos el ítem (X – J).
- Para tests de 40 o más ítems prácticamente no hay diferencia entre la correlación entre J y X y la correlación corregida entre J y (X-J).
Correlación Biserial
- Cuando una variable ha sido dicotomizada y la otra es continua.
- La correlación biserial siempre será mayor que la biserial-puntual.
- Su principal ventaja es que es un fiel reflejo de la contribución del ítem al funcionamiento del test.
- Además se ve menos influenciada por la dificultad del ítem.
Correlación Phi
- Cuando las dos variables son dicotómicas.
- Se puede calcular empíricamente con la calculadora en el Mode REG, si tenemos los datos sin agrupar.
Coeficiente de Correlación de Pearson
- Cuando las dos variables son continuas.
- Se obtiene con la calculadora, en el Mode REG.

C) DISCRIMINACIÓN DE LOS ÍTEMS EN DISEÑOS PRE-POST TEST

Índice de Discriminación
- Se puede utilizar para determinar el grado de discriminación de un ítem entre un grupo de sujetos que han pasado por un proceso de instrucción, antes y después del proceso.
Método de Brennan
- Considera las puntuaciones de dos grupos de sujetos, uno de los cuales recibe instrucción y el otro no.
Procedimiento de Saupe
- Cuando estamos interesados en determinar qué ítems discriminan mejor entre grupos que han recibido instrucción de aquellos que no la han recibido.
- Este método requiere que cada ítem sea administrado al mismo grupo de sujetos siguiendo un diseño pre-post test.

D) PODER DISCRIMINATIVO DE LOS ITEMS EN ESCALAS DE ACTITUDES

Correlación ítem-test
- Se obtiene la correlación entre las puntuaciones en el ítem y las puntuaciones en el test, descontando la del ítem.
- Se puede obtener su valor con la calculadora, en el Mode REG.
- Se suele eliminar aquellos elementos cuyo índice de homogeneidad sea inferior a 0’20 (Escala de Likert)
Dos grupos extremos de actitud
- Se separa el 25 % (o el 27 %) de los sujetos con puntuación total más alta y el 25 % (o el 27 %) de los sujetos con puntuación total más baja.
- Si los elementos que se analizan no son discriminativos, al realizar el análisis comparativo de las puntuaciones obtenidas en el ítem en ambos grupos, no encontraremos diferencias significativas y, por tanto, esos elementos deberán eliminarse de la escala final.
1. Prueba t de Student
  - Es el procedimiento más adecuado porque utiliza toda la información.
  - Se usa cuando se cumplen los supuestos paramétricos.
2. Prueba U de Mann-Whitney
  - Se usa cuando se sospecha que no se cumplen los supuestos paramétricos.
  - Las puntuaciones están sin agrupar.
  - El procedimiento sólo utiliza una información parcial.
3. Prueba Chi-Cuadrado
  - Se usa cuando se sospecha que no se cumplen los supuestos paramétricos.
  - Los datos están agrupados en una tabla 2 x 2.
  - Requiere que el tamaño mínimo de la muestra elegida sea de 50 sujetos.
- Los resultados obtenidos a través de los distintos procedimientos expuestos (2.1, 2.2, 2.3) no tienen por qué ser iguales.

Fiabilidad y validez del ítem

Cuando el criterio es interno, el índice se denomina Indice de fiabilidad del ítem, IF, y se considera una medida de la precisión con la que el ítem mide el constructo o dominio de interés.

La fiabilidad del test se puede expresar en términos de los índices de fiabilidad de los ítems que lo componen.

Cuando el criterio es externo, el índice recibe el nombre de Indice de Validez del item, IV,

Según la naturaleza del criterio se debe utilizar un coeficiente u otro (biserial-puntual, biserial, Pearson).

La validez del test se puede expresar a través de los IV de los ítems.

Comparación de las respuestas a los ítems

Se produce esta situación cuando interesa estudiar la similitud de las respuestas dadas por un grupo de sujetos a dos ítems que presentan características similares.

Dados dos ítems podemos plantearnos tres criterios:

Si dos ítems miden lo mismo = su grado de homogeneidad
- Se calcula el estadístico Chi-Cuadrado.
- Se compara con el valor Chi-Cuadrado de con g.l. = (columnas-1)(filas-1).
- Si el estadístico > valor de tabla, entonces el grado de homogeneidad es significativo.
Analizar el grado de intensidad de dicha homogeneidad
- Se calcula el estadístico “p”
- Es sencillo e insesgado.
Si el grado de dificultad es el mismo
- Se calcula el estadístico Chi-Cuadrado.
- Se compara con el valor de la tabla Chi-Cuadrado con g.l. = (columnas-1)(filas-1).
- Si el estadístico > que el valor de tabla, entonces podemos concluir que hay diferencias significativas entre la dificultad de ambos ítems.

Análisis de distractores

En ítems de elección múltiple, pueden aparecer ítems con poca discriminación o con valores de dificultad extremos.

Si se comprueba que el contenido y la redacción son adecuados, el paso siguiente es el análisis del funcionamiento de las alternativas incorrectas como distractores, para identificar aquellos defectuosos y eliminarlos.

Las alternativas incorrectas se consideran distractores eficaces si cumplen las siguientes condiciones:

ser elegidos por un mínimo de sujetos,
ser aproximadamente igual de atractivos para los sujetos,
que el rendimiento medio en el test de los sujetos en cada distractor sea inferior al de los sujetos que han elegido la respuesta correcta y a la media del test general de todos los sujetos,
que discriminen entre los sujetos de baja, media y alta puntuación en el test, pero en el sentido contrario a como lo hace la alternativa correcta.

Funcionamiento diferencial del ítem

Cabe preguntarse si el test mide de la misma manera a todos los grupos de sujetos a los que se les aplica. Lo que se conoce como el problema del sesgo.

Las diferencias entre grupos ¿reflejan diferencias reales o están causadas por fuentes sistemáticas de error?

Estas fuentes sistemáticas de variación afectan a la validez de constructo.

El estudio del sesgo consiste en el análisis de las posibles fuentes de variación sistemática.

Para ello hay que diferenciar entre IMPACTO y FUNCIONAMIENTO DIFERENCIAL DEL ÍTEM (FDI).

Un ítem presenta impacto cuando existen diferencias en la puntuación media obtenida en ese ítem por dos grupos de sujetos con distinto nivel en el rasgo o característica que mida el test.
Un ítem presenta FDI cuando existen diferencias en la puntuación media obtenida en ese ítem por dos grupos distintos de sujetos pero con el mismo nivel en el rasgo o característica evaluada en el test.

El Método de Mantel-Haenszel

Sirve para analizar el FDI.

Pasos a seguir:

Seleccionar la variable externa de agrupamiento: GRUPO REFERENCIA (GR) (el supuestamente beneficiado) y GRUPO FOCAL (GF) (el supuestamente perjudicado).
Subdividir a los sujetos de ambos grupos en función de la puntuación empírica del test en subgrupos de habilidad homogénea.
Calcular el número de respuestas correctas e incorrectas por cada grupo (GR y GF) y nivel de habilidad.
Estimar la cantidad de FDI con el estadístico alfa (varía de 0 a infinito).
Interpretar el resultado (si alfa > 1, indica que el ítem favorece al GR; si alfa < 1, indica que el ítem favorece al GF; si alfa = 0 o muy próximo, indica que el ítem no presenta FDI).

Última actualización el 13/09/2022

← Validez de las Inferencias II 13/09/2022

Asignación, transformación y equiparación de las puntuaciones 13/09/2022 →