Principios básicos para la construcción de instrumentos de medición psicológica

Apuntes

Apuntes de Psicometría

Introducción

Para poder utilizar un test como instrumento científico de medición es necesario cubrir una serie de etapas:

Una etapa inicial:

la elaboración de una prueba piloto,
su aplicación a una muestra de sujetos,
la asignación de puntuaciones a los mismos.

Una segunda etapa:

en la que se evaluaría la calidad psicométrica de cada uno de los ítems de la prueba piloto,
la construcción definitiva del test.

Una tercera etapa:

la aplicación del test a una muestra representativa de la población a la que va dirigido,
se asignan las puntuaciones a los sujetos para su evaluación,
estandarización de las puntuaciones y establecimiento de normas que permitan su interpretación,
elaboración del manual del test.

Los tests, escalas, cuestionarios e inventarios

TEST: término general para referirnos a cualquier instrumento de medición psicológica; es el término más utilizado, pero sobre todo se utiliza para hacer referencia a los instrumentos de medición de variables cognitivas (aptitudes, conocimientos, rendimiento, habilidades, etc,…) (respuestas correctas e incorrectas).

ESCALA: suele utilizarse para hacer referencia a los instrumentos elaborados para medir variables no cognitivas (actitudes, intereses, preferencias, opiniones, etc,…) (no hay respuestas correctas).

CUESTIONARIOS: suelen estar formados por una serie de ítems que no están necesariamente relacionados unos con otros. Son el instrumento generalmente utilizado cuando se quiere llevar a cabo una investigación mediante encuestas (no hay respuestas correctas) (las opciones de respuesta no están ordenadas ni graduadas).

INVENTARIO: suele estar vinculado a los instrumentos elaborados para medir variables de personalidad (no hay respuestas correctas).

El proceso de construcción de un test

Es un proceso laborioso que requiere previamente tener muy claro qué se quiere medir, a quién va dirigido y para qué se va a utilizar.

Esquema de las distintas etapas a cubrir en la construcción de la prueba piloto.

La finalidad del test

Pasos previos a la construcción del test:

qué se quiere medir (variable objeto de estudio),
a quién se quiere medir (población a la que va dirigido),
para qué se quiere medir (uso o utilidad que se le va a dar al test).

La variable objeto de estudio

El problema surge cuando se quiere medir una variable psicológica, inobservable de forma directa, un constructo.

Los constructos se manifiestan a través de una serie de conductas, sí observables de forma directa, y susceptibles de medición.

Para que puedan ser consideradas como manifestaciones del constructo han de ser más o menos uniformes y constantes a lo largo del tiempo y en una serie de situaciones.

Todas las cuestiones que hacen referencia a estas conductas son las que deben ser reflejadas en los ítems del test.

Población a la que va dirigido el test

No es lo mismo construir un test para evaluar algún rasgo o característica en una población infantil que en una población de adultos.

Utilización prevista

Para qué se va a utilizar, qué decisiones se van a tomar a partir de las puntuaciones que obtengan los sujetos.

Principales usos de los tests (pág. 91 L.T. Tabla 2)

Especificación de las características del test

Hay cuatro aspectos fundamentales a la hora de desarrollar las especificaciones del test: Contenido, Formato, Longitud y Forma de aplicación

Contenido

La especificación comienza determinando cuál es su dominio de conductas. Si el constructo no está claramente definido hay que seguir una serie de recomendaciones.

La definición del constructo y la determinación de su dominio de conductas no son procesos distintos, sino que están fuertemente relacionados.

Se ha intentado hacer una categorización jerárquica, más o menos uniforme, de los distintos procesos implicados.

Formato de los ítems

Hay dos grandes categorías: Los ÍTEMS DE ELECCIÓN (de respuesta cerrada) y los ÍTEMS DE CONSTRUCCIÓN (el sujeto debe elaborar su propia respuesta).

Ítems de elección

Los formatos más comunes son:

DOS ALTERNATIVAS
- Se utiliza normalmente para medir variables de tipo cognitivo.
- Tiene la ventaja de ser rápido y fácil de usar.
- El inconveniente de respuestas al azar.
- No es el formato adecuado para los tests de personalidad, de actitudes, de intereses,……
ELECCIÓN MÚLTIPLE
- Se suelen utilizar de 3 a 5 alternativas.
- También se utiliza para medir variables cognitivas.
- No se utiliza para variables de personalidad, intereses, actitudes,…
- Tiene la ventaja de ser fácil de administrar, corregir y puntuar.
- El inconveniente de ser más difícil de construir que los de dos alternativas.
- El enunciado del ítem puede presentarse en forma:
  - a) interrogativa (la más directa y recomendable)
  - b) enunciativa (si el conjunto de ítems es coherente)
  - c) una frase truncada o incompleta (en tests educativos)
- La forma de redactar las alternativas:
  - a) aquellos ítems que presentan una única respuesta correcta (cuando no hay ambigüedad),
  - b) aquellos ítems en los que todas las alternativas son parcialmente correctas (cuando se evalúan procesos mentales complejos).
- Las opciones de respuesta son independientes entre sí.
EMPAREJAMIENTO
- Implica que el sujeto empareje los elementos de dos columnas, de acuerdo a las instrucciones dadas en el enunciado.
- Para variables cognitivas.
FORMATO CLOZE O INCOMPLETO
- Se ofrece a los sujetos una frase incompleta y una lista de palabras.
- La tarea de los sujetos consiste en seleccionar la palabra adecuada a cada espacio en blanco.
- Para variables cognitivas.
ESCALAS DE CLASIFICACIÓN
- Se presenta al sujeto un enunciado y distintas alternativas ordenadas de forma gradual a lo largo de un continuo.
- El sujeto debe responder eligiendo la alternativa que mejor refleje su actitud personal.
- Se distingue de los ítems de elección múltiple en que, a diferencia de éstos, las opciones no son independientes entre sí, sino interdependientes.
- Se utiliza para medir variables no cognitivas: actitudes, intereses, personalidad,……
- Ventaja: los sujetos expresan su postura de una manera más clara que en los ítems de elección múltiple.
- Inconveniente: el significado de las distintas opciones no es el mismo para todos los sujetos; es frecuente que aparezcan sesgos en las respuestas.
- No hay acuerdo generalizados acerca del número de opciones. El tipo de formato más utilizado es el de 5 alternativas propuesto por LIKERT.
LISTADOS
- Los sujetos han de mostrar su opinión respecto a algún hecho.
- No se utilizan para variables de tipo cognitivo.
- Las opciones no están ordenadas, sino que son independientes entre sí.
- No hay respuestas correctas.
- El número de alternativas suele ser bastante grande.
- Es posible elegir varias opciones.
- Es un formato típico de los Cuestionarios.

Ítems de construcción

Es el propio sujeto el que ha de elaborar su respuesta, de ahí que se denominen de respuesta abierta.

ITEMS DE RESPUESTA CORTA
- A veces no son más modificaciones de los ítems de elección múltiple (una palabra, una frase).
ITEMS DE RESPUESTA EXTENSA O DE ENSAYO
- Se pide a los sujetos que desarrollen un tema.
- Se utiliza para compensar la información parcial que proporcionan los formatos de respuesta cerrada.
- Permite poner de manifiesto las habilidades cognitivas de orden superior.
- Se utiliza para todo tipo de variables (cognitivas y afectivas).
- Inconvenientes: Las respuestas son más difíciles de analizar.

Longitud del test

¿Cuál es el número de ítems adecuado?. Realmente no hay una respuesta única, ya que son varios los factores tener en cuenta:

La población a la que va dirigido: no es lo mismo un test para niños que para adultos.
El tiempo de que se dispone: a no ser que se desee medir la rapidez de respuesta, la longitud del test debe ser tal que todos tengan tiempo suficiente para intentar resolver o contestar a todos los ítems.
Los objetivos del test: Depende si se quiere cubrir un área de conocimientos muy concreta o varias áreas de contenido.

Características psicométricas de los ítems

Estas características aluden fundamentalmente a su Nivel de Dificultad, a su Homogeneidad en relación a los demás ítems y a su Capacidad de Discriminación.

Dificultad de los ítems

Un ítem es fácil o difícil para una determinada población, en función de la probabilidad que los sujetos tengan de responder a él correctamente.

Se distinguen tres tipos de tests:

TESTS DE VELOCIDAD:
- Los ítems deben ser muy fáciles de resolver.
- La dificultad estriba en que tienen un tiempo limitado de ejecución.
- Algunos tests para medir variables cognitivas lo son (tests de rapidez de cálculo).
TESTS DE EJECUCIÓN MÁXIMA:
- Utilizados fundamentalmente para la evaluación del rendimiento académico y para la medida de aptitudes y destrezas.
- Los ítems presentan diferentes grados de dificultad.
- El tiempo no es un factor que deba influir.
TESTS DE EJECUCIÓN TÍPICA:
- Son los tests de personalidad, actitudes, intereses, etc,…
- Como no hay respuestas correctas, no tiene sentido hablar de dificultad de los ítems.

Los métodos estadísticos para el cálculo de la dificultad de los ítems se verán en el Tema 8.

Homogeneidad de los ítems

Un ítem tendrá un alto grado de homogeneidad con el resto de los ítems del test cuando mida lo mismo que ellos.

El grado de homogeneidad depende del constructo que se quiera medir con el test:

Si se trata de un constructo unidimensional, los ítems han de ser más homogéneos que si se trata de un constructo multidimensional,
Si el constructo es multidimensional, el grado de homogeneidad de los ítems será menor.

Los métodos estadísticos para el cálculo de la homogeneidad de los ítems se verán en el Tema 8.

Discriminación de los ítems

Un ítem tendrá poder discriminativo en la medida en que sirva para diferenciar entre sujetos que han obtenido en el test puntuaciones extremas.

El nivel de discriminación dependerá de la población a la que va dirigido el test:

Si el test está dirigido a la población general, el mayor porcentaje de ítems será de dificultad media.
Si se quiere que el test detecte a los sujetos brillantes, los ítems deberán ser difíciles y muy difíciles.
Si se quiere discriminar entre los menos capacitados, los ítems deberán ser fáciles y muy fáciles.

Los métodos estadísticos para el cálculo de la discriminación de los ítems se verán en el Tema 8.

Redacción de los ítems

Es importante cuidar la redacción de los ítems. Hay una serie de recomendaciones de carácter general y otras específicas del tipo de formato.

Recomendaciones generales

Evitar la ambigüedad de los enunciados
- Redactarlos de forma clara.
- Enunciados cortos y directos.
- Lo más precisos posible.
Evitar enunciados que provoquen respuestas sesgadas
- Respuesta sesgada es aquella que es más probable que elijan los sujetos, independientemente de su opinión.
Expresar una única idea en el enunciado
- Evitar las dobles preguntas en un mismo enunciado.
Evitar las dobles negaciones en los enunciados
- Provocan que los sujetos no sepan cuál es la respuesta que representa su opinión.

Recomendaciones para ítems de elección múltiple

Dos Alternativas
- Estar absolutamente convencido de que el ítem es sin ninguna duda verdadero o falso.
- No utilizar frases que sean universalmente verdaderas o falsas.
- Evitar palabras que pueden inducir respuesta correcta a los sujetos, aunque no la conozcan (siempre, todo, nada,…).
- Situar a lo largo del test, de forma aleatoria, los ítems cuyo enunciado sea correcto.
Elección Múltiple
- Asegurarse de que el enunciado del ítem formula el problema con claridad.
- Incluir la mayor parte del texto en el enunciado.
- Asegurarse de que los distractores son plausibles.
- Evitar expresiones como “Ninguna de las anteriores”,…
- Tratar de que todas las alternativas tengan una longitud aproximadamente igual.
- Aleatorizar la ubicación de la alternativa correcta.
- Asegurarse de que cada alternativa concuerda gramaticalmente con el enunciado del ítem.
Emparejamiento
- Asegurarse de que tanto las premisas como las opciones de respuesta que hay que emparejar son homogéneas.
- Utilizar el formato adecuado.
Formato Cloze
- Es necesario que en el enunciado haya tantos espacios en blanco como alternativas de respuesta.
Escalas de Clasificación
- Evitar expresiones coloquiales.
- Incluir aproximadamente el mismo número de ítems formulados de forma positiva y negativa.
- Asignar las etiquetas lingüísticas (de las categorías ordenadas).
Listados
- Son fáciles. Es necesario seguir las recomendaciones generales.

Recomendaciones para los ítems de construcción

Ítems de Respuesta Corta
- Asegurarse de que el ítem puede ser contestado con una única palabra.
- Los espacios en blanco han de ser de la misma longitud.
- Evitar dar pistas o claves acerca de la respuesta correcta.
- Indicar el grado de precisión exigido en la respuesta.
- Evitar determinantes específicos (todo, nada) o ambiguos (frecuentemente, algunas veces).
Ítems de Respuesta Extensa
- Asegurarse de que el problema está bien enfocado.
- No permitir a los sujetos que elijan entre varias preguntas de ensayo.
- Decidir de antemano cómo se van a puntuar las preguntas de ensayo.
- Redactar las preguntas referidas a cuestiones controvertidas.

Los sesgos de respuesta

Los principales sesgos de respuestas, que hay que tratar de evitar en lo posible, son provocados por:

Aquiescencia, o tendencia a responder sistemáticamente que se está de acuerdo (o en desacuerdo) con el enunciado del ítem, con independencia de su contenido.
Deseabilidad social, o tendencia a responder al ítem de una manera socialmente aceptable y no en función de lo que uno sienta, opine o piense.
Indecisión, o tendencia a seleccionar la etiqueta central o neutra (no sé, indiferente,…)
Respuesta Extrema, o tendencia a elegir como respuesta las categorías de los extremos, con independencia del contenido del ítem.

Revisión crítica por un grupo de expertos

Antes de dar forma a la prueba piloto, es conveniente que los ítems sean revisados por un grupo de personas que no hayan intervenido en su elaboración (expertos, evitar la “deformación profesional”,…)

Una vez revisados, y eliminados los no indicados, se puede construir la versión preliminar del test.

Confección de la prueba piloto

Son indicaciones de sentido común, que el alumno avezado de Psicometría ya ha puesto en funcionamiento en varios exámenes, constituidos por ítems de elección múltiple o ítems de construcción.

Aplicación de la prueba piloto

Una vez construida la prueba es necesario hacer un estudio piloto de la misma para su evaluación psicométrica.

Respecto a la forma de administración hay varias posibilidades (Colectiva-Individual, Oral, Papel y lápiz, Mediante ordenador, Por correo).

Corrección de la prueba piloto y asignación de puntuaciones

Una vez que se ha aplicado la prueba piloto la primera tarea es valorar las respuestas dadas por los sujetos a cada uno de los ítems para asignarles una puntuación.

Existen distintos procedimientos, dependiendo su elección del formato de los ítems.

En los tests formados por ítems de elección

Tests de respuesta cerrada, que tienen la ventaja de eliminar la subjetividad del examinador.

En las pruebas cognitivas

Hay respuestas correctas e incorrectas.

Plantillas de corrección.

Una vez corregida la prueba es necesario combinar las puntuaciones asignadas a cada elemento. La forma más habitual es sumar el número de respuestas correctas.

Para evitar el influjo del azar hay dos formas de aplicar una corrección:

Cuando se penalizan los errores (como ocurre en el examen de Psicometría)
Cuando se bonifican las omisiones

Es más fácil utilizar el procedimiento 1)

Cuando un mismo test está formado por ítems con distinto número de alternativas, para conocer cuál es la puntuación de cada sujeto será necesario ir aplicando la corrección del azar por partes.

En las pruebas no cognitivas

No hay respuestas correctas.

Cada alternativa lleva un valor numérico distinto.

Se suman los valores numéricos asignados a las alternativas elegidas por el sujeto.

El posible problema es tener clara la dirección del continuo de la variable que se está midiendo.

En los tests formados por ítems de construcción

Los ítems de respuesta corta no presentan problemas. El problema se va complicando a medida que las respuestas son más abiertas y extensas y tienen el inconveniente de que la corrección es bastante subjetiva.

No obstante hay formas de controlar esa subjetividad:

Método de la puntuación analítica:
- Requiere definir de forma inequívoca y aislar las dimensiones que se consideren importantes.
- Es necesario establecer la forma de evaluarlas.
- Si se definen claramente estos criterios, las pruebas pueden ser corregidas por personas no expertas.
Método de la puntuación holística:
- Se evalúa de una manera global la forma en que los sujetos han realizado la prueba.
- La corrección debe ser hecha por expertos.

¿Qué método es más idóneo? Todo dependerá del objetivo para el que se construyó el test.

Última actualización el 13/09/2022

← Introducción a la psicometría 13/09/2022

Técnicas para la construcción de escalas de actitudes 13/09/2022 →