La validez de la investigación
Introducción
La validez de la investigación está relacionada con la veracidad de sus resultados. Depende de:
La estrategia de investigación.
La planificación de la investigación (cuidado y rigurosidad).
Cuanta más validez tenga una investigación, mayor fuerza tendrán sus conclusiones y mayor poder de generalización (a población, situación y/o tiempo).
Concepto y tipos de validez
Validez es el grado de confianza que puede adoptarse respecto a la veracidad o falsedad de una determinada investigación.
Tipos de validez:
Validez de la inferencia casual
Validez de conclusión estadística: ¿existe relación entre dos variables?
Validez interna: suponiendo que tal relación exista, ¿es de naturaleza causal o puede darse sin el tratamiento?
Validez de la generalización de la inferencia casual:
Validez de constructo: En el caso de que la relación se dé y sea causal, ¿cuáles son los constructos implicados en dicha relación?, ¿qué relación mantienen con las variables utilizadas y en qué medida éstas son representativas de sus respectivos constructos?
Validez externa: Suponiendo que se dé todo lo anterior, ¿en qué medida puede generalizarse la inferencia causal a otros sujetos y contextos?
En cualquier investigación se deberían considerar los cuatro tipos de validez y las amenazas que pudieran afectarles. Deberíamos llegar a un compromiso entre todos los tipos para que la investigación sea lo más válida posible.
Amenaza contra la validez: Aspectos de la investigación en los que existe el riesgo de que quien investiga cometa errores al realizar inferencias causales, utilizar de manera incorrecta los constructos y las variables implicadas en el estudio.
Validez de la conclusión estadística: concepto y amenazas
Validez de conclusión estadística = validez inferencial: Grado de confianza que podemos tener, dado un nivel determinado de significación estadística, en la correcta inferencia de la hipótesis. Se refiere, principalmente, a dos inferencias estadísticas que pueden afectar a la covariación o relación empírica entre la VI (causa) y la VD (efecto):
¿Covarían la VI y la VD?
Error tipo I: Se concluye que existe una relación entre las variables cuando, en realidad, no se da.
Error tipo II: Se concluye que no existe relación entre las variables cuando, en realidad, sí se da.
En el caso de que covaríen, ¿cuál es la magnitud de dicha covariación?
Infraestimación del valor de la covariación.
Sobreestimación del valor de la covariación.
Existen varios tipos de amenazas contra la validez inferencial que vemos a continuación.
Violación de los supuestos del modelo estadístico
Esta amenaza está relacionada con el hecho de que, a veces, aplicamos una prueba estadística sin tener en cuenta los supuestos que deben cumplir los datos para que dicha prueba se pueda aplicar. Tendemos a aplicar técnicas paramétricas sin que se cumplan los supuestos de independencia de las observaciones, normalidad de las puntuaciones y homogeneidad de las varianzas. La violación de estos supuestos puede sobreestimar o infraestimar el tamaño y la significación del efecto del tratamiento. Para controlarla hay que elegir adecuadamente una prueba estadística o no paramétrica, dependiendo de si los datos cumplen o no los supuestos del modelo paramétrico.
Baja potencia estadística
Potencia de una prueba es la probabilidad de rechazar la hipótesis nula cuando la hipótesis alternativa es cierta.
Si no elegimos bien el nivel de significación estadística y/o el tamaño de la muestra, podemos concluir erróneamente que la relación entre las variables no es significativa (error Tipo II) aceptamos la hipótesis nula cuando la hipótesis alternativa es cierta.
Se controla eligiendo adecuadamente el nivel de significación estadística y el tamaño de la muestra necesario para no cometer error Tipo II.
Otras amenazas contra la validez inferencial
Tasa de error tipo I: Con algunas pruebas estadísticas, la probabilidad de cometer error Tipo I se incrementa a medida que aumenta el número de pruebas ejecutadas. Ej: Cuando se aplican comparaciones múltiples entre medidas de tratamientos.
Imprecisión de las medidas: Cuando se utilizan medidas de poca fiabilidad y validez puede aumentar la varianza error, provocando conclusiones erróneas sobre la covariación.
Escasa fiabilidad en la aplicación de los tratamientos: Si los tratamientos no se aplican de forma homogénea a quienes participan o al mismo participante de una aplicación a otra, puede aumentar la varianza error, provocando conclusiones erróneas sobre la covariación.
Restricción del rango de las variables: Cuando las variables presentan restricciones en su variación tanto en su rango inferior (efecto suelo), como en su rango superior (efecto techo), la potencia disminuye y la inferencia se debilita.
Presencia de varianza error en el contexto de la investigación: Si alguna característica del contexto aumenta la varianza error de forma artificial, se puede llegar a conclusiones erróneas respecto a la covariación.
Muestra muy heterogénea: Cuanto más heterogénea sea la muestra, mayor será la desviación típica y menor la probabilidad de detectar la posible covariación entre la VI y la VD.
Estimación imprecisa de la magnitud del efecto: Algunos estadísticos infraestiman o sobreestiman la magnitud de un efecto.
Validez interna: concepto y amenazas
Probabilidad de obtener conclusiones correctas acerca del efecto de la VI sobre la VD.
Se considera causal porque se centra en especificar los factores causantes del cambio observado en la VD, en un contexto y periodo determinado.
Una interferencia causal será válida en la medida en que el diseño de investigación utilizado sea capaz de establecer una contigüidad temporal entre la VI y la VD y eliminar todas las hipótesis explicativas rivales, de forma que se demuestre que el efecto observado en la VD (criterio) se debe exclusivamente a la VI (predictiva). Para que esto ocurra hay que.
Controlar las VVEE
Distinguir si la dirección de la causación va desde la variable manipulada (causa) a la variable medida (efecto) o viceversa. Esto depende del conocimiento que se tenga de la secuencia temporal de las variables.
La validez interna esta relacionada con la calidad del experimento y se logra cuando:
Controlamos la varianza sistemática secundaria.
Los grupos sólo difieren en el tratamiento.
La medición de la VD es válida y fiable.
El diseño internamente válido es aquel en el que las diferencias observadas en la VD entre los diferentes grupos pueden atribuirse única y exclusivamente a las variaciones producidas en la VI.
Amenazas contra la validez interna:
Ambigüedad en la contigüidad temporal de la causa (procedencia temporal ambigua de la causa).
Historia.
Maduración.
Administración de pruebas.
Instrumentación.
Selección diferencial.
Mortalidad experimental.
Regresión estadística.
Posibles interacciones de todas las anteriores con la selección diferencial.
Ambigüedad en la contigüidad temporal de la causa
Falta de claridad sobre cuál es la causa y cuál el efecto, debida a la ambigüedad que puede haber respecto a la contigüidad temporal de las variables objeto de estudio. Suele ocurrir en:
Investigaciones no experimentales.
Investigaciones ex post facto.
¿Qué se puede hacer para controlarla en los estudios no experimentales?
Hacer diseños longitudinales.
Utilizar algunas técnicas de análisis de datos como:
Ecuaciones estructurales.
Path análisis o Análisis de senderos (que trata de establecer una contigüidad temporal entre las variables implicadas en la investigación).
Historia
Acontecimientos que ocurren durante el desarrollo del estudio, dentro o fuera del mismo, que pueden afectar a la VD y confundir los resultados. Se debe a factores: ambientales, sociales, personales.
¿Cómo puede controlarse? Manteniendo constantes las VVEE o eliminándolas de todos los grupos con:
Grupos de control.
Técnicas de aleatorización, de constancia y de eliminación.
Ejemplo: Estudio sobre la eficacia de un programa para jóvenes, para dejar de fumar, durante nueve meses. En la vida de las y los jóvenes pueden ocurrir multitud de acontecimientos que condicionen su respuesta.
La historia local es la posibilidad de que acontecimientos externos afecten de forma diferente a cada uno de los grupos, debido al hecho de que los sujetos procedan de contextos diferentes. Se da en algunos diseños donde los grupos ya están formados antes de seleccionarlos, puede darse una interacción entre la selección y la historia (cuasiexperimentales).
Maduración
Cambios debidos a procesos internos en quienes participan, como consecuencia del transcurso del tiempo (independientes del tratamiento). Se deben a: adaptación, fatiga, aburrimiento, crecimiento biológico/psicológico.
Es más probable:
Cuanto mayor es el intervalo entre la aplicación del tratamiento y la medida de la VD.
Cuando los sujetos estudiados son niñas y/o niños.
Maduración ≠ Historia: la diferencia entre maduración e historia es que en la maduración, los cambios no son debidos a aspectos ambientales o circunstanciales, sino que son inherentes al propio sujeto.
Ejemplo: Estudio sobre la eficacia de un entrenamiento en asertividad sobre niñas y niños de 8 años, durante un año. ¿Cómo puede controlarse?
Reducir el tiempo del experimento. (3 meses)
Añadir un grupo de control. (sin tratamiento)
Administración de pruebas
La familiaridad con la prueba puede distorsionar la respuesta de los sujetos en la prueba siguiente (más, cuantas más veces que se use). También ocurre con pruebas diferentes pero afines. Suele darse en:
Diseños intersujeto con medida pretest y postest: Interacción pretest-tratamiento.
Diseños intrasujeto: efecto de orden o error progresivo y efectos residuales o de arrastre.
Ejemplo: Estudio sobre la eficacia de un programa para jóvenes, para dejar de fumar, durante nueve meses. El simple hecho de realizar un primer test y sentirse observados puede
que condicione su respuesta (sensibilización). ¿Cómo puede controlarse?
En diseños intersujeto:
Prescindiendo de la medida pretest.
Utilizando grupos de control sin tratamiento con medida pretest y postest. (Diseño Solomon: Cuatro grupos. 2 con pre+post -1 sin tratamiento- y 2 sólo con post -1 sin tratamiento-)
En diseños intrasujeto:
- Técnicas de contrabalanceo.
Instrumentación
Provocada por los cambios que puedan darse a lo largo del tiempo en los instrumentos o procedimientos de registro o medida (la medición de la conducta tiene que ser precisa y consistente a lo largo de toda la investigación y con todas las personas que participan).
Los instrumentos pueden estar mal calibrados o deteriorados por el paso del tiempo.
Las deficiencias relativas a los observadores humanos pueden deberse al aprendizaje, cansancio, aburrimiento, falta de motivación, distracciones… En la metodología observacional cualitativa, las medidas dependen de la percepción y decisión del que observa y registra.
¿Cómo puede controlarse?
Entrenando a los observadores.
Utilizando instrumentos estandarizados, válidos y fiables.
A veces el instrumento comete errores al medir la conducta de participantes dentro del mismo grupo. Estos errores podrían considerarse aleatorios (aumenta la Varianza Error). Se podrían controlar con grupos grandes.
Selección diferencial
En la formación de los grupos (deberían ser equivalentes antes de aplicar el tratamiento).
Suele darse en diseños cuasiexperimentales porque se utilizan grupos ya formados.
No suele darse en diseños experimentales (grupos formados por aleatorización, bloques o emparejamiento).
¿Cómo puede controlarse?
En diseños intersujeto: Asignando a las personas participantes (a grupos o a tratamientos) mediante técnicas de aleatorización o bloques.
En diseños intrasujeto: Seleccionando la muestra aleatoriamente de la población.
En diseños no experimentales: Usando muestras amplias y representativas, elegidas aleatoriamente.
Ejemplo: Estudio sobre la eficacia de un entrenamiento en asertividad sobre niñas y niños de 8 años, durante un año. Si la muestra son dos clases distintas con profesorado distinto, los resultados no serán concluyentes.
Mortalidad experimental
Pérdida diferencial de participantes durante el experimento. Muy relacionada con la selección diferencial.
La equivalencia inicial de los grupos se ve amenazada porque habrá sujetos de uno de los grupos abandonen el experimento.
¿Cómo puede controlarse? Con grupos grandes como para que pueda seguir actuando el azar.
Ejemplo: Estudio sobre la eficacia de un programa para jóvenes, para dejar de fumar. Si el grupo es pequeño y las conferencias les aburren, es posible que sólo continúen las personas motivadas inicialmente en dejar de fumar.
Regresión estadística
Relacionada con la selección de los sujetos. Suele darse cuando los tratamientos no se asignan aleatoriamente, sino en función de los valores medidos en una variable (también puede suceder con la medida pretratamiento). Si seleccionamos a participantes con puntuaciones muy extremas, suele ocurrir que al volver a medir, las puntuaciones se acercan a valores medios.
Ejemplo: Estudio sobre la eficacia de un entrenamiento en asertividad sobre niñas y niños de 8 años. Si sólo se elige a los que han obtenido puntuaciones bajas en una única medida inicial.
¿Cómo puede controlarse? Realizando varias medidas antes de seleccionar a los sujetos.
Amenazas | Control |
Ambigüedad en la contigüidad temporal de la causa | Técnicas de análisis de datos. Estudios longitudinales. |
Historia | Grupo de control. Aleatorización. Constancia y eliminación. |
Maduración | Grupo de control. Reducir el tiempo de estudio. |
Administración de pruebas | Grupo de control. Contrabalanceo. |
Instrumentación | Instrumentos válidos, sensibles y fiables. Entrenamiento del observador. |
Selección diferencial | Asignación aleatoria. Bloques aleatorios. Emparejamiento. |
Mortalidad experimental | Grupos con muchos sujetos. |
Regresión estadística | Instrumentos fiables. Tomar varias medidas antes de seleccionar a los sujetos. |
Validez de constructo: concepto y amenazas
Grado de correspondencia entre las variables observadas y el constructo teórico que se quiere medir. ¿Hasta qué punto se pueden inferir constructos teóricos a partir de las relaciones causa-efecto que se dan entre las variables objeto de la investigación?
Tipos de validez de constructo:
Validez de constructo de una causa: Grado en que al VI representa el constructo teórico al que se pretende atribuir el efecto del tratamiento. Estudio en el que queremos introducir pena para evaluar su efecto en la conducta de ayuda y colaboración. ¿Realmente conseguimos introducir pena?
Validez de constructo de un efecto: Grado en que la VD representa el atributo teórico que se pretende medir. Al operativizar la autoestima, ¿en qué medida evaluamos este constructo y no lo confundimos con otro como la asertividad?
Amenazas:
Inadecuada comprensión, explicación o definición del constructo teórico.
Inadecuada medición de los constructos.
Reactividad de los dispositivos experimentales.
¿Cómo pueden controlarse?
Desarrollando una teoría adecuada del constructo que lo relaciones con otros constructor y con otras posibles operaciones.
Técnicas de simple y doble ciego (para que personal participante y/o investigador desconozcan la condición experimental).
Validez externa: concepto y amenazas
Posibilidad de generalizar la relación causal observada en un determinado estudio más allá de las circunstancias bajo las que se ha obtenido dicha relación (generalización de los resultados).
Dimensiones de la validez externa:
Validez poblacional: Generalización a toda la población y/o a otras poblaciones.
Validez ecológica: Generalización a otros contextos, situaciones o ambientes.
Validez histórica: Generalización a otros momentos temporales.
Amenazas contra la validez externa relacionadas con la interacción con el tratamiento
Interacción entre selección y tratamiento (selección x tratamiento)
Atenta contra la validez poblacional porque la relación hallada entre las variables es específica de las personas que han participado en el estudio.
¿Cómo puede controlarse?
Acotando con exactitud las características de la población de referencia y seleccionando aleatoriamente la muestra de dicha población.
- Si lo anterior es imposible:
- Usar una muestra heterogénea.
- Si lo anterior es imposible:
Replicar el experimento con muestras diferentes.
Interacción entre situación y tratamiento (situación x tratamiento)
Atenta contra la validez ecológica. Suele deberse a la artificialidad de las situaciones experimentales.
Muy frecuente cuando utilizamos el método experimental. No suele darse en:
Investigaciones observacionales.
Metodología cualitativa.
¿Cómo puede controlarse? Replicando la investigación en situaciones diferentes (procurando que la situación experimental sea lo más natural posible, dentro del rigor que exige la investigación).
Interacción de historia y tratamiento (historia x tratamiento)
Atenta contra la validez histórica. Aparece si durante el trascurso de la investigación ocurren acontecimientos que interactúan con el tratamiento.
¿Cómo puede controlarse? Replicando el experimento en diferentes momentos temporales.
Amenazas no relacionadas con la interacción
Interferencia de tratamientos múltiples
En diseños intrasujetos (varios tratamientos a los mismos participantes), la respuesta a un tratamiento puede estar condicionada por los tratamientos anteriores. Esto afecta:
A la validez interna.
A la validez externa.
Consecuencia: Reducción de la capacidad de generalización de los resultados.
¿Cómo puede controlarse? Mediante la técnica del contrabalanceo.
Efecto reactivo de las pruebas
Muy parecida a la amenaza anterior. Puede darse en:
Diseños intrasujeto.
Diseños intersujetos con medida pretest, porque este puede sensibilizar a los sujetos.
Esto afecta:
A la validez interna.
A la validez externa.
¿Cómo puede controlarse? Del mismo modo que la amenaza “administración de pruebas”.
En diseños intersujeto:
Prescindiendo de la medida pretest.
Utilizando grupos de control sin tratamiento con medida pretest y postest.
En diseños intrasujeto:
- Técnicas de contrabalanceo.
Efecto reactivo de los dispositivos experimentales
La persona objeto de estudio no responde al tratamiento, sino a lo que cree que el que experimenta desea que responda (evita las respuestas que cree que pueden suscitar una valoración negativa).
¿Cómo puede controlarse? Con la técnica de simple y doble ciego.
Los sujetos no responden al tratamiento, sino al carácter novedoso/inusual de la situación en la que se administra.