Condicionamiento Instrumental. Fundamento

En este capítulo se vuelve la vista al análisis de las situaciones de aprendizaje en las cuales los estímulos a los que un organismo se enfrenta son el resultado directo de su conducta, descrita como “dirigida a una meta”.

La conducta de sucede debido a que ha servido previamente como instrumento para producir ciertas consecuencias se denomina conducta instrumental.

Primeras investigaciones sobre el condicionamiento instrumental

Los análisis teóricos y de laboratorio del condicionamiento instrumental comenzaron formalmente con el trabajo de thorndike, su intención original era estudiar la inteligencia animal. Estudio la cuestión planteada por Darwin sobre que capacidades intelectuales humanas estaban presentes en los animales mediante investigación empírica, para ello invento una serie de cajas problema donde introducía un gato hambriento con algo de comida fuera de la vista del animal, su tarea era aprender a salir de la caja y obtener la comida.

La cuidadosa aproximación empírica de Thorndike fue un avance significativo en el estudio de la inteligencia animal. Otra contribución importante fue la estricta evitación de interpretaciones antropomórficas de la conducta observada, en lugar de ello interpreto los resultados de sus estudios como el reflejo del aprendizaje de una asociación E-R .A medida que la asociación o conexión entre las claves de la caja y la respuesta con éxito se hacía más fuerte, el gato llegaba a realizar esta de forma más rápida. La consecuencia de la respuesta exitosa fortalecía la asociación entre los estímulos de la caja y esa respuesta.

Sobre la base de eta investigación, Thorndike formulo la ley del efecto: si una respuesta en presencia de un estimulo es seguida por un suceso satisfactorio, la asociación E-R se fortalece, si es seguida por un suceso molesto, se debilita. Esta ley implica un aprendizaje E-R.

Aproximaciones modernas al estudio del condicionamiento instrumental

Procedimientos de ensayo discreto

Similares al método de Thorndike, W.S.Small (1899,1900), introdujo el laberinto en las investigaciones sobre aprendizaje inspirado en las madrigueras bajo tierra.

Otro laberinto muy utilizado es el de forma de T, diseñado para estudiar la conducta de elección

La conducta en el laberinto puede cuantificarse midiendo la velocidad de carrera, que normalmente aumenta con ensayos de entrenamiento repetidos. Otra medida común es la latencia , tiempo que tarda el animal en abandonar la caja salida y empezar a desplazarse por el pasadizo, las latencias se hacen más cortas a medida que progresa el entrenamiento.

Procedimientos de operante libre

Permiten al animal que repita la respuesta instrumental una y otra vez sin restricciones, ideado por Skinner para estudiar la conducta de una manera más continua. Estaba interesado en analizar en el laboratorio una forma de conducta que fuese representativa de toda la actividad en curso que ocurría de forma natural. La conducta no se divide como si fueran moléculas, por eso propuso el concepto de operante como la forma de dividir la conducta en unidades medibles con significado.

Una respuesta operante se defina a partir del efecto que produce en el ambiente. Las actividades que provocan el mismo efecto ambiental se consideran ejemplos de la misma operante.

Entrenamiento y moldeamiento al comedero: Hay algunos pasos preliminares para establecer la conducta de presión de la palanca, 1º los animales tienen que aprender cuando está disponible la comida en el comedero, esto comprende un condicionamiento clásico, tras suficientes emparejamientos del sonido del dispensador con la entrega de comida, el sonido llega a elicitar una respuesta de seguimiento del signo, esta fase preliminar se llama entrenamiento al comedero. Después, el organismo está preparado para aprender la respuesta instrumental requerida. Si la respuesta no es algo que el animal ya realiza, nunca sucederá por si mima, para facilitar la adquisición de una nueva respuesta operante, al principio la comida se entrega si el animal hace cualquier cosa remotamente relacionada con la respuesta deseada. Una vez que la respuesta de alzamiento ha sido establecida la comida solo entrega si la rata realiza la respuesta de alzamiento sobre la palanca de respuesta. Una vez que el alzamiento sobre la palanca ha sido establecido, la bolita de comida puede entregarse solo si realmente la rata presiona la palanca, esta secuencia de pasos se denomina moldeamiento, este incluye dos tácticas complementarias: reforzamiento de aproximaciones sucesivas a la respuesta requerida y no reforzamiento de las formas de respuesta más tempranas.

Moldeamiento y nueva conducta: El condicionamiento instrumental incluye a menudo la construcción o síntesis de una nueva unidad conductual a partir de componentes de respuesta preexistentes que ya se encuentran en el repertorio del sujeto. El condicionamiento instrumental puede también utilizarse para producir respuestas que no se parecen en nada a lo que el individuo es probable que haga sin entrenamiento. El moldeamiento aprovecha la variabilidad inherente de la conducta. Sin esta variabilidad, los procedimientos de moldeamiento no tendrían éxito. El moldeamiento puede producir nuevas formas de respuesta nunca antes realizadas por el organismo.

La tasa de respuesta como medida de la conducta operante: los métodos de operante libre permiten una observación continua durante largos periodos, proporcionan una ocasión especial para observar cambios en la probabilidad de la conducta a lo largo del tiempo.

Las medidas de la latencia de la respuesta y de la velocidad que se emplea normalmente en procedimientos de ensayo discreto no permiten que se repita la respuesta. Skinner propuso que la tasa de ocurrencia de una conducta operante (frecuencia por minuto por ej.)Se utilizase como medida de la probabilidad de respuesta.

Procedimientos de condicionamiento instrumental

Una consecuencia placentera se denomina técnicamente estimulo apetitivo. Una consecuencia molesta estimulo aversivo. La respuesta instrumental puede proporcionar el estimulo, en este caso se dice que surte efecto una contingencia positiva entre la respuesta y su estimulo consecuente. De forma alternativa, la respuesta instrumental puede retirar o eliminar un estimulo, en este caso se dice que existe un efecto de contingencia negativo entre la respuesta y su consecuencia: Que el resultado de un procedimiento de condicionamiento sea un aumento o una disminución de la tasa de respuesta depende tanto de la contingencia respuesta-consecuencia como de la naturaleza de la consecuencia.

Reforzamiento positivo: es un procedimiento en el que la respuesta instrumental produce un estimulo apetitivo. Si se da la respuesta el estimulo apetitivo se presenta, si no se da la respuesta el estimulo apetitivo no se presenta: existe una contingencia positiva entre la respuesta instrumental y el estimulo positivo. El reforzamiento positivo produce incremento en la tasa de respuesta.

Castigo: En un procedimiento de castigo, la respuesta instrumental produce o aproxima un estimulo molesto o aversivo. Produce disminución en la respuesta instrumental.

Reforzamiento negativo: En una contingencia negativa, la respuesta retira o previene la presentación de un suceso ambiental. Un procedimiento en el que la respuesta instrumental finaliza o previene la entrega de un estimulo aversivo de denomina reforzamiento negativo. Hay dos tipos, escape y evitación. En el escape, el estimulo aversivo se presenta pero puede ser eliminado por la respuesta instrumental. La presencia de un estimulo aversivo establece la ocasión para la ocurrencia de la respuesta instrumental, entonces es reforzada por la terminación del estimulo aversivo. La evitación implica la programación de un estimulo aversivo para ser presentado en algún momento del futuro. En este caso la respuesta instrumental previene la entrega del estimulo aversivo

Entrenamiento de omisión: Incluye una contingencia negativa entre la respuesta instrumental y un suceso ambiental. En este caso la respuesta instrumental previene la presentación de un estimulo apetitivo o placentero. A menudo es el preferido para disuadir la conducta humana (niño a su habitación).

Los procedimientos de entrenamiento de omisión se denominan en ocasiones reforzamiento diferencial de otras conductas o RDO. Este término refleja el hecho de que el individuo recibe un estimulo apetitivo periódicamente a condición de que se dedique a realizar otra conducta diferente de la respuesta especificada por el procedimiento, implica el reforzamiento de otras conductas. La respuesta instrumental disminuye por el castigo y aumenta por el reforzamiento negativo

Elementos fundamentales del condicionamiento instrumental

La esencia de la conducta instrumental es que está controlada por sus consecuencias. El condicionamiento instrumental consta de tres elementos claves; una respuesta, una consecuencia (el reforzador) y una relación o contingencia, entre la respuesta y la consecuencia.

La respuesta instrumental

El resultado de los procedimientos del condicionamiento instrumental depende en parte de la naturaleza de la respuesta que se este condicionando. Algunas respuestas son más fácilmente condicionables que otras.

Variabilidad conductual versus estereotipia. Thorndike y Skinner enfatizaron que el reforzamiento incrementa la probabilidad de que la respuesta se repita en el futuro. Este énfasis alentó la creencia de que los procedimientos de condicionamiento instrumental producían repeticiones de la misma respuesta- que producían uniformidad o estereotipia en la conducta- . Sin embargo, esto no significa que el condicionamiento instrumental no pueda verse también involucrado en la producción de respuestas creativas o variables. Los organismos pueden aprender a obtener refuerzo en situaciones donde se requiera hacer algo nuevo ej. Pág. 137.

Relevancia o pertinencia en el condicionamiento instrumental: Thorndike propuso el término de pertinencia para explicar los fallos en el entrenamiento del rascado y del bostezo, ciertas respuestas se corresponden de forma natural con el reforzador debido a la historia evolutiva del animal. Los Breland denominaron deriva instintiva

Al desarrollo de respuestas como la de hozar en los cerdos y frotar monedas en los mapaches. Estas respuestas naturales relacionadas con la comida eran aparentemente muy fuertes y competían con las respuestas que requería el investigador.

Sistemas de conducta y limitaciones en el condicionamiento instrumental: Las limitaciones de respuesta que se han descrito son coherentes con la teoría de los sistemas de conducta. La efectividad del procedimiento para el incremento de una respuesta instrumental dependerá de la compatibilidad de esa respuesta con la organización preexistente del sistema de alimentación. Shettleworth (1975) encontró que la privación de comida disminuía la probabilidad de respuestas de autocuidado pero incrementaba la probabilidad de actividades dirigidas al ambiente como cavar etc. Este patrón de resultados es el que se ha observado en estudios de condicionamiento instrumental.

Otra forma de diagnosticar si una respuesta es parte de un sistema de conducta es realizar un experimento de condicionamiento clásico; un EC llega a elicitar componentes del sistema de conducta activado por el EI: Si la deriva instintiva refleja las respuestas del sistema de conducta, las respuestas análogas a la deriva instintiva deberías ser evidentes en un experimento de condicionamiento clásico. Timberlake y colaboradores comprobaron estas predicciones ratas utilizando una modificación de los estudios de manipulación de monedas de Brelands.

El reforzador instrumental

Cantidad y naturaleza del reforzador: En un estudio sistemático, Hutt (1954) intento aislar los efectos de la cantidad y naturaleza del reforzador alimenticio liquido mediante la variación sistemática de ambos rasgos. Los incrementos en la calidad y cantidad produjeron mayor tasa de respuesta.

Cambios en la naturaleza y la cantidad de reforzador: Se plantea la posibilidad de que la efectividad de un reforzador dependa no solo de sus propiedades sino también de cómo ese reforzador se compara con otros que el individuo haya experimentado. La efectividad de un EI en el condicionamiento clásica depende de cómo se compare el EI con las expectativas del individuo basándose en la experiencia previa, esta es la idea fundamental del modelo Rescorla-Wagner, si el EI es mayor de lo esperado, producirá condicionamiento excitatorio, si el EI es menor producirá condicionamiento inhibitorio. La evidencia experimental confirma esta impresión, los efectos de una cantidad o tipo de reforzador dependen de la cantidad y la naturaleza de los reforzadores que el individuo ha experimentado previamente. Mellgren (1972) ver ejemplo libro pág. 144. Los resultados que obtuvo ilustran el fenómeno de contraste positivo; se refiere a una elevada respuesta por una recompensa favorable resultado de una experiencia anterior con una consecuencia menos atractiva y contraste negativo; se refiere a una respuesta disminuida por una recompensa desfavorable debido a una experiencia anterior con una consecuencia mejor. Los efectos de contraste también se dan si las condiciones de recompensa se modifican una y otra vez con una clave diferente señalando cada condición de recompensa, estos efectos son ejemplo de contraste conductual simultaneo.

Todos los efectos de contraste ilustran que la efectividad de un reforzador en una situación está determinada en parte por las experiencias del organismo con reforzadores en otras situaciones. Por razones que no están totalmente claras, el contraste negativo se ha obtenido de forma más clara que el contraste positivo.

La relación respuesta reforzador

La conducta instrumental eficiente requiere sensibilidad a la relación respuesta reforzador. Existen dos tipos de relaciones entre una respuesta y un reforzador, una es la relación temporal. Que se refiere al tiempo que transcurre entre la respuesta y el reforzador, un tipo especial de relación temporal es la contigüidad temporal, la cual se refiere a la entrega del reforzador inmediatamente después de la respuesta. El segundo tipo de relación es la relación causal o contingencia respuesta reforzador, se refiere al hecho de que la respuesta instrumental es necesaria y suficiente para la ocurrencia del reforzador.

Los factores temporales y causales son independientes unos de otros.

Efectos de contigüidad temporal: El reforzamiento inmediato es preferible al reforzamiento demorado. Los psicólogos del aprendizaje han resaltado que el condicionamiento instrumental requiere proporcionar el reforzador inmediatamente después de la ocurrencia de la respuesta instrumental. Grice informo que el aprendizaje instrumental puede deteriorarse con demoras tan cortas como 0.5 seg. El hecho recurrente es que el aprendizaje instrumental se altera demorando el reforzador tras la ocurrencia de la respuesta instrumental.

Hay varios factores que pueden contribuir a este deterioro, cuando el reforzamiento es demorado tras la realización de una respuesta, R1, el organismo no deja de hacer cosas, r2 r3 r4 etc. <si el reforzador se establece en r1 pero no se entrega hasta algún tiempo después el reforzador puede ocurrir después de alguna otra respuesta por ej. R5. Para asociar r1 con el reforzador, el organismo tiene que poder distinguir r1 de otras respuestas que realiza durante el intervalo de demora. Hay dos formas de resolver este problema. La primera técnica, es proporcionar un reforzador secundario o condicionado inmediatamente después de la respuesta instrumental, este es un estimulo condicionado que previamente ha sido asociado con el reforzador. Otra técnica es marcar la respuesta instrumental criterio de alguna manera para hacerla distinguible de otras actividades del organismo. La efectividad del procedimiento de marcado se demostró por primera vez por Lieberman, Mcintosh y Thomas (1979)

La contingencia respuesta-reforzador: Los estudios de demora del reforzamiento muestran que no es suficiente una relación causal perfecta entre la respuesta y el reforzador para producir una respuesta instrumental vigorosa: incluso con una relación causal perfecta, el condicionamiento no ocurre si el reforzamiento es demorado durante demasiado tiempo. Datos como estos alentaron pronto a los investigadores a concluir que la contigüidad respuesta-reforzador más que la contingencia era el factor crítico que producía el aprendizaje instrumental. No obstante esta visión ha resultado injustificada por la investigación posterior. L a contingencia respuesta-reforzador es también importante.

El experimento de superstición Skinner: Fue un hito en el debate sobre el papel de la contigüidad frente a la contingencia en el aprendizaje instrumental. Las palomas parecían estar respondiendo como si la conducta controlara la entrega del reforzador.

La conducta supersticiosa descansa en la idea de reforzamiento accidental o adventicio, se refiere al emparejamiento accidental de una respuesta con la entrega de un reforzador, un segundo emparejamiento accidental aumenta aun más la probabilidad de la respuesta, de esta forma cada emparejamiento ayuda a estampar una respuesta particular.

Reinterpretacion del experimento de superstición: la afirmación de Skinner ha sido puesta en duda por la evidencia empírica posterior. Stadon y Simmelhag (1971) realizaron observaciones más extensas, definieron y midieron la ocurrencia de muchas respuestas, algunas respuesta ocurrían de modo predominante hacia el final del intervalo entre reforzadores, las llamaron respuestas terminales. Otras aumentaron tras la entrega del reforzador y disminuían a medida que se acercaba el tiempo de la siguiente comida; respuestas de interin.

Las acciones que eran respuestas terminales y las que eran respuestas de interin no variaban mucho de una paloma a otra. No encontraron evidencia de reforzamiento accidental. La investigación posterior ha proporcionado mucha evidencia adicional de que las presentaciones periódicas de un reforzador producen regularidades en la conducta.

Explicacion de la periodicidad de las respuestas de interin y terminales. Staddon y Simmelhag sugirieron que las respuestas terminales son respuestas típicas de la especie que reflejan la anticipación de la comida a medida que en el tiempo se encuentra más cerca de la próxima presentación de comida. En contraste, entendieron las respuestas de interin como una manifestación de otras fuentes de motivación que eran más importantes al comienzo del intervalo entre comidas, cuando la presentación de comida era improbable. Los investigadores posteriores, sin embargo han favorecido aproximaciones en las cuales las respuestas terminales y de interin se consideran diferentes manifestaciones del mismo sistema motivacional. La teoría mejor desarrollada es la teoría de sistema de conducta: el sistema de alimentación esta activado en animales privados de comida a los que se les proporciona periódicamente pequeñas cantidades de comida. Justo después de la entrega de comida se asume que el organismo realiza respuestas de búsqueda focalizada poscomida, en medio del intervalo entre entregas ocurren respuestas de búsqueda general, en el momento de la próxima entrega de comida respuestas de búsqueda focalizada.

La distribución de las actividades que se desarrollan con la entrega periódica de un reforzador depende de la naturaleza de ese reforzador, se desarrollan diferentes sistemas de conducta, congruente con la teoría de sistemas, según sea agua o comida, debido a que activan diferentes patrones de forrajeo.

Efectos de la controlabilidad de los reforzadores: Una contingencia fuerte entre una respuesta instrumental y un reforzador esencialmente significa que la respuesta controla el reforzador, esto es, que el reforzador suceda depende de si ha ocurrido la respuesta instrumental. Los estudios acerca de los efectos de control sobre reforzadores han proporcionado la evidencia más amplia de la sensibilidad de la conducta a las contingencias respuesta-reforzador. La mayoría de la investigación se ha centrado en los efectos de control sobre la estimulación aversiva, esa se origino con los estudios pioneros de Seligman, overmier y Maier, quienes investigaron los efectos de la exposición a una descarga incontrolable en el aprendizaje posterior de escape-evitación en perros. El hallazgo más importante fue que la exposición a una descarga incontrolable dificultaba el aprendizaje posterior. Efecto de indefensión aprendida.

1º Diseño tríadico: los experimentos sobre indefensión aprendida se realizan normalmente utilizando este diseño, incluye dos fases; exposición, un grupo de ratas (E escape) es expuesto a descargas periódicas que puede finalizar mediante la realización de un respuesta de escape. Cada sujeto del segundo grupo (a, acoplado) es acoplado a un animal del grupo E y recibe las mismas descargas, pero el grupo A no puede hacer nada por evitarlas. El tercer grupo (C confinado), no recibe descargas durante la fase de exposición pero está confinado en el aparato tanto tiempo como los otros grupos, Durante la fase de condicionamiento, los tres grupos reciben entrenamiento escape-evitación. El hallazgo destacable es que los efectos de la estimulación aversiva durante la fase de exposición dependen de si la descarga es o no es escapable. La exposición a una descarga incontrolable (grupo A) produce una severa interrupción del aprendizaje posterior de escape-evitación, esto indica que los animales son sensibles a las diferencias procedimentales entre la descarga escalable y la descarga inescapable. L principal diferencia procedimental entre los grupos E y A es la presencia de una contingencia respuesta-reforzador para el grupo E pero no para el grupo A.

2º- La hipótesis de la indefensión aprendida: la primera explicación importante estaba basada en la conclusión de que los animales pueden percibir la contingencia entre su conducta y la entrega de un reforzador. La hipótesis de la indefensión aprendida asume que durante la exposición a descargas incontrolables, los animales aprenden que las descargas son independientes de su conducta. Es más, llegan a esperar que los reforzadores continuaran siendo independientes de su conducta. Esta expectativa de ausencia de control debilita su habilidad para aprender una nueva respuesta instrumental, esto ocurre por dos razones, primero, la expectativa de falta de control reduce la motivación de los sujetos para realizar una respuesta instrumental. Segundo, incluso si realizan la respuesta y son reforzados en la fase de condicionamiento, la expectativa previamente aprendida de falta de control hace más difícil para los sujetos aprender que su conducta es ahora efectiva para producir reforzamiento.

Es importante distinguir la hipótesis de indefensión aprendida del efecto de indefensión aprendida. El efecto de indefensión aprendida es el patrón de resultados obtenido con el diseño tríadico, este ha sido reproducido en numerosos estudios y es un hallazgo bien establecido. En contraste, desde que se propuso, la hipótesis de indefensión aprendida ha sido una explicación sugestiva y controvertida del efecto de indefensión aprendida.

3º- Déficit de actividad: el déficit de aprendizaje observado en el grupo A era resultado de que aprendían a ser inactivos durante la fase de exposición. Congruente con esta hipótesis, en algunas situaciones la descarga inescapable produce una disminución en el movimiento motor, y a esto se deberían los posteriores déficits de actuación. Hay también situaciones en las cuales los efectos del aprendizaje probablemente no son debidos a la supresión del movimiento causada por la descarga inescapable. Por tanto la hipótesis de la inactividad aprendida no puede explicar todos los ejemplos de efectos de indefensión aprendida.

4º- déficit atencional: Que la descarga provoque que los animales presten menos atención a sus acciones. Si un animal no presta atención a su conducta, tendrá dificultad para asociar sus acciones con los reforzadores en el escape-evitación o en otras formas de condicionamiento instrumental.

Maier, Jackson y Tomie (1987) probaron esta hipótesis de déficit atencional con ratas, razonaron que la atención reducida a la conducta instrumental también podía ser aliviada mediante la introducción de una clave externa de retroalimentación de la respuesta o estimulo de marcado

5º- relaciones estimulares en el condicionamiento de escape: Resulta evidente que el condicionamiento de escape resulta más complejo de lo que se pensaba anteriormente.

El rasgo definitorio d la conducta de escape es que la respuesta instrumental tiene como consecuencia la terminación de un estimulo aversivo. Realizar la respuesta de escape tiene como resultado claves internas de retroalimentación de la respuesta. Algunos de estos estímulos producidos por la respuesta son experimentados al comienzo de la respuesta de escape, justo antes de que la descarga se retire, y se denominan claves de retroalimentación de la terminación de la descarga. Otros estímulos producidos por la respuesta son experimentados cuando el animal completa la respuesta, justo después de que la descarga se haya retirado al comienzo del intervalo entre ensayos, estos se denominan claves de retroalimentación de la señal de seguridad, estas son seguidas de forma fiable por el intervalo entre ensayos, y por tanto por la ausencia de descarga. En consecuencia, estas claves contextuales pueden llegar a convertirse en inhibidores condicionados del miedo y limitan o inhiben el miedo elicitado por las claves contextuales de la cámara experimental. Estas señales de seguridad no existen para los animales que están acoplados a la descarga inescapable porque, para ellos, los periodos de descarga no descarga no son predecibles.

Centrarse en los factores estimulares del condicionamiento de escapeen lugar de las contingencias respuesta-reforzador no ha permitido todavía el desarrollo de una explicación comprensiva de todos los resultados con el diseño tríadico.

Última actualización el 13/09/2022

← Mecanismos asociativos y teorías del Condicionamiento Clásico 13/09/2022

Programas de reforzamiento y conducta de elección 13/09/2022 →