Comprensión del habla

Introducción

La percepción del habla trata de cómo identificamos o percibimos los sonidos del lenguaje, mientras que el reconocimiento de la palabra hablada trata del proceso de nivel superior consistente en reconocer las palabras que conforman los sonidos. Esta separación es artificial, ya que es posible que no identifiquemos todos los sonidos de una palabra y después los pongamos juntos para reconocerla, o tal vez el reconocer la palabra nos ayude a identificar sus sonidos constituyentes. También puede darse que no necesitemos oír todos los sonidos de una palabra antes de poder identificarla.

Reconocimiento del habla

¿Qué tipo de representaciones se utilizan para acceder a nuestro léxico?¿Qué unidades están implicadas? Podemos distinguir el código preléxico, que es la representación del sonido utilizada antes de la identificación de la palabra, del código posléxico, que es la información que sólo está disponible tras el acceso léxico. Una tarea importante de la comprensión del reconocimiento del habla consiste en especificar la naturaleza del código preléxico. Entre los temas importantes aquí se encuentra el de si los fonemas están representados explícitamente o no en esta representación, y el papel de las sílabas en la percepción del habla.

¿Por qué es tan difícil la percepción del habla?

Hay diferencias entre la percepción de la palabra hablada y la palabra escrita. La diferencia más importante es que las palabras habladas se presentan sólo de forma muy breve. Sólo se tiene una oportunidad para reconocerlas. La palabra escrita está ahí, delante de uno, durante todo el tiempo que uno quiera para analizarla. La persona puede volver atrás y comprobarla tantas veces como quiera.

El proceso de reconocer el habla es automático, no se puede detener ni obligarse a no comprender, se produce sin esfuerzo, rápido y sin dificultad aparente. Cuando se empieza a percibir el habla en un contexto, se empiezan a reconocer sonidos a los 200ms de haber empezado el mensaje y se pueden comprender hasta 20 fonemas por segundo (a veces más). Si los sonidos que se nos presentan son una secuencia de “pitido, siseo, tono y vocal” sólo se pueden distinguir el orden de los sonidos a un ritmo inferior a 1,5 sonidos por segundo.

Los sonidos del habla parecen tener ventaja sobre los sonidos que no son habla cuando se oyen con ruido circundante. Cuantos más sonidos haya que identificar dentro de un conjunto mayor tiene que ser la señal respecto al ruido.

Bruce (1958) demostró que, con ruido de fondo, las palabras en un contexto significativo se reconocen mejor que las palabras fuera de contexto, y que se necesita el doble de tiempo para reconocer una palabra presentada de forma aislada que si se presenta en el contexto de la frase.

En resumen, hay ventaja al reconocer palabras en un contexto en comparación con sonidos del habla fuera de contexto o con sonidos que no son habla.

Señales acústicas y segmentos fonéticos: ¿cómo segmentamos el habla?

Las propiedades acústicas de los fonemas no son fijas, sino que varían con el contexto en que se encuentran e incluso varían acústicamente en función del ritmo del habla. El sonido /b/ difiere en “ball”, “bill”, “able” o “rob”. Esta variabilidad acústica hace que la identificación de fonemas sea una tarea compleja, puesto que no existe un “ejemplo perfecto” de ese fonema, llamado patrón, sino que hay distintos fonos que se corresponden con un solo fonema.

Si nos fijamos en la señal acústica física y los sonidos que transmite la señal, resulta evidente que la relación entre ambos es compleja. Miller y Jusczyk señalaron que esta complejidad surge debido a dos características que deben actuar como restricciones fundamentales de las teorías sobre la percepción del habla. Estas dos características son facetas de la falta de identidad o isomorfismo entre el nivel acústico y el fonético del lenguaje. Se conocen como el problema de segmentación y la invarianza.

La invarianza acústica se produce debido a que los detalles de la realización de un fonema varían en función del contexto de sus fonemas circundantes. Los fonemas adoptan parte de las propiedades acústicas de sus vecinos, un proceso conocido como asimilación. Por ejemplo el fonema /i/ no tiene una cualidad nasal, pero al acompañarse de un fonema como /n/, lo adopta, ya que el tracto vocal anticipa la forma que tiene que tomar para el siguiente fonema, por eso en “pin” la /i/ adquiere una cualidad nasal. Es decir, se producen efectos de coarticulación, ya que el tracto vocal, cuando emitimos un sonido, ya ha adoptado la forma que necesita para el siguiente. Este hecho tiene ventajas tanto para el que habla como para el que escucha:

El que habla puede hacerlo más rápido que si tuviera que adoptar su tracto vocal la forma precisa y por separado ante cada fonema.

El que escucha puede repartir la información sobre la identidad de los segmentos fonéticos entre varios segmentos acústicos, por tanto no se recopila información de un fonema en un momento dado, sino que se tiene información sobre los sonidos circundantes (característica conocida como transmisión paralela), son indica qué se dirá a continuación.

El problema de la segmentación: es que los sonidos se producen conjuntamente y no se pueden separar fácilmente.

Los sonidos del habla se producen juntos (excepto las consonantes nasales y las pausas). Esto no se aplica sólo a las palabras en sí, sino que las palabras también van unidas entre ellas. El ejemplo inglés “I scream”-“ice cream” suenan igual. Los segmentos acústicos visibles en un espectrograma no ofrecen ninguna correspondencia fácil con los segmentos fonéticos.

Una restricción o vía de segmentar el habla es que preferimos segmentar el habla de forma que cada segmento se corresponda con una sola palabra, a lo que se llama “restricción de la palabra posible”. No nos gusta que algún segmento libre se corresponda con una sílaba sin unir a una palabra. Cualquier segmentación del habla que deje sola sonidos de consonantes será más probablemente rechazada (la segmentación de “fill a green bucket” será preferida a “filigree n bucket”, donde una “n” queda fuera)

Otras estrategias dependen del idioma en el que se crezca. Las sílabas fuertes van acentuadas y nunca se acortan a sonidos de vocales neutras sin acentuar, mientras que las sílabas débiles no están acentuadas y suelen acortarse a sonidos de vocales neutras sin acentuar. (En inglés las sílabas fuertes suelen ser además las que están las palabras del contenido fundamental del mensaje, mientras que las débiles suelen ser sílabas que no están al principio de la palabra o en el inicio de palabras funcionales). Una estrategia que usa este tipo de información es la conocida como “estrategia de segmentación métrica”. Esto se puede manipular en las tareas experimentales, haciendo que las expectativas no se cumplan en los materiales presentados a los participantes. Cutler y Butterfield describen cómo un participante al que se le había dado este conjunto de palabras impredecibles “conduct ascents uphill” (conducta asciende colina arriba), entendió “the doctor sends the bill” (el doctor presenta la factura) y otro entendió “a duck descends some pill” (un pato se traga cierta píldora). Los oyentes han insertado erróneamente delimitaciones de palabras antes de las sílabas fuertes y han eliminado delimitaciones antes de las sílabas débiles. Este tipo de segmentación, por el que los oyentes segmentan el habla identificando las sílabas acentuadas, se denomina “segmentación en función de la acentuación”. En inglés, que sigue esta estrategia, la delimitación de las sílabas no están claras y la identificación de las mismas no es fiable.

Una alternativa es la “segmentación en función de las sílabas”, basado en detectar sílabas, se da en idiomas como el francés, donde las sílabas son muy claras y poco ambiguas. La forma del idioma, por tanto, determina la estrategia de segmentación precisa que se utiliza.

Para los bilingües la estrategia de segmentación viene determinada por su idioma dominante. Cutler y otros pusieron a prueba a bilingües inglés/francés segmentando materiales en ambos idiomas usando la “tarea de monitorización de las sílabas”, en la que los participantes tenían que decir lo más rápido posible si oían una determinada secuencia de sonidos. A los franceses les pusieron las palabras “balance” (empieza por la sílaba “ba”) y “balcon” (que empieza por “bal”), les fue fácil detectar las sílabas por las que comenzaban ambas palabras, pero tardaron más cuando la secuencia estaba segmentada con “bal” como primera sílaba para “balance” y cuando “ba” era la primera sílaba de “balcon” porque, aunque estos sonidos están representados, no se corresponden con las sílabas de esas palabras. A los ingleses les pusieron “balance” y “balcony”, pero la estructura en sílabas de estas palabras no está tan clara como en francés. La “L” de “bal” en ambas palabras puede pertenecer a la primera o la segunda sílaba, por lo que no hubo diferencias en el tiempo de detección de ambas secuencias, ya que el inglés no utiliza sílabas.

Las personas que hablaban en inglés como idioma primario segmentaron en función de la entonación con el material inglés y nunca en función de las sílabas. Los franceses segmentaron en sílabas sólo con el material en francés. Es como si la estrategia de segmentación quedara fijada a una edad muy temprana y sólo se usa esa. Por tanto todas las personas bilingües son monolingües desde el punto de vista de la segmentación, pero esto no es una desventaja, ya que descartan procesos de segmentación ineficaces y usan otros procesos analíticos más generales.

Percepción categórica

A pesar de la variabilidad en expresar un fonema, no observamos esas diferencias, clasificamos los sonidos del habla como un fonema u otro, sin término medio, lo que se conoce como percepción categórica de los fonemas.

Liberman y otros usaron un sintetizador de palabras para crear un continuo de sílabas artificiales que diferían en su lugar de articulación. Los participantes colocaban estas sílabas en 3 categorías bastante distintas, /b/, /d/ y /g/. Otro ejemplo de esto es el tiempo de comienzo de la voz (VOT: tiempo que tarda la vibración de las cuerdas vocales cuando se cierra el tracto vocal), para las consonantes sordas (como /p/ y /t/) es de 60 ms. Para las sonoras (como /b/ y /d/), el retardo es 0. Los pares [/p/-/b/] y [/t/-/d/] (una sonora y otra sorda en cada par), sólo difieren en esta característica.

Aunque se pueden crear sonidos con características intermedias entre ellas, como un VOT de 30 ms, la percepción sigue siendo categórica, se elige una u otra, sonora o sorda (que puede cambiar según el momento de la clasificación o el propio individuo, hablándose de individuos sesgados hacia un extremos del continuo o el otro).

También se puede medir esto con la “técnica de la adaptación selectiva”: donde se “cansa” a los receptores de características supuestamente responsables de la percepción categórica para cambiar la percepción hacia el extremo opuesto del continuo. Para ello se expone repetidamente al sujeto a un sonido. Por ejemplo se expone a un participante al sonido “ba”, se habitúa a los receptores de /b/-sonora y en la siguiente exposición de un sonido entre el par [/b/-/p/] se tenderá a seleccionar /p/-sorda. Por tanto; aunque los estímulos puedan ser físicamente continuos, la percepción es categórica.

Las delimitaciones entre categorías no son fijas, sino que son sensibles a factores contextuales, como el ritmo del habla. El sistema perceptivo parece capaz de ajustarse a ritmos rápidos del habla de forma que, por ejemplo un sonido con un VOT breve que debería ser percibido como /b/-sonora, se percibe como /p/-sorda. Un intervalo corto (un VOT breve) en términos absolutos puede ser considerado como relativamente largo si el habla que lo rodea es suficientemente rápida. Los bebés también son sensibles al ritmo del habla, por lo que no puede hablarse de un fenómeno aprendido. Son capaces de interpretar la duración relativa de los componentes de frecuencia del habla en función del ritmo.

Al principio se pensó que los oyentes eran incapaces de distinguir entre miembros ligeramente distintos dentro de una categoría de fonemas, pero no parece que sea así. Pisoni y Tash determinaron que los participantes tardaban menos en calificar como iguales dos sílabas /ba/ si los sonidos de la /b/ eran acústicamente idénticos que si diferían ligeramente en el VOT.

Se dice que los oyentes son sensibles a diferencias dentro de las categorías, por lo que la importancia de la percepción categórica se ha puesto en entredicho. Es posible que muchos fenómenos de la percepción del habla se expliquen mejor en términos de percepción continua y no de categórica. Y aunque nuestra experiencia fenoménica de la identificación del habla es que los sonidos pertenecen a categorías distintivas, la evidencia de que el temprano procesamiento sensorial es realmente categórico es mucho más débil. Massaro afirmó que la aparente mala discriminación entre categorías no deriva de un temprano procesamiento perceptivo, sino que surge de un sesgo de los participantes a afirmar que los elementos de la misma categoría son idénticos.

¿Cuál es el carácter del código preléxico?

Savin y Bever (1970) pidieron a los participantes que respondieran en cuanto oyeran determinada unidad que era, o bien, un único fonema, o bien una sílaba. Determinaron que respondían más lentamente a los fonemas que a las sílabas y concluyeron que la identificación de los fonemas es posterior a la de las sílabas. Propusieron que los fonemas no son perceptivamente reales de la misma manera en que lo son las sílabas. No reconocemos las palabras mediante sus fonemas individuales, sino en base a la percepción de unidades más fundamentales como la sílaba. Foss y Swinney dijeron que esto no tenía por qué ser así, que el hecho de que en la consciencia apareciera la sílaba (unidad superior) antes que el fonema no quería decir que su procesamiento fuera también anterior.

Foss y Blank (1980) propusieron la teoría del código dual en la que el procesamiento del habla utiliza tanto un código preléxico o fonético que se computa directamente a partir del análisis perceptivo de la información acústica de entrada; como un código posléxico o fonémico que se deriva de la información que emana de las unidades de nivel superior como las palabras.

En la “tarea de monitorización de fonemas” los sujetos tienen que apretar un botón en cuanto oyen determinado sonido. Foss y Blank demostraron que los tiempos de monitorización del fonema ante los fonemas objetivo en palabras reales e inexistentes eran los mismos. En este caso los participantes deberían estar respondiendo utilizando el código preléxico o fonético, puesto que las palabras inexistentes no pueden tener códigos fonológicos (no se corresponden con ninguna regla de producción de sonidos del idioma). La “frecuencia” de la palabra objetivo tampoco influía en los tiempos de monitorización del fonema.

Por otra parte, la manipulación del contexto semántico de una palabra hace que las personas respondan desde el código posléxico.

Según Foss y Blank se responde con el código preléxico cuando se facilita la tarea de monitorización del fonema, y con el posléxico cuando la tarea es más difícil (cuando la palabra objetivo es más difícil).

No encontraron después evidencia experimental que apoyara el código dual. El incremento en la carga de procesamiento de los participantes, haciéndoles responder ante varios objetivos, no les llevó a responder desde el código posléxico. Concluyeron que, por lo general, las personas contestan en una tarea de monitorización del fonema a partir del código preléxico, y sólo en circunstancias excepcionales utilizan el código posléxico. Los resultados sugieren que los fonemas forman parte del código preléxico.

Marslen-Wilson y Warren (1994) proporcionaron una extensa evidencia experimental en una serie de tareas en las que no hace falta terminar la clasificación de los fonemas antes de que pueda empezar la activación léxica. Las palabras inexistentes que se construyen a partir de palabras reales son más difíciles de rechazar en una tarea de decisión léxica que las palabras inexistentes construidas a partir de palabras inexistentes. En este experimento se parte se “smog” (palabra real) y se va cambiando la última letra para crear palabras inexistentes como “smod”, “smob”… Aunque puede que inicialmente suenen igual, es más difícil rechazar la versión inexistente de “smog” porque la información de coarticulación de la vocal es consistente con una palabra real. Se identificaron estos efectos en toda una serie de tareas distintas. Si la representación fonética de la vocal hubiera sido traducida a un fonema antes del acceso léxico, la información de la coarticulación se hubiera perdido y los dos tipos de palabras inexistentes hubieran planteado la misma dificultad. Ellos afirmaron que se accede directamente a las representaciones léxicas a partir de información en la señal de sonido. La información de coarticulación de las vocales se utiliza enseguida para identificar la consonante siguiente y, por tanto, para identificar la palabra.

Existe controversia sobre si necesitamos identificar los fonemas antes de reconocer una palabra, la mayoría de los datos dicen que, aunque es posible que se computen los fonemas durante el reconocimiento de la palabra, no tenemos que culminar la identificación del fonema antes de que se pueda empezar a reconocer la palabra. Parece que somos menos conscientes de los fonemas que de los otros elementos fonológicos constituyentes del habla, como las sílabas.

Morais y Kolinsky (1994) propusieron 2 representaciones distintas de los fonemas: un sistema inconsciente que actúa en el reconocimiento y la producción del habla, y un sistema consciente desarrollado en el contexto del desarrollo de la alfabetización (escritura y lectura).

¿Cuál es el papel del contexto en la identificación de los sonidos?

Las investigaciones tratan de aclarar si el reconocimiento del habla es un proceso puramente de abajo arriba (de los sonidos a la interpretación) o si el procesamiento arriba abajo el conocimiento y las estructuras previas influyen en la mera percepción de los sonidos:

Se habla de influencia arriba abajo en la percepción del sonido si se puede demostrar que la palabra en la que se produce un sonido, o incluso el significado de toda una frase, puede influir sobre el reconocimiento de dicho sonido. Y entonces se podrá afirmar que la percepción es un proceso interactivo; ya que el conocimiento sobre las palabras está influyendo sobre la percepción de sus sonidos constituyentes.

Los distintos tipos de contextos podrían tener un efecto en cada uno de los niveles de procesamiento fonológico y los efectos podrían ser distintos en cada nivel.

La primera evidencia relevante parte de la percepción categórica de los sonidos. Ganong varió un fonema ambiguo a lo largo de un continuo (de /k/ a /g/) e insertó estas variaciones delante de un contexto proporcionado por el final de una palabra, “-iss”. Los participantes pusieron la variación de sonidos del lado de /k/, algo que no harían normalmente, por el mero hecho de que así se construía una palabra (“kiss” es una palabra y “giss” no lo es). Concluyó que el contexto afectaba al “punto de cambio perceptivo” o cambio de identificación léxica, así, el contexto de una palabra influye en nuestra clasificación de los sonidos.

Connine y Clifton (1987) usando esta misma técnica, reforzaron que el conocimiento léxico (la información sobre las palabras), está disponible para la percepción categórica de elementos ambiguos. Así, se logran otras ventajas del procesamiento de estímulos ambiguos cuando se invoca el conocimiento léxico, pero no en los extremos del continuo donde la información perceptiva, por sí sola, basta para tomar una decisión.

Los estudios posteriores utilizando un método de análisis llamado “detección de la señal” también sugieren que el cambio de identificación léxica en una tarea de percepción categórica es auténticamente perceptivo. La teoría de la detección de señales proporciona un medio para describir la identificación de estímulos “imperfectamente discriminables”. El contexto léxico no es sensible a las manipulaciones (fundamentalmente el grado en el que se recompensan las respuestas correctas y se castigan las incorrectas) que se sabe que influyen sobre los procesos posperceptivos. Connine determinó que el contexto de la frase (proporcionado por el significado de toda la frase) se comporta de forma distinta al contexto léxico (contexto proporcionado por la palabra en la que se produce el fonema ambiguo). En concreto, el contexto de la frase tiene un efecto análogo al del efecto posperceptivo evidente de la cuantía de la recompensa monetaria, donde determinadas respuestas dan lugar a mayores recompensas. Por tanto, concluyó que el contexto de la frase tiene efectos posperceptivos.

Una conclusión psicolingüística clásica, conocida como el efecto de la restauración del fonema, parece ser, a primera vista, prueba de la participación del contexto en la identificación del sonido. Warren y Obusek (1973) presentaron a los participantes frases como: “the State governors met with their respective legi*latures convening in the capital city”. En el punto marcado con un * se había cortado un fragmento de 0,12 segundos de la frase (donde falta la /s/), y se había metido una tos (el efecto era igual si el sonido era una tos, un pitido o un zumbido). Los participantes no pudieron detectar que faltaba un sonido de la frase. Parecían restaurar el sonido /s/. Una vez informados de que faltaba un sonido, los participantes seguían diciendo que los percibían todos, además tampoco podían localizar correctamente dónde estaba la tos en la frase. También se encuentra este efecto en omisiones más largas, como en vez de “legi*latures”, poner “le***latures”. Warren y colbs., afirmaron que los participantes, en su procesamiento del habla, están usando, más allá de los fonemas individuales, información semántica y sintáctica. El efecto desaparecía si en vez de toses, pitos o zumbidos, se introducía un silencio, que era detectado fácilmente.

El ejemplo más drástico que hizo que Warren y Warren (1970), afirmaran que la información semántica y sintáctica influía en la percepción fue este: propusieron a los participantes 4 frases, donde a una de las palabras se le omitía un fonema (siempre en la misma), pero el final de la frase cambiaba en todas las oraciones (sólo la palabra final). Todo lo demás permanecía igual. Los participantes introdujeron sonidos diferentes dependiendo del contexto.

  1. “It was found that the *eel was on the table”; aquí metieron una /p/ para crear “peel”, piel, que le pega más a naranja.

  2. “It was found that the *eel was on the axle”; aquí metieron /w/ para crear “wheel”, que encaja más con axle/eje.

  3. “It was found that the *eel was on the shoe”; aquí metieron /h/ para crear “heel”, tacón, que le va más a zapato.

  4. “It was found that the *eel was on the table”; aquí metieron /m/, para crear “meal”, que le pega más a mesa.

Los participantes restauraban un fonema que mejor fuera con la palabra según el contexto.

Aunque a primera vista parece que la percepción del habla está limitada por una información de nivel superior (como restricciones semánticas y sintácticas), en estos experimentos no está claro cómo se está produciendo la restauración. ¿Perciben realmente los participantes el fonema ausente? Fodor investigó si la restauración se producía a un nivel de procesamiento fonológico (bajo), o a un nivel superior, ya que era posible que los participantes simplemente adivinaran qué fonema faltaba, cosa que no tenía por qué ser necesariamente consciente. La pregunta era si el contexto afectaba al procesamiento perceptivo o al posperceptivo (de carácter superior).

Hay evidencia de que, en ciertas circunstancias, la restauración de fonemas es un auténtico efecto perceptivo.

Samuel analizó los efectos de añadir ruido al segmento, en vez de sustituirlo. Si la restauración del fonema es realmente perceptiva, los participantes no deberían ser capaces de detectar ninguna diferencia entre estas condiciones; en cada caso, pensarán que oyen un fonema más un sonido. Por otra parte, si el efecto es posterior a la percepción, debería haber una buena discriminación entre estas dos condiciones.

Samuel concluyó que el contexto léxico da lugar a una auténtica restauración del fonema y que el efecto era preléxico. También concluyó que el contexto de la frase no afecta al reconocimiento del fonema y sólo afecta al procesamiento posléxico. En conclusión: sólo la información sobre determinadas palabras afecta a la identificación de las palabras; la información sobre el significado de la frase afecta a una fase de procesamiento superior.

Samuel analizó la sugerencia de que los sujetos adivinaban el fonema en la tarea de restauración, en vez de restaurarlo de verdad perceptivamente, y combinó esta tarea con una de adaptación selectiva para ponerlo a prueba. Los oyentes identificaban sonidos del continuo /bi/-/di/ en el que los sonidos que actuaban como adaptadores eran la 3ª sílaba de las palabras que empezaban, o bien con /b/ (alphabet), o bien con /d/ (academic). Tras oír 40 veces alphabet, habiendo sido habituados los “receptores” de /b/, los sujetos tenían menos probabilidades de clasificar como /b/ un sonido posterior. Si en vez de alphabet se les ponía 40 veces alpha*et, siendo * un ruido potente, quedaban habituados igualmente al sonido /b/. Esto indica que el sonido queda restaurado realmente y que estos “fonemas restaurados” pueden actuar como los auténticos y causar adaptación.

Sin embargo otros autores han afirmado que se pueden explicar estas conclusiones sin “interacción” si el código fonológico restaurado se crea por un contexto léxico de arriba abajo en vez de que se provea simplemente por el código léxico. El contexto léxico no parece mejorar la perceptibilidad del fonema (la sensibilidad), sino que sólo afecta a cómo responden los participantes (el sesgo). En este sentido, la información de arriba abajo no está afectando realmente a la sensibilidad del reconocimiento de la palabra. Tal vez los oyentes aprender a reconocer el ruido como el sonido /b/ y por tanto provoca adaptación de la misma manera que la provocaría una auténtica /b/.

El contexto arriba abajo tiene, en el mejor de los casos, un papel limitado en la identificación de los sonidos. Hay poca evidencia de que el contexto de la frase afecte al procesamiento del habla.

El curso temporal del reconocimiento de la palabra hablada

Los términos “reconocimiento del habla” y “acceso léxico” se usan para hacer referencia a dos procesos distintos. Podemos identificar 3 fases de la identificación: (Frauenfelder y Tyler)

  1. Contacto inicial: el reconocimiento de la palabra hablada empieza cuando cierta representación de la entrada sensorial hace un contacto inicial con el léxico (lexicón). La “representación de contacto” activa las entradas léxicas almacenadas. La activación puede ser: a) “todo o nada” (como en el modelo original de cohortes), b) puede haber niveles de activación relativa que dependen de ciertas características como la frecuencia, c) puede que la activación sea proporcional a la bondad actual del ajuste con los datos sensoriales (como en el modelo de TRACE o en el más actualizado de cohortes)

  2. Fase de selección léxica: la activación sigue acumulándose hasta que se elige una entrada léxica. El reconocimiento de la palabra es el punto final de esta fase.

  3. Fase de reconocimiento de la palabra: se reconoce la palabra y el punto de reconocimiento (momento en el que realmente se reconoce la palabra) suele producirse antes de que se haya oído la palabra completa. En el caso más sencillo, el punto de reconocimiento se corresponde con su punto de singularidad (la secuencia inicial de la palabra es común a esa palabra y a ninguna otra). Con frecuencia se retrasará el reconocimiento hasta después de haber alcanzado el punto de singularidad y, en principio, podríamos reconocer la palabra antes de su punto de singularidad, por ejemplo, en contextos muy sesgados. Si ocurre esto, este punto en que se produce el reconocimiento se llama punto de aislamiento (punto de una palabra en el que una proporción de oyentes identifica la palabra, aunque es posible que haya dudas sobre esta decisión). Al llegar al punto de aislamiento, el oyente ha aislado una palabra candidata, pero sigue monitorizando la entrada sensorial hasta alcanzar cierto nivel de confianza, éste es el punto de reconocimiento.

El acceso léxico hace referencia al punto en el que se encuentra disponible toda la información sobre una palabra (fonológica, semántica, sintáctica, pragmática) tras su reconocimiento. El “proceso de integración” que se produce a continuación marca el inicio de del proceso de comprensión propiamente dicho, donde se integran las propiedades semánticas y sintácticas de la palabra en la representación de la frase de nivel superior.

¿Cuándo afecta la frecuencia al reconocimiento de la palabra hablada?

La frecuencia tiene un efecto mucho más temprano en el reconocimiento de la palabra hablada. Dahan y otros analizaron los movimientos oculares de personas cuando miraban imágenes en una pantalla. Los participantes tenían que seguir instrucciones habladas sobre el objeto de la escena en el que tenían que hacer click con el ratón. Los participantes tendían a mirar primero a los objetos con un nombre alta frecuencia, en comparación con una imagen competidora con un nombre de frecuencia inferior pero con los mismos sonidos iniciales (por ejemplo, la palabra hablada era “bench”, y había una imagen de un banco, pero a su lado había una imagen de una campana “bell”, de baja frecuencia, y otra de una cama “bed” de alta frecuencia). Los participantes también necesitaban mirar durante menos tiempo los objetivos con nombres de mayor frecuencia. La frecuencia de las palabras es importante desde las primeras etapas de procesamiento y estos efectos persisten durante cierto tiempo.

Efectos del contexto en el reconocimiento de palabras

El contexto es toda la información que no se encuentra en la señal sensorial inmediata. Incluye información disponible de la entrada sensorial previa (el contexto anterior) y de fuentes de conocimiento superiores (información semántica, sintáctica y pragmática). La naturaleza del contexto que se está analizando también depende del nivel de análisis, como puede ser el contexto de una palabra que opera en la identificación de un fonema o el contexto de una frase que opera en la identificación de una palabra.

Para demostrar que el contexto afecta al reconocimiento, tenemos que demostrar que existen influencias de arriba abajo en el procesamiento de abajo arriba de la señal acústica. Ya se ha visto si el contexto afecta al reconocimiento en el nivel inferior, ahora se va a ver si el contexto de la frase afecta al procesamiento de palabras. También se debe ver qué tipo de contexto afecta, en qué etapa o etapas tienen efecto y cómo tienen ese efecto.

Hay dos posturas opuestas sobre el papel del contexto en el reconocimiento:

  • Postura autónoma: el contexto no puede tener un efecto previo al reconocimiento de la palabra, sólo puede contribuir a la evaluación e integración del resultado del procesamiento léxico, no a su generación. En estos modelos se permite el flujo lateral de información (se permite un flujo de información dentro del lexicón, pero no del lexicón a los procesos inferiores como la identificación del fonema.)

  • Postura interaccionista: permite que los distintos tipos de información interactúen entre sí. Se puede producir una retroalimentación de los niveles posteriores de procesamiento a los anteriores. Por ejemplo, la información sobre el significado de la frase o del contexto pragmático podría influir en la percepción.

Tal vez habría que considerar estas dos posturas como extremos de un continuo de posibles modelos. Puede que en los modelos interaccionistas haya algunas restricciones de interacción posible, por ejemplo, el contexto puede proponer candidatos de la palabra a la que podría corresponder el estímulo antes de que haya empezado el procesamiento sensorial, o puede que el contexto se limite a descartar candidatos y no a proponerlos.

Al haber tantas diferencias entre los modelos, es difícil hacer pruebas entre ellos. Una fuerte evidencia a favor de la perspectiva interaccionista es si el contexto tiene un efecto antes o después de las fases de acceso y selección. En un modelo autónomo, el contexto sólo puede tener influencia cuando una palabra ha emergido como el mejor ajuste a la entrada sensorial.

Frauenfelder y Tyler distinguen dos tipos de contexto:

  • Contexto no estructural: puede ser considerado como información proveniente del mismo nivel de procesamiento en el que se está procesando actualmente. Un ejemplo es la facilitación del procesamiento que surge del contexto intraléxico, como una relación asociativa entre dos palabras, como doctor y enfermera. Se puede explicar en términos de relaciones dentro de un único nivel de procesamiento, por lo que no tiene por qué incumplir el principio de autonomía en cuanto a la divulgación de la actividad dentro del lexicón. Pero también se puede considerar que la facilitación se debe a potentes conexiones entre cosas similares en el mismo nivel. Según teóricos de la autonomía, este es el único tipo de contexto que afecta a los procesos antes del reconocimiento.

  • Contexto estructural: afecta a la combinación de palabras en unidades de un nivel superior, e implica un mayor nivel de información. Es un procesamiento arriba abajo. Hay una serie de posibles tipos de contexto estructural. Se puede usar el conocimiento de las palabras (contexto léxico) para ayudar a identificar los fonemas y el conocimiento a nivel de la frase (contexto de la frase y sintáctico), para ayudar a identificar palabras individuales. Los tipos de contexto estructural más interesantes son los basados en el significado, distinguieron dos tipos:

    • Semántico: se basa en los significados de la palabra. Gran evidencia de que este contexto afecta al procesamiento de la palabra. Se responde más rápidamente a las palabras que son adecuadas al contexto que a las que no lo son, en toda una serie de tareas. Pero no está claro si se pueden distinguir efectos del contexto estructural semántico y el contexto no estructural, o en qué fases se producen. Además es necesario estudiar estos efectos usando tareas que minimizan la posibilidad de que actúen los factores posteriores a la percepción. Por ello, el retraso entre el estímulo y la respuesta no debe ser demasiado largo, de lo contrario los sujetos tendrían ocasión de reflexionar o de alterar sus decisiones, lo que reflejaría mecanismos de acceso posterior de una fase más tardía.

    • Interpretativo: implica más información de nivel superior, como la información pragmática, la información del discurso y el conocimiento del mundo. Hay cierta evidencia de que el contexto no lingüístico puede afectar al reconocimiento de palabras. Se analizaron los movimientos oculares de los participantes cuando estaban examinando una escena visual al tiempo que siguiendo instrucciones. Se determinó que el contexto visual puede facilitar el reconocimiento de la palabra hablada. Por ejemplo “candy” (caramelo) suena parecida a “candle” (vela) hasta la mitad de la palabra. Ante la instrucción “pick up de candle” (coge la vela), los sujetos movían los ojos más rápido hacia el objeto mencionado cuando sólo había una vela en la escena que cuando había una vela y un caramelo. Cuando no había objeto que generara confusión, los participantes identificaban el objeto antes de oír el final de la palabra. Este resultado sugiere que el contexto interpretativo puede afectar al reconocimiento de las palabras.

Modelos de reconocimiento del habla

Antes de que podamos acceder al lexicón, tenemos que traducir el resultado de los nervios auditivos a un formato adecuado. La percepción del habla se encarga de esta primera fase del procesamiento.

Los primeros modelos de reconocimiento del habla analizaron la posibilidad de hacer correspondencias entre patrones. Se almacenan palabras objetivo como patrones, y se produce la identificación cuando se encuentra una correspondencia. Sin embargo en el habla hay demasiada variación como para que esta posibilidad sea verosímil, excepto en los campos más restringidos. Las personas difieren en cuanto a su dialecto, su tono básico, la velocidad básica a la que hablan. Una misma persona puede producir un mismo fonema de varias formas diferentes, si habla muy alto o más rápido de lo normal. El número de patrones que habría que almacenar sería muy elevado. En general los modelos de patrones no se consideran posibles en psicolingüística.

Análisis por síntesis: fue uno de los primeros modelos de la percepción del habla. Su base era que reconocemos el habla mediante referencia a las acciones necesarias para producir un sonido. La idea importante que subyace a este modelo es que, cuando oímos hablar, producimos o sintetizamos una sucesión de sonidos del habla hasta que encontramos una correspondencia con lo que oímos.

El sintetizador crea la mejor conjetura inicial restringida por las pistas acústicas de la entrada y después intenta minimizar las diferencias entre esta conjetura inicial y la entrada, no genera aleatoriamente candidatos que comparar con la entrada; Este planteamiento tiene varias ventajas:

Utiliza nuestra capacidad de producir el habla también para el reconocimiento de la misma.

Asume fácilmente las diferencias entre distintos hablantes, porque los oyentes están generando sus propias palabras candidatas.

Es fácil demostrar cómo podrían tener efecto las restricciones de todos los niveles; el sintetizador sólo genera palabras posibles. No generará secuencias de palabras imposibles.

Una variante del modelo de Análisis por síntesis, La teoría del motor, propone que el sintetizador del habla modeliza el aparato articulatorio y los movimientos motores de la persona que habla. Computa cuáles habrían sido los movimientos necesarios para producir los sonidos que se han escuchado.

La evidencia de este modelo es que la forma en que se hacen los sonidos proporciona una descripción perfecta de los mismos; por ejemplo, en inglés todas las /d/ se hacen golpeando la lengua contra el arco alveolar. La especificación de los movimientos motores debe ser bastante abstracta; las personas mudas pueden comprender el habla perfectamente y podemos comprender cosas que se han dicho que no podemos producir nosotros mismos (como el habla de un tartamudo o un acento extranjero).

Los modelos de análisis por síntesis padecen dos problemas:

  • No hay una forma evidente de traducir la hipótesis articulatoria, generada por el sistema de producción, al mismo formato que el habla oída para poder valorar la correspondencia potencial.

  • Somos buenos reconociendo palabras claramente articuladas que son improbables en su contexto, lo que sugiere que el reconocimiento del habla es un proceso impulsado fundamentalmente por los datos.

En resumen: Esta teoría está inespecificada y tiene poco poder predictivo.

No obstante, en los últimos años las teorías motoras de la percepción han resurgido. Siguen teniendo la ventaja de que la correspondencia de la señal auditiva con representaciones motoras para producir nuestra propia lengua proporciona un medio para clasificar la señal acústica; algunos investigadores afirman que estas representaciones motoras tienen un papel significativo en el procesamiento del lenguaje y que la percepción del habla se parece a la percepción de los gestos motores, en el sentido de que el objetivo de la percepción del habla es reconocer cuáles son los movimientos del tracto vocal que dan lugar a sonidos, más que la identificación más abstracta de los propios sonidos. Las neuroimágenes demuestran que las áreas motoras del cerebro se activan durante la percepción del habla aunque esta activación no demuestre un papel causal en la percepción. Pero sí parece al menos que los procesos motores desempeñan algún papel.

El modelo de cohortes de reconocimiento de palabras

Presentado por Marslen-Wilson y Welsh (1978, 1984 y 1987). La idea central del modelo es que, cuando oímos hablar, generamos una cohorte de posibles elementos que podrían ser la palabra que oímos. A continuación, se van eliminando elementos de este conjunto hasta que sólo queda uno, que es el elemento que se acepta como la palabra que se está intentando reconocer. Es necesario distinguir entre dos versiones del modelo;

La primera; permitía una mayor interacción

La revisada; en la que el procesamiento es más autónomo y el sistema de reconocimiento estaba más capacitado para recuperarse si los principios de las palabras estaban degradados.

En el modelo hay 3 fases del procesamiento:

Modelo de cohortes en el reconocimiento de palabras.Caprelexi

  • Fase de acceso: se usa la representación perceptiva para activar elementos léxicos y generar un conjunto de candidatos, este conjunto se denomina cohorte. El principio de la palabra es muy importante para genera la cohorte.Caprelexi

  • Fase de selección: sólo se elige un elemento dentro del conjunto. Se selecciona un elemento de la cohorte.

  • Fase de integración: se utilizan las propiedades semánticas y sintácticas de la palabra elegida, por ejemplo, al integrar la palabra en una representación completa de toda la frase.

Modelo de los logogenes

  • Se basa en un acceso directo, paralelo e interactivo

  • Acumulan pasivamente evidencia positiva.

Modelo original de cohortes

  • Se basa en un acceso directo paralelo e interactivo

  • Las palabras buscan activamente ser eliminadas

  • Al presentarse el principio de una palabra, se constituye una “cohorte de inicios de palabras” con las palabras candidatas, luego se van eliminando activamente estas palabras con todos los medios posibles, incluyendo más evidencia fonológica y un contexto semántico y un contexto sintáctico. A medida que se van oyendo fragmentos adicionales de la palabra se van eliminando candidatos.

Recordamos que el “punto de singularidad” es el punto en el que se puede distinguir de forma singular una palabra de todas las palabras similares. En torno al “punto de singularidad” se produce el procesamiento más intenso.

  1. /t/

  2. /tr/

  3. /tre/

  4. /tres/

  5. /tresp/

  6. /trespass/

Cuando se escucha /t/, la cohorte es enorme, ya que hay muchas palabras que comienzan con ese fonema. Con /tr/ se reducirá la cohorte, aunque seguirá siendo muy grande. Con /tre/ se reduce aún más la cohorte, pero sigue habiendo una serie de elementos posibles, como “trespass”, “trestle”, “trend” o “trench”. Con /tres/ sólo quedan 3 candidatas; “trespass”, “tress” y “trestle”. Pero sólo con /tresp/ se reduce la cohorte a una palabra (a un morfema raíz), este es el punto conocido como “punto de singularidad”.

El “punto de reconocimiento” no tiene por qué coincidir con el de “singularidad”. Si la frase contexto de esa palabra fuera “the poacher ignored the sign not to tres-“, no haría falta llegar hasta el punto de singularidad de esa palabra (/tresp/), porque con sólo escuchar /tres/, sabríamos qué palabra va en esa frase. Así, la primera versión del modelo permitía estas interacciones, donde el contexto está afectando claramente a la fase de selección preléxica.

Por otra parte, si la información sensorial es mala, podría no alcanzarse el punto de reconocimiento hasta mucho después de haber alcanzado el punto de singularidad. Es probable que sólo lleguen a coincidir el punto de singularidad y de reconocimiento en el caso de alguna palabra aislada muy clara.

En el modelo revisado, el contexto sólo afecta a la fase de integración. El modelo tiene una prioridad de “abajo arriba”, lo que significa que no se puede usar el contexto para restringir cuáles son los elementos que conforman la cohorte inicial.

La prioridad abajo arriba está presente en los dos modelos, pero en el revisado no se puede usar el contexto para eliminar candidatas en una etapa temprana.

En el revisado la eliminación de palabras de la cohorte deja de ser un proceso de todo o nada, que sirve para explicar que aunque no se haya entendido bien el comienzo de la palabra se puedan superar esas distorsiones. Por ejemplo si oímos la frase “la comida estaba beliciosa”, podemos recuperar e identificar esa palabra como “deliciosa”, aunque se tarde más tiempo.

En el modelo revisado el grado de solapamiento es elevado, aunque el principio de las palabras sea muy importante para generar la cohorte.

También cambia respecto del anterior que a medida que las palabras de la cohorte no se ven favorecidas por información positiva, van decayendo hasta quedar de nuevo en estado de reposo. Se pueden reactivar con información positiva posterior. El nivel de activación de las palabras candidatas inadecuadas en el contexto decae, por lo que el contexto dispone, pero no propone. Los candidatos adecuados se integran en el siguiente nivel de representación superior de la frase.

El contexto de la frase sólo tiene un efecto tardío y no puede invalidar la hipótesis de la percepción, cuando una candidata está empezando a emerger como probable ganadora.

La frecuencia de una palabra afecta al nivel de activación de las candidatas en las primeras etapas del acceso léxico. El tipo de ganancia de la activación es mayor para las palabras de mayor frecuencia.

Hay efectos de frecuencia relativa dentro de la cohorte inicial, de forma que pertenecer a la cohorte no es una cuestión de todo o nada sino que los elementos varían a lo largo de un continuo de activación.

La versión más reciente pone de relieve el acceso directo de las entradas léxicas en función de un análisis acústico de la señal del habla entrante.

Pruebas experimentales del modelo de cohortes

El experimento de Marlsen-Wilson y Wells tiene 3 variables de interés:

  1. Magnitud de la discrepancia entre la palabra objetivo y la palabra errónea. Esta discrepancia se medía en función de una serie de características distintivas alteradas en el error (“trachedy” en vez de “tragedy”)

  2. Restricción léxica; reflejaba el número de candidatos disponibles en distintas posiciones de una palabra manipulando la posición de la sílaba en la que se localizaba el error (primera o tercera sílaba)

  3. Contexto; la palabra objetivo era continuación probable o improbable del inicio de la frase, podía ser de restricción alta “aun así, se quería fumar un —-“ (muy probablemente fuera “cigarrillo” la palabra), o de restricción baja (“fue su ———- que estuvieran parados”, donde “mala suerte” cabe pero hay otras posibilidades)

La técnica de sombreado: se utiliza para analizar cómo interactúan la sintaxis y la semántica en el reconocimiento de palabras. En la prueba los participantes tienen escuchar un discurso continuado y repetirlo lo antes posible (con un retardo de 250ms). Los discursos tienen errores deliberados, que son sonidos distorsionados de forma que se pronuncian mal algunas palabras. El 50% de las veces los participantes repiten el discurso como debería haber sido, sin los errores de pronunciación. A esto se le llama “restauraciones de la fluidez”. Cuanto más distorsionado está un sonido, más probable es que se obtenga una repetición exacta. Conclusiones/Resultados:

Las restauraciones más fluidas se hacían con distorsiones leves, de la última sílaba y cuando era predecible por el contexto (restricción alta).

La mayoría de reproducciones más exactas con una mayor distorsión se daban cuando la palabra estaba poco restringida por el contexto, si la restricción es adecuada, se restaura la fluidez mejor, aunque las desviaciones sean muy grandes.

Interpretaron los resultados como una demostración de que la percepción inmediata es el producto tanto de la entrada perceptiva de abajo arriba como de las restricciones contextuales de arriba abajo.

El análisis sintáctico y semántico empieza muy poco después de haber empezado a escuchar la frase, no se aplazan hasta haberla escuchado entera.

Escucha de pronunciaciones erróneas (Cole y Jakimik): en esta tarea, los participantes escuchan un discurso donde hay un sonido distorsionado (cambio de “bota” por “pota”) y se detectan esos cambios. Los participantes son más sensibles a los cambios al principio de las palabras. No préstamos la misma atención a todas las partes de la palabra, al inicio de la misma se le presta más atención.

Los fragmentos que se corresponden con el comienzo de una palabra son una prima casi tan eficaz como la palabra misma. “capi-“ sería una prima tan buena para la palabra objetivo “barco” como lo sería “capitán”. Por otra parte, los fragmentos de la rima producen muy poca imprimación, por ejemplo ni “cattle” (una palabra), ni “yattle” (una palabra derivada) serían buenas primas para “battle”.

Tarea de activación paulatina: tarea que consiste en revelar progresivamente más fragmentos de una palabra, como en el caso de /trespass/ de antes. Con ella se pueden identificar los puntos de aislamiento, pero con cierto grado de duda. Esta tarea demuestra la importancia del contexto adecuado, como “en el zoo, los niños montaron en el …” para la palabra “camello”. Estos estudios también demostraron que las palabras candidatas se generan de forma que son compatibles con la representación perceptiva hasta cierto punto, pero no con el contexto (que no propone). Las fuertes restricciones semánticas y sintácticas no impiden que se acceda, al menos al principio, a palabras candidatas compatibles con la entrada sensorial pero no con el contexto. El contexto no puede tener un efecto temprano.

El contexto no influye en la generación de palabras candidatas, pero sí puede eliminarlas. La Imprimación multimodal permite medir los efectos del contexto en distintos momentos de reconocimiento de una palabra: los participantes escuchan un discurso en unos auriculares al tiempo que miran a la vez a una pantalla para realizar una tarea de decisión léxica ante las palabras que se le presentan visualmente. Se puede variar sistemáticamente la relación entre la palabra en la pantalla y el discurso oído, y el momento en el que ambos pueden coincidir. Zwitserlood demostró que el contexto puede ayudar a elegir las palabras candidatas semánticamente adecuadas antes de alcanzar el punto de reconocimiento de la palabra.

Ejemplo con la palabra “capitán”. Los participantes oían distintas cantidades de la palabra antes de que apareciera en la pantalla, o bien oían una palabra relacionada o bien una palabra control. En el momento de oír sólo “cap”, la palabra no es todavía única, puede seguirse con opciones igualmente válidas, como “capitán” pero también “capital”. Zwitserlood identificó una facilitación para palabras relacionadas como “barco”, pero también hubo facilitación para las relacionadas con capital, como “dinero”. Sin embargo, al terminar la palabra “capitán”, sólo se podían primar las palabras relacionadas con ella. También había una imprimación mayor de la palabra candidata más frecuente que de las menos frecuentes, como predice el modelo de cohortes. El contexto no tiene ningún efecto al principio de la palabra: incluso si el contexto favorece enérgicamente una palabra (también con competidoras poco verosímiles). Pero una vez que se ha pasado el punto de aislamiento sí influye el contexto, cuyo efecto es fomentar el nivel de activación de la palabra respecto al de sus competidoras.

Estos resultados respaldan las ideas de que el contexto no puede anular las hipótesis perceptivas y que el contexto de la frase tiene un efecto tardío sobre la interpretación de una palabra y su integración con la sintaxis y la semántica de la frase. El contexto acelera la integración.

Experimento de Van Petten et al., sugiere que la integración semántica puede empezar cuando el sistema sólo tiene información incompleta sobre la identidad de la palabra. Los estudios que usan potenciales evocados han demostrado que todas las palabras crean un pico máximo de activación a los 400 ms de haber empezado el estímulo, lo que se conoce como N400. El N400 es mayor en amplitud cuando la palabra está en un contexto incongruente. Van Petten encontró N400 diferenciales a palabras semánticamente adecuadas e inadecuadas antes del punto de aislamiento de la palabra.

La influencia de las vecinas léxicas

En el modelo de cohortes, el número de competidoras o el tamaño de la cohorte, en un momento dado no deberían tener ningún efecto sobre el reconocimiento de la palabra objetivo. Pero los datos son contrarios.

Los resultados de Luce y otros sugieren que el tamaño de la cohorte sí afectaba al curso temporal del reconocimiento de una palabra. Concluyeron que la estructura del vecindario de una palabra afecta a la velocidad y a la precisión en una serie de tareas. El número de las características de las competidoras de una palabra (como su frecuencia), son muy importantes. Por ejemplo, somos menos capaces de identificar palabras de alta frecuencia con muchos vecinos léxicos de gran frecuencia que de identificar palabras con menor frecuencia o con vecinos menos frecuentes. Ellos afirmaron que el número de vecinos o “densidad del vecindario” influyen sobre la decisión. Se tarda más y se cometen más errores al identificar palabras con muchos vecinos léxicos debido a la competencia.

Marslen-Wilson analizaron el efecto de la frecuencia de las palabras competidoras en el reconocimiento. Concluyó que el reconocimiento de una palabra como “speech” no sólo depende del punto de singularidad de sus competidoras (como “speed”, o “specious”), sino también de la frecuencia de esas competidoras. Se identifica más rápidamente una palabra de alta frecuencia con vecinas de frecuencia baja que lo contrario. El incremento de la activación en una palabra de alta frecuencia es mucho mayor que en el caso de una de poca frecuencia.

El vecindario fonológico no es el único factor que puede afectar al reconocimiento auditivo. El vecindario ortográfico también, pero lo hace de forma facilitadora. Se identifican más deprisa las palabras habladas con muchas vecinas de parecido visual que las palabras habladas con pocas vecinas. Esto puede pasar porque en alguna parte del sistema hay unidades subléxicas, o unidades de palabras, o ambas, de distintas modalidades vinculadas entre sí.

Evaluación del modelo de cohortes

El modelo ha cambiado a lo largo de los años y a la luz de los datos más recientes, pone menos énfasis en el papel del contexto.

En la primera versión el contexto no podía afectar a la fase de acceso, pero sí a las de selección e integración.

En la posterior sólo afectaba a la integración.

En la revisada los elementos no están ni “encendidos” ni “apagados”, sino que tienen un nivel de activación proporcional a la bondad del ajuste entre el elemento y la entrada acústica, de forma que se puede analizar a continuación con más detalle una serie de palabras candidatas en paralelo. Esto permite una decaída paulatina de las candidatas más que su eliminación inmediata.

El modelo no distingue entre identificación provisional y definitiva, hay algunos aspectos probabilísticos del reconocimiento de palabras. La versión posterior, al sustituir la eliminación “todo o nada” por una eliminación paulatina, también explica mejor la capacidad que tiene el sistema para recuperarse de los errores. Un problema persistente del modelo de cohortes es su dependencia del conocimiento de cuando empiezan las palabras sin tener un mecanismo explícito para identificar el inicio de una palabra.

TRACE

El modelo TRACE es un modelo muy interactivo del reconocimiento de la palabra hablada, derivado del Modelo de activación interactiva de las letras y de identificación visual de las palabras de McClelland.

La característica más importante de Trace es que pone de relieve el papel del procesamiento arriba abajo (el contexto) en el reconocimiento de las palabras. El contexto léxico puede ayudar directamente al procesamiento perceptivoacústico y la información por encima del nivel de la palabra (semántico, sintáctico y pragmático), puede ayudar al reconocimiento de la misma.

Trace es un modelo conexionista y está compuesto de muchas unidades simples de procesamiento conectadas entre sí. Supone el modelo un procesamiento temprano y bastante sofisticado de la señal acústica.

Estas unidades se ordenan en 3 niveles de procesamiento:

  1. Unidades de entrada

    1. Representa características fonológicas. Éstas están conectadas a las unidades de fonemas que, a su vez, están conectadas a las unidades de salida que representan palabras.

    2. Están provistas de energía o “activadas”, esta energía se propaga por las conexiones (quedando activada al final una sola unidad de salida)

  2. Unidades fonemas

    1. Se produce una percepción categórica a causa de una inhibición dentro del mismo nivel entre las unidades de fonemas

    2. Conforme una activación proporcionada por una entrada antigua va circulando por el tiempo, la inhibición mutua entre ellas, da lugar a que se clasifique la entrada con en un extremo u otro del continuo.

  3. Unidades de salida: representan palabras.

    1. De los datos del nivel anterior y su combinación surge la palabra identificada.

Del primer nivel por tanto surgen energía que se propaga por la red excitando e inhibiendo de manera tal que al final sólo queda una unidad de salida, la palabra que ha reconocido la red. Las unidades en distintos niveles que son mutuamente consistentes tienen conexiones excitadoras.

Todas las conexiones entre los niveles son de doble sentido en tanto que la información fluye entre ellas en ambos sentidos. Esto permite tanto el procesamiento abajo arriba como el arriba abajo.

Hay conexiones inhibidoras entre las unidades dentro de cada nivel, lo que implica que una vez que una unidad se ha activado, tiende a inhibir a sus compañeras de nivel. Por tanto este mecanismo pone de relieve el concepto de la competencia entre unidades del mismo nivel.

El modelo tiene en cuenta el tiempo simulándolo como porciones discretas. Las unidades se representan de manera independiente en cada porción de tiempo. El modelo se ejecuta en forma de simulaciones informáticas y se comparan las series de simulaciones con lo que ocurre en el procesamiento del habla en humanos.

Muestra cómo el conocimiento léxico puede ayudar a la percepción; por ejemplo si se da una entrada ambigua entre /p/ y /b/ y se sigue con una terminación LAN, el modelo “reconoce” /p/ (para formar “plan”).

En el modelo se produce una percepción categórica a consecuencia de una inhibición dentro del mismo nivel entre las unidades de fonema. A medida que una activación proporcionada por una entrada antigua va circulando por el tiempo, la inhibición mutua entre las unidades de fonemas da lugar a que se clasifique la entrada como en un extremo u otro del continuo.

El modelo TRACE explica los efectos de la posición en el reconocimiento de las palabras (los sonidos al inicio de las palabras desempeñan un papel importante) porque la entrada se va desvelando a lo largo del tiempo, de forma que los sonidos del principio de la palabra contribuyen mucho más a las estimaciones de los nodos de la palabra que los sonidos del final de la misma.

Evaluación del modelo TRACE

Ventajas:

TRACE trata muy bien los efectos del contexto en la percepción del habla.

Puede operar con cierta variación acústica y explica fenómenos como el efecto de la restauración del fonema y los efectos de la coarticulación.

Explica los efectos del contexto léxico y es bueno para encontrar las limitaciones de las palabras y opera bien con entradas con ruido, que se aproximan más al lenguaje natural. Las cuestiones que constituyen un problema para los modelos antiguos, como los efectos de la coarticulación en los modelos de patrones, facilitan de hecho el procesamiento mediante un procesamiento de arriba abajo.

TRACE es explícito, como todos los modelos informáticos.

Presenta varios problemas:

Hay muchos parámetros que se pueden manipular en el modelo y se pueden rebajar las críticas de que TRACE es demasiado potente en tanto que puede acomodar cualquier resultado.

Al ajustar algunos de los parámetros se puede hacer que el modelo simule cualquier dato de los experimentos sea lo que fuere lo que indiquen los datos reales en las tareas.

El tratamiento del tiempo como porciones discretas es inverosímil.

Massaro planteó una serie de problemas de TRACE. En una prueba de decisión forzosa puso a los participantes un continuo de sonido entre /l/ y /r/, y tenían que decir cuál habían percibido en tres contextos diferentes; “s_i” (más proclive a /l/, ya que hay algunas palabras en inglés que empiezan con “sli”), “”t_i” (proclive a /r/) y “p_i” (proclive a /r/ y /l/). Así se vio que ocurría con humanos, dándose un 50% de elecciones en la condición “p_i” entre /r/ y /l/, que difería de los resultados de TRACE. En TRACE el contexto tiene un efecto mayor cuando la señal es menos ambigua, pero en humanos el contexto afecta de manera constante respecto a la ambigüedad de la señal del habla. Massaro quería que el resultado de TRACE fuera más estocástico (o probabilista), pero aun cuando se introdujo en el programa esta modificación para hacerlo más probabilista, los resultados siguieron siendo erróneos en este aspecto.

Massaro defiende un modelo en el que el reconocimiento fonético utiliza características que actúan como una entrada de la estrategia de decisión que implica combinaciones variables de las características perceptivas llamadas prototipos imprecisos.

TRACE se ocupa del curso temporal del acceso léxico y el modelo lógico impreciso se ocupa más de la toma de decisiones y los procesos de producción de resultados.

El principal problema de TRACE es que se basa en la idea de que el contexto afecta de arriba abajo al proceso de reconocimiento, y el grado en que esto puede pasar es controvertido. De hecho existe evidencia experimental en contra del efecto del procesamiento arriba abajo que TRACE predice: los efectos del contexto sólo aparecen ante estímulos degradados desde el punto de vista de la percepción.

Elman y McClelland encontraron que los procesos entre niveles podían afectar a los procesos de nivel inferior, lo que respaldaba el modelo TRACE. En concreto, demostraron que los fonemas ilusorios creados por el conocimiento léxica de arriba abajo (análogos a la restauración del fonema) pueden afectar a la coarticulación (influencia de un sonido sobre el vecino) que opera al nivel de percepción básica del sonido de la forma en que lo predecía TRACE. Se puede ver en el ejemplo de los pares de palabras “English dates/gates” y “copiuos dates/gates”, donde el fonema inicial de la segunda palabra es ambiguo, en un punto entre /g/ y /d/. Los efectos de coarticulación del sonido final de la primera palabra afectan a la forma exacta en que producimos el primer sonido de la segunda palabra. Los oyentes son sensibles a estos efectos (lo que se conoce como compensación de la coarticulación). Es más probable que identifiquemos el fonema ambiguo como /d/ si va seguido de una /sh/, pero más probable que sea identificado como /g/ si va seguido de /s/. Los sujetos tendían más a entender “English dates” y “copious gates”, incluso cuando el sonido final de English fue modificado para dejarlo en un sonido a medio camino entre /s/ y /sh/.

A primera vista estos datos respaldan más un modelo interactivo que uno autónomo. Parece que el lexicón está influyendo sobre un efecto preléxico (compensación). Sin embargo hay explicaciones de los datos compatibles con un modelo autónomo:

No es necesario invocar al lexicón, ya que de por sí algunas combinaciones de sonidos son más probables. Pitt y McQueen demostraron que se puede usar esta secuencia en la percepción del habla. Encontraron el efecto de compensación de la articulación en la clasificación de consonantes oclusivas cuando iban precedidas de sonidos fricativos ambiguos al final de palabra inexistentes. Por ejemplo, la secuencia de fonemas inexistente “der?” está sesgada hacia una terminación /s/, mientras que la secuencia “nai?” lo está hacia una /sh/. En realidad el fonema “?” era uno a medio camino entre /s/ y /sh/. Estas palabras iban seguidas del principio de una palabra con el sonido de una oclusiva entre /t/ y /k/, de “tapes” a “cakes”. La identificación de la oclusiva estaba influida por la fricativa ambigua anterior dependiendo del contexto de la fricativa de la palabra inexistente. Puesto que la palabra anterior era inexistente, no se podía usar el conocimiento léxico. El hecho de que siguiera identificándose una compensación sugiere que se estaba usando el conocimiento secuencial sobre cuáles son los fonemas que se producen juntos.

TRACE tampoco ofrece un buen rendimiento para detectar errores de pronunciación. Es un modelo de toma única; el único modo que tiene de identificar fonemas consiste en ver cuáles son los fonemas que se identifican en el nivel de los fonemas. Pero si se presenta una palabra mal pronunciada ese nivel activará los fonemas que mejor correspondan. Este nivel a su vez activará al anterior, el de los fonemas, de forma que se activan los fonemas de mejor correspondencia. La mala pronunciación tiene un efecto adverso sobre el rendimiento.

A diferencia de TRACE, que es un modelo de toma única, Race es un modelo de múltiples tomas, donde el análisis preléxico almacenado sobre la palabra y la entrada léxica de la palabra compiten por el resultado. La decisión se toma en función de la ruta que produce la primera respuesta, de aquí lo de “carrera” (race). Puesto que hay dos tomas, la léxica y la preléxica, debería ser posible poner de relieve una sobre otra cambiando la atención. Se deberían maximizar los efectos lexicón sobre el procesamiento del fonema cuando las personas prestan especial atención a la toma léxica y deberían quedar minimizados cuando prestan atención a la toma preléxica. Este patrón es exactamente el que se observa y los modelos de toma única tienen problemas para explicarlo. Por ejemplo, la magnitud del efecto léxico en las tareas de monitorización del fonema depende de la composición de los demás elementos de relleno utilizados en el experimento.

McQueen et. al., afirmaron que nunca es necesaria la retroalimentación en el reconocimiento del habla. Así, la influencia arriba abajo en reconocimiento sólo obstaculizaría el proceso. La retroalimentación no puede mejorar la precisión del procesamiento (en efecto, puede anular la detección de los errores de pronunciación y de hecho, reducir la precisión); sólo puede acelerar el procesamiento. El coste de este incremento de la velocidad es un intercambio con la precisión.

Finalmente, existe evidencia empírica contra otros supuestos del modelo. Frauenfelder et.al., no encontraron ninguna prueba de una inhibición de arriba abajo en los fonemas en una tarea que implicaba la monitorización de fonemas inesperados al final de una palabra en comparación con palabras inexistentes de control. TRACE predice que, una vez que se ha accedido a una palabra, los fonemas que no están en la misma deberían ser objeto de una inhibición arriba abajo. También predice que los fonemas objetivos (como /t/) en las palabras inexistentes derivadas de palabras alteradas (como “vocabutario”) deberían ser identificados más lentamente que los fonemas objetivo en las palabras inexistentes de control (socabutario) porque el fonema real compite con el fonema de la palabra dada (/l/ contra /t/ en vocabutario) debido a la retroalimentación arriba abajo. Sin embargo no hubo diferencia entre las dos condiciones de palabras inexistentes.

Cutler y Norris concluyeron que las “latencias de monitorización de fonemas” eran más rápidas ante los fonemas del principio de la palabra real que de la inexistente. Según TRACE no debería haber diferencia en esto puesto que la activación no ha tenido tiempo de acrecentarse y volver a alimentar al nivel de fonema.

TRACE tampoco es capaz de explicar las conclusiones de los experimentos de “falta de correspondencia subcategórica”. Marslen-Wilson examinaron el efecto de la división en la decisión léxica (¿es una palabra?) y en la clasificación de fonemas (¿qué tipo de sonido ha oído?). El efecto de la división cruzada en palabras inexistentes era mucho mayor cuando el material dividido provenía de una palabra (por ejemplo en un elemento como “smob”; “sm-“ viene de la palabra real “smog”) de forma que el desempeño era peor cuando la palabra inexistente con división cruzada provenía de una palabra real, pero la división no marca una gran diferencia en el procesamiento de las palabras. El modelo TRACE no ofrece buenos resultados porque no puede utilizar los datos sobre la falta de correspondencia entre los dos elementos.

TRACE es bueno para explicar los efectos del contexto, pero es débil en el grado en que sus predicciones no están respaldadas fehacientemente por los datos.

Otros modelos conexionistas del reconocimiento del habla

Las redes recientes utilizan “conexiones recurrente” de la capa oculta a un contexto para almacenar información sobre estados previos de la red.

Esta modificación permite a las redes codificar información sobre el tiempo, por lo que ofrecen una explicación mucho más verosímil de carácter basado en el tiempo del procesamiento del habla que un modelo TRACE, que usa unidades basadas en tiempos fijos y esto da problemas a la hora de asimilar variaciones del ritmo del habla.

Gaskell y Marslen-Wilson: ampliaron el modelo de cohortes para modelizar el proceso que hace correspondencias entre la información léxica y la fonológica. Construyeron un modelo conexionista que pone de relieve el carácter distribuido de las representaciones léxicas (a diferencia de TRACE, que usa representación local), de forma que se distribuye la información sobre una palabra cualquiera entre un gran número de unidades de procesamiento.

Otra diferencia con otros modelos conexionistas es que la información del habla de bajo nivel, representada por características fonéticas, recibe directamente una correspondencia en forma léxica. No hay niveles adicionales de procesamiento fonológico implicados (aunque hay una capa de unidades ocultas que media entre las entradas de características y las capas de salida semántica y fonológica).

Este modelo de Gaskell y Marslen-Wilson simulaba varias facetas importantes del procesamiento del habla:

Ofrecía una buena explicación del curso temporal del acceso léxico, demuestra que es posible que se activen múltiples candidatos en paralelo. La palabra objetivo sólo se diferencia energéticamente de sus competidoras cerca de su punto de singularidad.

El modelo simulaba con éxito los datos experimentales.

A diferencia de los modelos conexionistas como el TRACE, y como los humanos, el modelo muestra muy poca tolerancia. Como en el experimento de los autores, una palabra inexistente como “smob”, (que tiene una gran correspondencia con una real, “smog”, de la que sólo difiere en su lugar de articulación del segmento final) que se construye de forma que las vocales sean consistentes con la palabra objetivo, de hecho no activa demasiado la representación léxica de la palabra real “smog”. La red requiere gran cantidad de detalle fonético para acceder a las palabras, como los humanos. Gaskell propone que esta característica del modelo es una consecuencia de la forma realista en que se presentan las entradas (con palabras incorporadas en un flujo de habla) y del entrenamiento de la red en un gran número de formas fonológicas similares. Estas características obligan a la red a ser intolerante sobre la clasificación de los elementos de entrada.

Puesto que las palabras están representadas de tal manera que se solapan los elementos similares en sus representaciones, la competencia entre elementos similares es una parte esencial del procesamiento. La activación simultánea de más de una palabra candidata crea conflicto. Wilson presenta una serie de experimentos utilizando una imprimación multimodal que muestra que la competencia reduce la magnitud del efecto de imprimación semántica. Cuando una palabra sigue siendo ambigua, como “capt-“, que puede ser capitán o cautivo (captive), no es particularmente efectiva a la hora de primar “barco”; sólo lo es relativamente tarde, después de haber alcanzado el punto de singularidad de la palabra. No obstante, “capt-“ sigue produciendo cierta imprimación; puede acceder al significado antes del punto de singularidad, lo que permite cierta facilitación de las palabras relacionadas semánticamente, pero como no puede lograr un acceso completo, la imprimación semántica es más débil que después de pasado el punto de singularidad.

El modelo explica el distinto patrón de efectos que se encuentran en la imprimación por repetición multimodal y en la imprimación semántica multimodal. Ellos afirman que la cantidad de competencia entre las palabras depende de la coherencia del conjunto competitivo.

Las palabras candidatas activadas por un sonido parcial sonarán necesariamente similares, por lo que serán coherentes. Por el contrario, las propiedades semánticas de las palabras candidatas no estarán relacionadas entre sí. Por tanto, la imprimación por repetición puede hacer un uso directo del conjunto de candidatas léxicas activadas directamente por la entrada. (Ej.: “capt-“ está relacionada con captain y captive).

La imprimación semántica no puede hacerlo puesto que genera múltiples elementos candidatos no relacionados entre sí, por lo que son incoherentes (de “capt-“ saldrían “barco” y “prisionero”, que en su sonido no tienen nada que ver).

Además, con conjuntos incoherentes más competencia habrá, mientras que en los coherentes no importa el número de candidatas y el tamaño afectará menos a la imprimación. Por tanto, se determinó que los efectos de la competencia y los efectos del tamaño de la cohorte serían mayores en la imprimación semántica que en la imprimación por repetición.

Norris creó el modelo SHORTLIST: Demostró que las redes recurrentes pueden identificar palabras habladas en su punto de singularidad y también pueden asimilar variaciones en el ritmo del habla. Pero, a diferencia de TRACE, no se pueden recuperar si identifican incorrectamente partes de una palabra. No se pueden deshacer las decisiones.

El modelo SHORTLIST intenta reunir lo mejor de los modelos con una arquitectura híbrida donde una red recurrente proporciona los elementos de entrada de una red de activación interactiva. Este modelo es totalmente abajo arriba y parte de un vocabulario de decenas de miles de palabras. En esencia considera que el reconocimiento de palabras es una carrera abajo arriba entre palabras similares. Se crea una “red de competencia al vuelo” desde la salida de una red de reconocimiento en la que las palabras candidatas detectadas en el flujo de entrada pueden competir entre sí. Sólo hay unas pocas palabras recientemente activas para ser utilizadas en la lista (shortlist=lista reducida). El principal inconveniente de este modelo es la viabilidad de crear una nueva red competitiva en cada momento.

Norris, McQueen y Cutler crean el modelo MERGE: Es también un modelo completamente dependiente de los datos (abajo arriba) y también es un modelo de competencia-activación. Aquí, la activación fluye del nivel preléxico al lexicón y los nodos de decisión del fonema. No hay retroalimentación entre los nodos léxicos y los preléxicos. Sin embargo, la información léxica puede influir sobre los nodos de decisión de los fonemas. Las decisiones se toman a partir de la fusión de estos dos elementos de entrada. Algunos dicen que fusión es igual que interacción, puesto que los nodos de decisión del fonema están influidos por la información léxica (lo que implicaría influencia de los arriba abajo). MERGE es en realidad un modelo que explica las tareas de decisión de los fonemas más que un modelo general del reconocimiento del habla.

Comparación de los modelos de reconocimiento de la palabra hablada

Vamos a ver de nuevo los 3 casos de reconocimiento del habla ver qué ha dicho cada modelo de ellos.

Cuando oímos hablar tenemos que hacer dos cosas: 1.-Dividir el flujo del habla en palabras y 2.-Reconocer las palabras. La cantidad de habla necesaria para computar la representación de contacto determina cuándo se puede producir el contacto inicial. El contacto inicial se puede producir apenas transcurridos 10 ms. Es evidente que los modelos que utilizan sílabas para localizar posibles comienzos de las palabras, y que necesitan unidades de habla más largas, requerirán más tiempo para acceder al lexicón. Los distintos modelos también ponen de relieve la forma en que hacen contacto las representaciones con el lexicón. Por tanto, en el modelo de cohortes se utiliza el principio de la palabra (los primeros 150 ms) para hacer el primer contacto. En otros modelos se usa la parte más prominente o fiable de la palabra, como la sílaba de mayor acentuación. Todos estos modelos en los que se utiliza el contacto inicial para generar un subconjunto de entradas léxicas tienen la desventaja de que es difícil recuperarse de un error. Los modelos como TRACE, en los que no hay un único contacto para cada palabra, no padecen estos problemas. Cada fonema identificado (la palabra completa) contribuye al conjunto de entradas léxicas activas. El coste es que estos conjuntos pueden ser muy grandes, lo que puede resultar caro en cuanto a computación.

El modelo de cohortes revisado niega el problema de la recuperación de tempranos errores permitiendo una activación paulatina de las palabras candidatas en vez de una activación poco o nada. Además, aunque los principios de las palabras son importantes en el acceso léxico, las partes de la rima no producen una imprimación. Por otra parte, la evidencia a favor de la cantidad de interacción que implica el modelo TRACE es limitada.

El modelo de Gaskell y Marlsen-Wilson es muy parecido al SHORTLIST de Norris. Ambos difieren del modelo TRACE al utilizar menos la inhibición arriba abajo y usar más la información abajo arriba. SHORTLIST combina las ventajas de redes recurrentes y de TRACE. Estos tipos de modelos conexionistas demuestran cómo es probable que se desarrollen los modelos de reconocimiento del habla, aunque SHORTLIST padece actualmente el problema de que no está claro cómo se pueden crear “al vuelo” redes de activación interactiva.

Todos los modelos de reconocimiento de la palabra consideran que el reconocimiento de la palabra hablada incorpora un elemento de competencia entre la palabra objetivo y sus vecinos. La imprimación de una palabra debería retrasar el reconocimiento de otra que comparta los mismos sonidos iniciales. Por desgracia la investigación ha demostrado o bien una facilitación o bien ningún efecto de imprimación de los elementos fonológicamente relacionados, en vez de la inhibición esperada. ¿Por qué? Monsell y Hirsh señalaron que, en estos estudios, el retraso entre la prima y el elemento de incitación era muy breve. Es posible que cualquier efecto de inhibición quede cancelado por el efecto de facilitación de acción inmediata generado por otros factores como el procesamiento de elementos subléxicos compartidos (como fonemas y rimas). Si fuera así, entonces la inhibición debería resultar patente en retrasos más largos, cuando los efectos de facilitación inmediata han tenido tiempo de desaparecer. Esto fue lo que observaron ellos. En una tarea de decisión léxica auditiva, con retrasos temporales de 1 a 5 minutos entre la prima y la palabra objetivo, el tiempo de respuesta de una palabra monosilábica precedida por una palabra que comparte su comienzo y una vocal (“chat” y “champ”) aumentaba con respecto a una palabra de control sin primar. Análogamente el tiempo de respuesta aumentaba para las palabras con múltiples sílabas precedidas por otra que compartía la primera sílaba (“beacon” y “beaker”). El efecto estaba limitado a las palabras primas existentes, las primas inexistentes (“chass” y “beacal”) no producían esta inhibición. Por tanto la imprimación de competidores fonológicos retrasa el reconocimiento posterior de los elementos, pero el efecto sólo se manifiesta cuando se han dado los efectos de facilitación a corto plazo.

Finalmente, usamos otro tipo de información cuando comprendemos el habla. Incluso las personas con un sentido del oído normal pueden leer los labios en cierto grado. Este efecto sugiere que la percepción del habla es el resultado de las mejores conjeturas de todo sistema de percepción, utilizando múltiples fuentes de información entre las que el habla suele ser la más importante.

La neuropsicología del reconocimiento de la palabra hablada

En los adultos con una perturbación de las funciones del lenguaje tras una lesión cerebral suele ser frecuente que tengan dificultades en el reconocimiento del habla. Varney informó que el 18% de estos pacientes tenía problemas para discriminar los sonidos del habla. Las lesiones cerebrales pueden afectar a la mayoría de los niveles del proceso de reconocimiento del habla, incluyendo el acceso a los códigos léxico y preléxico.

Hay muchos casos de pacientes que tienen dificultades para construir el código preléxico. Una lesión cerebral puede afectar a las diversas etapas del procesamiento acusticofonético de las características, como el VOT, o las etapas posteriores que implican la identificación de sonidos en función de esas características. La evidencia neuropsicológica sugiere que las vocales y las consonantes son procesadas por sistemas distintos. Se vio en dos pacientes: AS producía fundamentalmente errores con las vocales, mientras que el paciente IFA lo hacía con las consonantes. Estas diferencias persistían incluso cuando se tenían en cuenta otros factores que podían llevar a engaño (como el grado de sonoridad; la cantidad de energía acústica de un sonido)

Los pacientes con sordera de palabra pura pueden hablar, leer y escribir con normalidad, pero no pueden comprender el habla, a pesar de que oyen con normalidad. No pueden repetir el habla y tienen una comprensión auditiva muy pobre. Tienen dificultades en tareas como la diferenciación de las consonantes oclusivas entre sí. Por otra parte, el paciente de Saffran podía identificar instrumentos musicales y ruidos distintos al habla, y podía identificar el género y el idioma de una voz grabada. Este patrón de desempeño sugiere que estas personas padecen una perturbación de un mecanismo de procesamiento acústico preléxico. Una variante muy poco frecuente y controvertida es la sordera de significado de la palabra. Los pacientes con este trastorno muestran los mismos síntomas que los anteriores pero tienen intactas las capacidades de repetición. Esto demuestra que podemos reproducir palabras sin tener que comprenderlas.

Sólo una paciente (EDE) mostraba el procesamiento acusticofonético intacto (y con él la capacidad de construir un código preléxico), pero también hay que decir que tenía dificultades con el acceso léxico. Esta paciente tuvo buen rendimiento en todas las pruebas de la discriminación de fonemas de procesamiento acústico, pero cometió muchos errores al decidir si esos fonemas constituían palabras o no. Aún así tenía relativamente buena comprensión del lenguaje rutinario y sus errores en esta tarea se explicaron como un déficit en la memoria a corto plazo más que una dificultad de acceso léxico. Hasta ahora no hay datos de pacientes con el sistema de procesamiento fonético intacto pero que no puedan acceder al código posléxico.

Anterior
Siguiente