You talking to me? El rehablado

«YOU TALKING TO ME?» EL REHABLADO

¿El requé?

El rehablado (del inglés respeaking) es una técnica que sirve principalmente para producir subtítulos para sordos en tiempo real, aunque también se pueden hacer (de hecho, ya se hacen) traducciones simultáneas mediante esta técnica y se está utilizando, además, para el subtitulado de programas pregrabados, pues supone un importante ahorro de tiempo con respecto a la mecanografía. En cierto sentido, el rehablado también es una interpretación, solo que intralingüística, pues se traduce el texto oral de la televisión a una máquina para que esta, a su vez, lo escriba en forma de subtítulos.

En esencia, consiste en escuchar un mensaje y reproducirlo (si es para subtitulado en directo, la mayoría de las veces reformulado o modificado por cuestiones sobre todo de tiempo) para la máquina mediante una técnica adecuada. El rehablado para subtitulado en directo no es una repetición palabra por palabra, pues muchas veces resultará imposible debido al proceso que se sigue: el rehablador recibe y procesa una unidad de significado, y comienza a formularla o reformularla verbalmente. Al mismo tiempo recibe y procesa otra unidad de significado mientras continúa verbalizando la anterior. Así que debe retener esa segunda unidad de significado en la memoria antes de poder reformularla oralmente. Y la reformulará mientras recibe y procesa la unidad de significado siguiente.

Antes de introducirnos de lleno en la técnica del rehablado, vamos a situarlo en contexto y explicar sucintamente su historia.

El lenguaje humano y el reconocimiento de voz.

No soy muy experto en este tema, pero creo que está claro que los fonemas forman palabras, que, a su vez, forman oraciones. Esta combinación se realiza de manera ordenada y según unas reglas conocidas por los hablantes de un idioma, y esas reglas que permiten conocer un lenguaje forman la gramática.

Este entendimiento de la gramática y el lenguaje conlleva un proceso de aprendizaje en los humanos. Según dice la Wikipedia[i] (aunque ya sé que no es una fuente muy fiable), la capacidad de lenguaje se desarrolla en los cinco primeros años, por lo que, a esa edad, la mayoría somos capaces de entender lo que se nos dice, con salvedades en cuanto a amplitud de vocabulario.

Los programas de reconocimiento de voz son diferentes: está claro que pueden entender a su manera el habla y transcribirla, pero no entienden el significado de las palabras o de cuestiones gramaticales y no poseen capacidad de lenguaje como el ser humano. Además, su vocabulario es mucho más limitado. ¿Cómo entienden y transcriben entonces lo que se les dicta?

El software.

-Reconocimiento de voz:

El público en general tiene una idea equivocada sobre la capacidad que presentan los programas de reconocimiento de habla, e imagina que transcriben perfectamente todo lo que se dice. Por supuesto, los programas informáticos no presentan la capacidad de lenguaje del ser humano. El programa informático entiende el lenguaje hablado, pero de una forma especial. Un texto de entrenamiento de un programa de reconocimiento del habla lo expresa de esta forma:

Piense en lo que hacemos cada vez que hablamos con alguien: el primer desafío es identificar lo que es voz y lo que es ruido. Nuestra capacidad de filtrar los ruidos ambientales permite que conversemos casi en cualquier parte: en estaciones de tren, en pistas de baile, mientras despega un avión... […]. Para una máquina, sin embargo, no es fácil saber en qué sonidos concentrarse. Para que su voz se entienda, tiene que dictar en un ambiente silencioso y hablar claramente a un micrófono que haya sido colocado en la posición correcta. El segundo desafío es reconocer la voz de varias personas […]. Cuando conocemos a alguien, nos adaptamos fácilmente a su timbre, tono, volumen y acento, sin tener que pedirle que primero nos hable durante algunos minutos […]. Otro desafío del reconocimiento del habla es saber cómo distinguir entre dos o más frases que suenen casi iguales […]. Los programas de reconocimiento del habla no conocen el significado de las palabras y no pueden aplicar sentido común. Lo que sí hacen es llevar un registro de la frecuencia con que aparecen palabras individuales y combinaciones de palabras. Esta información le ayuda al programa a escoger las palabras o frases que tienen mayor probabilidad de ser las correctas.

El reconocimiento del habla (texto informativo), extraído de los textos de entrenamiento de Dragon NaturallySpeaking 10 Preferred.

El programa de reconocimiento de voz usa un proceso de clasificación de ciertos patrones que el programa tiene almacenados en diccionarios. Estos diccionarios son limitados, por lo que multitud de palabras no se encuentran en ellos. Mediante la lectura de unos textos iniciales y posteriores correcciones, el software va reconociendo la forma que tiene el usuario de formular esos patrones. Si al dictar un texto las palabras usadas no están en su vocabulario, el software buscará otras palabras fonéticamente parecidas que sí estén en el vocabulario. Esto da lugar a los consabidos errores que son patentes en el subtitulado en directo, como todo usuario del servicio puede apreciar. El rehablador debe, por tanto, entrenar el programa y corregir los errores para alcanzar mayor precisión en el reconocimiento, además de añadir constantemente palabras que vea que no se encuentran en el diccionario. A muchos usuarios que utilicen el reconocimiento de voz para escribir les vale la opción de analizar documentos previos del usuario, que hace que se familiarice con el vocabulario que emplea normalmente. A un rehablador, sin embargo, no le sirve de mucho, pues cada día se tratarán temas distintos en los programas que deba subtitular.

-Edición de subtítulos:

Para llevar el rehablado a buen puerto, no basta simplemente con el programa de reconocimiento de voz. Si podemos ver en la tele las letras, es gracias al programa de edición de subtítulos. Este, al igual que si recibiera el texto por el teclado, escribe las palabras que le dicte el programa de reconocimiento de voz y forma los subtítulos según especificaciones. Si es para subtitulado en directo, envía los datos directamente al insertador de subtítulos situado en la cadena que los vaya a emitir. Si es para subtítulos de programas grabados previamente, funciona como cualquier otro software de creación de subtítulos: guarda un archivo final que luego se enviará a la cadena para que lo emita.

Historia del reconocimiento de voz.

Basándome en parte en el gran libro de Pablo Romero Fresco[ii] y en parte en el documento de B. H. Juang y Lawrence R. Rabiner[iii], relataré a continuación los inicios del reconocimiento de voz.

Los primeros intentos de crear máquinas que pudieran imitar la capacidad de los humanos de comunicación mediante el habla surgieron en la segunda mitad del siglo XVIII. Esos intentos no iban encaminados al reconocimiento del habla, sino a conseguir que las máquinas pudieran imitar el habla natural de los humanos para interactuar con ellos. Más tarde se entendió que un paso fundamental para conseguir la comprensión del habla era su reconocimiento.

El primer programa que se presentó fue en 1952, y consistió en un dispositivo para el reconocimiento de números (Automatic Speech Recognition of Spoken Digits).

La investigación en reconocimiento de voz se bifurcó durante la década de 1970 en dos ramas, con IBM y AT&T Bell.

IBM se centró en crear una voice-activated typewriter, una máquina de escribir mediante voz, para que convirtiera lo hablado en escrito, ya fuera para mostrar en pantalla o para imprimirlo en papel. El proyecto se llamó Tangora, y fue un sistema dependiente del usuario, que lo debía entrenar.

AT&T Bell quería desarrollar un sistema automático para servicios de telecomunicaciones, para tareas como llamadas y contestadores automáticos. Su objetivo, por tanto, era un sistema independiente del usuario, para que pudieran funcionar de modo correcto para miles de personas sin necesidad de entrenamiento. Hoy en día, estos sistemas, en muchos casos, sirven para las telecomunicaciones y los sistemas de atención automática de llamadas porque presentan un sistema de palabras o frases clave. Por ejemplo, el usuario puede decir: «Quiero realizar una operación con tarjeta de crédito» y la máquina, al entender «tarjeta de crédito», puede ejecutar acciones previstas. Este tipo de sistemas a veces pueden ser un incordio para usuarios no acostumbrados a tratar con ellos, pues no reconocen bien el habla natural y poco fluida y, por lo general, no sirven para el reconocimiento que se necesita en el rehablado. Para este, como hemos dicho, son necesarios los sistemas que hay que entrenar, para conseguir de ese modo una precisión aceptable para subtítulos.

En los últimos años hemos visto importantísimas mejoras en los sistemas de reconocimiento de voz, de modo que los sistemas actuales dependientes del usuario, bien entrenados y usados, pueden alcanzar una precisión del 99 %, y esto supone una enorme ventaja para el subtitulado en directo.

Historia del rehablado.

La técnica de creación de subtítulos mediante programas de reconocimiento de voz surge como sustitución de la estenotipia. Al principio se utilizó esta última técnica para las emisiones en directo, pero como veremos enseguida, bastaron 11 años para sustituirla por cuestiones de ahorro de tiempo y dinero.

Alison Attenborough[iv], en el reportaje «How subtitles are made», del programa «See Hear», cuenta que el primer programa que se emitió subtitulado en la BBC fue, en 1979, un documental. El primer programa en directo, «Blue Peter», en 1986. La primera emisión en directo con estenotipia se dio en 1990. Ahí fue cuando se empezó a subtitular noticias en directo. El primer rehablado para subtitulado se llevó a cabo en 2001 y, desde entonces, esta técnica se ha ido convirtiendo cada vez más en la norma para subtitular programas en directo, puesto que entrenar a estenotipistas es un proceso más largo y caro.

See Hear visits BBC's subtitling company, Red Bee Media, to see first hand how subtitles are created and what can be done to improve the quality of subtitling in the future.

Alison Marsh[v] desarrolla un poco la historia:

En 1990 se organizó una unidad de subtitulado en directo. No había rehablado por entonces, el subtitulado se hacía mediante estenotipia. Ese departamento se fue expandiendo y en enero de 2001 se empezó a desarrollar la tecnología para el subtitulado mediante programas de reconocimiento de voz, principalmente debido a la Broadcasting Act (ley audiovisual) de 1990, que estableció que las cadenas tendrían que aumentar las emisiones subtituladas hasta llegar al 90 % en 2010. Además, la BBC decidió llegar en el año 2008 al 100 % de su programación subtitulada.

El primer rehablado que se hizo fue en abril de 2001. Se subtitularon los campeonatos mundiales de snooker (una modalidad de billar). Luego se utilizó la misma técnica con el tenis, Wimbledon. Después ampliaron al resto de deportes, y más tarde empezaron con debates parlamentarios y noticias. Emplearon ViaVoice, que con la versión 10 mejoró bastante las cosas (luego IBM dejó de producir el programa). Después introdujeron K-live, un software desarrollado por el departamento de I+D de la BBC (Red Bee formaba parte entonces de la cadena, se separó en 2005).

Alison Marsh también afirma que recibieron sugerencias de la comunidad sorda que les permitieron adaptarse a sus necesidades.

En cuanto a la línea histórica que se siguió en el rehablado en Reino Unido, contrasta con la de Red Bee en España[vi]:

Televisión Española, por requerimientos de la ley general audiovisual, acudió a Red Bee Media para comenzar el rehablado en la cadena. Se estableció una conexión entre Sevilla (sede de Red Bee Media en España, tras adquirir Mundovisión) y Madrid, se entrenó a los primeros rehabladores y el primer grupo comenzó las emisiones en julio de 2009  para un programa matinal que, si no me equivoco y me corrigen después, era «Saber Vivir». Aquí el proceso fue el contrario que en Reino Unido: primero se empezó con programas magacines, y más tarde se amplió la técnica al fútbol y a otros deportes.

Situación en España:

El mercado ha hecho que florezca el número de empresas que ofrecen servicios de subtitulado pregrabado y en directo. Eso hace que disminuyan drásticamente las tarifas, por lo que algunas empresas buscan estrategias para reducir costes. Y al reducir costes, la calidad se ve afectada.

Se ha dado el caso de que, supongo que porque algunas empresas son novatas en esto, o lo eran cuando lo constaté, se han emitido subtítulos en directo de retransmisiones aparentemente sin preparación previa (a juzgar por el resultado). Por suerte, cada vez mejora la técnica del rehablado y hay empresas, sobre todo las pioneras en esto, que no se olvidan de la calidad de su producto.

Para evitar en la medida de lo posible ese tipo de situaciones de baja calidad del subtitulado en directo, conviene, además de mejorar los sistemas y medios técnicos, que el rehablador haya recibido buen entrenamiento.

El rehablador.

Debido a la variedad de programas que se subtitulan, el rehablador debe familiarizarse con temas muy diversos. A continuación veremos en qué consiste la tarea del rehablado y cuáles son las claves del buen rehablador.

El rehablador escucha lo que la persona en la televisión dice y luego lo repite al micrófono. Pero no se puede simplemente hablar al micrófono de forma natural, el software no es lo bastante sofisticado para reconocer la forma de escribir todo lo que se dice; las palabras tienen que estar bien enunciadas y la puntuación hay que dictarla también. El problema surge con las palabras que no están incluidas en el diccionario: no se pueden decir, pues, si no, el programa no las reconocería y los subtítulos serían incomprensibles. Sin embargo, hay muchos tiempos verbales y otras palabras de las que, a primera vista, el rehablador piensa que no presentarán problemas al programa. Por ello surgen errores. Algunas palabras erróneas se pueden comprender por el contexto, y ahí el fallo es más perdonable (p. ej.: «de el» por «del»; «despreciar lo» por «despreciarlo»). Pero otras veces no («agencia vamos» por «agenciábamos»), así que se deben buscar estrategias para corregirse: en ciertas cadenas se puede ver el uso de dos guiones (- -) para, a continuación, corregir el fallo, bien sea mediante una pronunciación más clara con la esperanza de que el programa reconozca bien la palabra, bien mediante la escritura en el teclado de la palabra en cuestión, si el programa acepta que se pueda escribir además de rehablar.

A veces uno se ve tentado a hacer esto para que la máquina le entienda. La pena es que solo serviría para confundirla aún más.

Creo que hay que eliminar la idea de que el rehablado (para directos) significa una transcripción palabra por palabra. De hecho, como he señalado en la introducción, la tarea apenas lo permite. Hay que escuchar el mensaje emitido desde el programa de televisión y dictarlo a la máquina añadiendo verbalmente la puntuación necesaria, lo que supone cierto retardo respecto a la velocidad con la que el emisor habla. También hay que atender a la cuestión extralingüística, como la posición de los subtítulos en pantalla, el color de los mismos en función del hablante, o el uso de etiquetas identificativas, por ejemplo, además de la información contextual, como los efectos de sonido o los elementos suprasegmentales, [«(GRITA)», «(CANTAN)»], si hay tiempo para reproducirlos (no olvidemos que el rehablado, en tanto que es subtitulado para sordos, también se debe atener a la norma UNE 153010:2012, que incluye especificaciones para esta modalidad de subtitulado). Todo esto añade más retraso en la velocidad con la que el rehablador puede transmitir el mensaje a la máquina, de modo que muchas veces es necesario que haya reformulación.

Algo importante es la vocalización. Después de esto, cualquier mejora pasa por entrenar el programa y meter vocabulario, por lo que la relación del rehablador con el programa de reconocimiento de voz debe ser de dedicación de tiempo periódicamente al objeto de mejorar la precisión.

No solamente se entrena al programa para reconocer palabras, sino también para saber cuáles de esas palabras presentan mayúsculas. Así, se puede entrenar Consejería de Medio Ambiente al objeto de que lo reproduzca con las mayúsculas correctas.

También existen las macros de dictado, dependiendo del programa, mediante las que se puede decir un comando que escriba algo ya de antemano determinado (la información contextual es una ocasión perfecta para utilizarlas). El objetivo de las macros de dictado es reducir la pérdida de tiempo y a la vez las posibilidades de que surjan errores por mal reconocimiento.

El buen rehablador.

  • Sigue más o menos a la vez la frase del locutor, no espera a tener una frase acabada para repetirla. De esa forma, los subtítulos finales salen con menos retraso.

  • Es literal (hasta cierto punto), no resume cuando no hace falta, pero sí lo hace cuando es necesario.

  • Constata los errores y los corrige, bien sea entrenando o buscando estrategias para evitarlos (macros, House Styles del programa de subtítulos si las tiene…).

  • Entiende del tema o el programa que se rehabla. Conoce más o menos el tipo de lenguaje, se prepara el vocabulario (importantísimos los nombres propios) de antemano.

Sí, amigos, hay que agudizar el ingenio. Aunque este nombre resulte fácilmente reconocible para la máquina, abreviarlo significa ahorrar tiempo. Además, puede que Dragon escriba perfectamente «Marta Sánchez», pero seguro que no tiene en su vocabulario a «Mila Kunis», ¿verdad? Él se lo pierde. Pero la persona sorda no debería perdérselo, así que, más palabras que añadir.

El programa de edición de subtítulos. WinCAPS.

Como ya hemos visto, aparte del programa de reconocimiento de voz, hace falta uno de edición de subtítulos para que luego aparezcan en pantalla. Sé de empresas que usan Swift, pero yo no lo he usado nunca, así que me voy a centrar en el que conozco y he usado o uso. Por cierto, no me pagan los de Screen por hacerles publicidad. Muy al contrario, he tenido que desembolsar yo una buena cantidad por tener una licencia de Qu4ntum.

 WinCAPS está desarrollado por SysMedia, que ha sido después adquirida por Screen Subtitling Systems. La versión Live está pensada para subtítulos en directo. La versión Qu4ntum Pro está pensada para subtitular programas ya grabados mediante rehablado.

Maravillas que presenta:

  • House Styles: el texto que dictamos lo escribe el programa de reconocimiento de voz a la ventana SpeakTitle y pasa por ellas, las increíbles House Styles (herramientas de corrección y adecuación que cambian sobre la marcha y automáticamente el texto según unas pautas dictadas con anterioridad). Así, podemos configurarlas para que sustituyan cosas que sabemos que pueden salir mal escritas.

si,  →  sí,

si.  →  sí.

el,  →  él,

el.  →  él.

  • Text Splitting: Se puede configurar para que, al dictar el texto, haga una maquetación automática y divida los subtítulos con una segmentación medianamente decente.

maquetación

maquetación

WinCAPS Qu4ntum Pro, para subtitulado de pregrabados, supone lo que Screen denomina una revolución. Su opción de «automated alignment» asigna tiempos a los subtítulos de forma automática basándose en el audio. Y, atención, lo hace respetando los cambios de plano. Aunque no siempre acierta asignando tiempos.

mejoras

mejoras

1200 euros. Sí, sí, 1200 euros más es la diferencia entre ver activadas o no en el programa estas opciones para agilizar el trabajo, aparte del pastón que cuesta ya de por sí. Esa es la diferencia entre Qu4ntum Standard y Qu4ntum Pro.

Por cierto, si no se posee una licencia de WinCAPS Qu4ntum Pro y solo se tiene la Standard, también se puede emplear el rehablado, aunque de una forma mucho menos práctica: únicamente en el cajetín de subtítulos, sin pasar por el filtro de las House Styles y sin asignación de tiempos automática.

 El futuro del rehablado.

Ya para finalizar, hemos visto que el desarrollo de programas avanza a marchas forzadas, pero ¿qué ocurrirá en el futuro?

Para el rehablador, ciertas mejoras en los programas de reconocimiento de voz que resultarían geniales y muy bien recibidas son, principalmente, que requieran menos entrenamiento, con mayor vocabulario (sin problemas de reconocimiento de tiempos verbales), más rapidez de procesamiento y, aunque haga falta entrenarlos, que consigan llegar por fin al 100 % de precisión.  De los desarrolladores depende que se consiga esto. Además, como ya vemos continuamente, imagino que en el futuro se mejorarán los programas de edición de subtítulos y las técnicas automatizadas.

Sin embargo, las perspectivas de futuro a largo plazo no son muy halagüeñas para los rehabladores: se está trabajando ya en la creación de software capaz de reconocer la voz independientemente de los emisores, lo que ahorraría tener que contar con un rehablador como intermediario (ejemplo de esta modalidad son los subtítulos automáticos de YouTube, que por el momento son muy deficientes si el sonido no es idóneo). Tenemos, por ejemplo, el proyecto SAGAS, cuyo resumen se puede leer en el programa del congreso AMADIS 2010[vii]. Eso sí, se podrían tardar bastantes años en conseguirlo, pues deberá discriminar entre voz y ruido, aparte de comprender el dictado de distintas voces a diferentes velocidades, algunas de ellas superiores a las 220 palabras por minuto. Además, en cuanto a cuestiones gramaticales como asignación de puntuación automática está claro que harán falta muchos más avances todavía.

[i]Desarrollo del lenguaje, entrada de Wikipedia. http://es.wikipedia.org/wiki/Desarrollo_del_lenguaje

[ii] Pablo Romero Fresco, Subtitling through Speech Recognition: Respeaking, St. Jerome Publishing, 2011.

[iii] B.H. Juang y Lawrence R. Rabiner, Automatic Speech Recognition – A Brief History of the Technology Development. http://www.ece.ucsb.edu/Faculty/Rabiner/ece259/Reprints/354_LALI-ASRHistory-final-10-8.pdf

[iv] How Subtitles Are Made - See Hear - BBC Two. http://www.youtube.com/watch?v=u2K9-JPIPjg

[v] Alison Marsh, Respeaking for the BBC, 2006 http://www.intralinea.it/specials/respeaking/eng_more.php?id=484_0_41_0_M

[vi] Spanish Subtitling. http://www.redbeemedia.com/work/spanish-subtitling

[vii] V Congreso de Accesibilidad a los Medios Audiovisuales para Personas con Discapacidad (AMADIS 2010). http://www.cesya.es/amadis2010/programa.php