Anna Matamala,Daniel Andrés González Irene Rodríguez Arcos Pablo Romero-Fresco. (2011) Subtitling through speech recognition: Respeaking [Translation Practices Explained, 13]. Manchester: St. Jerome. 194 pp.

Traducción
Pablo Romero-Fresco. (2011) Subtitling through speech recognition: Respeaking [Translation Practices Explained, 13]. Manchester: St. Jerome. 194 pp.

Anna MatamalaUniversitat Autònoma de Barcelona
Translated by Daniel Andrés González bajo la supervisión de Irene Rodríguez ArcosUniversity of Salamanca
Tabla de contenidos

En nuestra sociedad digitalizada el contenido audiovisual es omnipresente, pero no todos pueden entender por completo y disfrutar del que se transmite al mismo tiempo por canales visuales y auditivos. Los servicios de accesibilidad, como la subtitulación, satisfacen las necesidades de aquellos que no entienden el canal de audio o no pueden tener acceso a este. Existen varios tipos de subtitulación, pero los que son especialmente desafiantes son aquellos que se dan en directo para una audiencia que no puede escuchar el audio. En esta área existen diferentes técnicas, pero sin duda la que se está utilizando cada vez más es el respeaking, que es la creación de subtítulos para contenido en directo a través del reconocimiento de habla. Este libro de Pablo Romero-Fresco proporciona una visión general de esta práctica y se puede decir sin lugar a dudas que, tan solo cinco años después su publicación, ya se ha convertido en un clásico de la traducción audiovisual.

El libro comienza con un capítulo introductorio en el cual el autor aporta una definición completa del término respeaking, resalta los aspectos clave de esta técnica y comenta la variación terminológica. En el segundo capítulo se proporciona una visión general de los orígenes de la subtitulación para sordos y para personas con dificultades auditivas, así como de la subtitulación en directo, tanto en Europa como en Estados Unidos, y también se describen las prácticas reglamentarias. A su vez, en este segundo capítulo se presenta una clasificación de los subtítulos de acuerdo con diferentes parámetros: el enfoque de la producción (en directo, en semidirecto, pregrabada), el lenguaje (intralingüístico, interlingüístico), el método de corrección (sin corrección, autocorrección, corrección paralela), política de edición (palabra por palabra, reducida), modo de visualización (en bloques, deslizantes), y presencia de la subtitulación para sordos o para personas con dificultades auditivas (sin subtitulación, identificación de personajes, información de sonido). Romero-Fresco también compara los diferentes métodos para producir los subtítulos, a saber, el teclado QWERTY, Velotype (un teclado silábico), el teclado doble, la estenotipia y el reconocimiento de habla.

El volumen continúa con un análisis del respeaking en la televisión y la formación de profesionales en varios países (Reino Unido, Flandes, Suiza, Dinamarca, Francia, Italia, Canadá, EE. UU.). Ofrece así al lector el contexto internacional de esta práctica en el momento en que este libro fue publicado, panorama que hoy necesitaría una actualización, pero que, no obstante, sigue resultando de utilidad para identificar un momento clave en el desarrollo del respeaking. Este capítulo se centra en la televisión, mientras que, posteriormente, en el capítulo 9, se describen otros escenarios como museos, espacios de arte, conferencias, iglesias, webcasts en directo, teléfonos y escuelas.

En el capítulo 4 se definen las habilidades que necesitan los respeakers, señalando aquellas que comparten otras prácticas de la traducción (interpretación, subtitulación) y aquellas que son específicas del respeaking. Esta compilación era una necesidad para el reconocimiento del respeaking como una práctica profesional con sus propias especificidades. Se incluye un resumen de estas habilidades en una tabla final muy ilustrativa, aun si las gráficas se pueden mejorar. Los capítulos siguientes estudian más detenidamente las diferentes habilidades individuales que se necesitan antes, durante y después del proceso. Aquí se incluyen, por citar algunas, las habilidades relacionadas con el software, las habilidades multitarea y las habilidades de prestación y evaluación.

El capítulo 5 explica cómo funcionan los sistemas de reconocimiento de habla, que, por suerte, tiene en consideración que los lectores interesados en el respeaking no son necesariamente ingenieros expertos. También se describe cómo interactúan los sistemas de reconocimiento de habla con el software de subtitulación. El capítulo 6 trata en mayor profundidad el proceso de preparación del software, centrándose en el software « Dragon Naturally Speaking 10 ». En esta área de rápido desarrollo, el mercado ha experimentado cambios y se han lanzado nuevas versiones. Sin embargo, los principios básicos siguen siendo los mismos y la información incluida en el libro continúa siendo útil para cualquiera interesado en el tema.

Los capítulos 7 y 8 son fundamentales para aquellos que quieran trabajar en el respeaking porque aquí es donde Romero-Fresco presenta, con un estilo claro que hace justicia al título de la colección (« Translation Practices Explained » [Prácticas de la traducción explicadas]), lo que se espera de un respeaker. Se presta especial atención al hecho de que los respeakers realizan diferentes tareas al mismo tiempo y se dan instrucciones específicas sobre cómo lidiar con la puntuación, el ritmo y la velocidad, teniendo en cuenta los diferentes géneros (deportes, noticias, debates, tertulias, etc.).

El libro proporciona numerosos ejemplos de la vida real para ilustrar las afirmaciones del autor y no rehúye las discusiones en las que las diferentes partes interesadas mantienen puntos de vista opuestos. Este caso se da con la velocidad de los subtítulos (número de palabras por minuto) y su presentación (palabra por palabra o editados). Romero-Fresco presenta los diferentes enfoques de la cuestión, revisa la literatura existente, clarifica la terminología y también proporciona los resultados de la investigación. Esto es especialmente relevante al final del libro, en el capítulo 11, donde examina la recepción de los subtítulos que se han hecho a través del respeaking. Los resultados científicos de los proyectos de investigación que usan diferentes herramientas metodológicas, desde cuestionarios a rastreadores oculares, le permiten discutir e incluso desafiar las prácticas existentes. A Romero-Fresco le interesa saber cómo entienden los espectadores el contenido realizado a través del respeaking a diferentes velocidades, cómo perciben los subtítulos deslizantes en comparación con los que se presentan en bloque y qué opinan de la calidad de los subtítulos. Por ejemplo, el autor demuestra que el deslizamiento de subtítulos que recogen palabra por palabra crea patrones de lecturas muy caóticos. El impacto negativo que esto supone en la comprensión es una razón para optar por subtítulos en bloque. Este tipo de investigación es de una importancia significativa, especialmente en un contexto donde a menudo las partes interesadas se inclinan por ciertas velocidades o formatos de presentación sin tener en consideración las investigaciones previas. A estas alturas se podría argumentar que Romero-Fresco no es capaz de proporcionar un análisis estadístico que pruebe la relevancia de los datos. Pero, estrictamente hablando, este volumen no pretende ser un artículo de investigación, sino que es « ante todo un manual para profesores y estudiantes que deseen dominar los aspectos fundamentales del respeaking, tanto desde un punto de vista teórico como práctico » (xix). Como tal, cumple a la perfección con su función, la de aportar no solo una descripción rigurosa de esta técnica, sino también cuestiones que considerar basadas en resultados sólidos de la investigación.

Un aspecto importante que el autor también aborda en el capítulo 10 es cómo medir el índice de exactitud en la subtitulación. El libro presenta el modelo NERD, una propuesta que se aleja de los principios métricos del Word Error Rate (WER) y que tiene en consideración las especificidades del respeaking. Se presentan ejemplos claros de la aplicación de este modelo para ilustrar su implementación. De nuevo, los fundamentos se incluyen en el libro, aunque este modelo ya ha sido desarrollado por el mismo autor (Romero-Fresco y Martínez 2011) en métricas más avanzadas: el modelo NER. Se ha diseñado una herramienta específica (la herramienta NERstar, ver en http://​www​.speed​-chill​.com​/nerstar/), un sistema que incluso promueve OfCom, la autoridad competente en regulación de comunicaciones del Reino Unido, que muestra el impacto en la sociedad del trabajo de Romero-Fresco más allá de la esfera académica.

En definitiva, este libro debería figurar sin lugar a dudas en la lista de lecturas obligatorias de cualquier curso de traducción audiovisual. Establece las bases del respeaking con un enfoque multifacético. Como muestra de su propósito didáctico, incluye una serie de temas de debate y ejercicios al final de cada capítulo, a menudo vinculados a videoclips y materiales ilustrativos disponibles en un DVD que acompaña al libro. Cabe destacar que estos materiales no solo se ofrecen en inglés, sino también en otros idiomas, lo que está en sintonía con el enfoque internacional del libro. La única crítica que se puede hacer es que, como ya reconoce el autor en sus últimas reflexiones, « cualquier intento de captar el estado actual de las cosas está destinado a quedar pronto obsoleto » (177), especialmente en un campo en el que la tecnología desempeña un papel tan importante. Cinco años después de su publicación se han logrado nuevos avances: algunos proyectos europeos han investigado el respeaking (SAVAS, 2012–2014) aportando nuevos resultados de investigación; los simposios internacionales Respeaking, Live Subtitling and Accessibility han ofrecido un foro activo para el intercambio de investigación en este campo y se han publicado enfoques nuevos y complementarios sobre el tema (Eugeni 2012; Van Waes et al. 2013; Remael et al. 2014). La interacción del reconocimiento de habla con otras tecnologías, como la traducción automática, la aplicación del respeaking en otros campos más allá de la subtitulación en directo, o el desarrollo del respeaking interlingüístico son tres temas candentes en la investigación actual. Sin embargo, el libro sigue siendo una lectura obligada para todos los profesionales de la traducción audiovisual, académicos y estudiantes, y una referencia fundamental para cualquiera interesado en el fascinante campo del respeaking. Esperemos que el autor pueda continuar con esta investigación activa y nos ofrezca una segunda edición muy pronto.

Referencias

Eugeni, Carlo
2012 “Measuring Audiovisual Translation. A Model for the Analysis of Intralingual Live Subtitles.” US-China Foreign Language 10 (6): 1276–1286.
Remael, Aline, Luuk Van Waes, and Mariëlle Leijten
2014 “Live Subtitling with Speech Recognition: How to Pinpoint the Challenges.” In Media and Translation: An Interdisciplinary Approach, ed. by Dror Abend-David, 131–148. New York: Bloomsbury Academic.
Romero-Fresco, Pablo, and Juan Martínez
2011 “Accuracy Rate in Live Subtitling – the NER Model.” Working Paper. Accessed October 7, 2015. http://​roehampton​.openrepository​.com​/roehampton​/handle​/10142​/141892
Van Waes, Luuk, Mariëlle Leijten, and Aline Remael
2013 “Live Subtitling with Speech Causes and Consequences of Text Reduction.” Across Languages and Cultures 14 (1): 15–46. https://​doi​.org​/10​.1556​/Acr​.14​.2013​.1​.2

Dirección para la correspondencia

Anna Matamala

Universitat Autònoma de Barcelona

Campus UAB, K-1002

08193 Bellaterra (Barcelona)

España

[email protected]