Traducción
La calidad de la traducción automática en el ámbito audiovisual

Aljoscha Burchardt, 1 Arle Lommel, 1 Lindsay Bywood, 2 Kim Harris34 y Maja Popović41DFKI, Berlin | 2University College London | 3text&form/DFKI, Berlín | 4Humboldt-Universität zu Berlin

Traducido por Mónica López Lucas bajo la supervisión de Jesús Torres del ReyUniversity of Salamanca

El volumen de traducción audiovisual (TAV) está aumentando para cubrir la creciente demanda de datos que se pide en todo el mundo. La traducción automática (TA) es una de las tecnologías más innovadoras que se han desplegado en el campo de la traducción, aunque aún es demasiado pronto para predecir cómo podrá ayudar a los traductores profesionales a mantener la creatividad y la productividad en el futuro. Actualmente, la TA se usa más en traducciones de textos (no audiovisuales) que en la TAV. Este artículo analiza la tecnología de la TA y demuestra por qué su uso en la TAV presenta desafíos particulares. También se repasan métodos y herramientas potencialmente útiles para la evaluación de la calidad de la TA que se han desarrollado principalmente para la traducción de textos. El objetivo final es acercar posiciones entre la comunidad tecnóloga de expertos en TAV y los investigadores y desarrolladores del ámbito de la TA de alta calidad.

Palabras clave:

traducción automática,
calidad de la traducción,
evaluación,
traducción audiovisual

Tabla de contenidos

Resumen
Palabras clave
1.Introducción
2.Marco conceptual: la traducción automática estadística, en resumidas cuentas
- 2.1El reto de evaluar la calidad de la traducción automática
- 2.2Lo que mejor hace la traducción automática y por qué
3.Problemas que afectan a la traducción automática de subtítulos
4.Evaluación de la calidad de la traducción automática
- 4.1Evaluación de la calidad en la investigación sobre TA
- 4.2Métricas de Calidad Multidimensionales (MQM, por sus siglas inglesas)
5.Resumen
1.Introduction
2.Background: Statistical Machine Translation in a nutshell
- 2.1The challenge of assessing MT Quality
- 2.2What MT does best and why
3.Problems impacting the automatic translation of subtitles
4.Measuring Machine Translation quality
- 4.1Quality evaluation in MT Research
- 4.2Multidimensional Quality Metrics (MQM)
5.Summary
Acknowledgments
Notes
Agradecimientos
Notas
Referencias
Dirección para la correspondencia

1.Introducción

La traducción audiovisual (TAV) se ha convertido en una necesidad básica del siglo XXI. Entre tanto, han aparecido y desaparecido soportes como el VHS y los LaserDisc, y se ha pasado de las máquinas de escribir como únicas herramientas para traducir a entornos web de traducción completamente integrados y con respuesta en tiempo real. Mientras el mundo se vuelve cada vez más pequeño, aumenta la demanda de información en cada rincón del planeta. Así, el volumen de datos que debe estar accesible en la mayoría de las regiones y lenguas del mundo ha crecido de forma drástica: por ejemplo, cada minuto se suben a YouTube trescientas horas de vídeo.11. https://www.youtube.com/yt/press/en/statistics.html Incluso si suponemos que solo le interesa una pequeña cantidad de este contenido a un público más amplio, el esfuerzo que supone publicarlo en múltiples lenguas es un reto inmenso. Dan fe de ello los diversos organismos de investigación y gobiernos que han apoyado y financiado proyectos de adopción temprana relacionados con la TAV automática, como los siguientes: MUSA22. http://sifnos.ilsp.gr/musa/index.html y eTITLE,33. http://www.upf.edu/glicom/en/proyectos/proyectos_finalizados/e_title.html que emplearon una TA basada en reglas, en combinación con memorias de traducción, para investigar el potencial de estas herramientas para la TAV; SUMAT,44. http://cordis.europa.eu/fp7/ict/language-technologies/project-sumat_en.html que entrenó motores de traducción automática estadística con subtítulos en siete pares lingüísticos bidireccionales y realizó una evaluación exhaustiva de la calidad de la traducción automática resultante; EU-Bridge,55. https://www.eu-bridge.eu/ cuyo objetivo era potenciar el estado actual del reconocimiento automático del habla combinado con la TA con vistas a aplicar dicha tecnología a diversos campos, entre los que se incluye la TAV; HBB4ALL,66. http://www.hbb4all.eu/ que, a pesar de que se centraba principalmente en la accesibilidad, llevó a cabo investigaciones sobre la recepción de subtítulos interlingüísticos automáticos; y ALST,77. http://ddd.uab.cat/record/137941?ln=en un proyecto cuyo objetivo era aplicar las tecnologías ya existentes de reconocimiento automático del habla, síntesis de voz y TA a las técnicas de audiodescripción y voz superpuesta, y que también llevó a cabo una evaluación de la calidad de los guiones de voz superpuesta creados mediante TA y posedición.

La aparición de nuevas tecnologías también ha tenido un impacto significativo en la traducción de contenido textual. En la traducción técnica, las memorias de traducción (MT) y las herramientas terminológicas integradas se han vuelto indispensables cuando se trata de mantener la consistencia lingüística y de optimizar el proceso de traducción. El desarrollo de la traducción automática (TA) es uno de los fenómenos más recientes en el mundo de la traducción, por lo que aún es pronto para saber cómo y hasta qué punto ayudará esta tecnología a los traductores profesionales a mantener la creatividad y productividad en el futuro. Sin embargo, la TA se usa con mayor frecuencia en la traducción de textos que en la TAV, donde su empleo es, de momento, escaso.

El resultado de la traducción automática normalmente requiere un trabajo sustancial de edición para que sea digno de publicación. Su calidad depende de factores tales como la combinación lingüística, el género y el dominio (ámbito temático), así como la similitud del texto por traducir con el material para el que el motor está optimizado. Hay un largo historial de investigaciones financiadas por la Comisión Europea sobre cómo mejorar los resultados de TA: entre los más recientes, cabe destacar QTLaunchPad,88. http://www.qt21.eu/launchpad/ QTLeap99. http://qtleap.eu/ y QT21,1010. http://www.qt21.eu/ así como proyectos de investigación aplicada en colaboración con la industria, tales como MMT.1111. http://www.modernmt.eu/

La TA se emplea cada vez más habitualmente para “hacerse una idea” general del contenido (el denominado gisting) a través de plataformas en línea como Google Translate o Bing Translator. Por sí solo, Google traduce automáticamente al día una cantidad de información equivalente a la que todos los traductores profesionales traducen en un año. Más de doscientos millones de personas usan esta plataforma al mes.1212. http://googleblog.blogspot.de/2012/04/breaking-down-language-barriersix-years.html

Este tipo de traducción no solo les sirve a los usuarios que buscan información en internet, sino que también les resulta útil a los servicios de inteligencia y a otras organizaciones a la hora de determinar qué documentos son relevantes y requieren una traducción de mejor calidad. Dado que el objetivo de la traducción “para hacerse una idea” difiere del de la traducción de alta calidad para su publicación, los sistemas de TA construidos para el primer tipo de traducción no son apropiados para ayudar a los profesionales con el segundo tipo (a pesar de que los traductores los usan con frecuencia aunque no los reconozcan como un recurso propio).

Este artículo tiene dos objetivos: el primero consiste en analizar la tecnología de TA y por qué su uso en contextos de TAV presenta desafíos particulares; en segundo lugar, se exponen métodos y herramientas de evaluación de la calidad de la TA (creados para la traducción de contenido textual) que puedan ser útiles para la TAV. El objetivo último es acercar posiciones entre los dos ámbitos: el de la comunidad de expertos en TAV y el de los investigadores y desarrolladores pertenecientes al ámbito de la TA de alta calidad. Una mayor cooperación entre ambas partes promoverá un aumento de las innovaciones y mejoras en la aplicación de las tecnologías de TA, lo que proporcionará, con el tiempo, un acceso a cantidades cada vez mayores de contenido multimodal en tantas lenguas como sea posible.

En el segundo apartado, se proporciona una panorámica de alto nivel acerca de los componentes técnicos de los sistemas de TA, para facilitar la comprensión, en el tercer apartado, de los límites y posibilidades del uso de TA en el contexto de la TAV. El cuarto apartado mostrará un resumen de las herramientas y técnicas de evaluación de la calidad de la TA. El quinto y último apartado culmina el artículo con un breve resumen.

2.Marco conceptual: la traducción automática estadística, en resumidas cuentas

A continuación, presentaremos una introducción muy breve de los componentes técnicos de los sistemas de TA con el objetivo de proporcionar una base para el análisis en los apartados siguientes. Los sistemas de traducción automática estadística (TAE), como Google Translate, Microsoft Translator y el sistema de código abierto Moses, representan el enfoque más empleado actualmente en la TA.1313.Los sistemas de traducción automática basada en reglas, como SYSTRAN y Lucy LT, no son de gran relevancia en lo que se refiere a la traducción de contenido audiovisual. Estos sistemas utilizan algoritmos complejos que aprenden cómo transferir cadenas de texto de una lengua a otra basándose en las probabilidades derivadas de textos paralelos bilingües. Los componentes básicos de dichos sistemas son los siguientes:

Una tabla de secuencias de palabras (phrase table), que consiste en una base de datos de palabras o secuencias de palabras en el idioma meta y las probabilidades que tienen de corresponderse a palabras o secuencias de la lengua origen.
Un modelo de reordenación, que muestra las probabilidades de distintos órdenes de palabras en las dos lenguas.
Un modelo monolingüe, que contiene las probabilidades de numerosas secuencias de palabras (n-gramas) en la lengua meta.

Las probabilidades estadísticas se aprenden automáticamente mediante el análisis de corpus paralelos de gran extensión que contienen oraciones en la lengua origen y sus respectivas traducciones (realizadas por humanos) en la lengua meta. Dicho de forma simple, el cálculo de las probabilidades viene determinado por las frecuencias relativas de palabras y secuencias de palabras monolingües y bilingües en los textos procesados, sin tener en cuenta ningún rasgo lingüístico y sin que las secuencias de palabras deban constituir ninguna unidad con significado propio. En líneas generales, los componentes aprenden cómo se han traducido las palabras que detectan, en qué se diferencia el orden de las lenguas origen y meta en las traducciones, y qué palabras tienen más posibilidades de aparecer juntas en la lengua meta.

Como regla general, cuanto más material de entrenamiento se encuentre disponible, mejores resultados obtendrá la traducción. Cuantas más similitudes haya entre dicho material (dominio, estructura y longitud de las oraciones, etc.) y los textos por traducir, mayor será la calidad de la traducción. Es posible que entre diez y veinte mil frases de entrenamiento produzcan un buen rendimiento para algunos usos, tipos de texto y combinaciones lingüísticas, mientras que otros necesiten mucho más material para lograr resultados útiles.

En este paradigma de traducción estadística, la compleja interacción de los diversos componentes resulta a veces en traducciones desconcertantes a simple vista, como en el ejemplo (1), en el que se invierte la polaridad de la pregunta en alemán:

(1)

Original:	Was stimmt? [¿Qué es cierto?]
TA online:	What is wrong? [¿Qué es falso?/¿Qué problema hay?]

Es muy difícil reconstruir las razones por las que los algoritmos de TA han generado una traducción y no otra. En el ejemplo anterior, posiblemente se deba a que la probabilidad de traducción para stimmt se viera influida erróneamente por la mayor frecuencia de la secuencia negada stimmt nicht en el corpus de entrenamiento. En este caso concreto es una pura coincidencia que, si bien la traducción signifique lo contrario por sí misma, pueda ser semánticamente aceptable en función del contexto. También puede darse el caso de que dicha traducción apareciese en el material de entrenamiento.

Un error común es atribuir cualidades humanas a los sistemas estadísticos y hacer observaciones tales como que el sistema “no se fijó” en que X era un plural, o que “se le pasó” una oración subordinada, etc. Los sistemas (en su forma más simple y común) no presentan ningún tipo de inteligencia lingüística explícita: no “saben” qué es una categoría gramatical o una negación, por ejemplo.

Aunque los principios fundamentales se explican con facilidad, los sistemas de TAE son altamente sofisticados, tanto en términos de complejidad matemática y algorítmica, como en potencia informática y recursos y datos necesarios. La TAE es un área de investigación activa que trata de desarrollarse a través de nuevas vías de exploración, como la adición de conocimientos lingüísticos y semánticos a los sistemas y la ampliación de los modelos matemáticos.

2.1El reto de evaluar la calidad de la traducción automática

Es habitual confundir los sistemas de TA con las memorias de traducción (MT), ya que, en cierto modo, la TA se puede considerar una prolongación de la tecnología de las MT. Sin embargo, mientras que las MT solo recuperan traducciones existentes realizadas previamente por personas, la TA tiene la capacidad de generar de forma flexible nuevas traducciones basadas en las anteriormente mencionadas.

Uno de los mayores inconvenientes prácticos se encuentra en la dificultad de determinar el grado de utilidad de las traducciones automáticas o si “cumplen su finalidad” con suficiente calidad. En consecuencia, los poseditores se suelen encontrar con traducciones automáticas inservibles, lo que provoca un descenso de la productividad y la eficiencia. Para remediar este problema, se está desarrollando un enfoque de investigación denominado estimación de la calidad, que se ocupa de evaluar la calidad de las traducciones realizadas con TA (véase el apartado 4).

Es importante tener en cuenta que, pese a las numerosas ayudas tecnológicas de las que disfruta el traductor audiovisual (p. ej., programas especializados para la subtitulación o para la preparación y grabación de doblajes), el proceso de traducción en sí apenas recibe sustento tecnológico en este campo. Los traductores audiovisuales no suelen usar las MT a pesar de su uso generalizado en la traducción de textos.

2.2Lo que mejor hace la traducción automática y por qué

Al igual que el resto de la tecnología, la TA mejora con el uso. Si el flujo de trabajo está bien organizado, la selección o el rechazo de las sugerencias de la TA por los traductores profesionales y las correspondientes posediciones se emplean como retroalimentación para el constante desarrollo y mejora del sistema.

La traducción automática funciona bastante bien en contextos en los que las lenguas origen y meta son muy similares en lo que respecta a la estructura, morfología, conceptos, etc. Por ejemplo, un sistema que traduce del español al portugués será más fácil de crear y producirá mejores traducciones que un sistema que traduce del suajili al japonés. Otro factor decisivo es la disponibilidad de grandes cantidades de textos bilingües paralelos que sean suficientemente similares al texto por traducir en lo relativo al dominio, tipo de texto, etc., de manera que los sistemas puedan extraer toda la información relevante.

Por naturaleza, la TA tiene una mayor probabilidad de éxito a la hora de procesar fenómenos gramaticales y sintácticos que se encuentran a una corta distancia entre sí en la oración (como es el caso de la concordancia sujeto-verbo en inglés) que aquellos que están más alejados, como los sintagmas verbales en alemán, cuyos componentes pueden quedar separados dentro de la oración. Asimismo, los fenómenos que requieren saberes extralingüísticos al traducir, por ejemplo de tipo discursivo o de conocimiento del mundo (como en el caso de los pronombres ambiguos), sobrepasan las capacidades de los actuales sistemas.

No obstante, es interesante reconocer que las distancias cortas no implican unos mejores resultados para la TAV si se usa la traducción automática, dado que el texto hablado con frecuencia depende de inferencias y del contexto. También puede contener muchas locuciones y expresiones condensadas e incompletas, como se observa en (2):

(2)

Transcripción:	Your mother’s house?
	[¿Casa de tu madre?]
TA (DE):	Ihrer Mutter Haus?
	[¿Tu casa madre?]
Oración completa:	Are we meeting at your mother’s house?
	[¿Quedamos en casa de tu madre?]
TA (DE):	Treffen wir uns im Haus Ihrer Mutter?
	[¿Quedamos a la casa de tu madre?]

Aunque ninguna de las traducciones automáticas alemanas es perfecta, la que se basa en la breve transcripción audiovisual es incomprensible, mientras que la basada en la oración original más explícita mantiene el significado bastante bien. Se aprecia una situación similar en (3):

(3)

Transcripción:	Wieder ein Wochenende vorbei.
	Otro fin de semana pasado.]
TA:	Again a weekend pass.
	[De nuevo un pase fin de semana.]
Oración completa:	Das Wochenende ist wieder vorbei.
	[El fin de semana ha pasado una vez más.]
TA (DE):	The weekend is over again.
	[El fin de semana ha terminado otra vez.]

3.Problemas que afectan a la traducción automática de subtítulos

La TAV presenta un particular número de desafíos para la traducción automática.1414.Este artículo se centrará en la traducción de los subtítulos y no se tratará la cuestión de la condensación textual. Aunque existen técnicas automáticas de reducción y resumen de textos, creemos que aún es demasiado pronto para introducirlas en nuestro análisis. La mayoría de los sistemas de TA se han desarrollado mediante grandes bases de datos de textos traducidos escritos (es decir, no procedentes de lenguaje oral originariamente), que son correctos desde un punto de vista gramatical, con una puntuación adecuada, un buen uso de las mayúsculas, etc. Además, la TA se suele usar en los textos técnicos, cuyo vocabulario y estructuras son muy predecibles y a menudo restringidos.

Por el contrario, la traducción de los subtítulos y los guiones de doblaje conlleva, por su propia naturaleza, lidiar con representaciones escritas de diálogos orales, que muestran rasgos que dificultan la TA. (No obstante, hay que tener en cuenta que los guiones de doblaje están “escritos para ser hablados”, un fenómeno al que Chaume [2004] denomina “oralidad prefabricada”.) Todo ello genera nuevos desafíos para la TA, que ejemplificaremos en el apartado 3, como punto de partida para futuras investigaciones más sistemáticas.

Si el motor de TA se ha entrenado con textos escritos tradicionales, los rasgos que caracterizan el lenguaje oral pueden no verse representados de forma adecuada en el corpus de entrenamiento y, por lo tanto, aquel no contará con ejemplos relevante en los que basarse para generar una traducción ajustada al original. Por eso, es importante para la calidad de la TA que cualquier sistema que se pretenda usar con material audiovisual se entrene con textos audiovisuales. Una de las cuestiones que tener en cuenta en este contexto es la dificultad relativa de obtener un corpus con ese tipo de material, especialmente de combinaciones lingüísticas con una producción o con registros más limitados (Bywood et. al 2013).

3.1Género y dominio

Uno de los problemas que surgen a la hora de usar la TA en la traducción audiovisual es que la TAV es un dominio “abierto”, en el sentido de que el contenido audiovisual cubre un espectro temático todo lo amplio que sea imaginable, desde un documental técnico, preciso y con un léxico de gran complejidad, hasta noticias de la prensa rosa acerca de famosos. Como consecuencia, no se puede establecer un mínimo satisfactorio de predictibilidad, ni siquiera con grandes cantidades de datos, debido a la naturaleza heterogénea del contenido en todos los planos, incluido el léxico, gramatical y estructural.

3.2Falta de contexto visual

Una traducción audiovisual competente exige el conocimiento del contexto visual en el que está inmerso el texto de origen (Díaz Cintas & Remael 2007, 51), un tipo de información que resulta inaccesible para los sistemas de TA. Un ejemplo sencillo podría ser la traducción de la palabra inglesa hello al italiano. En la mayoría de los casos, se traduciría por ciao como saludo en un encuentro informal; mientras que pronto sería la traducción correcta si se tratase de una conversación telefónica. En estos ejemplos, las expresiones que las preceden podrían proporcionar suficientes pistas acerca del contexto situacional. Sin embargo, la tecnología de TA que hace uso de tales indicios interoracionales se encuentra en un estadio de desarrollo muy incipiente. El ejemplo (4) también se ha extraído del proyecto SUMAT, en este caso a partir de subtítulos suecos:

(4)

Original:	The reactions I got in the market stalls* with the fishermen.*
	[Las reacciones que observé en los puestos del mercado con los pescadores.]
Traducción:	Reaktioner på marknaden toaletter* med fiskarna.*
Retrotraducción:	Reactions on the market toilets* with the fishermen.*
	[Las reacciones en los aseos del mercado con los pescadores.]

En este caso, el sistema ha traducido la palabra stall erróneamente como aseos por la falta de contexto al que el traductor profesional tiene acceso.

3.3Estilo oral

Tal y como se ha documentado extensamente (p. ej., Rubin 1978), entre el lenguaje hablado y el texto escrito existen muchas diferencias. Por ejemplo, el lenguaje oral tiene un porcentaje mayor de oraciones gramaticalmente incompletas, es más propenso a depender del contexto físico (p. ej., a usar el pronombre “este/esta” para referirse a un sustantivo), y, por lo general, es más informal. En cuanto al léxico, el texto hablado (en general) hace un mayor uso de marcadores verbales del discurso (como you know [ya sabes, pues], uh-huh [ajá], o right? [¿verdad?, ¿no?]) que no suelen encontrarse en un texto escrito, además de jerga y expresiones coloquiales. Veamos el ejemplo (5), donde la traducción se ha realizado mediante un sistema online de TA:

(5)

Original:	Was für’n Mädel? [¿Qué chica?]
TA:	What for’s girl? [¿Qué para chica?]

Si el pronombre condensado 'n vuelve a su forma gramatical completa, como en el ejemplo (6), el sistema de TA online creará una traducción que, aunque no sea correcta, se puede editar posteriormente con facilidad para formar un subtítulo adecuado, eliminando el artículo indefinido a [una].

(6)

Original:	Was für ein Mädel?
TA:	What a girl? (correcto: What girl?)

Algo parecido ocurre con los coloquialismos que se muestran en el ejemplo (7):

(7)

Original:	Guy seemed high as a kite* every time I met him*.
	[El tío parecía estar hasta arriba (literalmente: “alto como una cometa”) cada vez que lo veía.]
TA:	Guy schien hoch wie ein Drachen, jedesmal wenn ich ihn traf.
	[El tío parecía estar alto como una cometa cada vez que lo veía.]
Trad. humana:	Jedes Mal, wenn ich ihn traf, schien er voll zugedröhnt* gewesen zu sein*.
	[Cada vez que lo veía, parecía estar colocado.]

Una posible solución es el uso de corpus elaborados con subtítulos, para así conservar muchas de las formas entrecortadas del habla, coloquialismos y rasgos orales que pueden ocasionar problemas a los sistemas que se han entrenado con textos escritos. Aunque no hay mucha disponibilidad de tales corpus, cuando se emplean, los sistemas elaborados con subtítulos resultan prometedores, tal y como se muestra en el ejemplo (8), procedente del proyecto SUMAT:

(8)

Original:	I’ll have a go. [Probaré. (Literalmente: Haré un intento.)]
TA (SUMAT):	Je vais essayer. [Lo voy a intentar.]
TA online:	Je vais avoir un aller. [Voy a tener un ir.]

Si se elabora con el suficiente material de entrenamiento, la traducción automática estadística resulta una herramienta adecuada para lidiar con estos problemas.

3.4Falta de contexto

En relación con lo que veíamos en el punto anterior, el lenguaje hablado suele consistir en segmentos breves. Aunque no es problemático por sí mismo (la brevedad de los segmentos normalmente se correlaciona con una mejor calidad de la traducción), los enunciados orales son más propensos a depender de un contexto externo al propio segmento para que sean inteligibles. Dado que los motores de TA no suelen analizar más de un segmento cada vez, no contarán con acceso a este contexto tan importante. Por ejemplo, tengamos en cuenta el texto de estilo oral del ejemplo (9):

(9)

Original:	You’re asking about the accident? Well, there was a man on 42nd Street. Down by the bridge. Big fellow. He saw it.
	[¿Hablas del accidente? Pues había un hombre en la calle 42. Cerca del puente. Un tío grande. Lo vio.]
TA online:	Sie sind über den Unfall zu fragen? Nun, es war ein Mann auf der 42. Straße. Down by die Brücke. Big Kollegen. Er sah es.
	[¿Estás acerca preguntar accidente? Pues había un hombre en la calle 42. Down by (sin traducir) el puente. Big (sin traducir) colega. Vio eso.]

El it en la oración final del texto oral del ejemplo carece de contexto dentro del segmento, por lo que el sistema lo traduce como es (pronombre de género neutro en alemán), en lugar de ihn o den (masculino). Este tipo de resultados son normales cuando la traducción de una palabra depende de un contexto situado a varias oraciones de distancia de dicha palabra. Por razones similares, también se traduce parcialmente Big Fellow como Big Kollegen, lo que implica que los individuos en cuestión son compañeros de trabajo, a pesar de que el contexto deja claro que el hablante no conoce a ese hombre. Una traducción más adecuada habría sido algo como: großer Kerl [tipo grande]. En contraste, una descripción escrita se parecería más al siguiente ejemplo (10):

(10)

Original:	There was a big man on 42nd street by the bridge who saw the accident.
	[Había un hombre grande en la calle 42 junto al puente que vio el accidente.]
TA online:	Es war ein großer Mann auf der 42. Straße an der Brücke, die den Unfall gesehen.
	[Había un hombre grande en la calle 42 en el puente, la que visto el accidente.]

Aunque el ejemplo (10) muestra otros problemas, como usar el pronombre relativo femenino alemán die en lugar del masculino der para referirse al hombre al que hace referencia, y la falta de un verbo auxiliar en la proposición relativa ("visto" en vez de “ha visto”), es en general más inteligible que (9).

Del mismo modo, el pronombre personal you en inglés puede traducirse al alemán como Sie (formal), du (informal singular), ihr (informal plural) o man (pronombre impersonal). La forma en la que se traduce, con frecuencia depende del contexto macroestructural (p. ej. de quién está hablando y con quién), que no siempre se deriva fácilmente del texto de origen. Se encuentra otro ejemplo en (11), donde el pronombre alemán sie puede significar ella o ellos, y el sistema de TA elige la opción equivocada (a pesar de que el verbo hat deja claro cuál sería la correcta):

(11)

Original:	Denn sie* hat dich auf die Idee gebracht*.
	[Porque ella te dio la idea.]
TA:	For they* gave you the idea*.
	[Ya que ellos te dieron la idea.]
Trad. Humana:	Because she* put you up to it.*
	[Porque ella te animó a hacerlo.]

4.Evaluación de la calidad de la traducción automática

Las traducciones deben “cumplir su finalidad” con una calidad aceptable, es decir, según las expectativas determinadas por las partes implicadas. Cuando, por lo general, se trata de contenido creado por el usuario, las expectativas son mucho más bajas que en el caso de una emisión televisiva o la publicación de un DVD. Al igual que en el ámbito del contenido textual, es importante dejar claro qué significa “calidad aceptable” en cada caso. Si se realiza la evaluación de la calidad de la traducción, sea para el fin que sea, los procesos, herramientas y métricas empleados pueden variar en función de los resultados que se desean obtener y de quién la lleva a cabo.

4.1Evaluación de la calidad en la investigación sobre TA

La evaluación de la calidad de la TA dentro del ámbito de la investigación se basa casi siempre en datos, de distinto tipo, aportados por traductores o poseditores profesionales. Las formas de evaluación más comunes en la actualidad son las siguientes:

Evaluación automática de la TA a partir de comparaciones algorítmicas de los resultados de la TA con traducciones de referencia realizadas por traductores humanos (profesionales) (p. ej., Papieni et al. 2002; Banerjee y Lavie 2005). Es un método rápido que puede repetirse fácilmente y mejorarse en función de resultados anteriores.
Evaluación automática de la TA sin traducciones humanas de referencia, también conocida como estimación de la calidad (p. ej., Shah et al. 2013). Este método requiere un sistema entrenado (con traducciones humanas), y emplea clasificaciones y puntuaciones asignadas por traductores profesionales (a traducciones alternativas anteriores) para mejorar la calidad de las métricas de estimación.
Clasificación por parte de evaluadores humanos de los resultados de la TA procedentes de diferentes sistemas. La clasificación la realizan, por ejemplo, los investigadores en PLN en algunas de las tareas compartidas1515. http://www.statmt.org/wmt15/ de la WMT (Workshop of Statistical Machine Translation). Avramidis et al. (2012) presentan un estudio en el que la clasificación la realizan traductores profesionales. Este método proporciona datos sobre el rendimiento relativo de determinados sistemas o variantes del sistema.
Posedición de los resultados de la TA por evaluadores humanos. La posedición la realizan, por ejemplo, los investigadores en PLN en algunas de las tareas compartidas de la WMT. Avramidis et al. (2012) presentan un estudio en el que son traductores profesionales los que llevan a cabo la tarea de posedición. Este método permite medir diferentes aspectos de eficiencia en la posedición (tiempo, cantidad de modificaciones, etc.), y procesa la información adquirida, por ejemplo, para analizar los tipos de modificaciones más frecuentes (p. ej., orden de palabras, morfología, inserciones, etc.).
Anotación, por parte de evaluadores humanos, de errores en los resultados de la TA (p. ej., véase Vilar et al. 2006, donde las anotaciones las realizan los investigadores en PLN; mientras que en Lommel et al. 2014, las realizan traductores profesionales). Este método proporciona un análisis detallado de errores de los resultados de la TA, incluyendo algunos específicos de adecuación y fluidez, así como el orden y la distancia de las palabras. Esta información puede usarse con posterioridad para mejorar los sistemas de TA.

Todos los métodos han sido y siguen siendo aplicados a la TA para la subtitulación. Como se ha comentado con anterioridad, no es fácil adquirir corpus paralelos que contengan material audiovisual. Surgen muchos problemas derivados de la propiedad de los guiones de subtitulado y doblaje, lo que dificulta la recopilación de un corpus de calidad suficientemente amplio, a lo que se suma la reticencia de las empresas a la hora de compartir material con los investigadores. De ahí que la evaluación de la TA mediante traducciones de referencia pueda resultar complicada. La estimación de la calidad se ha usado con éxito en el proyecto SUMAT, en el que los subtítulos previamente anotados se empleaban para entrenar al sistema para aislar subtítulos de escasa calidad y eliminarlos, de modo que a los poseditores solo les aparecía una caja en la que se lee “FILT” (Etchegoyhen et al. 2014). Todas las demás técnicas de evaluación anteriormente descritas se utilizaron también en este proyecto, que supone el caso de evaluación de la TA para subtítulos de mayor magnitud hasta la fecha. Sin embargo, un problema en particular en el ámbito de la TAV es la falta de poseditores que proporcionen datos para las distintas métricas. Como la TA no se usa mucho en la traducción audiovisual, hay pocos poseditores formados que puedan trabajar con textos audiovisuales, aunque se vislumbran en el horizonte programas de formación, y la investigación (De Sousa et al. 2011) ha demostrado que se pueden obtener resultados muy prometedores al integrar la TA, las tecnologías del traductor (humano) y la posedición.

Los dos primeros métodos de evaluación explicados con anterioridad se emplean para evaluar y estimar el rendimiento general de un sistema y una combinación lingüística en particular, con frecuencia de un dominio determinado, así como para comparar distintos sistemas. Entre las métricas de evaluación automática que se encuentran dentro de estas categorías, pero que también se pueden usar para realizar una estimación de determinados aspectos de la calidad de la TA, podemos destacar BLEU (Papineni et al. 2002), los valores F (Popović 2011b), METEOR (Banerjee and Lavie 2005), TER y otras similares. La estimación de la calidad sin una traducción de referencia hecha por profesionales es un enfoque de evaluación de la calidad de la TA relativamente nuevo que supone un reto significativo (p. ej., Shah et al. 2013). Simplificando, la idea es construir un sistema que emplee métodos (p. ej., algoritmos, herramientas lingüísticas, datos de entrenamiento, etc.) para evaluar el resultado de la TA que sean distintos a los que utiliza el motor de la TA. Los sistemas están diseñados para varios propósitos, como la clasificación automática de traducciones automáticas alternativas o la estimación del esfuerzo de posedición o de la calidad global de una traducción automática. Normalmente, se entrenan mediante datos generados por traductores humanos, que pueden ser clasificaciones o calificaciones de traducciones automáticas, por ejemplo, aunque también se emplea el análisis automático de acciones de posedición (véase Popović 2011a), lo que puede ofrecer nuevos hallazgos interesantes.

El modelo NER (Romero-Fresco y Martínez 2015) que se puso en práctica en la herramienta NERstar es una de las primeras métricas específicas para la TAV. No se diseñó para evaluar la TA sino la correspondencia de los subtítulos rehablados con respecto al texto hablado original. Este modelo resulta interesante porque solo tiene en cuenta dos tipos de errores: aquellos que comete el rehablante y los generados por el sistema de voz a texto. Se emplea un sistema de pesos adicionales para indicar la gravedad de los errores respectivos. Aunque esta herramienta es una buena candidata para la evaluación cotidiana de la calidad en la subtitulación asistida por ordenador, no permite aprovechar la evaluación con el objetivo de mejorar los motores de TA. Para ello, necesitamos unos análisis más detallados de los errores de la TA.

4.2Métricas de Calidad Multidimensionales (MQM, por sus siglas inglesas)

Un enfoque prometedor para el análisis detallado de errores en la traducción audiovisual que surge de la traducción de textos es el que ofrece el sistema de Métricas de Calidad Multidimensionales (MQM) (Lommel et al. 2014).1616. http://www.qt21.eu/launchpad/content/multidimensional-quality-metrics Inicialmente, se desarrolló en el proyecto financiado por la UE QTLaunchPad y partió del análisis de las métricas de evaluación de la calidad de la traducción ya existentes; su objetivo era responder a la necesidad de encontrar una forma de describir con objetividad los errores de traducción que también fuera lo suficientemente flexible para responder a requisitos específicos. MQM consiste en más de cien aspectos de calidad en traducción que se pueden usar para describir problemas específicos en textos traducidos. Estos aspectos se organizan jerárquicamente, de modo que puedan describirse los problemas encontrados en el texto con diferentes granularidades.

En la ilustración 1 se muestra una métrica MQM relativamente compleja que se empleó para realizar análisis detallados de los errores de traducción automática. Los problemas que aparecen en negrita y cursiva son aquellos que no se encuentran en el conjunto de aspectos básicos de MQM, sino que son extensiones personalizadas aportadas por los usuarios. No contradicen el sistema MQM porque simplemente aportan mayor granularidad y se los puede considerar subtipos de la categoría jerárquicamente superior. En este caso, proporcionan información adicional sobre problemas relacionados con “palabras funcionales” (Function words), como son las preposiciones, los artículos, y los verbos auxiliares. Esta métrica se centra principalmente en aspectos gramaticales y en problemas específicos relacionados con el aspecto de la “exactitud” (Accuracy).

Ilustración 1.

En contraste, la ilustración 2 muestra una métrica más simple que posiblemente sea más adecuada para la evaluación de la TA usada con contenido audiovisual:

Ilustración 2.

Esta métrica está planteada para la traducción audiovisual en general (no solo para la realizada con TA). Se añade la categoría “estilo” (Style) (un aspecto del modelo MQM básico), lo que tiene una gran relevancia en el campo de la TAV, y elimina una serie de elementos probablemente poco pertinentes. Además, pone mucho menos énfasis en la gramática (Grammar), dentro del aspecto de “fluidez” (Fluency), y añade dos categorías personalizadas:

Contextual, para traducciones que son contextualmente incorrectas (en la categoría Mistranslation), dentro del aspecto de “exactitud” (Accuracy).
El aspecto Timing ("tiempos"), para aquellos casos en los que las traducciones se muestran en el momento equivocado.

Como se puede apreciar, las ventajas de MQM consisten en que proporciona un vocabulario estandarizado para describir errores y permite que los usuarios creen métricas específicas para determinadas tareas (p.ej. una métrica para evaluar los subtítulos de noticias será bastante distinta de la que se emplee para la traducción jurídica). Además, este modelo se puede ampliar para dar cabida a problemas que no se encuentran presentes dentro del vocabulario principal. El modelo MQM se ha puesto en práctica dentro del editor de código abierto translate5 1717. http://www.translate5.net/ y continúa en uso y en desarrollo dentro del proyecto QT21. Los trabajos actuales sobre MQM pretenden ampliarlo para incluir más tipos de traducción, entre los que se incluye la TAV.

5.Resumen

En este artículo se ha tratado de sentar las bases para una mayor cooperación entre los especialistas en la TAV y los expertos en TA con la intención de promover investigaciones sobre cómo mejorar la calidad de la traducción automática para la TAV. Se ha proporcionado un marco conceptual acerca de los fines de la tecnología de TA empleada en la actualidad para la traducción de textos, y se han analizado algunas de las dificultades de esta tecnología para la traducción de subtítulos. Para concluir, se ha ofrecido un panorama general sobre los métodos de evaluación de la calidad de la TA y se ha sugerido la necesidad de ampliar las Métricas de Calidad Multidimensionales (MQM) para incluir problemas específicos de la TAV.

Agradecimientos

El programa de la Unión Europea de investigación e innovación Horizon 2020 ha financiado parcialmente el desarrollo de este artículo en virtud del acuerdo de subvención nº 645452 (“Quality Translation 21”).

Notas

1. https://www.youtube.com/yt/press/en/statistics.html

2. http://sifnos.ilsp.gr/musa/index.html

3. http://www.upf.edu/glicom/en/proyectos/proyectos_finalizados/e_title.html

4. http://cordis.europa.eu/fp7/ict/language-technologies/project-sumat_en.html

5. https://www.eu-bridge.eu/

6. http://www.hbb4all.eu/

7. http://ddd.uab.cat/record/137941?ln=en

8. http://www.qt21.eu/launchpad/

9. http://qtleap.eu/

10. http://www.qt21.eu/

11. http://www.modernmt.eu/

12. http://googleblog.blogspot.de/2012/04/breaking-down-language-barriersix-years.html

13.Los sistemas de traducción automática basada en reglas, como SYSTRAN y Lucy LT, no son de gran relevancia en lo que se refiere a la traducción de contenido audiovisual.

14.Este artículo se centrará en la traducción de los subtítulos y no se tratará la cuestión de la condensación textual. Aunque existen técnicas automáticas de reducción y resumen de textos, creemos que aún es demasiado pronto para introducirlas en nuestro análisis.

15. http://www.statmt.org/wmt15/

16. http://www.qt21.eu/launchpad/content/multidimensional-quality-metrics

17. http://www.translate5.net/

Referencias

Avramidis, Eleftherios, Aljoscha Burchardt, Christian, Federmann, Maja Popovićs, Cindy Tscherwinka, and David Vilar

2012 “Involving Language Professionals in the Evaluation of Machine Translation.” In Proceedings of LREC 2012, 1127–1130. http://www.lrec-conf.org/proceedings/lrec2012/index.html. Accessed December 12, 2015.

Banerjee, Satanjeev, and Alon Lavie

2005 “METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments.” In Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization, ed. by Jade Goldstein, Alon Lavie, Chin-Yew Lin, and Clare Voss, 65–72. Michigan, MI: University of Michigan.

Bywood, Lindsay, Martin Volk, Mark Fishel, and Panayota Georgakopoulou

2013 “Parallel Subtitle Corpora and their Applications in Machine Translation and Translatology.” In Corpus Linguistics and AVT: in Search of an Integrated Approach, special issue of Perspectives: Studies in Translatology 21 (4): 1–16.

Chaume, Frederic

2004 Cine y traducción. Madrid: Cátedra.

De Sousa, Sheila C. M., Wilker Aziz, and Lucia Specia

2011 “Assessing the Post-Editing Effort for Automatic and Semi-Automatic Translations of DVD Subtitles.” In Proceedings of the International Conference on Recent Advances in Natural Language Processing, ed. by Galia Angelova, Kalina Bontcheva, Ruslan Mitkov, and Nikolai Nikolov, 97–103. http://www.aclweb.org/anthology/R11-1014.pdf. Accessed December 22, 2015.

Díaz-Cintas, Jorge, and Aline Remael

2007 Audiovisual Translation, Subtitling. Manchester: St. Jerome.

Etchegoyhen, Thierry, Lindsay Bywood, Mark Fishel, Panayota Georgakopoulou, Jie Jiang, Gerard van Loenhout, Arantza del Pozo, Mirjam Sepesy Maucec, Anja Turner, and Martin Volk

2014 “Machine Translation for Subtitling: A Large-Scale Evaluation.” In Proceedings of LREC 2014, 46–53. http://www.lrec-conf.org/proceedings/lrec2014/index.html. Accessed December 22, 2015.

Lommel, Arle, Aljoscha Burchardt, and Hans Uszkoreit

2014 “Multidimensional Quality Metrics (MQM): A Framework for Declaring and Describing Translation Quality Metrics.” In Tradumàtica: tecnologies de la traducció 0 (12): 455–463.

Papineni, Kishore, Salim Roukos, Todd Ward, and Wei-Jing Zhu

2002 “BLEU: A Method for Automatic Evaluation of Machine Translation.” In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 311–318. http://dl.acm.org/citation.cfm?id=1073083&picked=prox. Accessed December 22, 2015.

Popović, Maja

2011a “Hjerson: An Open Source Tool for Automatic Error Classification of Machine Translation Output.” The Prague Bulletin of Mathematical Linguistics 96: 59–68. https://doi.org/10.2478/v10108-011-0011-4

2011b “Morphemes and POS Tags for N-gram Based Evaluation Metrics.” In Proceedings of the Sixth Workshop on Statistical Machine Translation, 104–107. file:///Users/SRP/Downloads/ngrams.pdf. Accessed December 22, 2015.

Romero-Fresco, Pablo, and Juan Martínez Pérez

2015 “Accuracy Rate in Live Subtitling – the NER Model.” In Audiovisual Translation in a Global Context: Mapping an Ever-changing Landscape, ed. by Jorge Díaz Cintas, and Rocío Baños Pinero, 28–50. London: Palgrave Macmillan. http://hdl.handle.net/10142/141892(draft). Accessed November 4, 2015. https://doi.org/10.1057/9781137552891_3

Rubin, Ann D.

1978 “A Theoretical Taxonomy of the Differences between Oral and Written Language.” Center for the Study of Reading Technical Report 35.

Shah, Kashif, Eleftherios Avramidis, Ergun Biçicic, and Lucia Specia

2013 “QuEst – Design, Implementation and Extensions of a Framework for Machine Translation Quality Estimation.” The Prague Bulletin of Mathematical Linguistics 100: 19–30. https://doi.org/10.2478/pralin-2013-0008

Vilar, David, Jia Xu, Luis Fernando d’Haro, and Hermann Ney

2006 “Error Analysis of Statistical Machine Translation Output.” In Proceedings of LREC 2006, 697–702. file:///Users/SRP/Downloads/2lrec06_errorAnalysis.pdf. Accessed December 22, 2015.

Dirección para la correspondencia

Aljoscha Burchardt

DFKI GmbH

Alt-Moabit 91c

10559 Berlin

Germany

[email protected]

Co-author information

Arle Lommel

DFKI GmbH

[email protected]

Lindsay Bywood

Centre for Translation Studies (CenTraS)

University College London

[email protected]

Kim Harris

DFKI GmbH

[email protected]

Maja Popović

Institut für Anglistik und Amerikanistik

Humboldt-University zu Berlin

[email protected]

TraducciónLa calidad de la traducción automática en el ámbito audiovisual

1.Introducción

2.Marco conceptual: la traducción automática estadística, en resumidas cuentas

2.1El reto de evaluar la calidad de la traducción automática

2.2Lo que mejor hace la traducción automática y por qué

3.Problemas que afectan a la traducción automática de subtítulos

3.1Género y dominio

3.2Falta de contexto visual

3.3Estilo oral

3.4Falta de contexto

4.Evaluación de la calidad de la traducción automática

4.1Evaluación de la calidad en la investigación sobre TA

4.2Métricas de Calidad Multidimensionales (MQM, por sus siglas inglesas)

5.Resumen

Agradecimientos

Notas

Referencias

Dirección para la correspondencia

Co-author information

Traducción
La calidad de la traducción automática en el ámbito audiovisual