翻译
视听翻译中的机器翻译质量问题 [Machine translation quality in an audiovisual context]

Aljoscha Burchardt、1 Arle Lommel、1 Lindsay Bywood、25 Kim Harris345 、 Maja Popović45

1DFKI, Berlin | 2University College London | 3text&form/DFKI, Berlin | 4Humboldt-Universität zu Berlin | 5阿德莱德大学

Translated by 党宁飞、殷昕尧、蔡虹

DFKI, Berlin | University College London | text&form/DFKI, Berlin | Humboldt-Universität zu Berlin | 阿德莱德大学

摘要

为了满足全世界对数据可及性日益增长的需求，视听翻译（AVT）的规模正在扩大。机器翻译（MT）是最具创新的技术在翻译学领域中的应用，但是，若要预测MT在未来如何能够在创造力和生产力方面协助专业翻译人员，还为时尚早。目前，MT在文本翻译（非视听领域）方面比AVT应用得更广泛。在本文中，我们将探讨MT技术，并论证为何在AVT中MT的应用特别具有挑战性。我们也会展示一些检测MT质量的有用的工具与方法，这些主要是针对文本翻译研发的。最终的目标，是在精通技术的AVT界和高质量MT领域的研究者和开发者之间，架起一座桥梁。

关键词：

摘要
关键词
1.介绍
2.背景：统计机器翻译简介
- 2.1评估MT质量所面临的挑战
- 2.2机器翻译的擅长领域及原因
3.字幕自动翻译所面临的挑战
4.机器翻译质量检测
- 4.1机器翻译研究中的质量评估
- 4.2多维质量度量（MQM）
5.总结
致谢
笔记
参考文献
通讯地址

1.介绍

视听翻译（AVT）在21世纪已经成了一种基本需求。在媒体发展过程中，像家用录像系统（VHS）和镭射光盘（LaserDiscs）这些技术来去匆匆，而翻译工具也从打字机进化到了完全整合的实时网络翻译环境。世界正在变得更小，可是世界上每个角落对于数据的需求量却在增长。因此，对数据在全球大部分地区和各种语言中的可及性的需求量正在急剧增加：在每分钟内都有300小时的视频材料被上传到YouTube。11. https://www.youtube.com/yt/press/en/statistics.html 即使假设这300小时的视频材料中只有很小一部分让全球广大观众感兴趣，但将这一小部分材料翻译出来并用多种语言发布也是一项极大的挑战。这一观点也得到了一些研究机构和政府部门的认可和接受，他们支持过那些早期采用自动AVT的项目。这些项目包括MUSA22. http://sifnos.ilsp.gr/musa/index.html 和eTITLE33. http://www.upf.edu/glicom/en/proyectos/proyectos_finalizados/e_title.html ，这两个项目采用了将基于规则的MT与翻译记忆相结合的方式，以此来研究这些工具在AVT上的潜力；SUMAT44. http://cordis.europa.eu/fp7/ict/language-technologies/project-sumat_en.html 已经在关于七对双向语言对的字幕上调试了统计MT引擎，并对由此产生的MT的质量进行了广泛的评估；EU-Bridge55. https://www.eu-bridge.eu/ 专注于进一步发展自动语音识别和MT结合的尖端技术，其目的在于把这一项技术应用到几个领域，包括AVT；HBB4ALL66. http://www.hbb4all.eu/ 虽然主要针对可及性，研究者也进行了关于语际字幕自动翻译接受度的研究；最后，ALST77. http://ddd.uab.cat/record/137941?ln=en 是一个致力于在口述影像和画外音中执行现存自动语音识别、语音合成和MT的项目，项目中的一部分包括对于使用MT和译后编辑的画外音脚本的质量评估。

新技术的出现也给文本翻译带来了显著的影响。在科技翻译中，翻译记忆系统（TMs）和集成术语支持在确保语言一致性和简化翻译过程上不可或缺。自动（或机器）翻译技术（MT）是在翻译领域中一项最新的技术之一，现在预测MT在未来如何能够在创造力和生产力方面帮助专业译员还为时尚早。然而，MT肯定在文本翻译上比在AVT上使用得更广泛，目前MT在AVT上的应用可以说是罕见的。

机器翻译的输出通常需要大量的编辑以到达适合发表的水准。翻译的质量依赖于这样一些因素，例如语言对、语域、体裁和所需翻译文本与机器所设定的最优语言的相似度。欧洲委员会资助的、关于提高MT结果的研究有较长的历史。该领域内最近的研究项目包括QTLaunchPad，88. http://www.qt21.eu/launchpad/ QTLeap，99. http://qtleap.eu/ 和QT211010. http://www.qt21.eu/ 还包括涉及工业的应用性项目，如MMT。1111. http://www.modernmt.eu/

机器翻译的使用在主旨翻译（纯信息翻译）中日益普及，这种翻译是通过谷歌翻译或微软必应翻译等在线免费系统来实现的。就谷歌翻译来说，其在一天内的自动翻译量大致上和全世界所有专业译者一年的翻译量相当，且每月都有超过2亿人使用谷歌翻译。1212. http://googleblog.blogspot.de/2012/04/breaking-down-language-barriersix-years.html

这种翻译不仅可以帮助用户在互联网上搜索信息，也可以帮助情报部门和其他机构来进行确认，哪些文件是相关的而且需要高质量翻译。因为主旨翻译与高质量、旨在出版的翻译的目的不同，为前者打造的MT系统，不能为后者提供良好的支持（尽管当今的译者会使用MT，但他们往往不承认）。

本文的目标有两个。首先，我们讨论MT技术，以及为什么它在用于AVT时特别具有挑战性。其次，我们展示一些可能对AVT界有用的、用来衡量MT质量的方法和工具——这些工具是为文本翻译开发的。最终的目标是在AVT界和高质量MT领域的研究者和开发者之间架起一座桥梁。这两个群体间更紧密的合作将会促进创新，改进MT技术的执行情况，且最终在尽可能多的语言中，能够增加可用的多模式内容。

在第二部分，我们将从较高层次上概述MT系统中的技术成分，它可以帮助读者理解MT在AVT领域的局限性及其发展前景——这一点我们将在第三部分作出解释。第四部分介绍测量MT质量的工具和技术。第五部分为文章的总结。

2.背景：统计机器翻译简介

这部分简要介绍MT系统的技术成分，为后面的讨论打下基础。统计机器翻译系统（SMT），如谷歌翻译、微软翻译和开放资源Moses系统，代表了当今最为广泛使用的MT方式。1313.基于规则的MT系统，例如SYSTRAN和LUCY LT在AVT中不起主要作用。这些系统使用复杂的算法，这些算法学会了通过使用源于平行双语文本的概率，将某一语言的字符串转换成另一种语言。这类系统的基本组成部分为：

一个短语表，指的是一个包含目标语言词汇或短语的数据库，以及和源语言词汇或短语相对应的概率；
一个重新排序模型，包含两种语言中不同词序组合的概率；
一个单语模型，包含目标语言中单词序列（n-grams）概率的单语模型。

统计概率，是通过分析大量平行语料库中包含源语言中的句子，和其在目标语言中相应的(人工)翻译，来自动获得的。简单来说，这些概率是通过相关的双语/单语的单词，和词组在所给文本中出现的频率来进行预测的，在这些文本里，短语就是单词的集合，而不包含其他任何语言学上的含义。从本质上讲，翻译系统的这些组成部分认识到它们所看到的字是如何翻译的，在这些翻译中源语言和目的语的语序差异，以及目标语言中什么样的词语应该互相毗邻。

一般来说，可用的训练材料越多，翻译的结果就会更好。训练材料与需要翻译的文本之间的相似度（语域、句子结构和长度等）越高，翻译的质量就越高。对于有些应用程序、文本类型和语言对，一到两万个句子的训练量就可能会带来较好的翻译结果，然而对其他的来说，想要得到有用的输出就需要更多的训练材料。

在这个统计翻译范式中，不同组成部分的相互作用可能会让翻译乍看上去令人费解，如例（1）所示，德语疑问句中的对立性完全被颠倒了：

(1)

源语言：

Was stimmt? [What is right?] （什么是对的？）

线上MT：

What is wrong? （什么是错的？）

机器翻译算法为什么会产生某个特定的翻译？这很难追溯。在上例中，最可能的原因是，翻译概率在训练数据中把stimmit和更常使用的带有否定意义的stimmt nicht弄混淆了。在此情况下，尽管上面的翻译和原文的意思相反，但是恰巧在特定语境中这一翻译在语义上也能接受。另一种可能就是这个例子在训练数据中出现过，所以算法只是照搬。

一个普遍存在的错误观念是，我们认为统计系统像人类一样，并用看待人的眼光去看待它们，比如，系统没有“看见”某词是复数，或者它“漏”了一个内嵌句等等。作为一个系统（以最简单和最常见的形式）是没有任何特别的语言学智商的，比如，它们并不知道词性或者否定句是什么。

虽然SMT的基本原则很容易解释，但是不管是从数学或是算法的复杂性上来讲，这一系统都是极为复杂的，从计算能力与所需数据资源上来讲亦是如此。SMT是一个活跃的研究领域，研究人员正在不断探索不同的方法以提高技术发展水平，比如说往系统中加入有关语言学和语义学的知识，并改善系统的数学模型。

2.1评估MT质量所面临的挑战

人们经常把机器翻译（MT）系统和翻译记忆系统（TMs）混淆。从某种角度来看，MT可以被视为TM技术的延伸。然而，TMs只能检索现有的人工翻译，MT却可以根据现有的翻译生成新的翻译。

一个最大的实际问题就是，很难估计某一特定的MT的实用性和‘目标适用性’。因此，译后编辑经常会遇到无用的MT结果，这就降低了生产力和效率。为了挽救这种局面，人们正在开发一个叫“质量估算”的研究方法，它正是用来评估MT的作品的质量的（详见第四部分）。

有趣的是，尽管视听译者拥有相对较高水平的技术支持（例如专业字幕软件和为了准备与录制配音脚本的软件），但是这个领域中实际的翻译工作基本上没有获得MT的支持。虽然TMs在文本翻译中用得很普遍，但是视听译者并不常使用它。

2.2机器翻译的擅长领域及原因

和其他科学技术一样，MT在使用中得到提高。如果工作流程设置得当，专业译员对MT所提供的建议的采纳或者摈弃，以及相应的后期编辑作为反馈，为系统的发展与改进提供源源不断的支持。

机器翻译尤其适用于源语言和目标语言在结构、形态、概念等方面非常相似的情况。例如，一个把西班牙语翻译成葡萄牙语的系统和一个把斯瓦西里语翻译成日语的系统相比，前者开发难度较低，并且会提供更高质量的翻译。另一个决定性因素是大量的平行双语文本的可用性，这些文本要与被翻译的材料在语域、文本类型等方面非常相似，这样系统才可以提取所有相关信息。

从本质上讲，MT可以更成功地处理语句中相距较近的语法和句法现象（例如英语中的名词—动词的一致性），而当处理像德语中的动词短语这种句子成分可以横跨整个从句的语法现象时则胜算不大。同样，需要用语言学之外的知识，例如语篇和世界知识（如抽像代词），来处理的现象，也超出了目前的MT的技术水平。

有趣的是，较短的距离并不能提高使用MT做的AVT的结果，因为口头表达常常依赖推断和上下文语境，且包含许多缩略和不完整的短语及表达方式，如（2）所示：

(2)

AV转录：

Your mother’s house? （你妈妈的房子？）

MT（德语）：

Ihrer Mutter Haus?[Your mother house?] （你妈妈房子？）

完整句：

Are we meeting at your mother’s house? （我们在你妈妈的房子里碰面吗？）

MT（德语）：

Treffen wir uns im Haus Ihrer Mutter?[Are we meeting in your mother’s house?] （我们在你妈妈的房子里碰面吗？）

虽然这两个德语的MT都不完美，但是根据较短的视听转录的翻译根本无法理解，然而根据稍显“啰嗦”的原句翻译出来的句子意思却非常达意。一个相似的例子如（3）所示：

(3)

AV 转录：

Wieder ein Wochenende vorbei. [Another weekend gone by.] （又过了一个周末。）

MT：

Again a weekend pass. （又一次，周末过去了。）

完整句：

Das Wochenende ist wieder vorbei. [The weekend is over once more.] （周末又结束了。）

MT：

The weekend is over again. （周末又结束了。）

3.字幕自动翻译所面临的挑战

视听翻译为机器翻译带来了一系列的挑战。1414.在本文中我们着重考虑字幕翻译。我们将不会强调关于压缩文本的问题。尽管存在文本自动概括和缩短技术，但我们认为现在讨论它们还为时尚早。大部分MT系统都是在大型数据库的基础上发展而来的，这些数据库的数据来自翻译的书面（vs. 原本口述的）文本，这些文本语法正确，标点符号和字母的大小写等都使用恰当。此外，MT最常用于科技性文本，此类文本的词汇与结构预见度高且往往限于一定范围。

相反，AVT的字幕和配音脚本，其本质是口头对话的书面表达，具有对MT来说难以处理的特质。（需要注意的是，配音脚本是“为了说而写下的”，这一现象被Chaume[2004]Chaume, Frederic 2004 Cine y traducción. Madrid: Cátedra.称为“预制的口头表达” ）。这一情况为MT带来了一系列新的挑战。在第三部分，我们将阐述其中一些挑战，作为今后进行更系统化调查研究的起点。

如果翻译文本的MT引擎一直在传统书面文本上进行训练，则口语文本的特征可能无法在训练数据中被准确地表现出来，因此引擎将没有相关的示例，从而无法产生准确的翻译。所以对于MT的质量来说，重要的是任何用于视听材料的系统都必须使用视听文本进行训练。这就产生了一个问题：获得一个这样的语料库相对较难，尤其是对于资源较少的语言对来说（Bywood et. al 2013Bywood, Lindsay, Martin Volk, Mark Fishel, and Panayota Georgakopoulou 2013 “Parallel Subtitle Corpora and their Applications in Machine Translation and Translatology.” In Corpus Linguistics and AVT: in Search of an Integrated Approach, special issue of Perspectives: Studies in Translatology 21 (4): 1–16.）。

3.1领域和体裁

在AVT中使用MT所面临的一个问题是，AVT是一个“开放的”领域，视听内容在这里覆盖了一个最广的范围，包括从一个非常精确、词汇复杂的科技纪录片到小报上的明星花边，应有尽有。因此，由于包括语法、结构和词汇在内的各级内容的性质不一致，即使是有大量的现存内容，对于计算可预测性来说也是不够的。

3.2缺少视觉背景

合格的AVT需要掌握嵌入源文本的视觉背景（Díaz Cintas and Remael 2007Díaz-Cintas, Jorge, and Aline Remael 2007 Audiovisual Translation, Subtitling. Manchester: St. Jerome., 51），对于MT来说这类信息是不可及的。举一个简单的例子，如果把英文的“你好”翻译成意大利语，在大多数情况下，会被译作ciao，这个词通常是非正式场合的问候语，可是在打电话时则得用pronto问候。在这个例子中，前者的表达方式可以提供一些有关相应场景的上下文线索，但是在翻译时采用这种句间上下文线索的MT技术仍然处于初级发展阶段。例（4）是来自SUMAT项目的另一个例子，是关于瑞典语字幕的：

(4)

源语：

The reactions I got in the market stalls with the fishermen.（我和渔民在市场摊位上的反应。）

翻译：

Reaktioner på marknaden toaletter med fiskarna.

回译：

Reactions on the market toilets with the fishermen.（在市场厕所的反应和渔民。）

在这里，由于缺少上下文语境，摊位(stall)一词被错误地翻译成了厕所(toilet)，而专业翻译人员则能利用相应的语境避免这样的错误。

3.3口语风格

据详细记载(Rubin等人，1978Rubin, Ann D. 1978 “A Theoretical Taxonomy of the Differences between Oral and Written Language.” Center for the Study of Reading Technical Report 35.)，口语和书面文本存在许多差异。例如，在口语中语法不完整的短语所占比例要高得多，理解它们需要依赖实际情况和语境（如用that这类代词来指代一个名词），一般来说这样的用法也更不正式。此外，一般情况下口语中所使用的词汇也和书面用语中的不同，口语中会使用非常多的口头话语标记（像你知道的，嗯-啊哈 或 对吧？），这些标记以及俚语和俗语通常不会在书面用语中出现。参看用在线MT系统翻译的例（5）：

(5)

源语：

Was für’n Mädel? [What girl?] （什么女孩？）

MT：

What for’s girl? （什么为了的女孩？）

如果我们把句中省略的代词补充完整，如例（6），再用在线MT系统翻译，即使得到的结果不是完全正确的，但是对于后期编辑来说只要把“一个”去掉就可以得到一个正确的字幕：

(6)

源语：

Was für ein Mädel?

MT：

What a girl? (correct: What girl?) 什么一个女孩？（正确：什么女孩？）

与此紧密相关的是俗语，如（7）所示：

(7)

源语：

Guy seemed high as a kite every time I met him. （我每次遇到他，他都看起来像嗨到天上一样。）

MT：

Guy schien hoch wie ein Drachen, jedesmal wenn ich ihn traf. [Guy seemed high as a kite (child’s toy), every time I met him.] （我每次遇到他，他都看起来高得像个风筝。）

人翻：

Jedes Mal, wenn ich ihn traf, schien er voll zugedröhnt gewesen zu sein. [Every time I met him, he seemed to be totally stoned.] （我每次遇到他，他都看起来非常嗨。）

一个可行的办法是用一个字幕组成的语料库，其中包含各种不流畅、口语化和有其他口语特征的用法。这些用法和特征对通过一般书面文本进行训练的系统存在不少问题。虽然这种语料库目前还不普遍，但当它们普及时，通过这种语料库进行训练的翻译系统是有希望的，如下面来自SUMAT的例（8）：

(8)

源语：

I’ll have a go. （我可以来试一下。）

MT（SUMAT）：

Je vais avoir un aller. [I will have a to go.] （我会试试。）

在线MT：

Je vais avoir un aller. （我将会有个去走。）

如果有足够的训练数据，统计机器翻译系统实际上非常适合处理这些问题。

3.4语境的缺失

与上一点密切相关的是，口头文本往往由短片段组成。虽然其本身没有问题（较短的片段长度通常与较好的翻译质量相关），但口语片段更可能依赖于从单个片段中无法理解的上下文。由于MT引擎通常不会考虑单个片段之外的因素，所以它们无法访问这一重要语境。例如，参看例（9）中的口语式文本：

(9)

源语：

You’re asking about the accident? Well, there was a man on 42nd Street. Down by the bridge. Big fellow. He saw it.

（你在问那场事故吗？啊，42号街上有个人。在桥下。是个大块头。他看到了那场事故。）

在线MT：

Sie sind über den Unfall zu fragen? Nun, es war ein Mann auf der 42. Straße.

Down by die Brücke. Big Kollegen. Er sah es. [You are about the accident to ask?

Well, there was a man on 42nd Street. Down by (untranslated) the bridge. Big (untranslated) colleague. He saw it.]

（你要关于那场事故去问吗？啊，42街上有个人。在桥下（“下”未翻）。是个大（“大”未翻）同事。他看到了那场事故。）

口语示例的最后一句中的 “it” 在单个片段中没有上下文，系统将其翻译为es（中性），而不是正确的ihn或den（阳性）。当一个词的翻译取决于上下文语境，而上下文可能是在翻译中被删除的一些句子时，这种结果是常见的。出于类似的原因，它也部分地将 “Big fellow（大块头）” 翻译成 “Big Kollegen”，这可能意味着这两个人是同事，即使上下文清楚地表明说话人不认识这个人。更合适的翻译应该是像großer Kerl [大家伙]之类的词。相比之下，书面描述可能更像例（10）所示：

(10)

源语言:

There was a big man on 42nd street by the bridge who saw the accident.

（在桥边42号街的一个大块头看到了那场事故。）

在线MT:

Es war ein großer Mann auf der 42. Straße an der Brücke, die den Unfall gesehen.

[There was a big man on 42nd Street on the bridge, who seen the accident.]

（桥边42号街上有个大块头，他看到了那场事故。）

虽然例（10）显示了其他的问题，如使用女性的关系代词die，而不是阳性代词来指代文中的男人，以及关系从句中缺失的主动词（“看到” vs.“看到了”），但它通常比（9）更容易理解。

同样，英语中的 “you (你)” 可以被翻为德语的sie（正式）、du（非正式单数）、ihr（非正式复数）或man（非人称代词），而词形的选择通常取决于宏观层面的语境（例如，了解谁与谁在交谈），而这些语境不能简单地从源文本中派生出来。如例（11）所示，德语代词sie可以指代 “她” 或 “他们”，而MT系统选择了错误的代词（尽管这里的动词hat清楚地表明了应该选择哪个代词）：

(11)

源语:

Denn sie hat dich auf die Idee gebracht. [Because she gave you the idea.]

（因为她给了你这个主意。）

MT：

For they gave you the idea.（因为他们给了你这个主意。）

人工翻译：Because she put you up to it.（因为她让你这么做。）

4.机器翻译质量检测

译文必须 “符合目的”，也就是说，必须达到有关各方确定的特定目标。对于许多用户生成的内容，对其译文的期望水平远远低于对电视广播或DVD出版的水平。与文本世界一样，清楚在各种情况下 “可接受质量” 的形式是什么很重要。为了特定目的而在检测翻译质量（如果被检测的话）中所使用的过程、工具和标准，因该任务的预期结果和执行的一致性不同而不同。

4.1机器翻译研究中的质量评估

在研究中的MT质量评估，几乎总是基于专业翻译或后期编辑的各种形式的输入。以下是目前最常用的评估形式：

基于MT输出与（专业）人工参考翻译算法比较的MT输出自动评估（Papineni等人，2002Papineni, Kishore, Salim Roukos, Todd Ward, and Wei-Jing Zhu 2002 “BLEU: A Method for Automatic Evaluation of Machine Translation.” In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 311–318. http://dl.acm.org/citation.cfm?id=1073083&picked=prox. Accessed December 22, 2015.；Banerijee和Lavie 2005）。该方法具有快速、可重复性等特点，并且能使用以前的结果对自动测量进行应用和改进。
对给定的MT输出进行的、没有人工的参考翻译的自动评估，通常称为质量评估（Shah等人，2013Shah, Kashif, Eleftherios Avramidis, Ergun Biçicic, and Lucia Specia 2013 “QuEst – Design, Implementation and Extensions of a Framework for Machine Translation Quality Estimation.” The Prague Bulletin of Mathematical Linguistics 100: 19–30. ）。这种方法需要一个受过调试的系统（基于人工翻译），并使用专业译员(为之前的其他翻译)指定的等级或分数标准来改进质量评估指标。
评估人员对不同系统的MT输出进行排名。例如，排名是由NLP研究人员在统计机器翻译研讨会（以下简称WMT）的一些共享任务1515. http://www.statmt.org/wmt15/ 中进行的。Avramidis等人（2012Avramidis, Eleftherios, Aljoscha Burchardt, Christian, Federmann, Maja Popovićs, Cindy Tscherwinka, and David Vilar 2012 “Involving Language Professionals in the Evaluation of Machine Translation.” In Proceedings of LREC 2012, 1127–1130. http://www.lrec-conf.org/proceedings/lrec2012/index.html. Accessed December 12, 2015.）报告了一项由专业翻译进行排名的研究。此方法可提供有关某些系统或系统变体的相对性能的信息。
评估人员对MT输出的后期编辑。例如，后期编辑是由NLP研究人员在WMT的某些共享任务中执行的。Avramidis等人（2012Avramidis, Eleftherios, Aljoscha Burchardt, Christian, Federmann, Maja Popovićs, Cindy Tscherwinka, and David Vilar 2012 “Involving Language Professionals in the Evaluation of Machine Translation.” In Proceedings of LREC 2012, 1127–1130. http://www.lrec-conf.org/proceedings/lrec2012/index.html. Accessed December 12, 2015.）报告了一项由专业翻译人员进行后期编辑的研究。这种方法衡量后期编辑效率的不同层面（时间、编辑次数等），并处理采集的数据，例如，分析最频繁的编辑类型（例如，词序、形态、插入等）。
评估人员对MT输出错误的注释（参见，Vilar等2006Vilar, David, Jia Xu, Luis Fernando d’Haro, and Hermann Ney 2006 “Error Analysis of Statistical Machine Translation Output.” In Proceedings of LREC 2006, 697–702. file:///Users/SRP/Downloads/2lrec06_errorAnalysis.pdf. Accessed December 22, 2015.，NLP研究人员作的注释；Lommel等2014Lommel, Arle, Aljoscha Burchardt, and Hans Uszkoreit 2014 “Multidimensional Quality Metrics (MQM): A Framework for Declaring and Describing Translation Quality Metrics.” In Tradumàtica: tecnologies de la traducció 0 (12): 455–463.，由专业翻译人员进行的注释）。该方法可以对MT输出进行详细的误差分析，包括特定的精准度和流畅性误差，以及词序和词距误差。这一信息可随之用于改进MT系统。

所有方法都已经并将继续应用于字幕的MT。如上所述，获取包含视听材料的平行语料库不太容易。因为存在字幕和配音脚本的所有权问题，这使得任何规模的高质量语料库的收集都存在问题，且公司不愿与研究人员分享材料。因此，使用参考翻译对MT进行评估可能是一个挑战。质量评估已经成功地应用于SUMAT项目中，在该项目中，先前的注释字幕用于调试系统，以选出质量差的字幕并将其丢弃，仅为后期编辑提供一个包含“FILT”文本的方框（Etchegoyen等人，2014Etchegoyhen, Thierry, Lindsay Bywood, Mark Fishel, Panayota Georgakopoulou, Jie Jiang, Gerard van Loenhout, Arantza del Pozo, Mirjam Sepesy Maucec, Anja Turner, and Martin Volk 2014 “Machine Translation for Subtitling: A Large-Scale Evaluation.” In Proceedings of LREC 2014, 46–53. http://www.lrec-conf.org/proceedings/lrec2014/index.html. Accessed December 22, 2015.）。上述所有其他评估形式也用于此项目，此项目对字幕翻译进行了迄今为止最大规模的MT评估。然而，AVT面临的一个特殊问题是，缺乏为各自的指标提供输入的后期编辑人员。尽管调试计划正在进行，并且研究（De Sousa等人，2011De Sousa, Sheila C. M., Wilker Aziz, and Lucia Specia 2011 “Assessing the Post-Editing Effort for Automatic and Semi-Automatic Translations of DVD Subtitles.” In Proceedings of the International Conference on Recent Advances in Natural Language Processing, ed. by Galia Angelova, Kalina Bontcheva, Ruslan Mitkov, and Nikolai Nikolov, 97–103. http://www.aclweb.org/anthology/R11-1014.pdf. Accessed December 22, 2015.年）在整合MT、人类翻译技术和后期编辑方面已经表现出相当大的潜力，但由于MT在AVT中不常用，因此缺乏受过培训的、可以处理视听文本的后期编辑人员。

上述的前两类评估方法用于评价和估计特定系统和语言对的总体性能，通常用于特定领域，以及对不同的系统进行比较。属于这些类别的自动评估指标包括BLEU得分（Papineni等人，2002Papineni, Kishore, Salim Roukos, Todd Ward, and Wei-Jing Zhu 2002 “BLEU: A Method for Automatic Evaluation of Machine Translation.” In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 311–318. http://dl.acm.org/citation.cfm?id=1073083&picked=prox. Accessed December 22, 2015.年）、F得分（Popović 2011bPopović, Maja 2011b “Morphemes and POS Tags for N-gram Based Evaluation Metrics.” In Proceedings of the Sixth Workshop on Statistical Machine Translation, 104–107. file:///Users/SRP/Downloads/ngrams.pdf. Accessed December 22, 2015.）、Meteor（Banerjee和Lavie，2005Banerjee, Satanjeev, and Alon Lavie 2005 “METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments.” In Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization, ed. by Jade Goldstein, Alon Lavie, Chin-Yew Lin, and Clare Voss, 65–72. Michigan, MI: University of Michigan.）、TER和其他类似指标。这些指标也可用于特定质量层面的估量。没有专业翻译参考的质量评估是一种相对较新、具有挑战性的MT质量评估方法（Shah等人，2013Shah, Kashif, Eleftherios Avramidis, Ergun Biçicic, and Lucia Specia 2013 “QuEst – Design, Implementation and Extensions of a Framework for Machine Translation Quality Estimation.” The Prague Bulletin of Mathematical Linguistics 100: 19–30. ）。大致来说，这个想法就是建立一个系统，使用不同于MT引擎本身使用的方法（例如算法、语言工具、培训数据等）来评估MT输出。这些系统是为不同的任务而设计的，例如对于几个备选的MT输出的自动排名，或者估测后期编辑的工作，亦或某个给定MT输出的总体质量。通常情况下，系统是在人工生成的数据上进行调试的，如现有的人工排名、系统输出的分级等。后期编辑的自动分析也被采用(详见Popović 2011aPopović, Maja 2011a “Hjerson: An Open Source Tool for Automatic Error Classification of Machine Translation Output.” The Prague Bulletin of Mathematical Linguistics 96: 59–68. )并可以提供见解。

在NERstar工具中执行的NER模型（Romero Fresco和Martinez 2015Romero-Fresco, Pablo, and Juan Martínez Pérez 2015 “Accuracy Rate in Live Subtitling – the NER Model.” In Audiovisual Translation in a Global Context: Mapping an Ever-changing Landscape, ed. by Jorge Díaz Cintas, and Rocío Baños Pinero, 28–50. London: Palgrave Macmillan. http://hdl.handle.net/10142/141892(draft). Accessed November 4, 2015. ）是第一批具体的AVT指标之一。该模型不是为评估MT而设计的，而是为了评估与原始口头文本相比重述字幕的准确性。这个模型很有吸引力，因为它只考虑了两种错误：一种是由重述者引起的，另一种是由语音到文本的转换系统引起的。附加的权重表明各自错误的严重性。虽然该工具是计算机辅助字幕日常质量保证的一个很好的候选工具，但该模型不适用于评估MT质量以改进MT引擎的目标。为此，我们需要对MT的错误进行更细致的分析。

4.2多维质量度量（MQM）

多维质量度量(MQM)框架（Lommel等人，2014Lommel, Arle, Aljoscha Burchardt, and Hans Uszkoreit 2014 “Multidimensional Quality Metrics (MQM): A Framework for Declaring and Describing Translation Quality Metrics.” In Tradumàtica: tecnologies de la traducció 0 (12): 455–463.），来自文本翻译，是对AVT的错误进行仔细分析的一种有前图的方法。1616. http://www.qt21.eu/launchpad/content/multidimensional-quality-metrics 最初是在欧盟资助的QTLaunchPad项目中开发出来的，它基于对现有翻译质量指标的检验。创建MQM的目的是为了满足客观描述翻译错误的需要，这种方法也足够灵活，能够满足特定的需要。MQM包含100多种翻译质量问题，可用于描述翻译文本中的特定问题。这些问题类型按层次结构排列，这种排列方式允许用不同等级的粒度级别描述在文本中发现的问题。

图 1显示了相对复杂的MQM度量，这个度量用于对MT的错误进行详细的分析。用 粗斜体 标明的问题不在基本的MQM集中，而是代表自定义用户扩展。它们并不与MQM矛盾，只是提供了额外的粒度，且可视为其母问题的子类。在这种情况下，它们提供有关 “功能词” 问题的附加信息，如介词、冠词和助动词。这个度量标准着重强调语法特征和特定类型的准确性问题。

图 1.

相比之下，图 2展示了一个更简单的度量，它可能适合评估用于视听的MT：

图 2.

此指标一般用于AVT（不仅用于MT）。它添加了与AVT密切相关的类型（一种基本的MQM类型），并删除了一些不太可能特别相关的类别。它对语法的强调也要少得多，但添加了两种自定义类型：

语境，从语境上讲是错误的翻译。
时机，针对翻译内容出现在错误的时间点的情况。

可以看出，MQM的优势在于它提供了用于描述错误的标准化词汇表，这允许用户创建特定任务的指标（例如，用于评估新闻标题的指标可能与用于评价法律翻译的指标大不相同）。此外，MQM可以扩展，以支持主词汇表中没有呈现的问题。MQM是在开源translate51717. http://www.translate5.net/ 编辑器中实施的，正用于QT21项目中，并进一步发展。目前关于MQM的工作旨在将其扩展到其他翻译类型，包括AVT。

5.总结

在本文中，我们试图为AVT专家和MT专家之间的密切合作铺平道路，以促进AVT中更高质量的MT的研究。我们提供了一些关于当前文本翻译中使用的MT技术的背景，并讨论了在使用这种技术翻译字幕时所面临的一些挑战。综上所述，我们概述了MT质量评估方法，并提出了多维质量度量（MQM）的扩展，以囊括具体针对视听的各种问题类型。

致谢

根据第645452号拨款协议（“质量翻译21”），本文的工作获得了欧盟地平线2020研究和创新计划的部分资金资助。

笔记

1. https://www.youtube.com/yt/press/en/statistics.html

2. http://sifnos.ilsp.gr/musa/index.html

3. http://www.upf.edu/glicom/en/proyectos/proyectos_finalizados/e_title.html

4. http://cordis.europa.eu/fp7/ict/language-technologies/project-sumat_en.html

5. https://www.eu-bridge.eu/

6. http://www.hbb4all.eu/

7. http://ddd.uab.cat/record/137941?ln=en

8. http://www.qt21.eu/launchpad/

9. http://qtleap.eu/

10. http://www.qt21.eu/

11. http://www.modernmt.eu/

12. http://googleblog.blogspot.de/2012/04/breaking-down-language-barriersix-years.html

13.基于规则的MT系统，例如SYSTRAN和LUCY LT在AVT中不起主要作用。

14.在本文中我们着重考虑字幕翻译。我们将不会强调关于压缩文本的问题。尽管存在文本自动概括和缩短技术，但我们认为现在讨论它们还为时尚早。

15. http://www.statmt.org/wmt15/

16. http://www.qt21.eu/launchpad/content/multidimensional-quality-metrics

17. http://www.translate5.net/

参考文献

Avramidis, Eleftherios, Aljoscha Burchardt, Christian, Federmann, Maja Popovićs, Cindy Tscherwinka, and David Vilar

2012 “Involving Language Professionals in the Evaluation of Machine Translation.” In Proceedings of LREC 2012, 1127–1130. http://www.lrec-conf.org/proceedings/lrec2012/index.html. Accessed December 12, 2015.

① ②

Banerjee, Satanjeev, and Alon Lavie

2005 “METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments.” In Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization, ed. by Jade Goldstein, Alon Lavie, Chin-Yew Lin, and Clare Voss, 65–72. Michigan, MI: University of Michigan.

①

Bywood, Lindsay, Martin Volk, Mark Fishel, and Panayota Georgakopoulou

2013 “Parallel Subtitle Corpora and their Applications in Machine Translation and Translatology.” In Corpus Linguistics and AVT: in Search of an Integrated Approach, special issue of Perspectives: Studies in Translatology 21 (4): 1–16.

①

Chaume, Frederic

2004 Cine y traducción. Madrid: Cátedra.

①

De Sousa, Sheila C. M., Wilker Aziz, and Lucia Specia

2011 “Assessing the Post-Editing Effort for Automatic and Semi-Automatic Translations of DVD Subtitles.” In Proceedings of the International Conference on Recent Advances in Natural Language Processing, ed. by Galia Angelova, Kalina Bontcheva, Ruslan Mitkov, and Nikolai Nikolov, 97–103. http://www.aclweb.org/anthology/R11-1014.pdf. Accessed December 22, 2015.

①

Díaz-Cintas, Jorge, and Aline Remael

2007 Audiovisual Translation, Subtitling. Manchester: St. Jerome.

①

Etchegoyhen, Thierry, Lindsay Bywood, Mark Fishel, Panayota Georgakopoulou, Jie Jiang, Gerard van Loenhout, Arantza del Pozo, Mirjam Sepesy Maucec, Anja Turner, and Martin Volk

2014 “Machine Translation for Subtitling: A Large-Scale Evaluation.” In Proceedings of LREC 2014, 46–53. http://www.lrec-conf.org/proceedings/lrec2014/index.html. Accessed December 22, 2015.

①

Lommel, Arle, Aljoscha Burchardt, and Hans Uszkoreit

2014 “Multidimensional Quality Metrics (MQM): A Framework for Declaring and Describing Translation Quality Metrics.” In Tradumàtica: tecnologies de la traducció 0 (12): 455–463.

① ②

Papineni, Kishore, Salim Roukos, Todd Ward, and Wei-Jing Zhu

2002 “BLEU: A Method for Automatic Evaluation of Machine Translation.” In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 311–318. http://dl.acm.org/citation.cfm?id=1073083&picked=prox. Accessed December 22, 2015.

① ②

Popović, Maja

2011a “Hjerson: An Open Source Tool for Automatic Error Classification of Machine Translation Output.” The Prague Bulletin of Mathematical Linguistics 96: 59–68.

①

2011b “Morphemes and POS Tags for N-gram Based Evaluation Metrics.” In Proceedings of the Sixth Workshop on Statistical Machine Translation, 104–107. file:///Users/SRP/Downloads/ngrams.pdf. Accessed December 22, 2015.

①

Romero-Fresco, Pablo, and Juan Martínez Pérez

2015 “Accuracy Rate in Live Subtitling – the NER Model.” In Audiovisual Translation in a Global Context: Mapping an Ever-changing Landscape, ed. by Jorge Díaz Cintas, and Rocío Baños Pinero, 28–50. London: Palgrave Macmillan. http://hdl.handle.net/10142/141892(draft). Accessed November 4, 2015.

①

Rubin, Ann D.

1978 “A Theoretical Taxonomy of the Differences between Oral and Written Language.” Center for the Study of Reading Technical Report 35.

①

Shah, Kashif, Eleftherios Avramidis, Ergun Biçicic, and Lucia Specia

2013 “QuEst – Design, Implementation and Extensions of a Framework for Machine Translation Quality Estimation.” The Prague Bulletin of Mathematical Linguistics 100: 19–30.

① ②

Vilar, David, Jia Xu, Luis Fernando d’Haro, and Hermann Ney

2006 “Error Analysis of Statistical Machine Translation Output.” In Proceedings of LREC 2006, 697–702. file:///Users/SRP/Downloads/2lrec06_errorAnalysis.pdf. Accessed December 22, 2015.

①

通讯地址

Aljoscha Burchardt

DFKI, Berlin

DFKI GmbH

Alt-Moabit 91c

10559 Berlin

Germany

[email protected]

合著者联系方式

Arle Lommel

DFKI, Berlin

DFKI GmbH

[email protected]

Lindsay Bywood

Centre for Translation Studies (CenTraS)

University College London

[email protected]

Kim Harris

DFKI GmbH

text&form/DFKI, Berlin

[email protected]

Maja Popović

Institut für Anglistik und Amerikanistik

Humboldt-University zu Berlin

[email protected]

翻译视听翻译中的机器翻译质量问题 [Machine translation quality in an audiovisual context]

1.介绍

2.背景：统计机器翻译简介

2.1评估MT质量所面临的挑战

2.2机器翻译的擅长领域及原因

3.字幕自动翻译所面临的挑战

3.1领域和体裁

3.2缺少视觉背景

3.3口语风格

3.4语境的缺失

4.机器翻译质量检测

4.1机器翻译研究中的质量评估

4.2多维质量度量（MQM）

5.总结

致谢

笔记

参考文献

通讯地址

合著者联系方式

翻译
视听翻译中的机器翻译质量问题 [Machine translation quality in an audiovisual context]