Tradução
Reconhecimento automático de fala na cabine de interpretação: Avaliação do desempenho do sistema, atuação dos intérpretes e a interpretação de números [Automatic speech recognition in the booth: Assessment of system performance, interpreter’s performances and interactions in the context of numbers]

Bart Defrancq e Claudio Fantinuoli
Universidade de Gante, Bélgica | Universidade Johannes Gutenberg, Alemanha
Tradução por Flávio de Sousa Freitas e Marileide Dias Esqueda
Universidade Federal de Uberlândia , Brasil
Resumo

No presente estudo, o Reconhecimento Automático de Fala (doravante RAF) é usado para aprimorar as ferramentas de interpretação assistida por computador de última geração (em inglês, Computer-Assisted Interpreting Tools – CAI tools) e permitir que técnicas de aprendizado de máquina entrem no fluxo de trabalho de intérpretes profissionais. Testamos as vantagens da transcrição automática de números em um trecho de fala proveniente de uma sessão de interpretação simultânea por meio da ferramenta RAF do InterpretBank. O sistema mostrou-se altamente preciso (96%) e sua latência baixa o suficiente para se adequar à decalagem11.N. dos T.: Intervalo entre as ações de ouvir e falar por parte do intérprete profissional (cf. Gile et al., 2015, p. 596). dos intérpretes. Avaliamos seus potenciais benefícios para usuários iniciantes por meio da aplicação de uma matriz de erros e da análise das percepções subjetivas dos usuários declaradas em um questionário. Os resultados mostram que o uso do RAF melhora o desempenho geral da interpretação de vários tipos de números. A interação através do uso do RAF é variada e os participantes a ele recorrem para pouco mais da metade dos estímulos. O estudo também oferece algumas evidências dos benefícios psicológicos da disponibilização do RAF na cabine de interpretação e da dependência excessiva do apoio a esse recurso.

Palavras-chave:
Índice

Nota dos tradutores sobre a tradução do texto Automatic Speech Recognition in the booth: Ampliando as experiências de estudo sobre a Interpretação Automática

Assim como quaisquer outras áreas do conhecimento, os Estudos da Tradução e da Interpretação também são tocados pelos avanços tecnológicos. Até mesmo aqueles que não estejam diretamente envolvidos com essas áreas possivelmente conhecem, ou já utilizaram, o Google Tradutor, ferramenta de tradução automática da empresa norte-americana Google.

Embora, nas últimas décadas, novos avanços tenham surgido, e continuem surgindo, no universo das tecnologias da tradução, com as então denominadas CAT Tools, ou, em português, Ferramentas de Tradução Assistida por Computador, os avanços e debates sobre as tecnologias destinadas a propor otimização aos processos de interpretação ainda são pouco difundidos.

A interpretação automática (IA), ou tradução automática de fala, é uma tecnologia que traduz discurso oral de uma língua para outra através de três funcionalidades acopladas em um único sistema computacional: reconhecimento automático de fala, tradução automática e síntese de voz (Freitas, 2016Freitas, F. de S. O Estado da arte da interpretação automática: do pós-guerra aos apps de tradução automática de fala 2016 159 f. Monografia (Bacharelado em Tradução) – Instituto de Letras e Linguística, Universidade Federal de Uberlândia, Uberlândia 2016.Google Scholar).

Apresentado pela primeira vez em 1983, durante a convenção ITU Telecom, em Genebra, o conceito de IA (Freitas; Esqueda, 2017) veicula a ideia de sistemas capazes de promover a comunicação entre pessoas que falam línguas diferentes de forma espontânea e eficaz.

Nosso interesse, na qualidade de tradutores, professores e pesquisadores inseridos nos Estudos da Tradução e da Interpretação, por estudos que preveem a descrição e discussão sobre os sistemas de IA, resultou, em 2016, em um trabalho intitulado O Estado da arte da interpretação automática: do pós-guerra aos apps de tradução automática de fala (Freitas, 2016Freitas, F. de S. O Estado da arte da interpretação automática: do pós-guerra aos apps de tradução automática de fala 2016 159 f. Monografia (Bacharelado em Tradução) – Instituto de Letras e Linguística, Universidade Federal de Uberlândia, Uberlândia 2016.Google Scholar). Buscamos, nesse trabalho, compreender o percurso histórico de criação dos primeiros sistemas de IA, além de descrever a arquitetura dos primeiros sistemas que circularam no mercado a partir do ano de 1980.

Os conceitos, as definições e a descrição da arquitetura dos softwares destinados a realizar interpretações automáticas foi objeto de nossos estudos em 2017. A pesquisa contou com a compilação de 14 termos, com seus respectivos conceitos e definições, recorrentemente relacionados à IA em língua inglesa, feita a partir de um universo de 132 textos acadêmicos oriundos, em sua maioria, da base de dados IEEE Xplore, pertencente ao IEEE – Institute of Electrical and Electronics Engineers, instituto norte-americano da área de Engenharia Elétrica.

Em inglês, os termos mais recorrentemente encontrados foram speech driven language translation, machine interpreting, face-to-face dialog translation, simultaneous speech translation, automatic interpreting, speech-to-speech dialog translation, spoken language machine translation, automatic interpretation, spontaneous speech translation, machine interpretation, simultaneous translation, spoken language translation, speech-to-speech translation, speech translation. Correspondendo a speech translation, as traduções mais comumente encontradas em língua portuguesa na literatura da área produzida nessa língua foram “tradução de voz” e “tradução de fala” (Freitas; Esqueda, 2017).

Em 2019, publicamos uma pesquisa que contemplou a intenção discursiva nos sistemas de interpretação automática. Verificamos o quanto a intenção dos falantes exerce influência no desempenho e qualidade das tecnologias de IA (Freitas; Esqueda, 2019Freitas, F. de S.; Esqueda, M. D. A intenção discursiva nos sistemas de interpretação automática. Domínios de Lingu@gem, v. 13, n. 2, p. 511–551, 8 jul. 2019. DOI logo. Disponível em: http://​www​.seer​.ufu​.br​/index​.php​/dominiosdelinguagem​/article​/view​/45057. Acesso em: 8 maio 2020.). A proposta desse estudo foi identificar como os autores de um corpus de mais de 200 artigos científicos, também atrelados à base de dados IEEE Xplore, descreviam as formas de captura da intenção discursiva em sistemas de interpretação automática. No centro das discussões implementadas pelos autores encontra-se a captura da intenção discursiva dos falantes como uma das possíveis soluções para a realização de um projeto de IA de qualidade.

Em 2020, publicamos um livro sobre a história da tradução e da interpretação automáticas (Freitas; Esqueda, 2020Freitas, F. de S.; Esqueda, M. D. Tradução e interpretação automáticas: origens. Curitiba: Editora CRV 2020DOI logoGoogle Scholar), que traçou um panorama histórico não apenas da interpretação automática, mas também da tecnologia que a precedeu, a tradução automática, amplamente estudada por países como a Alemanha, os Estados Unidos e o Japão.

Traduzimos, também no ano de 2020, do inglês para o português, um dos textos pioneiros, ao nosso ver, sobre a arquitetura e desempenho do sistema de IA, Vermobil, escrito pelas pesquisadoras alemãs Alexandra Klein e Susanne Johanna Jekat, em 1996, e intitulado Machine Interpretation: open problems and some solutions, para o qual, em português, atribuímos o título Interpretação automática: problemas em aberto e algumas soluções.

Em 2022, nos empenhamos em realizar um trabalho bastante minucioso sobre a descrição de aplicativos móveis de interpretação automática. Nesse trabalho, também investigamos as percepções e expectativas dos usuários brasileiros dessa tecnologia (Freitas, 2022Freitas, F. de S. Aplicativos móveis de interpretação automática: expectativas e percepções de usuários brasileiros 2022 97 f. Dissertação de Mestrado (Programa de Pós-Graduação em Estudos Linguísticos) – Instituto de Letras e Linguística, Universidade Federal de Uberlândia, Uberlândia 2022.Google Scholar).

Em meio aos novos estudos que estamos implementando, nos deparamos, recentemente, com um artigo publicado, em 2021, no número 33, do volume 1, do periódico científico Target – International Journal of Translation Studies, da editora John Benjamins Publishing. O texto, intitulado Automatic speech recognition in the booth: assessment of system performance, interpreter’s performances and interactions in the context of numbers, é de autoria de dois pesquisadores, Bart Defrancq, da Universidade de Gante (Gante, Bélgica), e Claudio Fantinuoli, da Universidade Johannes Gutenberg (Mainz, Alemanha).

O estudo nos chamou a atenção, pois tem como foco a avaliação dos sistemas de IA por parte de alunos em fase de formação em interpretação de conferências. Com ênfase no reconhecimento automático de fala, o estudo mostra como essa tecnologia pode ser utilizada nas cabines de interpretação simultânea, especialmente com relação à interpretação de números, um dos conteúdos que causam mais estresse aos intérpretes, segundo os autores e a literatura da área por eles investigada.

Assim, a tradução que propomos desse artigo é, quiçá, mais uma oportunidade de ampliarmos nossos horizontes de pesquisa em IA. Buscamos, ainda, tornar a interpretação automática um objeto de estudo mais visível aos interessados em tecnologias tanto da tradução quanto da interpretação.

Quanto à tradução em si do artigo, tratamos de traduzir seu conteúdo da forma mais fidedigna e responsável possível. As figuras, por se tratarem de imagens, não foram reeditadas. Mantivemos suas imagens originais e traduzimos seus respectivos itens e textos entre parênteses, após seus títulos e legendas.

Agradecemos a oportunidade de traduzir o texto, cedida pelo periódico Target, e esperamos que os leitores afeitos ao tema possam se sentir instigados a acompanhar e investigar os avanços das tecnologias relacionadas à tradução e interpretação automáticas.

Referências

Freitas, F. de S.
Aplicativos móveis de interpretação automática: expectativas e percepções de usuários brasileiros 2022 97 f. Dissertação de Mestrado (Programa de Pós-Graduação em Estudos Linguísticos) – Instituto de Letras e Linguística, Universidade Federal de Uberlândia, Uberlândia 2022.Google Scholar
Freitas, F. de S.; Esqueda, M. D.
Tradução e interpretação automáticas: origens. Curitiba: Editora CRV 2020DOI logoGoogle Scholar
Jekat, S. J.; Klein, A.; Freitas, F. de S.; Esqueda, M. D.
Interpretação automática: Problemas em aberto e algumas soluções. Texto Livre, Belo Horizonte-MG, v. 13, n. 2, p. 286–300 2020 Disponível em: https://​periodicos​.ufmg​.br​/index​.php​/textolivre​/article​/view​/24392. Acesso em: 28 abr. 2022.
Freitas, F. de S.; Esqueda, M. D.
A intenção discursiva nos sistemas de interpretação automática. Domínios de Lingu@gem, v. 13, n. 2, p. 511–551, 8 jul. 2019. DOI logo. Disponível em: http://​www​.seer​.ufu​.br​/index​.php​/dominiosdelinguagem​/article​/view​/45057. Acesso em: 8 maio 2020.
Interpretação automática ou tradução automática de fala: conceitos, definições e arquitetura de software. TradTerm, São Paulo, v. 29, Julho/2017, p. 104–145. DOI logo. Disponível em: http://​www​.periodicos​.usp​.br​/tradterm​/article​/view​/134416. Acesso em 8 maio 2020.
Freitas, F. de S. O Estado da arte da interpretação automática: do pós-guerra aos apps de tradução automática de fala
2016 159 f. Monografia (Bacharelado em Tradução) – Instituto de Letras e Linguística, Universidade Federal de Uberlândia, Uberlândia 2016.Google Scholar

1.Introdução

O presente estudo descreve um experimento, em pequena escala, de interpretação assistida por computador, conduzido em uma cabine de interpretação simultânea. Embora as tecnologias de tradução sejam amplamente utilizadas há décadas, as primeiras tentativas de apoio tecnológico voltado à interpretação só foram realizadas recentemente. A grande complexidade do processo de interpretação – caracterizado pela entrada e saída acústicas, dependência contextual e, no caso da interpretação simultânea, intervalo de análise curto – é uma das razões pelas quais o apoio tecnológico tem, até recentemente, ficado aquém das expectativas dos intérpretes (Corpas Pastor; Fern, 2016Corpas Pastor, Gloria, and Lily May Fern 2016A Survey of Interpreters’ Needs and Practices Related to Language Technology. Technical report [FFI2012-38881-MINECO/TI-DT-2016-1]. Málaga: University of Málaga.Google Scholar; Fantinuoli, 2018 2018 “Interpreting and Technology: The Upcoming Technological Turn.” In Interpreting and Technology, edited by Claudio Fantinuoli, 1–12. Berlin: Language Science Press.Google Scholar). Dada tal complexidade da interpretação, parece plausível que os intérpretes poderiam se beneficiar consideravelmente do apoio tecnológico durante a interpretação.

Várias opções de apoio tecnológico para intérpretes podem ser vislumbradas: desde a exibição de informações específicas em telas disponibilizadas no interior da cabine, até o fornecimento de tradução automática de transcrições do texto fonte produzidas pelo reconhecimento automático de fala. No entanto, espera-se que um sistema desse tipo forneça informações confiáveis com agilidade e não aumente a carga cognitiva associada à interpretação, que, como se sabe, já é alta por si só. Os sistemas que oferecem uma grande quantidade de informações retardam a interpretação e sobrecarregam o processamento mental dos intérpretes. Em contrapartida, os sistemas que fornecem pequenas quantidades de informações específicas podem ser benéficos para os intérpretes.

Os números estão entre os elementos mais temidos na interpretação simultânea e há intérpretes que os apontam como sendo os responsáveis por grande parte da carga de estresse (Alessandrini, 1990Alessandrini, Maria Serena 1990 “Translating Numbers in Consecutive Interpretation: An Experimental Study.” The Interpreters’ Newsletter 3: 77–80.Google Scholar). As pesquisas mostram que os níveis de precisão para a interpretação de números são bastante precários (cf. Seção 2); no entanto, a precisão melhora consideravelmente quando os números são exibidos em telas (Lamberger-Felber, 2001Lamberger-Felber, Heike 2001 “Text-oriented Research into Interpreting– Examples from a Case-study.” Hermes 26: 39–64.Google Scholar; Desmet; Vandierendonck; Defrancq, 2018Desmet, Bart, Mieke Vandierendonck, and Bart Defrancq 2018 “Simultaneous Interpretation of Numbers and the Impact of Technological Support.” In Interpreting and Technology, edited by Claudio Fantinuoli, 11–24. Berlin: Language Science Press.Google Scholar). Um software capaz de reconhecer os números a partir de textos e exibi-los, no interior das cabines de interpretação, em sua forma numérica, pode, portanto, ter um impacto significativamente positivo na interpretação de números.

Este artigo descreve os recursos, o uso e a usabilidade de um sistema desse tipo, o InterpretBank.22.Versão online gratuita disponível em: < www​.interpretbank​.com​/asr>. O advento do RAF neural tornou possível exibir, de forma instantânea, transcrições confiáveis que se encaixam na decalagem e, provavelmente, poderiam aprimorar as taxas de precisão. O uso de ferramentas de interpretação assistida por computador nas cabines de interpretação foi recém testado empiricamente em vários estudos (Prandi, 2018Prandi, Bianca 2018 “An Exploratory Study on CAI Tools in Simultaneous Interpreting: Theoretical Framework and Stimulus Validation.” In Interpreting and Technology, edited by Claudio Fantinuoli, 25–54. Berlin: Language Science Press.Google Scholar), mas nenhum deles lança mão de RAF. O modelo do InterpretBank usado no presente estudo, no entanto, disponibiliza o reconhecimento automático de fala na forma de uma transcrição, na qual os números são apresentados (majoritariamente) em sua forma numérica e em destaque. Este estudo, que é o primeiro desse tipo, avalia o desempenho do InterpretBank, compara a atuação dos intérpretes com e sem o apoio dessa tecnologia e explora a interação entre os intérpretes e a tecnologia dentro da cabine. A Seção 2 fornece uma visão geral da literatura sobre interpretação de números e a Seção 3 descreve a tecnologia testada e a configuração do experimento. A Seção 4 contém os resultados das diferentes análises, que são discutidos na Seção 5. Por fim, a Seção 6 contém as conclusões do estudo.

2.A interpretação de números

Embora haja consenso de que os números representem um grande desafio durante a realização da interpretação simultânea (Gile, 1995Gile, Daniel 1995Regards sur la recherche en interprétation de conférence [Views on Conference Interpreting Research]. Lille: Presses Universitaires de Lille.Google Scholar; Jones, 2002Jones, Roderick 2002Conference Interpreting Explained. 2nd ed. Manchester: St Jerome Publishing.Google Scholar; Setton; Dawrant, 2016Setton, Robin, and Andrew Dawrant 2016Conference Interpreting: A Complete Course. Amsterdam: John Benjamins. DOI logoGoogle Scholar), exigindo dos intérpretes estratégias específicas e desencadeando taxas de erro aparentemente altas, poucas pesquisas têm sido publicadas sobre o tema (Mead, 2015Mead, Peter 2015 “Numbers.” In Routledge Encyclopedia of Interpreting Studies, edited by Franz Pöchhacker, 286–288. Abingdon: Routledge.Google Scholar). Entre os estudos realizados, predominam os seguintes desenhos experimentais: entre 1996 e 2019, foram realizados pelo menos oito estudos empíricos, envolvendo intérpretes profissionais e estudantes (Braun; Clarici, 1996Desmet, Bart, Mieke Vandierendonck, and Bart Defrancq 2018 “Simultaneous Interpretation of Numbers and the Impact of Technological Support.” In Interpreting and Technology, edited by Claudio Fantinuoli, 11–24. Berlin: Language Science Press.Google Scholar; Lamberger-Felber, 2001Lamberger-Felber, Heike 2001 “Text-oriented Research into Interpreting– Examples from a Case-study.” Hermes 26: 39–64.Google Scholar; Mazza, 2001Mazza, Cristina 2001 “Numbers in Simultaneous Interpretation.” The Interpreters’ Newsletter 11: 87–104.Google Scholar; Pinochi, 2009Pinochi, Diletta 2009 “Simultaneous Interpretation of Numbers: Comparing German and English to Italian. An Experimental Study.” The Interpreters’ Newsletter 14: 33–57.Google Scholar; Timarová, 2012Timarová, Sarka 2012 Working Memory in Simultaneous Interpreting . PhD diss. KU Leuven.Google Scholar; Korpal, 2016Korpal, Paweł 2016Linguistic and Psychological Indicators of Stress in Simultaneous Interpreting. PhD diss. Adam Mickiewicz University.Google Scholar; Desmet; Vandierendonck; Defrancq, 2018Desmet, Bart, Mieke Vandierendonck, and Bart Defrancq 2018 “Simultaneous Interpretation of Numbers and the Impact of Technological Support.” In Interpreting and Technology, edited by Claudio Fantinuoli, 11–24. Berlin: Language Science Press.Google Scholar; Frittella, 2019Frittella, Francesca Maria 2019 “ ‘70.6 Billion World Citizens’: Investigating the Difficulty of Interpreting Numbers.” Translation and Interpreting 11 (1): 79–99. DOI logoGoogle Scholar). Apenas um estudo é baseado em corpus: o de Collard (2019)Collard, Camille 2019A Corpus-based Study of Simultaneous Interpreting with Special Reference to Sex. PhD diss. Ghent University.Google Scholar. Os resultados dos estudos empíricos confirmam que os números são mal interpretados e que as taxas de erro geralmente variam entre 30% e 70%, com taxas de erro mais altas entre os intérpretes em formação (Braun; Clarici, 1996Braun, Susanne, and Andrea Clarici 1996 “Inaccuracy for Numerals in Simultaneous Interpretation: Neurolinguistic and Neuropsychological Perspectives.” The Interpreters’ Newsletter 7: 85–102.Google Scholar; Korpal, 2016Korpal, Paweł 2016Linguistic and Psychological Indicators of Stress in Simultaneous Interpreting. PhD diss. Adam Mickiewicz University.Google Scholar; Frittella, 2019Frittella, Francesca Maria 2019 “ ‘70.6 Billion World Citizens’: Investigating the Difficulty of Interpreting Numbers.” Translation and Interpreting 11 (1): 79–99. DOI logoGoogle Scholar). Essas taxas de erro são motivo de preocupação: se, em média, um em cada dois números for interpretado incorretamente, a profissão poderá enfrentar sérios problemas de confiabilidade. No entanto, Collard (2019)Collard, Camille 2019A Corpus-based Study of Simultaneous Interpreting with Special Reference to Sex. PhD diss. Ghent University.Google Scholar, o único estudo disponível baseado em corpus, evidencia que em uma amostra de mais de 700 números interpretados no Parlamento Europeu, a taxa de erro é de apenas 21%. A presença de outro intérprete na cabine, ausente nos estudos empíricos, ou a disponibilização de documentos, podem explicar a discrepância entre os resultados de Collard (2019)Collard, Camille 2019A Corpus-based Study of Simultaneous Interpreting with Special Reference to Sex. PhD diss. Ghent University.Google Scholar e os dos estudos empíricos. Além disso, na maioria dos estudos empíricos, as taxas de erro podem ser aumentadas artificialmente devido a critérios excessivamente rígidos de precisão. Números aproximados, por exemplo, geralmente são contados como erros, embora possam ser aceitáveis em vários contextos. Diante disso, parece claro que um sistema confiável, disponibilizado no interior das cabines, pode ajudar o intérprete a aumentar seus níveis de precisão.

Isso também encontra justificativa no fato de que as taxas de erro caem significativamente quando os intérpretes recebem documentos na cabine (Lamberger-Felber, 2001Lamberger-Felber, Heike 2001 “Text-oriented Research into Interpreting– Examples from a Case-study.” Hermes 26: 39–64.Google Scholar), cenário em que eles podem fazer anotações enquanto interpretam (Mazza, 2001Mazza, Cristina 2001 “Numbers in Simultaneous Interpretation.” The Interpreters’ Newsletter 11: 87–104.Google Scholar), ou quando eles podem ver os números exibidos em uma tela na sala de conferências (Desmet; Vandierendonck; Defrancq, 2018Desmet, Bart, Mieke Vandierendonck, and Bart Defrancq 2018 “Simultaneous Interpretation of Numbers and the Impact of Technological Support.” In Interpreting and Technology, edited by Claudio Fantinuoli, 11–24. Berlin: Language Science Press.Google Scholar). Lamberger-Felber (2001)Lamberger-Felber, Heike 2001 “Text-oriented Research into Interpreting– Examples from a Case-study.” Hermes 26: 39–64.Google Scholar e Desmet, Vandierendonck e Defrancq (2018)Desmet, Bart, Mieke Vandierendonck, and Bart Defrancq 2018 “Simultaneous Interpretation of Numbers and the Impact of Technological Support.” In Interpreting and Technology, edited by Claudio Fantinuoli, 11–24. Berlin: Language Science Press.Google Scholar, por exemplo, observaram uma diminuição de 50% e 70% nos erros de interpretação, respectivamente. Mazza (2001)Mazza, Cristina 2001 “Numbers in Simultaneous Interpretation.” The Interpreters’ Newsletter 11: 87–104.Google Scholar relata uma diminuição de cerca de 10% nos erros quando os intérpretes podem fazer anotações, em comparação quando esse recurso não é permitido. No entanto, como nem todos os intérpretes do estudo de Mazza fizeram anotações quando lhes foi permitido, é difícil determinar qual é o efeito das anotações. Todos os três estudos, todavia, sugerem que a visualização de números melhora o desempenho dos intérpretes. O experimento descrito em Desmet, Vandierendonck e Defrancq (2018)Desmet, Bart, Mieke Vandierendonck, and Bart Defrancq 2018 “Simultaneous Interpretation of Numbers and the Impact of Technological Support.” In Interpreting and Technology, edited by Claudio Fantinuoli, 11–24. Berlin: Language Science Press.Google Scholar faz uso de apoio tecnológico simulado, no qual os intérpretes podem ver os números imediatamente após o texto fonte ser proferido. A queda de 70% nas taxas de erro obtida nesse experimento é relevante para os objetivos do presente estudo, pois as condições são semelhantes.

No que diz respeito aos sistemas que servem de apoio tecnológico aos intérpretes, três requisitos devem ser cumpridos. Em primeiro lugar, uma vez que os intérpretes tendem a detectar erros, um sistema totalmente automático deve apresentar informações muito precisas e deve ter níveis de precisão que superem os melhores intérpretes disponíveis no mercado. Os sistemas que não atendem a esse requisito podem afetar negativamente a interpretação de números, reduzindo o nível de confiança que os intérpretes depositam no sistema e os levando a abandonar completamente o recurso tecnológico. Em segundo lugar, os números reconhecidos automaticamente pelo sistema devem ser apresentados em um formato ergonomicamente adequado. No projeto experimental de Desmet, Vandierendonck e Defrancq (2018)Desmet, Bart, Mieke Vandierendonck, and Bart Defrancq 2018 “Simultaneous Interpretation of Numbers and the Impact of Technological Support.” In Interpreting and Technology, edited by Claudio Fantinuoli, 11–24. Berlin: Language Science Press.Google Scholar, os números foram exibidos em slides do Microsoft PowerPoint em uma tela atrás do falante, palestrante ou produtor do discurso fonte. O último número proferido por ele e os dois anteriores permaneciam em tela e eram atualizados à medida que cada número subsequente era reconhecido pelo sistema. Juntos, os três números exibidos ocupavam 60% do slide. Os participantes da pesquisa relataram que essa configuração era satisfatória. No entanto, logisticamente, ela é problemática, pois é improvável que as salas de conferência sejam equipadas com uma tela para o falante e outra para o intérprete. Para uma logística viável, os números devem ser exibidos no interior da cabine e em um formato que facilite a leitura. Em terceiro lugar, a latência do sistema deve ser mínima: os intérpretes não devem interromper o seu trabalho para aguardar a exibição dos números. Parte-se do pressuposto de que a “barreira do som” ideal esteja entre um e meio e dois segundos, já que a decalagem média, observada em vários estudos, é entre dois e meio e três segundos (Oléron; Nanpon, 1965/2002Oléron, Pierre, and Hubert Nanpon 1965/2002 “Research into Simultaneous Translation.” In The Interpreting Studies Reader, edited by Franz Pöchhacker and Miriam Shlesinger, 42–51. London: Routledge.Google Scholar; Christoffels, 2004Christoffels, Ingrid K. 2004Cognitive Studies in Simultaneous Interpreting. PhD diss. University of Amsterdam.Google Scholar; Defrancq, 2015Defrancq, Bart 2015 “Corpus-based Research into the Presumed Effects of Short EVS.” Interpreting 17 (1): 26–45. DOI logoGoogle Scholar). Basicamente, como mostra Collard (2019)Collard, Camille 2019A Corpus-based Study of Simultaneous Interpreting with Special Reference to Sex. PhD diss. Ghent University.Google Scholar, os intérpretes tendem a reduzir a decalagem quando os números são exibidos. Isso pode ter duas implicações para o presente estudo: por um lado, o uso do RAF poderia auxiliar o intérprete a mitigar o ônus de ter que reduzir a decalagem, uma vez que os números estão sendo exibidos; no entanto, por outro lado, se a decalagem precisar ser reduzida, independentemente da presença do RAF, a latência do sistema pode precisar ser reduzida ainda mais e bem abaixo da “barreira do som” antes citada.

Com base nesses requisitos técnicos, três perguntas de pesquisa foram delineadas:

  1. Um sistema de RAF, como o implementado no InterpretBank, é capaz de oferecer aos intérpretes transcrições viáveis em termos de ergonomia, precisão e latência?

  2. A disponibilização do RAF nas cabines melhora o desempenho dos intérpretes?

  3. Como os usuários percebem o apoio dado pelo RAF e interagem com ele na cabine?

3.Metodologia

3.1O InterpretBank

O sistema InterpretBank equipado com RAF (Fantinuoli, 2017Fantinuoli, Claudio 2017 “Speech Recognition in the Interpreter Workstation.” In Translating and the Computer 39: Proceedings, edited by João Esteves-Ferreira, Juliet Macan, Ruslan Mitkov, and Olaf-Michael Stefanov, 25–34. Geneva: Editions Tradulex.Google Scholar), usado neste experimento, é um protótipo de uma ferramenta de interpretação assistida por computador baseada na web, que transcreve, em tempo real, o discurso de um falante, disponibilizando ao intérprete números e suas unidades de medida, além de traduções alternativas para a terminologia empregada (extraída de um banco de dados de terminologia relacionada a eventos ou produzida por meio de tradução automática).

O fluxo operacional da ferramenta é linear. Primeiramente, o sinal acústico que o intérprete recebe no fone de ouvido é enviado para a placa de som do computador equipado com a ferramenta de RAF. O sinal de áudio é então enviado para a API do InterpretBank, que opera em um servidor localizado em Dresden, na Alemanha, e retorna a transcrição da fala em tempo real. O InterpretBank usa a API de transcrição fala-texto do Google.33. https://​cloud​.google​.com​/speech​-to​-text Alguns testes experimentais mostraram que, em comparação com seus principais concorrentes, a API do Google oferece a melhor qualidade de transcrição para recursos voltados para as ferramentas de interpretação assistida por computador (Brüsewitz, 2019Brüsewitz, Nora 2019 “Simultandolmetschen 4.0: Ist automatische Spracherkennung der nächste Schritt? [Simultaneous interpreting 4.0: Is automatic speech recognition the next step?]” In Proceedings of Übersetzen und Dolmetschen 4.0.– Neue Wege im digitalen Zeitalter [Translation and Interpreting 4.0– New Paths in the Digital Era], edited by Wolfram Bauer and Felix Mayer, 323–333. Berlin: BDÜ Fachverlag.Google Scholar), como terminologia especializada e números. Em segundo lugar, a transcrição é pré-processada, o que envolve dividir o fluxo de texto em unidades de n-palavras de tamanho fixo e normalizá-las (por exemplo, harmonizar a maneira como os números são transcritos). Em terceiro lugar, para cada janela de n-palavras são extraídas as unidades de interesse: números e suas unidades de medida são identificados, e os gramas de uma ou mais palavras são consultados no banco de dados terminológico carregado na ferramenta ou traduzidos por meio de tradução automática. Nessa fase, os algoritmos preditivos podem ser usados para selecionar de forma inteligente as unidades de interesse e aumentar a usabilidade da ferramenta (Vogler; Stewart; Neubig, 2019Vogler, Nicolai, Craig Stewart, and Graham Neubig 2019 “Lost in Interpretation: Predicting Untranslated Terminology in Simultaneous Interpretation.” ArXiv:1904.00930 [Cs]. http://​arxiv​.org​/abs​/1904​.00930). Por fim, os dados extraídos são exibidos no monitor do computador.

O protótipo do InterpretBank foi projetado a partir de três modelos diferentes de análise e visualização de dados, permitindo que diferentes abordagens da interação homem-máquina, no contexto da interpretação, fossem testadas empiricamente.44.Enquanto o Modelo 1 pode fornecer muitas informações visuais para o usuário (a transcrição completa), o Modelo 2 suprime o fluxo de texto e disponibiliza apenas a interface do usuário extraída de forma vertical (como um prompt de TV), com as informações mais recentes destacadas na parte superior. O Modelo 3 faz uso de algoritmos avançados para identificar a terminologia sem qualquer referência de fundo (o glossário de eventos) e propõe opções de tradução ad hoc usando tradução automática, bem como os pares número/unidade. A visualização é a mesma do Modelo 2. O Modelo 1, usado em nosso experimento, era a única opção disponível. Ele identifica os números e as unidades terminológicas contidas no banco de dados de terminologia de eventos e exibe toda a transcrição com as unidades de interesse destacadas. A justificativa por trás disso é manter o contexto informacional das unidades de análise, que podem ajudar o intérprete a desambiguar a informação (por exemplo, em termos de correferências). Nesse modelo, os números são exibidos de acordo com a transcrição produzida pelo sistema de RAF, sem nenhum tipo de normalização (por exemplo, os números podem ser transcritos como dígitos ou como palavras, dependendo das convenções do idioma específico).

Como o tempo desempenha um papel central na interpretação simultânea, foi feito, em nosso experimento, um esforço para manter a latência ao mínimo e dentro dos valores de decalagem descritos pela literatura (cf. Seção 2). Para atingir esse objetivo, o InterpretBank usa os resultados provisórios do reconhecimento automático de fala e não os resultados finais fornecidos pelo mecanismo de RAF. O fluxo temporário de transcrição, portanto, disponibiliza resultados provisórios com baixa latência enquanto a frase ainda está sendo enunciada. A transcrição é baseada em uma aproximação muito alta de resultados (ou seja, alta taxa de erro), redundâncias e correções contínuas. Para usar esse fluxo de dados de maneira significativa, o mecanismo de RAF aplica análises e transformações de texto por meio de um conjunto de algoritmos que imitam a elaboração final do áudio.

3.2Teste preliminar

Foi feito um teste preliminar com dois trechos de fala pré-gravados e sem interpretação para ver como o sistema exibiria os números e testar a configuração global do experimento. Durante o teste, ficou claro que as falas não devem ultrapassar cinco minutos, pois a versão experimental do InterpretBank está configurada para exibir a transcrição por cinco minutos e meio sem a necessidade de reativar o serviço. As taxas de reprodução muito altas causam sobrecarga no sistema, aumentando a probabilidade de alguns números deixarem de ser reconhecidos ou afetando negativamente a precisão do reconhecimento. Decidiu-se, portanto, limitar as taxas de reprodução e os trechos de fala a aproximadamente 650 palavras. O falante conseguiu manter as taxas de entrega dentro de um intervalo de 105 a 122 palavras por minuto para o experimento. Novos discursos foram elaborados para a fase experimental.

O produto do RAF é exibido em um campo de texto na metade inferior da tela (cf. Figura 1). Os números aparecem em uma fonte maior e em vermelho. O InterpretBank não avança automaticamente para baixo quando o campo de texto está cheio, e a rolagem manual é necessária após um certo ponto. Alguns números foram mostrados por extenso (ou seja, two (dois), three (três) e ten (dez)), o que aconteceu de forma sistemática com o número “1”, que, portanto, deixou de ser levado em consideração. As palavras million (milhão) e billion (bilhão) também foram mostradas por extenso em todas as vezes, mesmo quando combinadas com outro número, além de não terem sido destacadas. Decidiu-se, no entanto, incluir esse tipo de número na fase experimental, porque removê-los limitaria severamente a relevância do estudo.

3.3Equipamento

O teste preliminar e o experimento foram executados em um laboratório Televic Education AVIDAnet ® Smart Interpreter Lab, que comporta uma mesa de conferência e dez cabines de interpretação. A mesa de conferência está equipada com um PC do professor-instrutor e duas telas de 17″, uma das quais é usada para gerenciamento do sistema e da cabine e a outra para aplicativos comuns de PC. Esse último foi usado para monitorar o reconhecimento automático de fala enquanto o discurso fonte era apresentado.

Seis cabines foram utilizadas para o experimento, todas permitindo o contato visual com o falante na sala de conferências. Cada cabine está equipada com dois consoles de intérprete, uma tela de 17″ e uma webcam. A tela é parcialmente inserida na mesa da cabine e inclinada em um ângulo de 30 a 35°. Os intérpretes podem alternar entre três exibições na tela: tela do PC do professor/instrutor, imagem da câmera da mesa e tela do PC da cabine. Para fins do experimento, as telas das cabines 2, 3 e 4 foram conectadas à tela do PC do professor/instrutor, exibindo o reconhecimento automático de fala, conforme mostra a Figura 1. As telas das cabines 7, 8 e 9 exibiam a imagem da câmera do falante.

Figura 1.Exibição do reconhecimento automático de fala e números na cabine
Figura 1.

O laboratório AVIDAnet® Smart Interpreter Lab permite a gravação sincronizada dos trechos de fala de partida (áudio), da pessoa que a está enunciando (vídeo), do desempenho dos intérpretes (áudio) e seu comportamento na cabine (vídeo). Para o experimento, a gravação de vídeo do falante não foi necessária e, portanto, foi desligada. A gravação de vídeo na cabine foi fundamental para saber se os participantes buscaram o apoio do RAF. Como a tela está situada bem abaixo do campo visual do falante, foi possível identificar visualmente os momentos em que os participantes consultaram a tela. Infelizmente, em uma das cabines a webcam estava mal posicionada e o vídeo não pôde ser usado. Observar uma mudança no olhar não implica que o intérprete realmente viu o número e o usou para interpretar; portanto, nos referimos a essas observações como um uso “presumido” do RAF. Uma cabine adicional foi usada para gravar a exibição do reconhecimento automático de fala na cabine e a entrada de áudio do console do intérprete (discurso fonte). Isso foi feito para determinar a precisão do RAF e medir sua latência. Uma câmera de aproximação Q2n foi usada para essa finalidade.

3.4Participantes

Os participantes eram alunos regularmente matriculados, em tempo integral, no Programa de Pós-graduação em Interpretação de Conferências da Universidade de Gante, na turma do ano de 2019. Todos os seis participantes eram do sexo feminino e com idades entre 23 e 24 anos. A língua materna dos participantes era o holandês, que foi o idioma alvo do experimento. O idioma fonte dos discursos foi o inglês. Três dos seis participantes têm o inglês como língua B e três como língua C. Todos os participantes tinham diploma de mestrado em Interpretação, com foco nos princípios, métodos e técnicas da interpretação comunitária. Eles estavam familiarizados com a interpretação consecutiva e simultânea e tinham 60 horas de experiência em interpretação simultânea do inglês para o holandês.

O experimento ocorreu no dia 17 de maio de 2019. Os participantes não receberam treinamento específico sobre o uso do RAF na cabine; eles tiveram, no entanto, ampla oportunidade de treinar com outros tipos de informações exibidas nas telas, como textos e apresentações em PowerPoint. Eles foram informados de que o experimento tratava da interpretação de números e que eles teriam acesso às transcrições automáticas para auxiliá-los nessa tarefa. Admite-se que isso pode ter feito com que eles se concentrassem mais na interpretação de números durante o experimento do que normalmente o fariam. No entanto, para fins de teste e avaliação do protótipo de RAF, tivemos pouca escolha a não ser informá-los desde o início sobre a configuração do experimento.

Nosso interesse centrou-se na validade logística e tentamos imitar as condições reais de formação, como geralmente implementadas no Curso de Interpretação da Universidade de Gante. Por esse motivo, optamos por não usar discursos pré-gravados e, em vez disso, pedimos a um dos professores que realizasse os discursos em tempo real. Essa decisão limitou o número de participantes, uma vez que os discursos não podem ser proferidos várias vezes de forma completamente idêntica, o que por sua vez limita a generalização dos resultados. Também procuramos manter o perfil dos participantes da pesquisa o mais homogêneo possível em termos de experiência com interpretação simultânea e, por isso, decidimos convidar para o experimento apenas os alunos do Curso de Interpretação de Conferências da Universidade de Gante.

3.5Discursos

Quatro discursos em inglês foram preparados (e proferidos) por uma professora de interpretação que é quase nativa em inglês. Pedimos que ela preparasse discursos de aproximadamente cinco minutos e meio voltados para a formação em interpretação simultânea, sobre temas que ela poderia escolher livremente e que tivessem estrutura retórica clara. As falas incluíam uma introdução de aproximadamente um minuto sem números, seguida de uma parte descritiva que incluía números e terminava com uma conclusão. Pedimos que ela incluísse pelo menos 20 números de vários tipos e graus de complexidade para cada texto, sem, no entanto, limitarmos um número máximo. Dentre os tipos de números, buscou-se representar números inteiros positivos, números decimais e datas. As Tabelas 1, 2 e 3 fornecem informações detalhadas sobre as propriedades dos discursos e os números neles incluídos.

A Tabela 1 mostra que três das falas ultrapassaram o limite de cinco minutos e meio. As taxas de transmissão do discurso fonte variaram entre 105 e 122 palavras por minuto, muito próximas da taxa ideal para intérpretes e próximas da variação (100 a 110 palavras por minuto) dos melhores resultados obtidos pelos estagiários participantes do estudo de Korpal e Stachowiak-Szymczak (2020)Korpal, Paweł, and Katarzyna Stachowiak-Szymczak 2020 “Combined Problem Triggers in Simultaneous Interpreting: Exploring the Effect of Delivery Rate on Processing and Rendering Numbers.” Perspectives: Studies in Translation Theory and Practice 28 (1): 126–143. DOI logoGoogle Scholar.

Os níveis de complexidade dos discursos-fonte, bastante semelhantes, foram medidos post hoc para que pudessem ser levados em consideração na interpretação dos resultados. No Índice de Flesch de Facilidade de Leitura, a diferença entre o discurso mais difícil e o mais fácil é inferior a 10 pontos (ou a duas notas no curso). No Índice Gunning Fog, a diferença é inferior a 2,5 pontos (ou duas notas e meia no curso). De acordo com ambos os índices, o Discurso 2 é o mais fácil. Não há concordância entre os dois índices no ranking dos demais discursos. Isso demonstra que, com exceção do Discurso 2, os níveis de dificuldade mostraram-se compatíveis.

No total, 119 números foram apresentados acusticamente aos participantes (cf. Tabela 2). O Discurso 3 continha quase o dobro de números que cada um dos outros três discursos, o que se deve principalmente ao fato de o discurso ter feito comparações sistemáticas entre duas cidades belgas. Isso afeta potencialmente a comparabilidade dos resultados entre os discursos e entre os grupos.

Tabela 1.Propriedades dos discursos-fonte
Número e tópico do discurso Extensão (palavras) Duração (minutos) Taxa do discurso (palavras/minuto) Índice de Flesch de Facilidade de Leitura Índice Gunning Fog
1. Salário de jogadores de futebol  628  5’58” 105 57,73 11,99
2. Agentes imobiliários  671  5’32” 121 62,60 10,78
3. Carnaval de Aalst e Festival de Gante  715  5’55” 121 59,08 13,11
4. Amazon  657  5’24” 122 54,82 12,22
Total 2671 22’47”
Tabela 2.Frequência de números por tipos de números
Tipo de número
Número e tópico do discurso Números inteiros Números decimais Datas Total
1. Salário de jogadores de futebol 17  2  6  25
2. Corretores imobiliários 16  3  2  21
3. Carnaval de Aalst e Festival de Gante 31  5  9  45
4. Amazon 12  4 12  28
Total 76 14 29 119

Um Teste Exato de Fisher confirmou que, embora os diferentes tipos de números não sejam distribuídos de forma idêntica nos textos, sua distribuição não difere significativamente (p = 0,15). As diferenças no desempenho dos participantes não podem, portanto, ser atribuídas a diferenças na frequência de tipos específicos de números.

A complexidade numérica varia entre os idiomas: em inglês, números como “100” e “1000” consistem em dois itens numéricos (one hundred (cem) e one thousand (mil)), ao passo que em muitos outros idiomas, como o idioma de destino neste estudo, o holandês, eles consistem apenas em um item (honderd e duizend). Apenas a complexidade do idioma fonte foi levada em consideração e distinguimos quatro níveis de complexidade, de acordo com o número de itens numéricos incluídos na forma falada do número:

  • Nível 1 refere-se a números com um ou dois itens numéricos (por exemplo, “2”, “63” ou “40,5”).

  • O nível 2 refere-se a números com três ou quatro itens numéricos (por exemplo, “124”, “1024”, “310 000” ou “7,6 milhões”).

  • O nível 3 refere-se a números com cinco ou seis itens numéricos (por exemplo, “1130”, “1 406 000”).

  • O nível 4 refere-se a números com mais de seis itens numéricos (por exemplo, “17 345 133”).

A Tabela 3 fornece uma visão geral da frequência dos números de acordo com o nível de complexidade em cada discurso.

Tabela 3.Frequências de números de acordo com o nível de complexidade
Nível de complexidade
Discurso Nível 1 Nível 2 Nível 3 Nível 4 Total
1  8 10  5 2  25
2  7 11  2 1  21
3 17 23  5 0  45
4  7 17  3 1  28
Total 39 61 15 4 119

Um Teste Exato de Fisher confirmou que, embora os diferentes níveis de complexidade não estejam distribuídos de forma idêntica pelos textos, sua distribuição não difere significativamente (p = 0,62) e, portanto, as diferenças no desempenho dos participantes não podem ser atribuídas à distribuição desigual.

3.6Procedimento

Os participantes não foram informados previamente sobre os temas dos discursos. Eles foram divididos em dois grupos de três, com cada grupo composto por pelo menos um aluno com inglês como língua B e um com inglês como língua C. Ambos os grupos interpretaram alternadamente em cabines com e sem o apoio do RAF (cf. Tabela 4), com intervalos de cinco minutos entre cada discurso. Ao todo, o experimento durou 45 minutos.

Tabela 4.Composição do grupo e apoio equilibrado do RAF
Membro do grupo Discurso
1. Salários de jogadores de futebol 2. Corretores Imobiliários 3. Carnaval de Aalst e Festival de Gante 4. Amazon
S1.1 Sem apoio Com apoio Sem apoio Com apoio
S1.2 Sem apoio Com apoio Sem apoio Com apoio
S1.3 Sem apoio Com apoio Sem apoio Com apoio
S2.1 Com apoio Sem apoio Com apoio Sem apoio
S2.2 Com apoio Sem apoio Com apoio Sem apoio
S2.3 Com apoio Sem apoio Com apoio Sem apoio

Em um ponto durante a Discurso 1, a rolagem manual falhou e dois números permaneceram invisíveis para os participantes. Esses números foram excluídos das análises de desempenho do intérprete. Os Discursos 1, 2 e 3, que ultrapassaram cinco minutos e meio, não foram transcritos integralmente pelo RAF. Como resultado, 14 números não foram exibidos na tela. Esses números não foram desconsiderados na análise, pois forneceram uma oportunidade imprevista para estudar o efeito da perda repentina do apoio do RAF. As Tabelas 5 e 6 mostram o número de itens que foram realmente exibidos pelo RAF durante o experimento.

Tabela 5.Números exibidos em relação aos números apresentados acusticamente (entre parênteses), por tipo de número
Tipos de números
Discurso Números inteiros positivos Decimais Datas Total
1 11 (17) 1 (2) 6 (6) 18 (25)
2 15 (16) 3 (3) 2 (2) 20 (21)
3 23 (31) 5 (5) 9 (9) 37 (45)
4 12 (12) 4 (4) 12 (12) 28 (28)
Total 61 (76) 13 (14) 29 (29) 103 (119)
Tabela 6.Números exibidos em relação aos números apresentados acusticamente (entre parênteses), por nível de complexidade
Nível de complexidade
Discurso Nível 1 Nível 2 Nível 3 Nível 4 Total (exibido)
1 5 (8)  9 (10) 4 (5) 0 (2) 18 (25)
2 7 (7) 10 (11) 2 (2) 1 (1) 20 (21)
3 10 (11) 22 (23) 5 (5) 0 (0) 37 (45)
4 7 (7) 17 (17) 3 (3) 1 (1) 28 (28)
Total 29 (39) 58 (61) 14 (15) 2 (4) 103 (119)

Os participantes foram convidados a preencher um questionário composto por seis questões, que versavam sobre o uso, a usabilidade e a avaliação da precisão do sistema de RAF; incluindo até que ponto o sistema interferiu negativamente na tarefa de interpretação, quais formatos de exibição os participantes prefeririam (ou seja, apenas números) e uma última pergunta solicitando comentários adicionais. As quatro primeiras questões foram respondidas por meio de uma escala Likert de cinco pontos (nunca – raramente – algumas vezes – quase sempre – sempre). A quinta pergunta (que indagava se os participantes prefeririam um formato em que apenas números fossem exibidos) poderia ser respondida com ‘Sim’ ou ‘Não’. A sexta questão era aberta. As perguntas 1, 3 e 4 tinham perguntas de acompanhamento abertas sobre o tipo de informação que os participantes retiraram do RAF (apenas números ou outros itens na transcrição), sua reação a erros do reconhecimento automático de fala e suas interações com a transcrição em execução.

3.7Processamento e análise de dados

As gravações audiovisuais da tela da cabine 1 foram analisadas por meio do software de gravação e mixagem de áudio Reaper.55.Disponível em: <https://​www​.reaper​.fm/>. As etiquetas de tempo foram colocadas em quatro pontos: (1) no início do sinal acústico correspondente ao número; (2) no primeiro frame do vídeo em que uma parte ou o número inteiro é exibido em forma numérica; (3) no final do sinal acústico do número; e (4) no primeiro quadro de vídeo que exibia a versão final do número em forma numérica. Se o número transcrito estava correto era irrelevante. Devido às propriedades de fluxo de trabalho do InterpretBank (cf. Seção 3.1), a transcrição mudou consideravelmente de forma. Por exemplo, uma instância de 300 000 passou pelos seguintes estágios (Exemplo (1)):

(1)

três > 3 > 300 > 300 000 > 300 000

Para ilustrar como as marcações de tempo foram adicionadas, no Exemplo (1) etiquetamos o segundo estágio (início da exibição numérica) e o quarto estágio (versão completa, exceto pontuação). Excluímos os frames que mostravam a versão ortográfica do número e consideramos a adição da vírgula durante a última etapa irrelevante para o reconhecimento humano do número. Exceções foram feitas no caso de números exibidos apenas por extenso, como two (dois), million (milhões) e billion (bilhões). Quando a pontuação foi considerada relevante – como por exemplo em números decimais – a marcação de tempo final foi colocada quando a forma decimal completa foi exibida.

A latência para cada número foi determinada ao subtrairmos as etiquetas de início e fim da gravação do vídeo na cabine 1 (saída do RAF) das etiquetas de tempo correspondentes adicionadas à articulação do número. Embora o Reaper exiba o tempo em milissegundos, decidimos arredondar para centissegundos, pois a gravação do vídeo foi realizada a uma taxa de 60 frames por segundo.

As interpretações dos participantes foram gravadas (assim como o discurso fonte) e verificadas manualmente quanto à precisão do número. O desempenho foi avaliado apenas em termos de precisão da interpretação de números, uma vez que outros critérios estão além do escopo deste artigo. A avaliação foi realizada em dois níveis, de acordo com Collard (2019)Collard, Camille 2019A Corpus-based Study of Simultaneous Interpreting with Special Reference to Sex. PhD diss. Ghent University.Google Scholar: inicialmente, foi feita uma distinção geral entre aquilo que foi interpretado e aquilo que foi omitido; e depois, as interpretações foram classificadas em diferentes tipos (cf. Tabela 7).

Tabela 7.Categorias de interpretação
Categoria Explicação
Interpretação completa O número é completa e inteiramente interpretado, ocasionalmente depois de uma primeira tentativa errônea ou incompleta. Isso inclui os casos nos quais um ano é interpretado em sua forma reduzida (por exemplo: “1997” interpretado como “97”).
Aproximação A ordem está correta, mas o número é arredondado (por exemplo: “1864” interpretado como “1800”).
Substituição relacionada O número é substituído por outro número que guarda certa semelhança com o número original. A relação pode ser fonológica (por exemplo, “14” interpretado como “40”); ou sintática (por exemplo: “47” é interpretado como “470” ou como “74”).
Substituição não relacionada O número ou partes dele são substituídas por um número que não está a ele relacionado. A substituição pode ser parcial (por exemplo: “72” interpretado como “73”), ou total (por exemplo: “58” interpretado como “140”).

Há uma linha de precisão óbvia entre esses tipos que pode ser descrita da seguinte forma: interpretação completa> aproximação> substituição relacionada> substituição não relacionada> omissão. Classificamos as instâncias em que os tipos de interpretação foram combinados como exemplos de tipos que são mais baixos na variação de precisão. Por exemplo, quando o número “69 381” foi interpretado como “mais de 6 000”, foi analisado como um caso de substituição relacionada (em que a relação foi sintática, pois a ordem de grandeza encontra-se deslocada) e não como um caso de aproximação. Uma vez que a variação de precisão é usada apenas na análise para auxiliar nas decisões para casos híbridos, a discussão da precisão não é realizada aqui.

O desempenho dos participantes foi analisado por meio de estatística inferencial simples, como um teste qui-quadrado. O uso de estatísticas inferenciais para uma população tão pequena pode parecer controverso, mas como estamos preocupados principalmente com a variação intrapessoal e dentro do item entre as condições de apoio, as estatísticas inferenciais são informativas. O limiar de significância foi fixado em 0,05.

4.Resultados

4.1Descobertas sobre o RAF

4.1.1Ergonomia

No que diz respeito à avaliação geral dos participantes sobre a usabilidade do sistema de RAF, quatro participantes indicaram que “às vezes” ele é vantajoso, ao passo que dois consideraram que é “frequentemente” vantajoso. Curiosamente, nos comentários abertos, dois participantes descreveram a usabilidade do sistema por meio de metáforas como “rede de segurança” e “backup de emergência”.

Quatro participantes relataram que, às vezes, ou, muitas vezes, se distraíam com a transcrição; três dos quais alegaram ter cometido erros devido à transcrição. Três participantes indicaram que seria melhor se apenas os números fossem exibidos, ao passo que três indicaram preferência por números e unidades. Quatro participantes indicaram que usaram a transcrição para itens como nomes, dentre outros.

Outros comentários estavam relacionados à forma como os números foram exibidos. Dois participantes acharam que os números deveriam ser exibidos apenas em sua versão final, porque eles se distraíam com as mudanças nas formas. Isso é surpreendente, pois as medições de latência (cf. Seção 4.1.2) mostram que o InterpretBank exibiu a versão final de todos os números em latências abaixo da média da decalagem dos participantes. Os comentários parecem, assim, indicar que os participantes possuem uma decalagem muito curta ou que consultaram a transcrição assim que ouviram o número (e sem terem pronunciado o número na sua própria interpretação).

Dois participantes indicaram que prefeririam que os números fossem exibidos de forma diferente, seja em um quadro separado da tela ou em um formato maior. Basicamente, apenas um participante relatou que parou de usar o sistema durante uma das interpretações. Parece assim que, apesar dos pontos negativos, os participantes apreciam os benefícios do apoio do RAF, especialmente como uma ferramenta que fornece uma rede de segurança.

4.1.2Latência

As latências médias e intervalos para os números são apresentados na Tabela 8.

Os resultados variam consideravelmente de acordo com os discursos. Uma razão bastante óbvia para isso está relacionada à taxa de reconhecimento automático, que foi mais lenta no caso do Discurso 1 (105 palavras por minuto) em comparação com os outros discursos (121–122 palavras por minuto). As diferenças entre os Discursos 2 a 4 não foram analisadas em detalhes, mas parece que os números curtos e as datas desencadeiam latências um pouco mais longas: o Discurso 4 contém 12 datas de um total de 28 números, enquanto o Discurso 1 contém apenas seis datas de um total de 20 números. Os erros de pronúncia e as autocorreções também têm um efeito limitado.

Tabela 8.Latências médias do RAF e variações por números em centissegundos (cs)
Discurso Início da latência Latência final
Média (cs) Variação (cs) Média (cs) Variação (cs)
1 0,84 0,54–1,12 0,28 0,05–0,54
2 0,97 0,73–1,41 0,66 0,38–1,19
3 1,19 0,82–2,23 0,64 0,21–1,45
4 1,63 0,75–2,56 1,04 0,44–1,78
Todos os discursos 1,20 0,54–2,56 0,69 0,05–1,78

Parece que o InterpretBank se vincula ao discurso do falante à medida que o processo se desenrola: as latências iniciais foram, em média, meio segundo mais altas do que as latências finais. Além disso, todas as latências finais ficaram abaixo da decalagem média relatada na literatura (cf. Seção 2). Apenas um montante de casos quebrou a “barreira do som” de um segundo e meio. Isso significa que, desde que os intérpretes mantenham uma decalagem média, o número é legível em sua versão final antes que os intérpretes cheguem ao ponto em que o interpretariam. Assim, o InterpretBank parece oferecer um RAF vantajoso para a cabine.

4.1.3Precisão do RAF para números

Os valores de precisão mostrados na Tabela 9 são para os números que foram exibidos e excluem aqueles que não foram exibidos, o que geralmente ocorreu no final das falas quando o RAF parou de transcrever. Dois números no Discurso 1 foram transcritos, mas não foram exibidos a tempo devido à falha da rolagem automática para baixo. No entanto, esses são incluídos nos dados, causando uma singela discrepância com os totais nas Tabelas 5 e 6.

Tabela 9.Precisão do RAF em termos de números
Discurso Número de números exibidos Número de números exibidos corretamente Precisão (%)
1  20  20 100
2  20  17  85
3  37  37 100
4  28  27  96
Todos os discursos 105 101  96

Com 96% dos números exibidos corretamente, a precisão do RAF está alinhada com os resultados de estudos semelhantes (cf. Brüsewitz, 2019Brüsewitz, Nora 2019 “Simultandolmetschen 4.0: Ist automatische Spracherkennung der nächste Schritt? [Simultaneous interpreting 4.0: Is automatic speech recognition the next step?]” In Proceedings of Übersetzen und Dolmetschen 4.0.– Neue Wege im digitalen Zeitalter [Translation and Interpreting 4.0– New Paths in the Digital Era], edited by Wolfram Bauer and Felix Mayer, 323–333. Berlin: BDÜ Fachverlag.Google Scholar). Os erros ocorreram devido às autocorreções do falante (“44 500” para “four thou/ four thousand five hundred” no Discurso 2; “1 e 160 000” para “one hu/ one hundred and six thousand” no Discurso 4), à transcrição parcialmente ortográfica (“2 000 e 2” para 2 002) e à homonímia (“to” em vez de “2”). Em todos os casos, a precisão do RAF é maior do que os níveis de precisão dos intérpretes citados em pesquisas experimentais e baseadas em corpus. Portanto, o RAF tem o potencial de ajudar o intérprete a melhorar sua precisão.

Cinco participantes indicaram que “às vezes” ou “raramente” detectaram erros nas exibições do sistema; apenas uma participante indicou que “nunca” detectou um erro. Curiosamente, dois participantes alegaram que não cometeram erros quando o RAF exibiu um número incorreto. Como será mostrado na Seção 4.3.1, em um caso, todos os participantes que receberam a transcrição incorreta cometeram erros.

4.2Descobertas sobre o possível uso do RAF

As descobertas sobre o possível uso do RAF pelos participantes são baseadas nos resultados de quatro participantes. Os participantes buscaram o apoio do RAF em 55% dos casos, como mostra a Tabela 10. Houve variação considerável entre os participantes e discursos.

Tabela 10.Interrupção no uso presumido do apoio do RAF
Discurso S2.2 S2.3 S1.2 S1.3
Apoio não procurado Apoio procurado Apoio não procurado Apoio procurado Apoio não procurado Apoio procurado Apoio não procurado Apoio procurado
1  5 13  5 13
2  5 15 13  7
3 32  5  7 30
4 14 14 11 17
Total 37 18 12 43 19 29 24 24
Apoio não procurado Apoio procurado
Total 92 (44,7%) 114 (55,3%)

Os participantes S2.2 e S1.2 procuraram o apoio do RAF com menos frequência para o segundo discurso do que para o primeiro. S1.3 e S2.3 seguiram uma tendência oposta. A baixa taxa de consultas, portanto, não pode ser atribuída à falta de familiaridade dos participantes com o RAF na cabine: pode-se supor que os participantes estavam mais familiarizados com o RAF após a primeira fala do que antes, mas a taxa geral de consultas caiu do primeiro para o segundo discurso. Esses dados sugerem que pelo menos dois participantes se sentiram confiantes o suficiente em suas próprias habilidades em lidar com a maioria dos números sem o apoio do RAF.

Por fim, também procuramos determinar se a extensão em que os participantes procuram o apoio do RAF varia de acordo com o tipo de número, assumindo que os números mais complexos, incluindo decimais, podem incentivar os intérpretes a buscar apoio. Surpreendentemente, esse não foi o caso, como mostrado na Figura 2. A proporção de números para os quais o apoio é procurado, ou não, permanece estável em todos os níveis de complexidade. O apoio é procurado com um pouco menos de frequência no caso de datas, mas a diferença não é significativa (cf. Tabela 11). Em contraste, os participantes parecem buscar o RAF com mais frequência para decimais.

Figura 2.Uso do RAF dentre os diferentes tipos de números e níveis de complexidade

(Tradução dos itens da Figura 2: à esquerda o Número de casos, ao centro complexidade do número, data e decimal, à direita apoio procurado (vermelho) e apoio não procurado (azul)

Figura 2.
Tabela 11.Dados estatísticos sobre a frequência do uso do RAF dentre os diferentes tipos de números
X2 Df p
Níveis de complexidade 1–4 0,766 3 0,87
Datas 1,797 1 0,18
Decimais 4,870 1 0,02

Os resultados da Tabela 11 podem refletir a falta de familiaridade dos participantes com o RAF na cabine. Os participantes não foram especificamente treinados para usar o sistema e parecem não saber quando ele pode ser mais útil. Vários participantes comentaram no questionário que é preciso se acostumar com o sistema ou que é necessário treinamento para utilizá-lo. Alternativamente, também é possível que, quando os intérpretes experimentam alta carga cognitiva causada por números complexos, o incentivo ao uso do RAF é compensado pela carga extra prevista envolvida na consulta de informações escritas exibidas em uma tela.

4.3Descobertas sobre o desempenho

4.3.1As interpretações, a disponibilização do RAF e o seu uso presumido

O reconhecimento automático de números parece não ser influenciado pela dificuldade do discurso. Ambos os índices de legibilidade indicaram que o Discurso 2 foi o mais fácil, mas um teste qui-quadrado de associação entre os discursos e seus respectivos reconhecimentos não apresentou resultados significativos (χ 2 = 16,234; df = 12; p = 0,18). A Figura 3 mostra as frequências dos diferentes tipos de interpretações entre os participantes em contextos com e sem o apoio do RAF. O número total de reconhecimentos não é equilibrado entre as condições, pois alguns reconhecimentos feitos com o apoio do RAF envolvem casos em que a transcrição do RAF não foi exibida devido a limitações técnicas do protótipo do sistema. A disponibilização do apoio do RAF aumenta claramente a proporção de transcrições completas no número total de transcrições (de 67,7% para 90,2%) e reduz drasticamente o número de omissões (de 15,8% para 3,5%). Isso significa que a precisão dos participantes melhora em quase um terço (um ganho de 22,5% em 67,7%) com o apoio do RAF, que é menor do que o ganho relatado em Desmet, Vandierendonck e Defrancq (2018)Desmet, Bart, Mieke Vandierendonck, and Bart Defrancq 2018 “Simultaneous Interpretation of Numbers and the Impact of Technological Support.” In Interpreting and Technology, edited by Claudio Fantinuoli, 11–24. Berlin: Language Science Press.Google Scholar.

Figura 3.Tipos de interpretação com ou sem o apoio do RAF

(Tradução dos itens da Figura 3: à esquerda o Número de casos, ao centro não disponível e disponível, à direita substituição não relacionada (em rosa), substituição relacionada (em azul escuro), aproximação (em amarelo), interpretação completa (em vermelho) e omissão (em azul claro)

Figura 3.

O teste qui-quadrado (χ 2 = 54,258; df = 4; p < 0,001) confirma que a disponibilização do apoio do RAF está significativamente associada às frequências dos tipos de transcrição. O apoio do RAF aumenta a parcela de transcrições completas e reduz a parcela de omissões e todos os outros tipos de transcrição.

Para verificar se a perda do apoio do RAF influencia nas interpretações dos participantes, extraímos as transcrições para interpretações em cabines com apoio do RAF, onde tal tecnologia estava temporariamente indisponível. No total, 14 casos ocorreram, resultando em um total de 42 transcrições. Os níveis de precisão parecem despencar nesses casos: as transcrições completas representam apenas 50% das transcrições. Curiosamente, quando o RAF fica indisponível, os níveis de precisão caem abaixo de 69,1%, o nível registrado em cabines onde o RAF não estava disponível durante todo o discurso. Note-se que esta condição não foi contrabalançada: 13 dos 14 números foram apresentados ao mesmo grupo na mesma condição (Grupo 1 com o apoio do RAF e Grupo 2 sem). No entanto, os resultados parecem indicar que os participantes tendem a confiar demais no RAF quando disponível e se esforçaram muito para se recuperarem quando tal recurso foi subitamente retirado.

Deve-se ressaltar que a Figura 3 mostra a diferença entre a disponibilização e a indisponibilização do apoio do RAF, e não leva em consideração se os participantes realmente consultaram a transcrição que estava disponível. Portanto, também analisamos os dados das câmeras colocadas nas cabines para investigar os tipos de transcrição de acordo com a orientação dos olhos dos participantes para verificar se houve ou não procura pelo apoio do RAF. A Figura 4 apresenta os resultados dessa análise. Deve-se notar que os dados da Figura 4 referem-se apenas aos dados de duas cabines. Como já mencionado, o apoio do RAF foi oferecido em três cabines, mas em uma delas a câmera estava mal posicionada.

Figura 4.Tipos de interpretação e uso do apoio do RAF

(Tradução dos itens da Figura 4: à esquerda o Número de casos, ao centro apoio não procurado e apoio procurado, à direita substituição não relacionada (em rosa), substituição relacionada (em azul escuro), aproximação (em amarelo), interpretação completa (em vermelho) e omissão (em azul claro)

Figura 4.

A proporção de interpretações completas aumenta para 94,9% quando o apoio do RAF é procurado, em comparação com 82,8% quando nenhum apoio é procurado. Com exceção de substituições relacionadas (que são semelhantes em ambas as condições), as participações dos três tipos de transcrição restantes são reduzidas quando o apoio do RAF é procurado. Como havia menos dados disponíveis neste caso, foi realizado um Teste Exato de Fisher, que revela que as tentativas dos participantes de buscar o apoio do RAF estão significativamente associadas à distribuição dos tipos de transcrição (Teste Exato de Fisher = 8,740; p = 0,03).

Curiosamente, parece que a precisão dos participantes melhora quando lhes é oferecido apoio do RAF, consultando-o ou não. As interpretações completas representam 67,7% das interpretações quando não há apoio do RAF disponível, em comparação com 82,8% quando o RAF está disponível, mas não é usado. Uma explicação para isso pode ser que, quando o apoio do RAF está disponível, os participantes são menos propensos a consultá-lo para números menos difíceis, que provavelmente serão interpretados corretamente. No entanto, conforme observado na Seção 4.2, este não é o caso: os participantes buscaram o apoio do RAF de forma muito semelhante, independentemente dos tipos de números. Nessa fase, podemos apenas especular que a disponibilização de apoio poderia ter um efeito psicológico, reduzindo o estresse e/ou aumentando a confiança, e que isso pode levar a uma interpretação mais precisa de números.

Importa notar também que o fato de que em três dos seis casos em que os participantes buscaram apoio e não produziram uma interpretação completa, o RAF apresentou uma transcrição imprecisa do número. Foi o caso de “106 000”, que foi transcrito como ‘1 e 160 000’ após uma autocorreção por parte do falante. Nesse caso, ambos os participantes procuraram o apoio do RAF e interpretaram “160 000”. Isso também pode ser evidência de uma dependência excessiva da tecnologia.

4.3.2Resultados por intérprete

Os dados foram divididos por participante para investigar se a disponibilização do RAF foi benéfica para todos os participantes. Os dados da Figura 5 referem-se apenas à disponibilização do RAF e não levam em consideração se os participantes usaram ou não o recurso. No caso desse último, os dados são muito escassos para permitir testes estatísticos. A Figura 5 mostra que a proporção de interpretações completas aumenta para cinco dos seis participantes quando o RAF está disponível. Os ganhos de precisão variam entre 11,5% (S2.2) e 44,2% (S2.1). No caso do participante S1.2, as interpretações completas diminuem em aproximadamente 6%.

No entanto, cabe destacar que para quatro participantes, S1.1, S1.2, S1.3 e S2.2, a diferença entre seu desempenho com e sem apoio do RAF não é significativa. No caso dos participantes S1.1 e S1.3, a diferença é quase significativa (cf. Tabela 12).

Duas considerações podem ajudar a entender esses padrões: por um lado, S1.2 e S2.2 têm os mais altos níveis de precisão quando não lhes são oferecidos apoio do RAF (com interpretações completas representando 81,7% e 82,3% de suas produções, respectivamente). Portanto, não surpreende que a presença de apoio do RAF faça muito pouca diferença para os participantes S1.2 e S2.2. Além disso, S1.2 e S2.2 procuraram o apoio do RAF com menos frequência na segunda vez em que lhes foi oferecido o apoio, em comparação com a primeira. Isso sugere que eles podem ter sentido que o RAF foi de pouca ajuda para eles.

Figura 5.Tipos de interpretação com e sem o apoio do RAF por intérprete

(Tradução dos itens da Figura 5: à esquerda Número de casos, ao centro, na primeira linha, não disponível e disponível e respectivas designações dos intérpretes-participantes (S1.1; S1.2; S1.3; S2.1; S2.2; S2.3), ao centro, linha seguinte omissão (em azul claro), interpretação completa (em vermelho), aproximação (em amarelo), substituição relacionada (em azul escuro) e substituição não relacionada (em rosa)

Figura 5.
Tabela 12.Resultados do Teste Exato de Fisher para os tipos de interpretação por intérprete
Participante Teste Exato de Fisher p
S1.1  7,330   0,09
S1.2  5,342   0,25
S1.3  8,208   0,05
S2.1 31,585 < 0,001
S2.2  5,760   0,25
S2.3 31,434 < 0,001

4.3.3Interpretações e tipo de número

Investigamos se a disponibilização de apoio do RAF estava associada a interpretações específicas de tipos de números. Os dados refletem apenas a disponibilização, pois o conjunto de dados relacionado à busca real de apoio é muito limitado para testes estatísticos. A Figura 6 mostra os resultados para os quatro níveis de complexidade numérica.

Figura 6.Tipos de interpretação com e sem o apoio do RAF por nível de complexidade

(Tradução dos itens da Figura 6: à esquerda Número de casos, ao centro, na primeira linha, não disponível e disponível e respectivas designações dos níveis (1; 2; 3; 4), ao centro, linha seguinte, omissão (em azul claro), interpretação completa (em vermelho), aproximação (em amarelo), substituição relacionada (em azul escuro) e substituição não relacionada (em rosa)

Figura 6.

A disponibilização do RAF está significativamente associada à distribuição de tipos de interpretação (cf. Tabela 13), exceto para os tipos de números mais complexos (ou seja, Nível 4). Isso pode ocorrer devido à escassez de dados disponíveis para esse nível.

Tabela 13.Teste Exato de Fisher para os tipos de interpretação com e sem o apoio do RAF para o tipo de número
Teste Exato de Fisher p
Nível 1 25,296   < 0,001
Nível 2 13,901 < 0,01
Nível 3 22,236   < 0,001
Nível 4  1,416  0,11

Para todos os níveis de complexidade, a disponibilização do apoio do RAF está associada a um número maior de interpretações completas. Os ganhos de precisão são maiores para números no Nível 3 (números compostos por cinco ou seis unidades numéricas), nos quais a parcela salta de 54,2% sem o uso de RAF para 97,6% com o uso (um aumento de pouco mais de 80%). Para números nos Níveis 1 e 4, as interpretações completas aumentaram cerca de 50% e para o Nível 2, apenas 12,4%. O aumento expressivo para o Nível 1 é surpreendente, pois os números não são complexos e provavelmente impõem a menor carga cognitiva aos intérpretes e, portanto, têm mais chances de serem interpretados com precisão sem apoio da tecnologia. No entanto, como mostra a Figura 6, a omissão ocorre frequentemente se não houver apoio do RAF disponível, provavelmente porque os itens são acusticamente muito curtos e são mais propensos a passarem despercebidos. Vale a pena notar que para ambas as condições (ou seja, interpretar com e sem o apoio do RAF), o número de omissões diminui à medida que a complexidade do número aumenta.

As mesmas análises foram realizadas para números decimais e datas. Os dados na Figura 7 mostram um aumento de interpretações completas em ambos os casos quando o RAF está disponível, mas apenas um aumento modesto para datas, em casos em que interpretações precisas também são muito frequentes sem apoio tecnológico. Para os números decimais, a parcela de interpretações completas aumenta em 65% (de 54,8% para 90,5%). Apesar da disponibilização do RAF, os participantes tendiam a entregar um pouco mais de interpretações não relacionadas no caso de números decimais.

Figura 7.Tipos de interpretação com e sem o apio do RAF por tipo de número

(Tradução dos itens da Figura 7: à esquerda Número de casos, ao centro, na primeira linha, não disponível e disponível e respectivas designações números decimais e datas, ao centro, linha seguinte, omissão (em azul claro), interpretação completa (em vermelho), aproximação (em amarelo), substituição relacionada (em azul escuro) e substituição não relacionada (em rosa)

Figura 7.

A significância dessas diferenças, determinada ao se utilizar um Teste Exato de Fisher, é mostrada na Tabela 14. A disponibilização do RAF está significativamente associada à frequência dos tipos de interpretação de números decimais, mas não de datas, em que a associação se aproxima da significância.66.Conforme sugerido anteriormente, as datas são mais fáceis de serem interpretadas do que outros tipos de números. Em nossos dados, independentemente da disponibilização do apoio do RAF, as interpretações completas de datas são, de fato, significativamente mais frequentes do que as interpretações completas de números com o mesmo grau de complexidade (ou seja, números no Nível 2).

Tabela 14.Teste Exato de Fisher para os tipos de interpretação com e sem o apoio do RAF para o tipo de número
Teste Exato de Fisher p
Números decimais 18,248 < 0,001
Datas  4,875  0,06

A disponibilização do apoio do RAF afeta positivamente a interpretação de quase todos os tipos de números. Para datas e números muito complexos, há um aumento mais modesto de interpretações completas em comparação a outros tipos de números.

5.Discussão

Os resultados do estudo fornecem respostas bastante inequívocas para as perguntas de pesquisa, mas também levantam novas questões. As respostas dizem respeito à relevância do sistema para os intérpretes: o InterpretBank oferece apoio de RAF viável nas cabines, o que ajudou a maioria dos participantes a melhorar a precisão com que interpretam os números. Isso confirma as descobertas de Desmet, Vandierendonck e Defrancq (2018)Desmet, Bart, Mieke Vandierendonck, and Bart Defrancq 2018 “Simultaneous Interpretation of Numbers and the Impact of Technological Support.” In Interpreting and Technology, edited by Claudio Fantinuoli, 11–24. Berlin: Language Science Press.Google Scholar sobre a utilidade do apoio tecnológico que exibe números em uma tela e itens anteriores, evidenciando que a disponibilização de entrada numérica visual aumenta a precisão das interpretações de números (Lamberger-Felber, 2001Lamberger-Felber, Heike 2001 “Text-oriented Research into Interpreting– Examples from a Case-study.” Hermes 26: 39–64.Google Scholar). Como os participantes deste estudo eram estudantes, resta saber se os intérpretes profissionais se beneficiam na mesma medida.

As demais questões dizem respeito à interação dos participantes com a tecnologia. Em primeiro lugar, conforme apontado na Seção 4, descobrimos que os participantes buscam o apoio do RAF com parcimônia e não parecem priorizar o uso dessa tecnologia com base nas características dos números. Vários fatores podem contribuir para isso. Por um lado, os participantes envolvidos no experimento não foram treinados para usar o sistema e claramente não tinham familiaridade com ele. Acreditamos que seja necessário um outro estudo, de caráter lógico, que vise estudar o efeito do treinamento específico para intérpretes voltado para o uso do RAF. Por outro lado, há a questão da carga cognitiva extra induzida pelo uso dessa tecnologia. A transcrição produzida pelo RAF é uma fonte extra de informação que requer atenção por parte dos intérpretes. Quanto maior a carga cognitiva, menos provável que esses profissionais voltem suas atenções para fontes externas. Isso parece ser potencializado pela forma como a transcrição é exibida, pois os participantes indicaram que estavam distraídos com a transcrição em tela. Em última análise, isso significa que os intérpretes são menos propensos a usar o RAF quando mais precisam (ou seja, no caso de números muito complexos). Nesse sentido, o experimento pode ser replicado alterando o recurso de visualização e mostrando apenas os números, sem a transcrição de todo o trecho de fala. É, de fato, razoável supor que a redução de elementos visuais ao mínimo poderia aumentar a usabilidade da tecnologia.

Em segundo lugar, os participantes procuraram apoio em diferentes graus. Por um lado, o uso dessa tecnologia por parte dos intérpretes parece estar relacionado com os seus desempenhos na interpretação de números sem o apoio do RAF: quanto melhor eles são na tarefa em geral, menos propensos estarão a consultar o RAF, principalmente após uma primeira experiência com esse tipo de apoio. Isso pode estar relacionado ao fato de que esses participantes também obtiveram menos benefícios com o apoio (e em um caso até encontraram dificuldades). A questão é, portanto, se os participantes de alto desempenho tomaram conhecimento dos benefícios limitados oferecidos pelo RAF e, consequentemente, tenderam a ignorar o apoio tecnológico. Se isso fosse confirmado, levantaria preocupações cruciais sobre o futuro do RAF no cenário da interpretação. Os potenciais usuários profissionais de quem se pode esperar altas taxas de precisão na interpretação de números podem ser desencorajados a utilizar tal tecnologia ao perceberem que ela pouco os beneficia.

Em terceiro lugar, a distinção que foi feita neste estudo entre a disponibilização de apoio do RAF e seu uso trouxe à tona outro aspecto intrigante da interação entre seres humanos e a tecnologia: a mera disponibilização do RAF já melhorou a precisão dos participantes, independentemente de essa tecnologia ter sido usada ou não. Essa descoberta não pode ser explicada pela tendência natural de os intérpretes se absterem do uso dela para números “fáceis”, pois foi demonstrado que não havia relação significativa entre os tipos de números e as taxas de uso do RAF. Nossa hipótese é a de que a disponibilização de apoio pode tranquilizar os intérpretes e reduzir o estresse, levando a um melhor desempenho. Mais pesquisas são necessárias para confirmar essa hipótese. Se confirmada, isso significaria que a contribuição do RAF para a carga cognitiva é ainda mais complexa do que o esperado. Por um lado, como fonte adicional de informação, o RAF exaure a atenção dos intérpretes, deixando-os menos disponíveis para a tarefa de interpretação. Por outro lado, a disponibilização do RAF parece reduzir o estresse, o que provavelmente levará a uma alocação mais eficiente de recursos.

Finalmente, o estudo também produziu algumas evidências em relação à dependência excessiva do RAF. Quando os participantes se depararam com a perda repentina do apoio tecnológico, seus desempenhos caíram abaixo dos níveis médios de interpretação sem o apoio. O mesmo acontece quando o sistema oferece uma transcrição incorreta do número. As instâncias em que isso ocorreu não foram frequentes o suficiente para explorar completamente os riscos que tal tecnologia representa. O questionário também trouxe à tona o fato de que os participantes não se autoavaliam o suficiente em relação ao uso do RAF. Dois participantes alegaram que nunca replicaram erros cometidos pelo sistema, ao passo que todos os participantes que usaram o sistema replicaram algum erro específico. Portanto, mais pesquisas sobre o excesso de confiança são necessárias, especialmente se forem desenvolvidos módulos de treinamento para interpretação com RAF.

6.Conclusões

Procuramos explorar três aspectos da oferta de reconhecimento automático de fala para a interpretação simultânea: (1) a viabilidade do apoio oferecido pelo InterpretBank (ou seja, que os números sejam exibidos em um formato facilmente reconhecível, com alta precisão e rápido o suficiente para se adequar à decalagem da maioria dos intérpretes); (2) as interações dos participantes com a tecnologia; e (3) os efeitos do uso dessa tecnologia no desempenho dos participantes. O estudo, que envolveu seis estudantes intérpretes, tem o escopo limitado. Procuramos imitar o máximo possível um ambiente de treinamento real e os discursos proferidos ao vivo em um laboratório de interpretação com um grupo bastante homogêneo de participantes. Dada a abrangência do estudo, os resultados precisam ser interpretados com cautela e, certamente, exigem mais averiguações envolvendo populações maiores de participantes, incluindo intérpretes profissionais.

Os resultados sugerem que o modelo InterpretBank usado para o experimento (Modelo 1, com transcrição completa e destaque para os números) atende, de modo geral, aos requisitos ergonômicos. Os participantes ficaram moderadamente satisfeitos com a usabilidade do sistema, apontando problemas com a transcrição em tela e a exibição em vários estágios dos números, mas pareceram confiar nele o suficiente para não o abandonar completamente e admitiram usá-lo para itens textuais além dos números. Alguns o consideraram um sistema de backup para quando tudo falhar. A precisão do sistema mostrou-se alta (96%) e sua latência baixa o suficiente para oferecer aos intérpretes uma transcrição antes que eles chegassem ao ponto em que precisavam entregar a interpretação do número.

As interações dos participantes com o apoio do RAF foram variadas e eles consultaram as transcrições em pouco mais da metade dos casos. Algumas tendências contraditórias foram encontradas em relação à inclinação dos participantes para usar o reconhecimento após uma primeira experiência: os participantes que tiveram um bom desempenho sem o apoio tecnológico tenderam a utilizá-lo com menos frequência. O estudo também forneceu algumas evidências dos benefícios psicológicos da disponibilização do RAF e da dependência excessiva dessa tecnologia.

Os resultados também revelaram que a disponibilização do RAF melhorou o desempenho: para sermos específicos, a parcela de interpretações completas aumentou na maioria dos casos e para quase todos os tipos de números. No entanto, quando analisado em relação a cada um dos participantes, o efeito benéfico significativo só pôde ser encontrado em dois dos seis casos. Um intérprete teve um desempenho inferior quando o apoio do RAF estava disponível.

Além do número limitado de participantes e do fato de serem estudantes cujo desempenho não pode ser extrapolado para a comunidade profissional, precisamos mencionar duas lacunas importantes dentre as limitações deste estudo. Primeiro, analisamos apenas as interpretações de números. Como mencionado anteriormente, as unidades que acompanham os números também são afetadas pela carga cognitiva envolvida na interpretação de números. Além disso, o desempenho global ao longo do discurso deve ser investigado, pois é possível que os participantes, instruídos a interpretar trechos de textos ricos em números, tenham focado suas atenções nesses números em detrimento dos demais elementos textuais. O desempenho geral não deve, portanto, ser menosprezado, especialmente ao explorar a carga cognitiva induzida pela consulta de um recurso externo, tal qual as transcrições produzidas pelo RAF.

Em segundo lugar, as experiências dos participantes foram exploradas apenas superficialmente neste artigo. Para a investigação da interação entre humanos e tecnologia é importante pesquisar as experiências e percepções dos participantes. Alguns dos resultados indicam claramente que o uso e os benefícios do apoio tecnológico dependem da experiência e expectativas dos participantes.

Financiamento

Esta pesquisa foi parcialmente realizada no âmbito do FWO Hercules Grant I003618N. O InterpretBank, que ofereceu um protótipo do software para a realização dos experimentos, não patrocinou nenhuma etapa deste estudo. O segundo autor contribuiu apenas para a descrição do sistema na Seção 3.1 e uma série de comentários sobre vários tópicos em diferentes seções do texto.

Agradecimentos

Os autores agradecem, imensamente, An Baeyens, por preparar e proferir os discursos.

Notas

1.N. dos T.: Intervalo entre as ações de ouvir e falar por parte do intérprete profissional (cf. Gile et al., 2015, p. 596).
2.Versão online gratuita disponível em: < www​.interpretbank​.com​/asr>.
4.Enquanto o Modelo 1 pode fornecer muitas informações visuais para o usuário (a transcrição completa), o Modelo 2 suprime o fluxo de texto e disponibiliza apenas a interface do usuário extraída de forma vertical (como um prompt de TV), com as informações mais recentes destacadas na parte superior. O Modelo 3 faz uso de algoritmos avançados para identificar a terminologia sem qualquer referência de fundo (o glossário de eventos) e propõe opções de tradução ad hoc usando tradução automática, bem como os pares número/unidade. A visualização é a mesma do Modelo 2.
6.Conforme sugerido anteriormente, as datas são mais fáceis de serem interpretadas do que outros tipos de números. Em nossos dados, independentemente da disponibilização do apoio do RAF, as interpretações completas de datas são, de fato, significativamente mais frequentes do que as interpretações completas de números com o mesmo grau de complexidade (ou seja, números no Nível 2).

Referências

Alessandrini, Maria Serena
1990 “Translating Numbers in Consecutive Interpretation: An Experimental Study.” The Interpreters’ Newsletter 3: 77–80.Google Scholar
Braun, Susanne, and Andrea Clarici
1996 “Inaccuracy for Numerals in Simultaneous Interpretation: Neurolinguistic and Neuropsychological Perspectives.” The Interpreters’ Newsletter 7: 85–102.Google Scholar
Brüsewitz, Nora
2019 “Simultandolmetschen 4.0: Ist automatische Spracherkennung der nächste Schritt? [Simultaneous interpreting 4.0: Is automatic speech recognition the next step?]” In Proceedings of Übersetzen und Dolmetschen 4.0.– Neue Wege im digitalen Zeitalter [Translation and Interpreting 4.0– New Paths in the Digital Era], edited by Wolfram Bauer and Felix Mayer, 323–333. Berlin: BDÜ Fachverlag.Google Scholar
Christoffels, Ingrid K.
2004Cognitive Studies in Simultaneous Interpreting. PhD diss. University of Amsterdam.Google Scholar
Collard, Camille
2019A Corpus-based Study of Simultaneous Interpreting with Special Reference to Sex. PhD diss. Ghent University.Google Scholar
Corpas Pastor, Gloria, and Lily May Fern
2016A Survey of Interpreters’ Needs and Practices Related to Language Technology. Technical report [FFI2012-38881-MINECO/TI-DT-2016-1]. Málaga: University of Málaga.Google Scholar
Defrancq, Bart
2015 “Corpus-based Research into the Presumed Effects of Short EVS.” Interpreting 17 (1): 26–45. DOI logoGoogle Scholar
Desmet, Bart, Mieke Vandierendonck, and Bart Defrancq
2018 “Simultaneous Interpretation of Numbers and the Impact of Technological Support.” In Interpreting and Technology, edited by Claudio Fantinuoli, 11–24. Berlin: Language Science Press.Google Scholar
Fantinuoli, Claudio
2017 “Speech Recognition in the Interpreter Workstation.” In Translating and the Computer 39: Proceedings, edited by João Esteves-Ferreira, Juliet Macan, Ruslan Mitkov, and Olaf-Michael Stefanov, 25–34. Geneva: Editions Tradulex.Google Scholar
2018 “Interpreting and Technology: The Upcoming Technological Turn.” In Interpreting and Technology, edited by Claudio Fantinuoli, 1–12. Berlin: Language Science Press.Google Scholar
Frittella, Francesca Maria
2019 “ ‘70.6 Billion World Citizens’: Investigating the Difficulty of Interpreting Numbers.” Translation and Interpreting 11 (1): 79–99. DOI logoGoogle Scholar
Gile, Daniel
1995Regards sur la recherche en interprétation de conférence [Views on Conference Interpreting Research]. Lille: Presses Universitaires de Lille.Google Scholar
Jones, Roderick
2002Conference Interpreting Explained. 2nd ed. Manchester: St Jerome Publishing.Google Scholar
Korpal, Paweł
2016Linguistic and Psychological Indicators of Stress in Simultaneous Interpreting. PhD diss. Adam Mickiewicz University.Google Scholar
Korpal, Paweł, and Katarzyna Stachowiak-Szymczak
2020 “Combined Problem Triggers in Simultaneous Interpreting: Exploring the Effect of Delivery Rate on Processing and Rendering Numbers.” Perspectives: Studies in Translation Theory and Practice 28 (1): 126–143. DOI logoGoogle Scholar
Lamberger-Felber, Heike
2001 “Text-oriented Research into Interpreting– Examples from a Case-study.” Hermes 26: 39–64.Google Scholar
Mazza, Cristina
2001 “Numbers in Simultaneous Interpretation.” The Interpreters’ Newsletter 11: 87–104.Google Scholar
Mead, Peter
2015 “Numbers.” In Routledge Encyclopedia of Interpreting Studies, edited by Franz Pöchhacker, 286–288. Abingdon: Routledge.Google Scholar
Oléron, Pierre, and Hubert Nanpon
1965/2002 “Research into Simultaneous Translation.” In The Interpreting Studies Reader, edited by Franz Pöchhacker and Miriam Shlesinger, 42–51. London: Routledge.Google Scholar
Pinochi, Diletta
2009 “Simultaneous Interpretation of Numbers: Comparing German and English to Italian. An Experimental Study.” The Interpreters’ Newsletter 14: 33–57.Google Scholar
Prandi, Bianca
2018 “An Exploratory Study on CAI Tools in Simultaneous Interpreting: Theoretical Framework and Stimulus Validation.” In Interpreting and Technology, edited by Claudio Fantinuoli, 25–54. Berlin: Language Science Press.Google Scholar
Setton, Robin, and Andrew Dawrant
2016Conference Interpreting: A Complete Course. Amsterdam: John Benjamins. DOI logoGoogle Scholar
Timarová, Sarka
2012 Working Memory in Simultaneous Interpreting . PhD diss. KU Leuven.Google Scholar
Vogler, Nicolai, Craig Stewart, and Graham Neubig
2019 “Lost in Interpretation: Predicting Untranslated Terminology in Simultaneous Interpretation.” ArXiv:1904.00930 [Cs]. http://​arxiv​.org​/abs​/1904​.00930

Endereço de correspondência

Bart Defrancq

Translation, Interpreting and Communication

Ghent University

Groot-Brittanniëlaan 45

B 9000 Ghent

Belgium

[email protected]
Bélgica

Co-author information

Claudio Fantinuoli
Fachbereich Sprache-, Kultur- und Translationswissenschaft
Johannes Gutenberg-Universität Mainz
[email protected]