From the CLUVI Corpus to WordNet and SemCor: Enriching parallel corpora with multimedia and lexical semantics

Gómez Guinovart, Xavier

doi:10.1075/scl.90.09gom

Part of

Parallel Corpora for Contrastive and Translation Studies: New resources and applications
Edited by Irene Doval and M. Teresa Sánchez Nieto
[Studies in Corpus Linguistics 90] 2019
► pp. 141–158

Enriching parallel corpora with multimedia and lexical semantics

From the CLUVI Corpus to WordNet and SemCor

Xavier Gómez Guinovart | University of Vigo

In this chapter, I present the main characteristics of the CLUVI Corpus, an open collection of sentence-level aligned parallel corpora with over 44 million words in nine specialised domains (fiction, computing, popular science, biblical texts, law, consumer information, economy, tourism, and film subtitling) and different language combinations including Galician, Spanish, English, French, Portuguese, Catalan, Italian, Basque and Latin. Then, I present the methodology developed for extending the film subtitles section of the CLUVI Corpus with multimedia data. Finally, I discuss the resources and methods used to build the SensoGal Corpus, a SemCor-based English-Galician parallel corpus semantically annotated based on WordNet and aligned at the sentence and word levels.

Keywords: parallel corpora, multimedia, lexical semantics, WordNet, SemCor

Article outline

1.Introduction
2.The CLUVI Corpus
- 2.1Corpus description
- 2.2Tagging the CLUVI Corpus
- 2.3Extending the CLUVI Corpus with multimedia data
3.The SensoGal Corpus
4.Conclusion
Notes
References

Published online: 20 March 2019

https://doi.org/10.1075/scl.90.09gom

References (41)

Almeida, José João, Araújo, Sílvia, Simões, Alberto & Dias, Idalete

2014 The Per-Fide Corpus: A New Resource for Corpus-based Terminology, Contrastive Linguistics and Translation Studies. In Working with Portuguese Corpora, Tony Berber Sardinha & Telma de Lurdes São Bento Ferreira (eds), 177–200. London: Bloomsbury Publishing.

Álvarez de la Granja, María, Gómez Clemente, Xosé María & Gómez Guinovart, Xavier

2016 Introducing idioms in the Galician wordnet: methods, problems and results. Open Linguistics 2: 253–286.

Álvarez Lugrís, Alberto & Gómez Guinovart Xavier

2014 Lexicografía bilingüe práctica basada en corpus: planificación y elaboración del Dicionario Moderno Inglés-Galego. In Lexicografía de las lenguas románicas: Aproximaciones a la lexicografía moderna y contrastiva, María José Domínguez Vázquez, Xavier Gómez Guinovart Xavier & Valcárcel Riveiro Carlos (eds), 31–48. Berlin/Boston: De Gruyter Mouton.

Crespo Bastos, Ana, Gómez Clemente, Xosé María, Gómez Guinovart Xavier & López Fernández Susana

2008 XML-based Extraction of Terminological Information from Corpora. In Actas da 6ª Conferência Nacional XATA2008: XML, Aplicações e Tecnologias Associadas, José Carlos Ramalho, João Correia Lopes & Salvador Abreu (eds), 28–39. Évora: Universidade de Évora.

Girju, Roxana

2007a Experiments with an Annotation Scheme for a Knowledge-rich Noun Phrase Interpretation System. In Proceedings of the Linguistic Annotation Workshop, 168–175. Prague: ACL.

2007b Improving the Interpretation of Noun Phrases with Cross-linguistic Information. In Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, 568–575. Prague: ACL.

Gómez Clemente, Xosé María, Gómez Guinovart, Xavier, González Pereira, Andrea & Verónica Taboada Lorenzo

2013 Sinonimia e rexistros na construción do WordNet do galego. Estudos de lingüística galega 5: 27–42.

Gómez Guinovart Xavier & Oliver, Antoni

2014 Methodology and evaluation of the Galician WordNet expansion with the WN-toolkit. Procesamiento del Lenguaje Natural 53: 43–50.

Gómez Guinovart Xavier & Sacau Fontenla Elena

2004a Métodos de optimización de la extracción de léxico bilingüe a partir de corpus paralelos. Procesamiento del Lenguaje Natural 33: 133–140.

2004b Parallel corpora for the Galician language: building and processing of the CLUVI (Linguistic Corpus of the University of Vigo). In Proceedings of the 4th International Conference on Language Resources and Evaluation, Maria Teresa Lino, Maria Francisca Xavier, Fátima Ferreira, Rute Costa & Raquel Silva (eds), 1179–1182. Paris: ELRA.

2005 Técnicas para o desenvolvemento de dicionarios de tradución a partir de córpora aplicadas na xeración do Dicionario CLUVI Inglés-Galego. In Viceversa 11: 159–171.

Gómez Guinovart Xavier & Simões, Alberto

2009 Parallel corpus-based bilingual terminology extraction. In Proceedings of the 8th International Conference on Terminology and Artificial Intelligence. Toulouse: Université Paul Sabatier. [URL] (28 April 2017).

Gómez Guinovart, Xavier & Simões, Alberto

2010 Translation dictionaries triangulation. In Proceedings of FALA2010: VI Jornadas en Tecnología del Habla & II Iberian SLTech, Carmen García Mateo, Francisco Campillo Díaz & Francisco Méndez Pazó (eds), 171–174. Vigo: Universidade de Vigo.

Gómez Guinovart, Xavier & Torres Padín, Ánxeles

2006 Extracción dun vocabulario xurídico-administrativo galego-castelán a partir dun corpus paralelo. In Terminología y derecho: la complejidad de la comunicación multilingüe, M. Teresa Cabré, Carme Bach & Jaume Martí (eds), 175–188. Barcelona: Universitat Pompeu Fabra.

Gómez Guinovart, Xavier, Díaz Rodríguez, Eva & Álvarez Lugrís, Alberto

2008 Aplicacións da lexicografía bilingüe baseada en córpora na elaboración do Dicionario CLUVI inglés-galego. Viceversa 14: 71–87.

Gómez Guinovart, Xavier

2012 A hybrid corpus-based approach to bilingual terminology extraction. In Encoding the Past, Decoding the Future: Corpora in the 21st Century , Isabel Moskowich-Spiegel Fandiño & Begoña Crespo (eds), 147–175. Newcastle upon Tyne: Cambridge Scholar Publishing.

Keshtkar, Hossein & Mosavi Miangah, Tayebeh

2012 Using Bilingual Parallel Corpora in Translation Memory Systems. International Journal of Applied Linguistics and English Literature 1.5: 184–193.

Koehn, Philipp

2005 EuroParl: A Parallel Corpus for Statistical Machine Translation. In MT Summit X: The Tenth Machine Translation Summit Proceedings, 79–86. Tokyo: Asia-Pacific Association for Machine Translation.

Landes, Shari, Leacock, Claudia & Tengi, Randee I.

1998 Building semantic concordances. In WordNet: An Electronic Lexical Database, Christiane Fellbaum (ed), 199–216. Cambridge: The MIT Press.

Mikhailov, Mikhail & Cooper, Robert

2016 Corpus Linguistics for Translation and Contrastive Studies: A Guide for Research. Abingdon: Routledge.

Miller, George A., Beckwith, Richard, Fellbaum, Christiane, Gross, Derek & Miller, Katherine

1990 WordNet: An On-line Lexical Database. International Journal of Lexicography 3: 235–244.

Montero Perez, Maribel, Paulussen, Hans Macken, Lieve & Desmet, Piet

2014 From input to output: the potential of parallel corpora for CALL. Language Resources and Evaluation 48.1: 165–189.

Moreira, Adonay

2010 Estratégias de tradução em sites das regiões de turismo de Portugal: estudo baseado em corpus. Polissema: Revista de Letras do ISCAP 10: 13–42.

2011a The translator as cultural mediator: a corpus-based study of omissions and additions in translations of tourism brochures. The Journal of Cultural Mediation 1: 86–95.

2011b Turigal: compilation of a parallel corpus for bilingual terminology extraction. In Actas del III Congreso Internacional de Lingüística de Corpus: Las tecnologías de la información y las comunicaciones: presente y futuro en el análisis de corpus, María Luisa Carrió & Miguel Ángel Candel (eds), 33–42. València: Universitat Politècnica de València.

2014 A methodology for building a translator- and translation-oriented terminological resource. In inTRAlinea Special Issue: Translation & Lexicography, María Sánchez, María Porciel & Iris Serrat (eds). < [URL] > (28 April 2017).

Santos, Diana

2004 Translation-based Corpus Studies: Contrasting English and Portuguese Tense and Aspect Systems. Amsterdam: Rodopi.

Savourel, Yves

2005 TMX 1.4b Specification. Localisation Industry Standards Association. [URL] (28 April 2017).

Simões, Alberto & Gómez Guinovart, Xavier

2009 Terminology extraction from English–Portuguese and English–Galician parallel corpora based on probabilistic translation dictionaries and bilingual syntactic patterns. In Proceedings of the Iberian SLTech 2009 - I Joint SIG-IL/Microsoft Workshop on Speech and Language Technologies for Iberian Languages, António Teixeira, Miguel Sales Dias & Daniela Braga (eds), 13–16. Porto Salvo: Designeed.

Simões, Alberto, Gómez Guinovart, Xavier & Almeida, José João

2004 Distributed translation memories implementation using WebServices. Procesamiento del Lenguaje Natural 33: 89–94.

Solla Portela, Miguel Anxo & Gómez Guinovart, Xavier

2015 Galnet: o WordNet do galego. Aplicacións lexicolóxicas e terminolóxicas. Revista Galega de Filoloxía 16: 169–201.

2017 Diseño y elaboración del corpus SemCor del gallego anotado semánticamente con WordNet 3.0. Procesamiento del Lenguaje Natural 59: 137–140.

Sotelo Dios Patricia & Guinovart Xavier, Gómez

2012 A multimedia parallel corpus of English–Galician film subtitling. In 1st Symposium on Languages, Applications and Technologies, Alberto Simões, Ricardo Queirós & Daniela da Cruz (eds), 255–266. Saarbrücken: Dagstuhl Publishing.

Sotelo Dios, Patricia

2011 Using a multimedia parallel corpus to investigate English–Galician subtitling. In Proceedings of the SDH 2011 Conference: Supporting Digital Humanities, Bente Maegaard (ed). Copenhagen: University of Copenhagen. [URL] (28 April 2017).

2015 Using a multimedia corpus of subtitles in translation training. In Affordances of Language Corpora for Data-driven Learning, Agnieszka Leńko-Szymańska & Alex Boulton (eds), 245–266. Amsterdam: John Benjamins.

2016 Adquisición de competencias en traducción audiovisual mediante un corpus multimedia. In New Insigths into Corpora and Translation, Daniel Gallego Hernández (ed), 1–16. Newcastle upon Tyne: Cambridge Scholars Publishing.

Tiedemann, Jörg

2012 Parallel Data, Tools and Interfaces in OPUS. In Proceedings of the 8th International Conference on Language Resources and Evaluation, Nicoletta Calzolari, Khalid Choukri,Thierry Declerck, Mehmet Uğur Doğan, Bente Maegaard, Joseph Mariani, Asuncion Moreno, Jan Odijk & Stelios Piperidis (eds), 2214–2218. Istanbul: ELRA.

Tufiş, Dan

2007 Exploiting Aligned Parallel Corpora in Multilingual Studies and Applications. In Intercultural Collaboration, Toru Ishida, Susan R. Fussell & Peek Vossen (eds), 103–117. Berlin: Springer.

Véronis, Jean

ed 2000 Parallel Text Processing: Alignement and Use of Translation Corpora. Dordrecht: Kluwer.

Vossen, Piek

1998 EuroWordNet: A Multilingual Database with Lexical Semantic Networks. Norwell: Kluwer Academic Publishers.

2002 WordNet, EuroWordNet and Global WordNet. Revue française de linguistique appliquée 7: 27–38.