Construcción de un corpus escrito y una ontología de errores ortográficos del chabacano zamboangueño

Himoro, Marcelo Yuji; Pareja-Lora, Antonio

doi:10.1075/resla.20052.him

Article published In:

Revista Española de Lingüística Aplicada/Spanish Journal of Applied Linguistics
Vol. 36:1 (2023) ► pp.234–269

Construcción de un corpus escrito y una ontología de errores ortográficos del chabacano zamboangueño

Marcelo Yuji Himoro | ATLAS, Universidad Nacional de Educación a Distancia

Antonio Pareja-Lora | ATLAS, Universidad Nacional de Educación a Distancia | Universidad de Alcalá

El chabacano zamboangueño es una lengua criolla filipina, de base española, hablada como lengua materna por más de 400.000 personas (datos de 2010). No obstante, su grafía normalizada es relativamente reciente (de 2014). Este artículo presenta una investigación destinada a la identificación y anotación semiautomática de los errores cometidos por sus hablantes al escribir, según la ortografía normativa. En primer lugar, detallamos los criterios aplicados en la construcción de un corpus de más de 8 millones de palabras del zamboangueño escrito y los géneros que lo componen, así como los formatos utilizados para codificarlo. En segundo lugar, describimos el proceso seguido para (1) el estudio de los errores y problemas ortográficos presentes en este corpus; (2) el desarrollo de una taxonomía elaborada para su mejor representación y clasificación; y (3) su formalización mediante una ontología. Por último, discutimos el resultado principal de este trabajo: un corpus de zamboangueño escrito, con sus errores ortográficos clasificados y anotados semiautomáticamente con enlaces a la ontología y sus formas corregidas correspondientes. Estas anotaciones nos permitirán a corto plazo analizar de manera más sistemática y profunda las faltas de ortografía cometidas por los usuarios del zamboangueño.

Keywords: chabacano, Zamboanga, corpus, anotación, ontología, error, ortografía, Filipinas, lengua criolla, lengua minoritaria

Article outline

1.Introducción
2.Trabajos anteriores y relacionados
- 2.1Otros corpus anteriores de cbk-PH-09
- 2.2Análisis de errores
- 2.3Tipologías de errores ortográficos: Antecedentes
3.El Contemporary Written Zamboangueño Chavacano Corpus (CWZCC)
- 3.1Criterios de construcción
- 3.2Digitalización de material impreso
- 3.3Permiso de uso y anonimización
- 3.4Acceso
4.Composición del corpus y estadísticas básicas
- 4.1Descripción del corpus por géneros
  - 4.1.1Textos educativos
  - 4.1.2Ficción
  - 4.1.3Poesías
  - 4.1.4Canciones
  - 4.1.5Noticias
  - 4.1.6Religión
  - 4.1.7Autoayuda
  - 4.1.8Redes sociales
  - 4.1.9Otros
- 4.2Algunas estadísticas del CWZCC
5.Formatos del corpus
- 5.1El formato NIF
- 5.2El formato TEI-XML
6.Construcción de la ontología de errores ortográficos
- 6.1Creación del conjunto de errores ortográficos de partida
- 6.2Desarrollo de la taxonomía de errores ortográficos
  - 6.2.1Error intencionado
  - 6.2.2Error no intencionado
- 6.3Implementación de la ontología de errores ortográficos del cbk-PH-09
7.Anotación del corpus: Errores ortográficos
- 7.1El conjunto de etiquetas (etiquetario)
- 7.2Etiquetado semiautomático
- 7.3Ejemplos anotados
8.Conclusiones y trabajos futuros
Agradecimientos
Notas
Referencias

Article language: Spanish

Published online: 7 March 2023

https://doi.org/10.1075/resla.20052.him

References (29)

Referencias

Andrade, F. (2013). De la ciudad letrada al mensaje de texto: una mirada en retrospectiva. Letras, 55 (88), 110–123.

Balmaseda Neyra, O. y Molina Almeida, M. E. (2001). La importancia del diagnóstico para la enseñanza aprendizaje de la ortografía. Editorial Pueblo y Educación.

Catach, N. (2011). L’orthographe (Que sais-je ? n◦ 685) [La ortografía (¿Qué sé yo? n.◦ 685)]. Presses Universitaires de France.

Corder, S. P. (1967). The significance of learner’s errors [La importancia de los errores de aprendices]. IRAL: International Review of Applied Linguistics in Language Teaching, 5 (4), 161–170.

Craig, D. (2003). Instant messaging: the language of youth literacy [Mensajería instantánea: el lenguaje de alfabetización de los jóvenes]. En A. J. Banks (Dir.), The Boothe Prize Essays 2003: Excellence in Writing (pp. 116–133). Stanford University Press.

Cremades, R., Maqueda Cuenca, E., y Onieva, J. L. (2016). Posibilidades didácticas de la escritura digital ubicua en la aplicación WhatsApp Messenger. Letral: Revista Electrónica de Estudios Transatlánticos, 16 1, 106–120.

De Alba Quiñones, V. (2009). El análisis de errores en el campo del español como lengua extranjera: algunas cuestiones metodológicas. Revista Nebrija de Lingüística Aplicada, 5 (1), 1–16.

DepEd Zamboanga City Division (2016). Revised Zamboanga Chavacano Orthography (Guia para na Enseñanza de Chavacano) [Ortografía del Chabacano de Zamboanga revisada (Guía para la enseñanza del Chabacano)]. Zamboanga City Local Government.

Galí, A. (1971). L’ensenyament de l’ortografia als infants [La enseñanza de la ortografía para los niños]. Barcino.

Himoro, M. Y. (2019). Hacia un corrector ortográfico para la nueva ortografía del chabacano de Zamboanga [Trabajo de Fin de Máster, UNED (Universidad Nacional de Educación a Distancia)]. Recuperado de: [URL]

Himoro, M. Y., y Pareja-Lora, A. (2022). Zamboanga Chavacano: A survey on written practices, reactions and impact of its (standardised) orthography [Chabacano de Zamboanga: una encuesta respecto a las prácticas Escritas, reacciones y el impacto de su ortografía (normativa)]. Círculo de Lingüística Aplicada a la Comunicación, 91 1, 245–277.

Hubbard, L. R. (2018). ALEGRIA: El Camino para Un Sentido Comon – Guia para na Mas Bueno Vida [ALEGRÍA: El camino hacia un sentido común – Guía para una vida mejor]. L. Ron Hubbard Library. Recuperado de: [URL]

Hunt-Gómez, C. I., Núñez-Román, F., y Gómez-Camacho, A. (2020). Textismos y ortografía. Percepción de los profesores en formación de la Generación Z. Formación universitaria, 13 (2), 143–152.

Komisyon sa Wikang Filipino (2015). Mapa ng mga Wika ng Filipinas [Mapa de las lenguas de Filipinas]. Komisyon sa Wikang Filipino (KWF). Recuperado el 3 de agosto del 2018, de: [URL]

Levenshtein, V. I. (1966). Binary codes capable of correcting deletions, insertions and reversals [Códigos binarios capaces de corregir eliminaciones, inserciones e inversiones]. Soviet Physics Doklady, 10 1, 707–710.

McEnery, T., y Wilson, A. (2001). Corpus linguistics: An introduction [Lingüística de Corpus: una introducción] (2ª ed.). Edinburgh University Press.

Macansantos, F. C. (2011). Balsa: poemas chabacano [Balsa: poemas chabacanos]. National Commission for Culture and the Arts.

National Census and Statistics Office (1974). 1970 Census of population and housing, Final report – Vol. 1 – Zamboanga del Sur [Censo de población y vivienda 1970, Informe final – Vol. 1 – Zamboanga del Sur]. National Census and Statistics Office. Recuperado de: [URL]

(1983). 1980 Census of population and housing, Volume 1, Final report – Zamboanga del Sur [Censo de población y vivienda 1980, Volumen 1, Informe final – Zamboanga del Sur]. National Census and Statistics Office. Recuperado de: [URL]

National Statistics Office (1992). 1990 Census of population and housing, Report no. 3 – 86 I – Socio-economic and demographic characteristics – Zamboanga City [Censo de población y vivienda 1990, Informe N.º 3 – 86 I – Características socioeconómicas y demográficas – Ciudad de Zamboanga]. National Statistics Office. Recuperado de: [URL]

(2003). 2000 Census of population and housing, report no. 2 Vol. 1 – Demographic and housing characteristics – Zamboanga City [Censo de población y vivienda 2000, Informe N.º 2 – Vol. 1- Características socioeconómicas y demográficas – Ciudad de Zamboanga]. National Statistics Office. Recuperado de: [URL]

(2014a). 2010 Census of population and housing, Report no. 2B – Population and household characteristics (sample variables) [Censo de población y vivienda 2000, Informe N.º 2B – Características de la población y del hogar (variables de la muestra)]. National Statistics Office. [URL]

(2014b). 2010 Census of population and housing, Report no. 2B – Population and household characteristics (sample variables) – Zamboanga City [Censo de población y vivienda 2010, Informe n.º 2B – Características de la población y del hogar (variables de la muestra)]. National Statistics Office. Recuperado de: [URL]

Octaviano, M., Go, M. P., Borra, A., y Oco, N. (2016). A corpus-based analysis of Filipino writing errors [Un análisis de errores de escritura del filipino basado en corpus]. 2016 International Conference on Asian Language Processing (IALP) (pp. 95–98). IEEE.

Real Academia Española (2005). Diccionario panhispánico de dudas. Asociación de Academias de la Lengua Española y Santillana Ediciones Generales.

Real Academia Española (2014). Diccionario de la lengua española (23.ª ed.) [versión 23.4 en línea]. Recuperado el 12 de enero del 2021, de: [URL]

Sánchez Jiménez, D. (2010). El análisis de errores ortográficos de estudiantes filipinos en el aprendizaje de español como LE y su aplicación didáctica. En Arriaga Agrelo, N., et al. (Eds.), El currículo de E/LE en Asia Pacífico. Selección de artículos del I Congreso de Español como Lengua Extranjera en Asia-Pacífico (CE/LEAP) (pp. 106–126). Instituto Cervantes de Manila y Embajada de España en Filipinas. Recuperado de: [URL]

Sinclair, J. (2005). Corpus and text – Basic principles [Corpus y texto – Principios básicos]. En M. Wynne (Ed.), Developing linguistic corpora: A guide to good practice (pp. 1–16). Oxbow Books.

Tardo, D. S. (2006). Developing the Chavacano reader project from the Chavacano corpus [Desarrollando el proyecto de la antología de Chabacano a partir del corpus del Chabacano] [Presentación]. Tenth International Conference on Austronesian Linguistics. SIL International. Recuperado de: [URL]