Construcción de un corpus escrito y una ontología de errores ortográficos del chabacano zamboangueño
El chabacano zamboangueño es una lengua criolla filipina, de base española, hablada como lengua materna por más de
400.000 personas (datos de 2010). No obstante, su grafía normalizada es relativamente reciente (de 2014). Este artículo presenta
una investigación destinada a la identificación y anotación semiautomática de los errores cometidos por sus hablantes al escribir,
según la ortografía normativa. En primer lugar, detallamos los criterios aplicados en la construcción de un corpus de más de 8
millones de palabras del zamboangueño escrito y los géneros que lo componen, así como los formatos utilizados para codificarlo. En
segundo lugar, describimos el proceso seguido para (1) el estudio de los errores y problemas ortográficos presentes en este
corpus; (2) el desarrollo de una taxonomía elaborada para su mejor representación y clasificación; y (3) su formalización mediante
una ontología. Por último, discutimos el resultado principal de este trabajo: un corpus de zamboangueño escrito, con sus errores
ortográficos clasificados y anotados semiautomáticamente con enlaces a la ontología y sus formas corregidas correspondientes.
Estas anotaciones nos permitirán a corto plazo analizar de manera más sistemática y profunda las faltas de ortografía cometidas
por los usuarios del zamboangueño.
Article outline
- 1.Introducción
- 2.Trabajos anteriores y relacionados
- 2.1Otros corpus anteriores de cbk-PH-09
- 2.2Análisis de errores
- 2.3Tipologías de errores ortográficos: Antecedentes
- 3.El Contemporary Written Zamboangueño Chavacano Corpus (CWZCC)
- 3.1Criterios de construcción
- 3.2Digitalización de material impreso
- 3.3Permiso de uso y anonimización
- 3.4Acceso
- 4.Composición del corpus y estadísticas básicas
- 4.1Descripción del corpus por géneros
- 4.1.1Textos educativos
- 4.1.2Ficción
- 4.1.3Poesías
- 4.1.4Canciones
- 4.1.5Noticias
- 4.1.6Religión
- 4.1.7Autoayuda
- 4.1.8Redes sociales
- 4.1.9Otros
- 4.2Algunas estadísticas del CWZCC
- 5.Formatos del corpus
- 5.1El formato NIF
- 5.2El formato TEI-XML
- 6.Construcción de la ontología de errores ortográficos
- 6.1Creación del conjunto de errores ortográficos de partida
- 6.2Desarrollo de la taxonomía de errores ortográficos
- 6.2.1Error intencionado
- 6.2.2Error no intencionado
- 6.3Implementación de la ontología de errores ortográficos del cbk-PH-09
- 7.Anotación del corpus: Errores ortográficos
- 7.1El conjunto de etiquetas (etiquetario)
- 7.2Etiquetado semiautomático
- 7.3Ejemplos anotados
- 8.Conclusiones y trabajos futuros
- Agradecimientos
- Notas
-
Referencias
Article language: Spanish