Vol. 33:1 (2020) ► pp.140–170
Vol. 33:1 (2020) ► pp.140–170
Algoritmos fonéticos para la detección de palabras fonéticamente similares en el español del centro de México
En la actualidad, la detección de palabras fonéticamente similares se ha logrado de forma exitosa gracias a la utilización de algoritmos fonéticos. Sin embargo, tales algoritmos dependen del lenguaje al que pertenecen, por lo que generalmente no están optimizados para el español. Por esta razón, en el siguiente artículo se presentará el algoritmo PFS y su variante PFS-US, los cuales son algoritmos fonéticos que consideran la fonología del español hablado en el centro de México, y fueron diseñados para detectar palabras fonéticamente similares en grandes conjuntos de palabras. Ahora bien, a través de un análisis comparativo entre otros cuatro algoritmos fonéticos de estado del arte, analizaremos la consideración fonológica mencionada. Para ello, se definieron métricas independientes de la lengua para evaluar algoritmos fonéticos en general. Dichas métricas se basan en la estructura de los grupos de palabras fonéticamente similares entre sí y su relación con palabras que no son similares con ninguna otra. Adicionalmente, los recursos generados se comparten de forma libre para su uso y análisis.
Article outline
- 1.Introducción
- 1.2Algoritmos fonéticos
- 1.3Español del centro de México
- 1.4El grafema <<x>>
- 2.Objetivos
- 3.Desarrollo de los algoritmos PFS y PFS-US
- 3.1Pre-transcripción
- 3.2Transcripción fonética
- 3.3Algoritmo PFS
- 3.4Algoritmo PFS-US
- 4.Evaluación
- 4.1Soundex
- 4.2NYSIIS
- 4.3Phonix
- 4.4Double Metaphone
- 4.5Algoritmos fonométricos
- 4.6El corpus
- 4.7Caracterización de algoritmos y experimentos
- 4.8Definición formal de distorsión
- 4.8.1Distorsión de grupos (dG(a))
- 4.8.2Distorsión de palabras individuales (d1(a))
- 4.9Índice de desempeño
- 4.10Métricas de caracterización
- 4.10.1Tamaño promedio de grupos
- 4.10.2Longitud máxima de grupo
- 4.10.3Diferencia máx-min de grupo
- 4.10.4Riqueza de caracteres
- 4.10.5Precisión de palabras individuales
- 4.11Discusión sobre los grupos identificados
- 4.12Grupos compactos
- 4.13Efecto de la pre-transcripción
- 4.14Errores en los algoritmos PFS
- 5.Conclusiones
- Agradecimientos
- Notas
-
Referencias
Article language: Spanish
https://doi.org/10.1075/resla.18002.her