Abstract
Este documento presenta un marco de reconocimiento automático de voz (ASR) para el idioma bengalí, que se basa en una arquitectura Conformer-CTC con un mecanismo de fusión de incrustaciones de múltiples niveles. Dado que el bengalí es un idioma morfológicamente rico y de bajo recurso, el enfoque propuesto integra representaciones de fonemas, sílabas y unidades de palabras para mejorar la captura de características acústicas y patrones contextuales. La metodología incluye etapas de preprocesamiento como recorte de silencio y extracción de espectrogramas Log-Mel. Los resultados experimentales muestran que el modelo alcanza una tasa de error de palabras (WER) del 10.01% y una tasa de error de caracteres (CER) del 5.03%, lo que resalta la efectividad de combinar información lingüística multigranular con modelado acústico. Este trabajo contribuye al desarrollo de sistemas ASR escalables y adaptables para idiomas de bajo recurso, ofreciendo un enfoque que puede ser extendido a otros idiomas con estructuras lingüísticas complejas. La investigación destaca la importancia de integrar técnicas modernas de preprocesamiento para mejorar la robustez del modelo y su aplicabilidad en contextos diversos.
Check Findability & Get Protocol for Proof
19.00 €