Archive/Multi-Level Embedding Conformer Framework for Speech Recognition
Multi-Level Embedding Conformer Framework for Speech Recognition
No authorship indicated
March 16, 2026 at 05:23 PM
1.3 MB
es

Abstract

Este documento presenta un marco de reconocimiento automático de voz (ASR) para el idioma bengalí, que se basa en una arquitectura Conformer-CTC con un mecanismo de fusión de incrustaciones de múltiples niveles. Dado que el bengalí es un idioma morfológicamente rico y de bajo recurso, el enfoque propuesto integra representaciones de fonemas, sílabas y unidades de palabras para mejorar la captura de características acústicas y patrones contextuales. La metodología incluye etapas de preprocesamiento como recorte de silencio y extracción de espectrogramas Log-Mel. Los resultados experimentales muestran que el modelo alcanza una tasa de error de palabras (WER) del 10.01% y una tasa de error de caracteres (CER) del 5.03%, lo que resalta la efectividad de combinar información lingüística multigranular con modelado acústico. Este trabajo contribuye al desarrollo de sistemas ASR escalables y adaptables para idiomas de bajo recurso, ofreciendo un enfoque que puede ser extendido a otros idiomas con estructuras lingüísticas complejas. La investigación destaca la importancia de integrar técnicas modernas de preprocesamiento para mejorar la robustez del modelo y su aplicabilidad en contextos diversos.

Share this publication
Multi-Level Embedding Conformer Framework for Speech Recognition preview

Check Findability & Get Protocol for Proof

Found
Not Found
No Data

19.00 €