Importancia de las frecuencias de resonancia del tracto vocal en la estimación de posiciones articulatorias - IMPORTANCE OF THE RESONANCE FREQUENCIES OF THE VOCAL TRACT IN ESTIMATING ARTICULATORY POSITIONS

Importancia de las frecuencias de resonancia del tracto vocal en la estimación de posiciones articulatorias - IMPORTANCE OF THE RESONANCE FREQUENCIES OF THE VOCAL TRACT IN ESTIMATING ARTICULATORY POSITIONS

Contenido principal del artículo

Alexander Sepúlveda
Diana Margarita Casas Gómez
Germán Castellanos

Resumen

La inversión articulatoria, cuyo objetivo es estimar la posición de los órganos articuladores a partir de la información contenida en la señal de voz, ofrece una variedad de potenciales aplicaciones en el campo de la voz; sin embargo, este es un problema aún por resolver. En este sentido, buscar representaciones con la capacidad de incrementar el desempeño de los sistemas de inversión articulatoria es una tarea importante. El presente trabajo analiza la relevancia de los formantes como entrada para los sistemas de inversión articulatoria. Para ello se implementa un análisis analítico y estadístico. En el caso analítico se utiliza un sintetizador articulario, el cual simula la ecuación de tubos concatenados que modelan el tracto vocal. Para el análisis estadístico se estudian datos reales provenientes de un articulógrafo electromagnético para los cuales se estima la asociación entre las características acústicas y los movimientos de los órganos articuladores. A modo de medida de asociación estadística se utiliza la medida de información. Los resultados entregados por el análisis son corroborados en un sistema de inversión articulatoria basado en redes neuronales. Se observa una mejora en el valor de error cuadrático medio del 2,2% y para el caso de la medida de desempeño de la correlación, una mejora del 2,8%.

Abstract Acoustic-to-Articulatory inversion, which seeks to estimate an articulator position using the acoustic information in the speech signal, offers several potential applications in the field of speech processing. In this context, it is important to use acoustic parameters with the ability to increase the performance of acoustic-to-articulatory inversion systems. This paper analyzes the importance of formants as inputs to such inversion systems from an analytical and a statistical perspective. The former is based on an articulatory synthesizer that simulates the voice signal from the vocal tract. The statistical analysis is based on real data provided by an electromagnetic articulograph, for which we estimate the statistical association between acoustic features and articulator movement. As a measure of statistical association, the information measure is utilized. The results are tested on a neuralnetwork-based Acoustic-to-Articulatory inversion system. The use of formants as inputs led to an improvement of 2.2% and 2.8% in the root-mean-square error and correlation values, respectively.

Descargas

Los datos de descargas todavía no están disponibles.

Detalles del artículo