Memorias de investigación
Tesis:
Contributions to the design of automatic voice quality analysis systems using speech technologies
Año:2018

Áreas de investigación
  • Tecnología de la información,
  • Informatización,
  • Informática médica,
  • Cálculo científico,
  • Tratamiento de señales bioeléctricas

Datos
Descripción
Autor: Jorge Andrés Gómez García La producción del habla es un proceso complejo que busca producir señales audibles que son empleadas, generalmente, con fines comunicativos. No solo el habla contiene un mensaje codificado, sino que también entrega información acerca del sexo, la edad, la condición y aspectos que describen al hablante. Debido a esto, existe un gran interés en diseñar sistemas que extraigan esta información no lingüística con fines de análisis automático. Una aplicación interesante está en el diseño de sistemas automáticos que caracterizan la presencia y gravedad de desordenes de voz. Lo cual tiene aplicaciones como herramientas complementarias objetivas en entornos clínicos. No obstante, el diseño de sistemas automáticos plantea varios problemas que incluyen la variabilidad intrínseca del habla, la presencia simultánea de múltiples fenómenos de patología vocal, información extralingüística espuria o la dependencia en evaluaciones perceptuales altamente subjetivas. Con estos antecedentes, esta tesis evalúa la influencia de la información extralingüística, diferentes tipos de tareas de producción de habla, diversas máquinas de decisión y características, en el diseño de sistemas automáticos de análisis de calidad vocal, cuyo objetivo es generalizar decisiones acerca de la presencia y severidad de patologías presentes en la voz y/o el habla. Una nueva metodología ha sido propuesta para emular las capacidades perceptuales de un evaluador humano, la cual está basada en algoritmos de selección de características, clasificación ordinal y regresión gaussiana. El regresor se usa para convertir la escala de percepción discreta en una continua, más acorde con la naturaleza de las evaluaciones. Además, la robustez de los sistemas es evaluada en configuraciones de bases de datos cruzadas. Los resultados indican que el sexo del hablante juega un papel importante en los sistemas automáticos de análisis de calidad de voz y que el diseño basado en sistemas jerárquicos debe ser considerado. También se ha encontrado que el conjunto más consistente de características en tareas de detección y evaluación de patologías son dos medidas de perturbación y un descriptor basado en la dispersión de las representaciones de espectros de modulación: glottal-to-noise excitation ratio, cepstral harmonics-to-noise ratio y rate of points above linear average. El mejor detector automático entrenado con la base de datos de Saarbrücken logra un AUC de 0.88 cuando la información provista por las diferentes tareas de voz se fusiona mediante regresión logística. En escenarios de bases de datos cruzadas, el AUC varía entre 0.75 y 0.94, lo que demuestra la solidez del sistema. Este valor constituye una de las mejores eficiencias reportadas usando esta partición. El mejor sistema de evaluación incurre en errores que difieren, en promedio, en media unidad con respecto a la etiqueta real en configuraciones de bases de datos cruzadas, usando G y B. Su capacidad de generalizar resultados ha sido validada por un experto. El error del sistema evaluado clínicamente es de 0.3 unidades para G
Internacional
Si
ISBN
Tipo de Tesis
Doctoral
Calificación
Sobresaliente cum laude
Fecha
11/01/2018

Esta actividad pertenece a memorias de investigación

Participantes

Grupos de investigación, Departamentos, Centros e Institutos de I+D+i relacionados
  • Creador: Grupo de Investigación: Grupo de Investigación en Bioingeniería y Optoelectrónica
  • Departamento: Teoría de la Señal y Comunicaciones (Provisional)