Observatorio de I+D+i UPM

| Otras actividades
HOME

Proyectos Internacionales Art�culos Patentes UPM Software UPM Empresas UPM Otras actividades Memorias de investigaci�n

Memorias de investigación

Tesis:

Contributions to the design of automatic voice quality analysis systems using speech technologies

A�o:2018

�reas de investigaci�n

Tecnolog�a de la informaci�n,
Informatizaci�n,
Inform�tica m�dica,
C�lculo cient�fico,
Tratamiento de se�ales bioel�ctricas

Datos

Descripci�n
Autor: Jorge Andr�s G�mez Garc�a La producci�n del habla es un proceso complejo que busca producir se�ales audibles que son empleadas, generalmente, con fines comunicativos. No solo el habla contiene un mensaje codificado, sino que tambi�n entrega informaci�n acerca del sexo, la edad, la condici�n y aspectos que describen al hablante. Debido a esto, existe un gran inter�s en dise�ar sistemas que extraigan esta informaci�n no ling��stica con fines de an�lisis autom�tico. Una aplicaci�n interesante est� en el dise�o de sistemas autom�ticos que caracterizan la presencia y gravedad de desordenes de voz. Lo cual tiene aplicaciones como herramientas complementarias objetivas en entornos cl�nicos. No obstante, el dise�o de sistemas autom�ticos plantea varios problemas que incluyen la variabilidad intr�nseca del habla, la presencia simult�nea de m�ltiples fen�menos de patolog�a vocal, informaci�n extraling��stica espuria o la dependencia en evaluaciones perceptuales altamente subjetivas. Con estos antecedentes, esta tesis eval�a la influencia de la informaci�n extraling��stica, diferentes tipos de tareas de producci�n de habla, diversas m�quinas de decisi�n y caracter�sticas, en el dise�o de sistemas autom�ticos de an�lisis de calidad vocal, cuyo objetivo es generalizar decisiones acerca de la presencia y severidad de patolog�as presentes en la voz y/o el habla. Una nueva metodolog�a ha sido propuesta para emular las capacidades perceptuales de un evaluador humano, la cual est� basada en algoritmos de selecci�n de caracter�sticas, clasificaci�n ordinal y regresi�n gaussiana. El regresor se usa para convertir la escala de percepci�n discreta en una continua, m�s acorde con la naturaleza de las evaluaciones. Adem�s, la robustez de los sistemas es evaluada en configuraciones de bases de datos cruzadas. Los resultados indican que el sexo del hablante juega un papel importante en los sistemas autom�ticos de an�lisis de calidad de voz y que el dise�o basado en sistemas jer�rquicos debe ser considerado. Tambi�n se ha encontrado que el conjunto m�s consistente de caracter�sticas en tareas de detecci�n y evaluaci�n de patolog�as son dos medidas de perturbaci�n y un descriptor basado en la dispersi�n de las representaciones de espectros de modulaci�n: glottal-to-noise excitation ratio, cepstral harmonics-to-noise ratio y rate of points above linear average. El mejor detector autom�tico entrenado con la base de datos de Saarbr�cken logra un AUC de 0.88 cuando la informaci�n provista por las diferentes tareas de voz se fusiona mediante regresi�n log�stica. En escenarios de bases de datos cruzadas, el AUC var�a entre 0.75 y 0.94, lo que demuestra la solidez del sistema. Este valor constituye una de las mejores eficiencias reportadas usando esta partici�n. El mejor sistema de evaluaci�n incurre en errores que difieren, en promedio, en media unidad con respecto a la etiqueta real en configuraciones de bases de datos cruzadas, usando G y B. Su capacidad de generalizar resultados ha sido validada por un experto. El error del sistema evaluado cl�nicamente es de 0.3 unidades para G
Internacional	Si
ISBN
Tipo de Tesis	Doctoral
Calificaci�n	Sobresaliente cum laude
Fecha	11/01/2018

Esta actividad pertenece a memorias de investigaci�n

Participantes

Director: Juan Ignacio Godino Llorente UPM

Grupos de investigaci�n, Departamentos, Centros e Institutos de I+D+i relacionados

Creador: Grupo de Investigaci�n: Grupo de Investigaci�n en Bioingenier�a y Optoelectr�nica
Departamento: Teor�a de la Se�al y Comunicaciones (Provisional)