Metodología de análisis tiempo-frecuencia para la evaluación automática de la voz de pacientes con enfermedad de parkinson

Villa Cañas, Tatiana

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/10495/3737

Título :	Metodología de análisis tiempo-frecuencia para la evaluación automática de la voz de pacientes con enfermedad de parkinson
Autor :	Villa Cañas, Tatiana
metadata.dc.contributor.advisor:	Arias Londoño, Julián David
metadata.dc.subject.*:	Enfermedad de parkinson Parkinson Disease Análisis tiempo-frecuencia Detección de patologías de la voz
Fecha de publicación :	2016
Citación :	Villa Cañas, T. (2016). Metodología de análisis tiempo-frecuencia para la evaluación automática de la voz de pacientes con enfermedad de parkinson (Tesis de maestría). Universidad de Antioquia, Medellín, Colombia.
Resumen :	RESUMEN: En los últimos años un gran número de trabajos se han centrado en la detección automática de patologías de la voz, con el fin de realizar evaluaciones objetivas de la voz de una manera no invasiva. En los casos en que la patología afecta principalmente a los patrones vibratorios de los pliegues vocales, los análisis que se llevan a cabo típicamente son la pronunciación de las vocales sostenidas. Sin embargo, si la señal de voz pierde parte de su comportamiento cuasi-periódico debido a la presencia de la patología, y se afectan no sólo los procesos de fonación, sino también las dimensiones de articulación y prosodia, el análisis de señales de voz debe incluir ejercicios adicionales (palabras, frases y/o monólogos), ya que las vocales sostenidas por sí solas no son suficientes para evaluar las habilidades de calidad de voz y comunicación de un paciente, puesto que no incorporan aspectos dinámicos de voz continua (por ejemplo, la coarticulación, las características suprasegmentales, los efectos de inicio y compensación de la señal de voz, etc.) En general las patologías que afectan el habla pueden ser de tipo orgánico, funcional o neurológico. Dentro de las patologías de tipo neurológico, el desorden de Parkinson es actualmente una de las de mayor interés en el campo del procesamiento de voz patológica, debido a que se considera un desorden neurológico irreversible que afecta de forma exclusiva las áreas cerebrales encargadas del control motor del organismo, viéndose afectada la facultad del habla de múltiples maneras: la reducción en el nivel de la presión sonora, la inestabilidad en la fonación, la disminución de la entonación, el incremento en el ruido, y variabilidad durante la fonación ciclo a ciclo, produciendo múltiples cambios e introduciendo componentes de baja frecuencia. El análisis automático de la voz de pacientes con Parkinson ha tomado reciente interés, con el objetivo de encontrar marcadores que ayuden al diagnóstico de la enfermedad, y para desarrollar herramientas que permitan medir objetivamente el grado de afectación de los pacientes y ayuden a evaluar terapias de lenguaje que propendan por mantener la capacidad comunicativa de los pacientes, por más tiempo. Uno de los problemas principales que surgen en este escenario es el hecho de que varias de las medidas acústicas más utilizadas, se basan en el análisis en tiempo corto, bajo supuestos de estacionariedad que no son apropiados para las señales de voz continua, debido a las características suprasegmentales (variaciones de pitch, el ritmo, la entonación, entre otras). En general, las técnicas basadas en el análisis de muestras de voz continua se basan en algún procedimiento de segmentación para identificar los periodos sonoros y sordos, debido al hecho de que las medidas de periodicidad y regularidad (por ejemplo, relación armónica a ruido, primer pico cepstral y amplitud del tono) son válidas sólo en las regiones sonoras. Sin embargo, la segmentación sigue presentando problemas para la determinación del punto de inicio y final de los segmentos (sonoros y sordos), a causa del enlace natural que se produce entre un fonema y el siguiente, fenómeno conocido como coarticulación. Un enfoque alternativo en la manera de extraer características a partir de señales de voz continua, es utilizar directamente una técnica no estacionaria, evitando así la necesidad de usar un procedimiento de segmentación y permitiendo el análisis de segmentos más largos, posibilitando la caracterización de fenómenos que afectan varias unidades fonéticas y permitiendo la detección de cambios en baja frecuencia. Las técnicas de análisis tiempo-frecuencia, brindan la capacidad de operar en condiciones no estacionarias y proporcionan una perspectiva mejorada de las características temporales y espectrales de la señal, lo cual hace que sea un método adecuado para el análisis de señales cuyas características espectrales varían en el tiempo, como las señales biomédicas: fonocardiogramas, electrocardiogramas y señales de voz; además de otras señales de tipo no biológico como las ondas sísmicas, las vibraciones de motores, la propagación de la onda electromagnética, los parámetros atmosféricos, entre otras. En el presente trabajo se desarrolla una metodología basada en el análisis tiempo-frecuencia y en la extracción de características dinámicas de las señales de voz de pacientes con enfermedad de Parkinson, que permite analizar el contenido espectral en registros de voz continua, y usar dicha información para la construcción de sistemas automáticos de detección de patologías, basados en técnicas de reconocimiento de patrones. ABSTRACT: In the last years a large number ofworks have been focused on the automatic detection of voice pathologies, in order to be able of performing voice evaluation in a non-invasive framework. Whenever the pathology affects mainly the vibratory patterns of the vocal folds, the analyses are typically performed using pronunciation of sustained vowels.However, if the speech signal loses some of its quasi-periodic behavior due to the presence of pathology, and are affected not only phonatory processes, but also the dimensions of articulation and prosody, the analysis of speech signals should include additional exercise (words phrases and/or monologues), since sustained vowels alone are not sufficient for assessing voice qua- lity and communication skills, because do not incorporate dynamic aspects of continuous speech (e.g. coarticulations, suprasegmental characteristics, onset and offset effects etc.) [1]. The diseases that affect speech can be organic, functional or neurological. Among the neurological diseases, Parkinson’s disorder is currently one of themost interesting in the area of pathological voice processing, because it is considered an irreversible neurological disorder that affects exclusively responsible motor brain areas controlling body. The faculty of speech is affected inmultipleways: reduced loudness, monopitch, monoloudness, reduced stress, breathy, hoarse voice quality, and imprecise articulation, producingmultiple changes and introducing lowfrequency components [2]. Automatic speech analysis of patients with Parkinson has taken recent interest, with the aim of finding markers that aid in the diagnosis of disease, and to develop tools to objectively measure the degree of patients’ affectation, and help assess language therapies that tend to keep the communication skills of patients for longer. One of the main problem arising in this scenario is the fact that several of the most used acoustic measures are based on short-time analysis, under assumptions of stationarity which are not appropriate for continuous speech signals due to suprasegmental features [1]. In general, techniques based on the analysis of continuous speech samples rely on some segmentation procedure to identify the voiced and unvoiced periods, due to the fact that measures that quantify periodicity and regularity (e.g. Harmonic-to-Noise ratio, cepstral peak prominence, and pitch amplitude) are valid only in the voiced regions [3].However, the segmentation still presents problems for determining the start and the end of the segments (voiced and unvoiced), because of the natural binding that occurs between one phoneme and the next, phenomenon known as coarticulation. A different way to extract features fromcontinuous speech signals is to use a non-statio- nary technique directly, thereby avoiding the need for any segmentation procedures and allowing the analysis of longer frames, making feasible the characterization of phenomena which affect several phonetic units and allowing the detection of low frequency changes. The techniques of time-frequency analysis, provide the ability to operate in non-stationary conditions and offer improved perspective of the temporal and spectral characteristics of the signal, which makes them suitable methods for the analysis of signals whose spectral characteristics vary over time, such as biomedical signals: phonocardiograms, electrocardio- grams and voice signals; aswell as others non-biological signals such as seismicwaves, the vibrations of engines, the propagation of the electromagnetic wave, atmospheric parameters, and other ones [4]. In this work a methodology based on the time-frequency analysis and extraction of dynamic characteristics of voice signals of patients with Parkinson’s disease is developed, in order to analyze the spectral content in continuous speech records, and use such information in the development of systems for the automatic detection of pathological voices.
Aparece en las colecciones:	Maestrías de la Facultad de Ingeniería

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
VillaTatiana_2016_METODOLOGÍA ANÁLISIS TIEMPO.pdf	Tesis de maestría	1.52 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons