Separación de hablantes en tiempo real usando técnicas de Deep Learning

Arango Sánchez, Jose Alberto

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/10495/28981

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.advisor	Arias Londoño, Julián David	-
dc.contributor.author	Arango Sánchez, Jose Alberto	-
dc.date.accessioned	2022-06-06T12:41:11Z	-
dc.date.available	2022-06-06T12:41:11Z	-
dc.date.issued	2022	-
dc.identifier.uri	http://hdl.handle.net/10495/28981	-
dc.description.abstract	RESUMEN : La separación de hablantes (Speaker Separation/Multitalker separation), es un tarea que consiste en separar en diferentes audios, las intervenciones individuales de los hablantes involucrados a partir de una mezcla auditiva. Tarea que permitiría mejorar la interacción entre humanos y sistemas, a través del habla, ya que serviría como filtro de información. Durante este trabajo de grado, exploramos el comportamiento de 3 aproximacio- nes del estado del arte (DPRNN, SepFormer, Conv-TasNet), usando un corpus de grabaciones de llamadas sobre canal telefónico en el idioma español[9], con hablantes de diferentes partes de América latina. Se seleccionó Conv-TasNet como la arquitectura base por su desempeño, ya que logró una relación señal distorsión invariante en la escala (SI-SDR) de 6.9 dB, luego realizamos múltiples experimentos con esta arquitectura, con el objetivo de obtener mejores resultados, consiguiendo así un modelo con un SI-SDR de 9.9 dB. Luego de manera experimental, se identifico una relación entre la similitud entre hablantes y el desempeño del modelo, por lo tanto se planteó una mejora a la arquitectura ConvTasNet, introduciendo un término en la función de costo de la arquitectura original. Dicho término esta relacionado con la similitud entre hablantes y utiliza un Speech embedding para el cálculo de di- cha similitud. Con esta mejora se logró un SI-SDR de 10.6 dB. Finalmente el modelo ConvTasNet modificado, se desplegó en una infraestructura que permitió su ejecución en tiempo real, sin embargo para garantizar el concepto de tiempo real, utilizamos segmentos de audio de 1 segundo, tiempo en el cual, por lo general solo 1 hablante interviene, lo cual es una condición distante de la realidad conocida por el modelo entrenado (longitud de las muestras de entrenamiento y validación).	spa
dc.format.extent	70	spa
dc.format.mimetype	application/pdf	spa
dc.language.iso	spa	spa
dc.type.hasversion	info:eu-repo/semantics/draft	spa
dc.rights	info:eu-repo/semantics/openAccess	spa
dc.rights.uri	http://creativecommons.org/licenses/by-nc-sa/2.5/co/	*
dc.title	Separación de hablantes en tiempo real usando técnicas de Deep Learning	spa
dc.type	info:eu-repo/semantics/bachelorThesis	spa
dc.publisher.group	Intelligent Information Systems Lab.	spa
dc.description.note	Código del proyecto: https://github.com/DW-Speech-Separation Dataset del proyecto: https://huggingface.co/datasets/josearangos/spanish-calls-corpus-Friends, https://huggingface.co/datasets/josearangos/spanish-calls-corpus-Home, https://huggingface.co/datasets/josearangos/spanish-calls-corpus-Caribbean	spa
oaire.version	http://purl.org/coar/version/c_b1a7d7d4d402bcce	spa
dc.rights.accessrights	http://purl.org/coar/access_right/c_abf2	spa
thesis.degree.name	Ingeniería de Sistemas	spa
thesis.degree.level	Pregrado	spa
thesis.degree.discipline	Facultad de Ingeniería. Ingeniería de Sistemas	spa
thesis.degree.grantor	Universidad de Antioquia	spa
dc.rights.creativecommons	https://creativecommons.org/licenses/by-nc-sa/4.0/	spa
dc.publisher.place	Medellín - Colombia	spa
dc.type.coar	http://purl.org/coar/resource_type/c_7a1f	spa
dc.type.redcol	https://purl.org/redcol/resource_type/TP	spa
dc.type.local	Tesis/Trabajo de grado - Monografía - Pregrado	spa
dc.subject.lemb	Audiología	-
dc.subject.lemb	Audiology	-
dc.subject.lemb	Reproducción del sonido - técnicas digitales	-
dc.subject.lemb	Sound--Recording and reproducing--Digital techniques	-
dc.subject.lemb	Audio digital	-
dc.subject.lemb	Digital audio	-
dc.subject.agrovoc	Sistemas	-
dc.subject.agrovoc	systems	-
dc.subject.agrovocuri	http://aims.fao.org/aos/agrovoc/c_330985	-
dc.relatedidentifier.url	https://github.com/DW-Speech-Separation	spa
Aparece en las colecciones:	Ingeniería de Sistemas

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
ArangoJose_2022_SeparacionHablantesDL.pdf	Trabajo de grado de pregrado	3.85 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro sencillo del ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons