Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/10495/28981
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorArias Londoño, Julián David-
dc.contributor.authorArango Sánchez, Jose Alberto-
dc.date.accessioned2022-06-06T12:41:11Z-
dc.date.available2022-06-06T12:41:11Z-
dc.date.issued2022-
dc.identifier.urihttp://hdl.handle.net/10495/28981-
dc.description.abstractRESUMEN : La separación de hablantes (Speaker Separation/Multitalker separation), es un tarea que consiste en separar en diferentes audios, las intervenciones individuales de los hablantes involucrados a partir de una mezcla auditiva. Tarea que permitiría mejorar la interacción entre humanos y sistemas, a través del habla, ya que serviría como filtro de información. Durante este trabajo de grado, exploramos el comportamiento de 3 aproximacio- nes del estado del arte (DPRNN, SepFormer, Conv-TasNet), usando un corpus de grabaciones de llamadas sobre canal telefónico en el idioma español[9], con hablantes de diferentes partes de América latina. Se seleccionó Conv-TasNet como la arquitectura base por su desempeño, ya que logró una relación señal distorsión invariante en la escala (SI-SDR) de 6.9 dB, luego realizamos múltiples experimentos con esta arquitectura, con el objetivo de obtener mejores resultados, consiguiendo así un modelo con un SI-SDR de 9.9 dB. Luego de manera experimental, se identifico una relación entre la similitud entre hablantes y el desempeño del modelo, por lo tanto se planteó una mejora a la arquitectura ConvTasNet, introduciendo un término en la función de costo de la arquitectura original. Dicho término esta relacionado con la similitud entre hablantes y utiliza un Speech embedding para el cálculo de di- cha similitud. Con esta mejora se logró un SI-SDR de 10.6 dB. Finalmente el modelo ConvTasNet modificado, se desplegó en una infraestructura que permitió su ejecución en tiempo real, sin embargo para garantizar el concepto de tiempo real, utilizamos segmentos de audio de 1 segundo, tiempo en el cual, por lo general solo 1 hablante interviene, lo cual es una condición distante de la realidad conocida por el modelo entrenado (longitud de las muestras de entrenamiento y validación).spa
dc.format.extent70spa
dc.format.mimetypeapplication/pdfspa
dc.language.isospaspa
dc.type.hasversioninfo:eu-repo/semantics/draftspa
dc.rightsinfo:eu-repo/semantics/openAccessspa
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/2.5/co/*
dc.titleSeparación de hablantes en tiempo real usando técnicas de Deep Learningspa
dc.typeinfo:eu-repo/semantics/bachelorThesisspa
dc.publisher.groupIntelligent Information Systems Lab.spa
dc.description.noteCódigo del proyecto: https://github.com/DW-Speech-Separation Dataset del proyecto: https://huggingface.co/datasets/josearangos/spanish-calls-corpus-Friends, https://huggingface.co/datasets/josearangos/spanish-calls-corpus-Home, https://huggingface.co/datasets/josearangos/spanish-calls-corpus-Caribbeanspa
oaire.versionhttp://purl.org/coar/version/c_b1a7d7d4d402bccespa
dc.rights.accessrightshttp://purl.org/coar/access_right/c_abf2spa
thesis.degree.nameIngeniería de Sistemasspa
thesis.degree.levelPregradospa
thesis.degree.disciplineFacultad de Ingeniería. Ingeniería de Sistemasspa
thesis.degree.grantorUniversidad de Antioquiaspa
dc.rights.creativecommonshttps://creativecommons.org/licenses/by-nc-sa/4.0/spa
dc.publisher.placeMedellín - Colombiaspa
dc.type.coarhttp://purl.org/coar/resource_type/c_7a1fspa
dc.type.redcolhttps://purl.org/redcol/resource_type/TPspa
dc.type.localTesis/Trabajo de grado - Monografía - Pregradospa
dc.subject.lembAudiología-
dc.subject.lembAudiology-
dc.subject.lembReproducción del sonido - técnicas digitales-
dc.subject.lembSound--Recording and reproducing--Digital techniques-
dc.subject.lembAudio digital-
dc.subject.lembDigital audio-
dc.subject.agrovocSistemas-
dc.subject.agrovocsystems-
dc.subject.agrovocurihttp://aims.fao.org/aos/agrovoc/c_330985-
dc.relatedidentifier.urlhttps://github.com/DW-Speech-Separationspa
Aparece en las colecciones: Ingeniería de Sistemas

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
ArangoJose_2022_SeparacionHablantesDL.pdfTrabajo de grado de pregrado3.85 MBAdobe PDFVisualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons