Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/10495/23022
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorDuitama Muñoz, John Freddy-
dc.contributor.advisorArias Londoño, Julian David-
dc.contributor.authorGiraldo Londoño, Mario Alberto-
dc.date.accessioned2021-10-08T16:31:40Z-
dc.date.available2021-10-08T16:31:40Z-
dc.date.issued2021-
dc.identifier.urihttp://hdl.handle.net/10495/23022-
dc.description.abstractRESUMEN: La máquina de vectores de soporte o support vector machine (SVM, su sigla en inglés), es un método ampliamente utilizado en el campo del aprendizaje automático, debido a que ha logrado una alta capacidad de generalización al hacer predicciones correctas sobre nuevas muestras en diferentes aplicaciones, como lo muestra [1] y [2], entre otros. Su costo computacional puede ser del orden cuadrático respecto al número de muestras de entrenamiento. Este hecho hace que su uso para entrenar con grandes conjuntos de datos tenga un alto costo computacional; su implementación en modelos de programación en paralelo, como MapReduce y Spark, ha demostrado ser eficiente para mejorar dicho costo. Sin embargo, existen factores en el empleo de estas framework que impactan el desempeño de los algoritmos, tanto en cuanto al costo computacional como de precisión. El presente trabajo de tesis se propone una arquitectura para hacer un procesamiento distribuido de la SVM basadas en SMO (Sequential Minimal Optimization) y se analiza cómo el tamaño del subconjunto de datos y el número de tareas de mapeo impactan su desempeño en implementaciones bajo MapReduce y Spark. Además, se plantea un modelo de costos como una herramienta útil para la configuración del tamaño de los subconjuntos de datos de acuerdo con el hardware disponible y los datos a procesar.spa
dc.description.abstractABSTRACT: Support vector machine (SVM) is a classifier widely used in machine learning because of its high generalization capacity. Its computational cost can be of the quadratic order respect to number of training samples. This fact makes using SVM to train large data sets have a high computational cost. SVM implementations on distributed systems such as MapReduce and Spark have shown efficiency to improve computational cost; however, there are factors as to using these tools that have impact on the algorithms performance, both at computational cost and accuracy levels. This paper analyzes how data subset size and number of mapping tasks affect SVM performance on MapReduce and Spark. Also, a cost model as a useful tool for setting data subset size according to available hardware and data to be processed is proposed.spa
dc.format.extent118spa
dc.format.mimetypeapplication/pdfspa
dc.language.isospaspa
dc.type.hasversioninfo:eu-repo/semantics/draftspa
dc.rightsinfo:eu-repo/semantics/openAccessspa
dc.rights.urihttp://creativecommons.org/licenses/by/2.5/co/*
dc.titleDiseño de una arquitectura de clasificación biclase basada en las máquinas de vectores de soportespa
dc.typeinfo:eu-repo/semantics/masterThesisspa
dc.publisher.groupIntelligent Information Systems Lab.spa
oaire.versionhttp://purl.org/coar/version/c_b1a7d7d4d402bccespa
dc.rights.accessrightshttp://purl.org/coar/access_right/c_abf2spa
thesis.degree.nameMagíster en Ingenieríaspa
thesis.degree.levelMaestríaspa
thesis.degree.disciplineFacultad de Ingeniería. Maestría en Ingenieríaspa
thesis.degree.grantorUniversidad de Antioquiaspa
dc.rights.creativecommonshttps://creativecommons.org/licenses/by-nc-sa/4.0/spa
dc.publisher.placeMedellínspa
dc.type.coarhttp://purl.org/coar/resource_type/c_bdccspa
dc.type.redcolhttps://purl.org/redcol/resource_type/TMspa
dc.type.localTesis/Trabajo de grado - Monografía - Maestríaspa
dc.subject.unescoAutoaprendizaje-
dc.subject.unescoSelf instruction-
dc.subject.unescoAnálisis de datos-
dc.subject.unescoData analysis-
dc.subject.agrovocProgramación informática-
dc.subject.agrovocComputer programming-
dc.subject.agrovocHardware del computador-
dc.subject.agrovocComputer hardware-
dc.subject.proposalClassificationspa
dc.subject.proposalMapReducespa
dc.subject.proposalSparkspa
dc.subject.proposalSupport Vector Machinespa
dc.subject.agrovocurihttp://aims.fao.org/aos/agrovoc/c_6220-
dc.subject.agrovocurihttp://aims.fao.org/aos/agrovoc/c_36788-
dc.subject.unescourihttp://vocabularies.unesco.org/thesaurus/concept3389-
dc.subject.unescourihttp://vocabularies.unesco.org/thesaurus/concept2214-
Aparece en las colecciones: Maestrías de la Facultad de Ingeniería

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
GiraldoMario_2020_DisenoArquitecturaClasificacion.pdfTesis de maestria4.86 MBAdobe PDFVisualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons