Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/10495/23022
Título : Diseño de una arquitectura de clasificación biclase basada en las máquinas de vectores de soporte
Autor : Giraldo Londoño, Mario Alberto
metadata.dc.contributor.advisor: Duitama Muñoz, John Freddy
Arias Londoño, Julian David
metadata.dc.subject.*: Autoaprendizaje
Self instruction
Análisis de datos
Data analysis
Programación informática
Computer programming
Hardware del computador
Computer hardware
Classification
MapReduce
Spark
Support Vector Machine
http://aims.fao.org/aos/agrovoc/c_6220
http://aims.fao.org/aos/agrovoc/c_36788
http://vocabularies.unesco.org/thesaurus/concept3389
http://vocabularies.unesco.org/thesaurus/concept2214
Fecha de publicación : 2021
Resumen : RESUMEN: La máquina de vectores de soporte o support vector machine (SVM, su sigla en inglés), es un método ampliamente utilizado en el campo del aprendizaje automático, debido a que ha logrado una alta capacidad de generalización al hacer predicciones correctas sobre nuevas muestras en diferentes aplicaciones, como lo muestra [1] y [2], entre otros. Su costo computacional puede ser del orden cuadrático respecto al número de muestras de entrenamiento. Este hecho hace que su uso para entrenar con grandes conjuntos de datos tenga un alto costo computacional; su implementación en modelos de programación en paralelo, como MapReduce y Spark, ha demostrado ser eficiente para mejorar dicho costo. Sin embargo, existen factores en el empleo de estas framework que impactan el desempeño de los algoritmos, tanto en cuanto al costo computacional como de precisión. El presente trabajo de tesis se propone una arquitectura para hacer un procesamiento distribuido de la SVM basadas en SMO (Sequential Minimal Optimization) y se analiza cómo el tamaño del subconjunto de datos y el número de tareas de mapeo impactan su desempeño en implementaciones bajo MapReduce y Spark. Además, se plantea un modelo de costos como una herramienta útil para la configuración del tamaño de los subconjuntos de datos de acuerdo con el hardware disponible y los datos a procesar.
ABSTRACT: Support vector machine (SVM) is a classifier widely used in machine learning because of its high generalization capacity. Its computational cost can be of the quadratic order respect to number of training samples. This fact makes using SVM to train large data sets have a high computational cost. SVM implementations on distributed systems such as MapReduce and Spark have shown efficiency to improve computational cost; however, there are factors as to using these tools that have impact on the algorithms performance, both at computational cost and accuracy levels. This paper analyzes how data subset size and number of mapping tasks affect SVM performance on MapReduce and Spark. Also, a cost model as a useful tool for setting data subset size according to available hardware and data to be processed is proposed.
Aparece en las colecciones: Maestrías de la Facultad de Ingeniería

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
GiraldoMario_2020_DisenoArquitecturaClasificacion.pdfTesis de maestria4.86 MBAdobe PDFVisualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons