Por favor, use este identificador para citar o enlazar este ítem:
https://hdl.handle.net/10495/23022
Título : | Diseño de una arquitectura de clasificación biclase basada en las máquinas de vectores de soporte |
Autor : | Giraldo Londoño, Mario Alberto |
metadata.dc.contributor.advisor: | Duitama Muñoz, John Freddy Arias Londoño, Julian David |
metadata.dc.subject.*: | Autoaprendizaje Self instruction Análisis de datos Data analysis Programación informática Computer programming Hardware del computador Computer hardware Classification MapReduce Spark Support Vector Machine http://aims.fao.org/aos/agrovoc/c_6220 http://aims.fao.org/aos/agrovoc/c_36788 http://vocabularies.unesco.org/thesaurus/concept3389 http://vocabularies.unesco.org/thesaurus/concept2214 |
Fecha de publicación : | 2021 |
Resumen : | RESUMEN: La máquina de vectores de soporte o support vector machine (SVM, su sigla en inglés), es un método ampliamente utilizado en el campo del aprendizaje automático, debido a que ha logrado una alta capacidad de generalización al hacer predicciones correctas sobre nuevas muestras en diferentes aplicaciones, como lo muestra [1] y [2], entre otros. Su costo computacional puede ser del orden cuadrático respecto al número de muestras de entrenamiento. Este hecho hace que su uso para entrenar con grandes conjuntos de datos tenga un alto costo computacional; su implementación en modelos de programación en paralelo, como MapReduce y Spark, ha demostrado ser eficiente para mejorar dicho costo. Sin embargo, existen factores en el empleo de estas framework que impactan el desempeño de los algoritmos, tanto en cuanto al costo computacional como de precisión. El presente trabajo de tesis se propone una arquitectura para hacer un procesamiento distribuido de la SVM basadas en SMO (Sequential Minimal Optimization) y se analiza cómo el tamaño del subconjunto de datos y el número de tareas de mapeo impactan su desempeño en implementaciones bajo MapReduce y Spark. Además, se plantea un modelo de costos como una herramienta útil para la configuración del tamaño de los subconjuntos de datos de acuerdo con el hardware disponible y los datos a procesar. ABSTRACT: Support vector machine (SVM) is a classifier widely used in machine learning because of its high generalization capacity. Its computational cost can be of the quadratic order respect to number of training samples. This fact makes using SVM to train large data sets have a high computational cost. SVM implementations on distributed systems such as MapReduce and Spark have shown efficiency to improve computational cost; however, there are factors as to using these tools that have impact on the algorithms performance, both at computational cost and accuracy levels. This paper analyzes how data subset size and number of mapping tasks affect SVM performance on MapReduce and Spark. Also, a cost model as a useful tool for setting data subset size according to available hardware and data to be processed is proposed. |
Aparece en las colecciones: | Maestrías de la Facultad de Ingeniería |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
GiraldoMario_2020_DisenoArquitecturaClasificacion.pdf | Tesis de maestria | 4.86 MB | Adobe PDF | Visualizar/Abrir |
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons