Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/10495/29418
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorSanes Negrete, Sergio-
dc.contributor.authorRestrepo Gutiérrez, Katherine-
dc.date.accessioned2022-06-28T15:22:21Z-
dc.date.available2022-06-28T15:22:21Z-
dc.date.issued2022-
dc.identifier.urihttp://hdl.handle.net/10495/29418-
dc.description.abstractRESUMEN: El objetivo de este trabajo es predecir la supervivencia del cáncer de mama aplicando modelos de clasificación, para el desarrollo de este objetivo se utiliza la base de datos del Consorcio Internacional de Taxonomía Molecular del Cáncer de Mama (METABRIC), que contiene datos de 1.904 pacientes con atributos clínicos y 331 genes con niveles de puntuación z de ARNm y mutación de 175 genes, la base de datos está disponible en la plataforma de Kaggle publicado por RAGHAD ALHARBI. Para este trabajo se modela la supervivencia del cáncer de mama como un problema de clasificación binaria utilizando modelos de aprendizaje estadístico supervisado como es la regresión logística, árbol de clasificación, random forest y Gradient boosting. En un primer experimento, se utilizaron únicamente datos clínicos como variables explicativas. Como primer resultado se obtiene que la regresión logística es el mejor modelo. En un segundo experimento, se realiza una modelación incluyendo datos clínicos y parte de las variables de expresión genética, lo que aumenta la dimensión de variables explicativas a 6.271, debido a esto, se aplica una técnica de reducción de dimensionalidad por análisis de componentes principales. El mejor modelo nuevamente es la regresión logística, pero el resultado se encuentra por debajo del primer modelo. Finalmente se realiza un tercer experimento o iteración que busca mejorar el resultado de la segunda modelación, en esta última se incluyen las mismas variables clínicas y algunas variables genéticas que por estudios las han clasificado como principales factores de riesgo en el desarrollo de este tipo de cáncer. El mejor modelo continúa siendo la regresión logística y el resultado mejora respecto a los modelos anteriores. Como conclusión, se puede evidenciar que el mejor desempeño se logra en el tercer experimento con el modelo de Regresión Logística, Accuracy de 84%, f1-score de 82% cuando se predice la muerte y f1-score del 85% en la predicción de la supervivencia del paciente.spa
dc.format.extent35spa
dc.format.mimetypeapplication/pdfspa
dc.language.isospaspa
dc.type.hasversioninfo:eu-repo/semantics/draftspa
dc.rightsinfo:eu-repo/semantics/openAccessspa
dc.rights.urihttp://creativecommons.org/publicdomain/zero/1.0/*
dc.titlePredicción de supervivencia en pacientes con cáncer de mama utilizando modelos de clasificaciónspa
dc.typeinfo:eu-repo/semantics/otherspa
oaire.versionhttp://purl.org/coar/version/c_b1a7d7d4d402bccespa
dc.rights.accessrightshttp://purl.org/coar/access_right/c_abf2spa
thesis.degree.nameEspecialista en Analítica y Ciencia de Datosspa
thesis.degree.levelEspecializaciónspa
thesis.degree.disciplineFacultad de Ingeniería. Especialización en Analítica y Ciencia de Datosspa
thesis.degree.grantorUniversidad de Antioquiaspa
dc.rights.creativecommonshttps://creativecommons.org/licenses/by-nc-sa/4.0/spa
dc.publisher.placeMedellín - Colombiaspa
dc.type.coarhttp://purl.org/coar/resource_type/c_46ecspa
dc.type.redcolhttp://purl.org/redcol/resource_type/COtherspa
dc.type.localTesis/Trabajo de grado - Monografía - Especializaciónspa
dc.subject.decsEsperanza de Vida-
dc.subject.decsNeoplasias de la Mama-
dc.subject.lembTécnicas de predicción-
dc.subject.lembAnálisis de regresión-
dc.relatedidentifier.urlhttps://github.com/katherine2022Udea/TesisEspecializacionspa
Aparece en las colecciones: Especializaciones de la Facultad de Ingeniería

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
RestrepoKatherine_2022_PredicciónSupervivienciaCáncer.pdf1.05 MBAdobe PDFVisualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons