Por favor, use este identificador para citar o enlazar este ítem:
https://hdl.handle.net/10495/29418
Título : | Predicción de supervivencia en pacientes con cáncer de mama utilizando modelos de clasificación |
Autor : | Restrepo Gutiérrez, Katherine |
metadata.dc.contributor.advisor: | Sanes Negrete, Sergio |
metadata.dc.subject.*: | Esperanza de Vida Neoplasias de la Mama Técnicas de predicción Análisis de regresión |
Fecha de publicación : | 2022 |
Resumen : | RESUMEN: El objetivo de este trabajo es predecir la supervivencia del cáncer de mama aplicando modelos de clasificación, para el desarrollo de este objetivo se utiliza la base de datos del Consorcio Internacional de Taxonomía Molecular del Cáncer de Mama (METABRIC), que contiene datos de 1.904 pacientes con atributos clínicos y 331 genes con niveles de puntuación z de ARNm y mutación de 175 genes, la base de datos está disponible en la plataforma de Kaggle publicado por RAGHAD ALHARBI. Para este trabajo se modela la supervivencia del cáncer de mama como un problema de clasificación binaria utilizando modelos de aprendizaje estadístico supervisado como es la regresión logística, árbol de clasificación, random forest y Gradient boosting. En un primer experimento, se utilizaron únicamente datos clínicos como variables explicativas. Como primer resultado se obtiene que la regresión logística es el mejor modelo. En un segundo experimento, se realiza una modelación incluyendo datos clínicos y parte de las variables de expresión genética, lo que aumenta la dimensión de variables explicativas a 6.271, debido a esto, se aplica una técnica de reducción de dimensionalidad por análisis de componentes principales. El mejor modelo nuevamente es la regresión logística, pero el resultado se encuentra por debajo del primer modelo. Finalmente se realiza un tercer experimento o iteración que busca mejorar el resultado de la segunda modelación, en esta última se incluyen las mismas variables clínicas y algunas variables genéticas que por estudios las han clasificado como principales factores de riesgo en el desarrollo de este tipo de cáncer. El mejor modelo continúa siendo la regresión logística y el resultado mejora respecto a los modelos anteriores. Como conclusión, se puede evidenciar que el mejor desempeño se logra en el tercer experimento con el modelo de Regresión Logística, Accuracy de 84%, f1-score de 82% cuando se predice la muerte y f1-score del 85% en la predicción de la supervivencia del paciente. |
metadata.dc.relatedidentifier.url: | https://github.com/katherine2022Udea/TesisEspecializacion |
Aparece en las colecciones: | Especializaciones de la Facultad de Ingeniería |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
RestrepoKatherine_2022_PredicciónSupervivienciaCáncer.pdf | 1.05 MB | Adobe PDF | Visualizar/Abrir |
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons