Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/10495/37554
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorSantana Velásquez, Angelower-
dc.contributor.authorHenao Restrepo, Ana Estefanía-
dc.contributor.authorGil Hoyos, Juan José-
dc.date.accessioned2023-12-12T19:14:21Z-
dc.date.available2023-12-12T19:14:21Z-
dc.date.issued2023-
dc.identifier.urihttps://hdl.handle.net/10495/37554-
dc.description.abstractRESUMEN : El conjunto de datos "Diabetes Prediction Competition (Diabetes Prediction Competition (TFUG CHD Nov 2022) | Kaggle, s. f.)" se utilizó para optimizar los hiperparámetros de un modelo destinado a contribuir con la determinación de la probabilidad de diabetes en pacientes por parte de médicos tratantes. El dataset consta de 17 variables asociadas con el estado de salud general del paciente y una variable de respuesta de dos clases: paciente con diabetes (1) y sin diabetes (0). La cantidad de registros corresponde a la información de 80.692 pacientes. Se evaluaron nueve modelos de aprendizaje supervisado, los cuales fueron: Regresión Logística, KNeighbors Classifier, Naive Bayes Classifier, Random Forest Classifier, Support Vector Classifier, XGBoost Classifier, Adaboost Classifier, una red neuronal MLP Classifier y otra desarrollada directamente usando la librería Keras. Se enfrentaron desafíos como el alto costo computacional del MLP Classifier, con una ejecución de más de ocho horas, un tiempo de ejecución del algoritmo de validación cruzada de más de siete horas y la “maldición” de la dimensionalidad para el modelo KNN cuando se utilizaba la métrica de distancia cosine. Entre los resultados más notables, se determinó que la presencia de datos atípicos no influyó significativamente en el rendimiento de los modelos. Finalmente, el modelo óptimo fue la red neuronal artificial desarrollada con Keras con un arreglo de capa inicial, cinco capas ocultas, seis capas de dropout y una capa final, 64 neuronas por cada capa oculta, función de activación tangente hiperbólica, optimizador Adam y tasa de dropout de 0.2.spa
dc.description.abstractABSTRACT : The dataset "Diabetes Prediction Competition (Diabetes Prediction Competition (TFUG CHD Nov 2022) | Kaggle, s. f.)" was used to optimize the hyper parameters of a model intended to contribute to the determination of the probability of diabetes in patients by treating physicians. The dataset consists of 17 variables associated with the patient's general health status and a response variable of two classes: patient with diabetes (1) and without diabetes (0). The number of records corresponds to the information of 80,692 patients. Nine supervised learning models were evaluated, which were: Logistic Regression, KNeighbors Classifier, Naive Bayes Classifier, Random Forest Classifier, Support Vector Classifier, XGBoost Classifier, Adaboost Classifier, an MLP Classifier neural network and another developed directly using the Keras library. Challenges such as the high computational cost of the MLP Classifier, with an execution of more than eight hours, a cross-validation algorithm execution time of more than seven hours, and the "curse" of dimensionality for the KNN model when using the cosine distance metric were faced. Among the most remarkable results, it was determined that the presence of outliers did not significantly influence the performance of the models. Finally, the optimal model was the artificial neural network developed with Keras with an initial layer array, five hidden layers, six drop out layers and a final layer, 64 neurons for each hidden layer, hyperbolic tangent activation function, Adam optimizer and drop out rate of 0.2.spa
dc.format.extent62spa
dc.format.mimetypeapplication/pdfspa
dc.language.isospaspa
dc.type.hasversioninfo:eu-repo/semantics/draftspa
dc.rightsinfo:eu-repo/semantics/openAccessspa
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/2.5/co/*
dc.titlePredicción de probabilidad de diabetes basada en atributos relacionados con los hábitos de alimentación y condición de salud de los pacientesspa
dc.typeinfo:eu-repo/semantics/otherspa
oaire.versionhttp://purl.org/coar/version/c_b1a7d7d4d402bccespa
dc.rights.accessrightshttp://purl.org/coar/access_right/c_abf2spa
thesis.degree.nameEspecialista en Analítica y Ciencia de Datosspa
thesis.degree.levelEspecializaciónspa
thesis.degree.disciplineFacultad de Ingeniería. Especialización en Analítica y Ciencia de Datosspa
thesis.degree.grantorUniversidad de Antioquiaspa
dc.rights.creativecommonshttps://creativecommons.org/licenses/by-nc-sa/4.0/spa
dc.publisher.placeMedellín, Colombiaspa
dc.type.coarhttp://purl.org/coar/resource_type/c_46ecspa
dc.type.redcolhttp://purl.org/redcol/resource_type/COtherspa
dc.type.localTesis/Trabajo de grado - Monografía - Especializaciónspa
dc.subject.lembAprendizaje automático (inteligencia artificial)-
dc.subject.lembMachine learning-
dc.subject.lembAprendizaje supervisado (Aprendizaje automático)-
dc.subject.lembSupervised learning (Machine learning)-
dc.subject.lembDiabetes - diagnostico-
dc.subject.lembDiabetes - Diagnosis-
Aparece en las colecciones: Especializaciones de la Facultad de Ingeniería

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
HenaoAnaGilJuan_2023_PrediccionProbabilidadDiabetes.pdfTrabajo de grado de especialización1.7 MBAdobe PDFVisualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons