Por favor, use este identificador para citar o enlazar este ítem:
https://hdl.handle.net/10495/37554
Título : | Predicción de probabilidad de diabetes basada en atributos relacionados con los hábitos de alimentación y condición de salud de los pacientes |
Autor : | Henao Restrepo, Ana Estefanía Gil Hoyos, Juan José |
metadata.dc.contributor.advisor: | Santana Velásquez, Angelower |
metadata.dc.subject.*: | Aprendizaje automático (inteligencia artificial) Machine learning Aprendizaje supervisado (Aprendizaje automático) Supervised learning (Machine learning) Diabetes - diagnostico Diabetes - Diagnosis |
Fecha de publicación : | 2023 |
Resumen : | RESUMEN : El conjunto de datos "Diabetes Prediction Competition (Diabetes Prediction Competition (TFUG CHD Nov 2022) | Kaggle, s. f.)" se utilizó para optimizar los hiperparámetros de un modelo destinado a contribuir con la determinación de la probabilidad de diabetes en pacientes por parte de médicos tratantes. El dataset consta de 17 variables asociadas con el estado de salud general del paciente y una variable de respuesta de dos clases: paciente con diabetes (1) y sin diabetes (0). La cantidad de registros corresponde a la información de 80.692 pacientes.
Se evaluaron nueve modelos de aprendizaje supervisado, los cuales fueron: Regresión Logística, KNeighbors Classifier, Naive Bayes Classifier, Random Forest Classifier, Support Vector Classifier, XGBoost Classifier, Adaboost Classifier, una red neuronal MLP Classifier y otra desarrollada directamente usando la librería Keras.
Se enfrentaron desafíos como el alto costo computacional del MLP Classifier, con una ejecución de más de ocho horas, un tiempo de ejecución del algoritmo de validación cruzada de más de siete horas y la “maldición” de la dimensionalidad para el modelo KNN cuando se utilizaba la métrica de distancia cosine.
Entre los resultados más notables, se determinó que la presencia de datos atípicos no influyó significativamente en el rendimiento de los modelos. Finalmente, el modelo óptimo fue la red neuronal artificial desarrollada con Keras con un arreglo de capa inicial, cinco capas ocultas, seis capas de dropout y una capa final, 64 neuronas por cada capa oculta, función de activación tangente hiperbólica, optimizador Adam y tasa de dropout de 0.2. ABSTRACT : The dataset "Diabetes Prediction Competition (Diabetes Prediction Competition (TFUG CHD Nov 2022) | Kaggle, s. f.)" was used to optimize the hyper parameters of a model intended to contribute to the determination of the probability of diabetes in patients by treating physicians. The dataset consists of 17 variables associated with the patient's general health status and a response variable of two classes: patient with diabetes (1) and without diabetes (0). The number of records corresponds to the information of 80,692 patients. Nine supervised learning models were evaluated, which were: Logistic Regression, KNeighbors Classifier, Naive Bayes Classifier, Random Forest Classifier, Support Vector Classifier, XGBoost Classifier, Adaboost Classifier, an MLP Classifier neural network and another developed directly using the Keras library. Challenges such as the high computational cost of the MLP Classifier, with an execution of more than eight hours, a cross-validation algorithm execution time of more than seven hours, and the "curse" of dimensionality for the KNN model when using the cosine distance metric were faced. Among the most remarkable results, it was determined that the presence of outliers did not significantly influence the performance of the models. Finally, the optimal model was the artificial neural network developed with Keras with an initial layer array, five hidden layers, six drop out layers and a final layer, 64 neurons for each hidden layer, hyperbolic tangent activation function, Adam optimizer and drop out rate of 0.2. |
Aparece en las colecciones: | Especializaciones de la Facultad de Ingeniería |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
HenaoAnaGilJuan_2023_PrediccionProbabilidadDiabetes.pdf | Trabajo de grado de especialización | 1.7 MB | Adobe PDF | Visualizar/Abrir |
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons