Modelos de aprendizaje supervisado para la clasificación de riesgo crediticio en la entidad financiera Home Credit

Caro Puerta, Laura Cristina; Rodas Zuluaga, Lady Jhoana

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/10495/29124

Título :	Modelos de aprendizaje supervisado para la clasificación de riesgo crediticio en la entidad financiera Home Credit
Autor :	Caro Puerta, Laura Cristina Rodas Zuluaga, Lady Jhoana
metadata.dc.contributor.advisor:	Oviedo Carrascal, Efraín Alberto
metadata.dc.subject.*:	Crédito Credit Gestión de riesgos Risk management Aprendizaje automático (inteligencia artificial) Machine learning Aprendizaje supervisado (aprendizaje automático) Supervised learning (Machine learning) Disposición a pagar Willingness to pay http://aims.fao.org/aos/agrovoc/c_5e003e07 http://vocabularies.unesco.org/thesaurus/concept3570 http://vocabularies.unesco.org/thesaurus/concept17117
Fecha de publicación :	2022
Resumen :	RESUMEN : Home Credit Default Risk es un reto planteado por Kaggle que busca un modelo de aprendizaje automático que permita hacer predicciones del cumplimiento de pago de sus clientes al ser ésta una entidad financiera dedicada a la entrega de créditos. Se cuenta con 10 datasets y el modelo se selecciona de acuerdo con el mejor resultado de la curva ROC encontrada. Para el desarrollo del proyecto se decide trabajar con tres de los ocho datasets comenzando un preprocesamiento por separado, buscando nulos, correlaciones y agregaciones, para luego unirlas y obtener un solo dataset con el cual desarrollar el proyecto. Luego, se realiza un análisis exploratorio de las diferentes variables que representan el dataset y se realiza un preprocesamiento más profundo donde se buscan nulos, correlaciones, outliers y se realiza la transformación de las variables categóricas. En este punto, se nota un significativo desbalance de las clases de la variable objetivo, donde más del 80% de los datos se encuentran en la clase 0 (el cliente cumple con los pagos). Debido al desbalance existente en la variable TARGET, se realizan dos escenarios aplicando los modelos con la técnica de balanceo oversampling y luego con la técnica de balanceo undersampling. Por el tipo de problema trabajado, se decide trabajar con los modelos de Regresión Logística, Random Forest y Gradient Boosting. Los resultados obtenidos con la técnica oversampling, para el modelo Regresión Logística fue de alrededor del 70% con una curva ROC del 77%, mientras que con los modelos Random Forest y Gradient Boosting, se obtiene un resultado por encima del 90% para todas las métricas con ambos modelos y ambas curvas ROC con un 98%. Con la técnica de undersampling, los tres modelos arrojan resultados muy similares, donde las métricas muestran en promedio un 68% de acierto y las curvas ROC entre 75% y 76%. Se observa que ambas técnicas generan resultados acordes, incluso aplicando la metodología Stratified K Fold, con la única diferencia de que la técnica de undersampling baja el resultado obtenido en la curva ROC de los modelos Random Forest y Gradient Boosting.
metadata.dc.relatedidentifier.url:	https://github.com/LadyRodas/HomeCredit
Aparece en las colecciones:	Especializaciones de la Facultad de Ingeniería

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
CaroLaura_RodasLady_2022_MonografíaHomeCredit.pdf	Trabajo de grado de especialización	1.33 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons