Uso de Machine Learning para predecir el rendimiento académico con factores socioeconómicos en estudiantes de los primeros semestres en una universidad de los andes del Perú
Abstract
El bajo rendimiento académico en cursos fundamentales como Matemática Básica representa un desafío significativo en las universidades andinas del Perú, particularmente en los primeros semestres. El objetivo ha sido implementar el modelo de machine learning más óptimo para predecir el rendimiento académico de estudiantes de primeros semestres en el curso de Matemática Básica de la Universidad Nacional Micaela Bastidas de Apurímac (UNAMBA), considerando factores socioeconómicos, en el periodo 2018-2019. La metodología se basó en un enfoque cuantitativo de tipo aplicado con diseño no experimental predictivo, analizando una muestra de 599 estudiantes mediante técnicas de machine learning, evaluando cuatro algoritmos: CatBoost, Random Forest, Naive Bayes y Redes Neuronales, implementados en Python, utilizando métricas como accuracy, precision, recall, F1-score y ROC-AUC. Los resultados demostraron que el algoritmo CatBoost alcanzó el mejor rendimiento con una precisión global del 80,97%, superando significativamente a las alternativas evaluadas. El análisis de factores socioeconómicos reveló que el 54,9% de estudiantes alcanzaron rendimiento “Suficiente”, con variaciones significativas entre carreras profesionales y factores como el nivel educativo de los padres y procedencia rural/urbana. Concluyendo, la implementación de una aplicación web que integra el modelo predictivo optimizado proporciona una herramienta valiosa para la identificación temprana de estudiantes en riesgo académico, contribuyendo a la mejora de las estrategias de intervención académica en contextos universitarios andinos.
