Abstract:
Este trabajo evalúa algoritmos de Machine Learning para predecir la precipitación total horaria en estaciones meteorológicas de las Redes Regional y Global de Observación Básica (RBON y GBON), utilizando datos de estaciones en Arequipa, Tacna y Lima, extraídos de la plataforma de datos abiertos del gobierno peruano. Se implementó un marco metodológico riguroso que incluyó el filtrado de valores atípicos, imputación de datos faltantes y normalización de variables predictoras para garantizar la calidad del dataset este contiene 387108 registros en diferentes estaciones. Se analizaron algoritmos como Decision Tree, Random Forest, Support Vector Regressor, Linear Regression y K-Nearest Neighbors, seleccionados por su capacidad para modelar relaciones lineales y no lineales, y se evaluaron utilizando métricas como el Error Cuadrático Medio (MSE), Error Absoluto Medio (MAE), Coeficiente de Determinación (R²), Varianza Explicada y Error Máximo. El modelo Decision Tree demostró el mejor desempeño, alcanzando un MSE de 1.01, un RMSE de 1.01 y un R² de 0.53, destacándose por su capacidad para manejar datos complejos y minimizar errores extremos. Los resultados validan la viabilidad de identificar modelos predictivos de alto rendimiento para precipitación horaria, subrayando la importancia del preprocesamiento de datos, optimización de hiperparámetros y análisis multivariante de métricas.