Algoritmos de aprendizaje automático no supervisado para la extracción de palabras clave en trabajos de investigación de pregrado
Abstract
La información que administra la Universidad Nacional del Altiplano de Puno, en los últimos años se ha visto incrementada sobre todo trabajos de investigación realizados por estudiantes y egresados de pregrado, para los que se usan técnicas empíricas para la selección de palabras clave, existiendo a la fecha métodos técnicos que ayuden en este proceso, en tanto el uso de tecnologías de información y comunicación han tomado relevancia e importancia en la administración y seguimiento de trabajos de investigación como la Plataforma de Investigación Integrada a la Labor Académica con Responsabilidad (PILAR), donde registra información de los proyectos de investigación como (Título, Resumen, Palabras Clave), en sus diferentes modalidades. En el presente trabajo de investigación se ha analizado 7430 registros de proyectos de investigación, a los cuales se realizaron predicciones con cada uno de los 09 modelos de aprendizaje automático no supervisado implementados. Los resultados nos muestran que el modelo TF-IDF, es el más eficiente en tiempo y en precisión de extracción de palabras clave, obteniendo un 72 % de precisión y en un tiempo de extracción entre [0.4786 ,SD 0.0501], por cada documento procesado por este modelo.