Abstract:
Recuperar información con un criterio semántico desde la Web, en donde la información almacenada no es estructurada, se requiere de mecanismos complejos y diversos que consideren el procesamiento de lenguaje natural. En esta tesis se implementó y analizó un método de recuperación semántico de la información, partiendo de la premisa que si existen palabras que coocurren en un contexto determinado, éstas tienen una relación semántica. Para la implementación de un mecanismo de recuperación sobre una colección de documentos se hizo necesario un procesamiento, representación y análisis de relación de los términos. El Modelo Vectorial para la recuperación semántica de la información utilizado, permitió definir las premisas necesarias e importantes para determinar si un conjunto de palabras son relevantes a la necesidad de información, calculando la medida de similitud y establecimiento del ranking de vocablos más semejantes semánticamente. La lejanía o cercanía de dos vocablos se determinó utilizando la similitud distribucional representado por un vector de coocurrencia y se cuantificó mediante el coseno del ángulo que forman sus vectores. Al evaluar el rendimiento del sistema de recuperación de la información, se concluyó que es importante el corpus utilizado en la construcción del mismo así como el pre procesamiento, estructura y técnicas de recuperación