Análisis comparativo de Redes Neuronales Convolucionales y Vision Transformers para el diagnóstico automatizado en imágenes radiográficas
Abstract
El diagnóstico médico automatizado mediante técnicas de aprendizaje profundo representa un campo en constante evolución, donde la selección de arquitecturas óptimas es importante para garantizar diagnósticos precisos y confiables. Esta investigación de tipo comparativo evaluó el desempeño predictivo de las Redes Neuronales Convolucionales (CNN) y los Vision Transformers (ViT) en el diagnóstico automatizado de imágenes radiográficas. Se analizaron 15,834 imágenes distribuidas entre casos de artrosis de rodilla, neumonía y tuberculosis, implementando cuatro variantes de cada arquitectura mediante validación cruzada de 5 folds y métricas exhaustivas de rendimiento. Los resultados demostraron una superioridad significativa de los Vision Transformers, con el modelo ViT-S/16 alcanzando un accuracy medio de 0.9132 (± 0.0144) en patología única y 0.9313 (± 0.0281) en múltiples patologías, superando al mejor modelo CNN (VGG16). El análisis inferencial mediante pruebas t de Student confirmó la significancia estadística de estas diferencias (p < 0.05). Se concluye que los Vision Transformers ofrecen un rendimiento superior y más estable para el diagnóstico automatizado mediante imágenes radiográficas, estableciendo una base sólida para su implementación en entornos clínicos.