Abstract:
El diagnóstico médico automatizado mediante técnicas de aprendizaje profundo representa un campo en constante evolución, donde la selección de arquitecturas óptimas es importante para garantizar diagnósticos precisos y confiables. Esta investigación de tipo comparativo evaluó el desempeño predictivo de las Redes Neuronales Convolucionales (CNN) y los Vision Transformers (ViT) en el diagnóstico automatizado de imágenes radiográficas. Se analizaron 15,834 imágenes distribuidas entre casos de artrosis de rodilla, neumonía y tuberculosis, implementando cuatro variantes de cada arquitectura mediante validación cruzada de 5 folds y métricas exhaustivas de rendimiento. Los resultados demostraron una superioridad significativa de los Vision Transformers, con el modelo ViT-S/16 alcanzando un accuracy medio de 0.9132 (± 0.0144) en patología única y 0.9313 (± 0.0281) en múltiples patologías, superando al mejor modelo CNN (VGG16). El análisis inferencial mediante pruebas t de Student confirmó la significancia estadística de estas diferencias (p < 0.05). Se concluye que los Vision Transformers ofrecen un rendimiento superior y más estable para el diagnóstico automatizado mediante imágenes radiográficas, estableciendo una base sólida para su implementación en entornos clínicos.