Análisis comparativo de Redes Neuronales Convolucionales y Vision Transformers para el diagnóstico automatizado en imágenes radiográficas

Pari Condori, Elqui YeyeTorres Cruz, FredMamani Chambi, Yefer Andersson2024-12-172024-12-172024-12-19https://repositorio.unap.edu.pe/handle/20.500.14082/23680El diagnóstico médico automatizado mediante técnicas de aprendizaje profundo representa un campo en constante evolución, donde la selección de arquitecturas óptimas es importante para garantizar diagnósticos precisos y confiables. Esta investigación de tipo comparativo evaluó el desempeño predictivo de las Redes Neuronales Convolucionales (CNN) y los Vision Transformers (ViT) en el diagnóstico automatizado de imágenes radiográficas. Se analizaron 15,834 imágenes distribuidas entre casos de artrosis de rodilla, neumonía y tuberculosis, implementando cuatro variantes de cada arquitectura mediante validación cruzada de 5 folds y métricas exhaustivas de rendimiento. Los resultados demostraron una superioridad significativa de los Vision Transformers, con el modelo ViT-S/16 alcanzando un accuracy medio de 0.9132 (± 0.0144) en patología única y 0.9313 (± 0.0281) en múltiples patologías, superando al mejor modelo CNN (VGG16). El análisis inferencial mediante pruebas t de Student confirmó la significancia estadística de estas diferencias (p < 0.05). Se concluye que los Vision Transformers ofrecen un rendimiento superior y más estable para el diagnóstico automatizado mediante imágenes radiográficas, estableciendo una base sólida para su implementación en entornos clínicos.application/pdfspainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by/4.0/deed.esVision TransformersRedes Neuronales ConvolucionalesDiagnóstico automatizadoImágenes radiográficasAprendizaje profundoAnálisis comparativo de Redes Neuronales Convolucionales y Vision Transformers para el diagnóstico automatizado en imágenes radiográficasinfo:eu-repo/semantics/bachelorThesishttps://purl.org/pe-repo/ocde/ford#1.02.01