Predicción de cáncer en expresiones genéticas de microarrays mediante un ensamble de modelos heterogéneos de machine learning
Abstract
El cáncer de seno, es una de las enfermedades, que aproximadamente genera 2.26 millones de muertes a nivel mundial anualmente, según la Organización Mundial de la Salud. El diagnóstico de la enfermedad, en etapas iniciales es importante, para permitir un tratamiento que elimine y/o alivie las consecuencias del mismo. Proveer de diversas técnicas para la detección del cáncer de seno, dará mayores opciones a los pacientes para el diagnóstico, y permitirá la disminución de costos. Por ello, es necesario conocer, ¿qué ensambles heterogéneos de aprendizaje automático, tiene mejor predicción de cáncer de seno, a partir de datos de expresiones géneticas de microarray?. En la presente investigación, se diseñó e implemento, cuatro ensambles de algoritmos heterogéneos: voting, bagging, boosting y stacking, los cuales fueron entrenados con un dataset de 4113 muestras miARN, cada uno con 2542 atributos, luego se aplicó los test Welch ANOVA y test de Games Showel, con diez resultados de exactitud, obtenidos por validación cruzada, y se detectó, que los ensambles no presentan diferencias significativas, logrando alcanzar una exactitud de predicción promedio de 98.23%. También se aplicó la misma metodología a, 121 muestras ADN extraídas por biopsia de células de mama, que constan de 54676 atributos, obteniendo una exactitud de predicción promedio de 99.99%.