martes, 9 de mayo de 2017

poderosa técnica de aprendizaje automático destapa características desconocidas de patógenos



Técnica identificó robustamente característicos patrones de expresión génica en respuesta a los antibióticos, condiciones de bajo oxígeno

Universidad de Pennsylvania School of Medicine

FILADELFIA - Una técnica nueva y poderosa máquina de aprendizaje se puede aplicar a grandes conjuntos de datos en las ciencias biológicas para descubrir características hasta ahora desconocidas de los organismos y sus genes, según un equipo dirigido por investigadores de la Escuela de Medicina de Perelman en la Universidad de Pensilvania. Por ejemplo, la técnica aprendió los característicos patrones de expresión de genes que aparecen cuando una bacteria patógena se expone a condiciones de bajo oxígeno y los cambios robustamente identificados que se producen en respuesta a los antibióticos.

La técnica emplea un algoritmo desarrollado recientemente llamado "autoencoder eliminación de ruido", que aprende a identificar las características recurrentes o patrones en grandes conjuntos de datos sin ser dicho qué características específicas que debe buscar. En 2012, por ejemplo, cuando los investigadores patrocinados por Google aplicar un método similar al seleccionado de forma aleatoria imágenes de YouTube, su sistema aprendió con éxito para reconocer las características principales recurrentes de esas imágenes - incluyendo gatos.

En el nuevo estudio, publicado en la journalmSystemsthis semana en línea, Casey Greene, PhD, profesor asistente de Sistemas de Farmacología y traslacional Therapeutics, en colaboración con Deborah Hogan, PhD en el Dartmouth College, utiliza un sistema de eliminación de ruido autoencoders para analizar muchos grandes conjuntos de datos que medir cómo los genes en las bacterias se expresan en diferentes condiciones.

"El sistema aprendió los principios fundamentales de la genómica bacteriana sólo de estos datos", dijo Greene. "Esperamos que este enfoque será particularmente útil para los microbiólogos investigan especies bacterianas que carecen de una historia de décadas de estudio en el laboratorio. Los microbiólogos pueden utilizar estos modelos para identificar donde los datos están de acuerdo con sus propios conocimientos y donde los datos parecen apuntar en una dirección diferente." Greene cree que estos son los casos en que los datos pueden sugerir nuevos mecanismos biológicos.

El año pasado, Greene y su equipo publicaron la primera demostración del nuevo método en un contexto biológico: un análisis de dos conjuntos de datos de expresión genética de los cánceres de mama. El nuevo estudio era considerablemente más ambicioso - que cubría todas las 950 matrices de expresión de genes disponibles al público en el momento de la bacteria Pseudomonas aeruginosa, a partir de 109 conjuntos de datos distintos. Esta bacteria es un patógeno notorio en el hospital y en individuos con fibrosis quística y otras enfermedades pulmonares crónicas y es a menudo difícil de tratar debido a su alta resistencia a las terapias con antibióticos estándar.

Primer autor Jie Tan, un estudiante graduado en Dartmouth, donde Greene, hasta hace poco, tenía su laboratorio, ADAGE desarrollado (Análisis utilizando Denoising Autoencoders de la expresión génica) y lo aplicó a los conjuntos de datos aeruginosa P.. Los datos incluyeron sólo las identidades de los aproximadamente 5.000 genes de P. aeruginosa, sus niveles de expresión medidos en cada experimento publicado. El objetivo era demostrar que este sistema de aprendizaje "sin supervisión" podría descubrir patrones importantes en P. aeruginosa la expresión génica y aclarar cómo cambian los patrones cuando cambia el entorno de la bacteria, por ejemplo, cuando en presencia de un antibiótico.

A pesar de que el modelo construido con ADAGE era relativamente simple - más o menos equivalente a un cerebro con sólo unas pocas docenas de neuronas - que no tenía problemas de aprendizaje qué conjuntos de genes de P. aeruginosa tienden a trabajar juntos o en la oposición. Para sorpresa de los investigadores, el sistema ADAGE también detectó diferencias entre la cepa de laboratorio principal de P. aeruginosa y cepas aisladas de pacientes infectados. "Eso resultó ser uno de los rasgos más característicos de los datos", dijo Greene.

"Nos llamó la atención la similitud entre P. aeruginosa crecido en asociación con las células epiteliales de pulmón cultivadas y éstos bacteriataken directamente de los pulmones de las personas con fibrosis quística", dijo John H. Hammond, un estudiante graduado en el laboratorio de Hogan que colaboraron en este proyecto. "Estamos muy contentos de continuar utilizando ADAGE en combinación con los datos de las muestras de pacientes y experimentos con modelos de laboratorio para descubrir mejores formas de encontrar terapias para el tratamiento de infecciones pulmonar fibrosis quística."

"Creemos que la proliferación de 'Big Data' ofrece la oportunidad, a través del uso de la máquina sin supervisión-aprendizaje, para encontrar cosas completamente nuevas en la biología que ni siquiera conocemos a buscar", dijo Greene.

No hay comentarios:

Publicar un comentario

Dejanos tus dudas y comentarios para seguir mejorando.