Техника использует недавно разработанный алгоритм, названный «denoising автокодирующее устройство», которое учится определять текущие особенности или образцы в больших наборах данных, не будучи сказанным что определенные особенности искать. В 2012, например, когда спонсируемые Google исследователи применили подобный метод к беспорядочно выбранным изображениям YouTube, их система успешно училась признавать главные текущие особенности тех изображений – включая кошек.
В новом исследовании опубликованном в сетевом журнале, mSystems на этой неделе, Кейси Грин, докторе философии, доценте Фармакологии Систем и Переводной Терапии, в сотрудничестве с Деборой Хогэн, доктором философии в Дартмутском колледже, использовал систему denoising автокодирующих устройств, чтобы проанализировать много больших наборов данных, которые имеют размеры, как гены у бактерий выражены в различных условиях.«Система изучила основные принципы бактериальной геномики только от этих данных», сказал Грин. «Мы ожидаем, что этот подход будет особенно полезен для микробиологов, исследующих бактериальные разновидности, которые испытывают недостаток в долгой истории десятилетий исследования в лаборатории. Микробиологи могут использовать эти модели, чтобы определить, где данные соглашаются с их собственным знанием и где данные, кажется, указывают в различном направлении».
Грин думает, что это случаи, где данные могут предложить новые биологические механизмы.В прошлом году Грин и его команда издали первую демонстрацию нового метода в биологическом контексте: анализ двух наборов данных экспрессии гена рака молочной железы. Новое исследование было значительно более амбициозным – оно покрыло все 950 множеств экспрессии гена, общедоступных в то время для бактерии Pseudomonas aeruginosa от 109 отличных наборов данных. Эта бактерия – печально известный болезнетворный микроорганизм в больнице и в людях с муковисцедозом и другими хроническими заболеваниями легких и часто трудная рассматривать из-за его высокого сопротивления стандартному лечению антибиотиком.
Первый автор Цзе Тань, аспирант в Дартмуте, где Грин, до недавнего времени, имел свою лабораторию, развитая ПОСЛОВИЦА (Анализ, используя Автокодирующие устройства Denoising Экспрессии гена) и применил его к P. aeruginosa наборы данных. Данные включали только тождества примерно 5 000 P. aeruginosa гены, их измеренные уровни экспрессии в каждом изданном эксперименте. Цель состояла в том, чтобы показать, что эта «безнадзорная» система изучения могла раскрыть важные образцы в P. aeruginosa экспрессия гена и разъяснить, как те образцы изменяются, когда среда бактерии изменяется, например когда в присутствии антибиотика.
Даже при том, что модель, построенная с ПОСЛОВИЦЕЙ, была относительно проста – примерно эквивалентный мозгу только с несколькими дюжинами нейронов – это не испытало никаких затруднений при изучении, какие наборы P. aeruginosa гены имеют тенденцию сотрудничать или в оппозиции. К удивлению исследователей система ПОСЛОВИЦЫ также обнаружила различия между главным лабораторным напряжением P. aeruginosa и напряжениями, изолированными от зараженных пациентов. «Та оказавшаяся из самых сильных особенностей данных», сказал Грин.«Мы были поражены общими чертами между P. aeruginosa выращенный в сотрудничестве с культивированными эпителиальными клетками легкого и этими бактериями, взятыми непосредственно от легких людей с муковисцедозом», сказал Джон Х. Хэммонд, аспирант в Hogan Lab, который сотрудничал на этом проекте. «Мы счастливы продолжить использовать ПОСЛОВИЦУ в сочетании с данными из терпеливых образцов и моделей лаборатории использования экспериментов, чтобы обнаружить лучшие способы найти, что методы лечения лечат инфекции легких муковисцедоза».
«Мы думаем, что быстрое увеличение ‘больших данных’ обеспечивает возможность, с помощью безнадзорного машинного обучения, найти абсолютно новые вещи в биологии, которую мы даже не знали, чтобы искать», сказал Грин.Поддержка исследования пришла из Фонда Гордона и Бетти Мур (GBMF4552), Институт Уильяма Х. Неукома Вычислительной Науки, Национальные Институты Здоровья (RO1AI091702, T32DK007301, P30GM106394), и Фонда Муковисцедоза (STANTO07R0, STANTO15R0).