В 2001 году исследователи разработали формулу или алгоритм, который предсказывает, может ли конкретное изменение в последовательности гена привести к вредным последствиям. Хотя алгоритм был полезен, он был медленным; вычисления, лежащие в основе этих прогнозов, использовали несколько центральных процессоров (ЦП) и значительное количество времени. Теперь исследователи A * STAR адаптировали алгоритм для работы с графическим процессором, специализированной электронной схемой, которая может обрабатывать огромные объемы данных параллельно.
Более быстрое время вычислений позволило команде расширить свои "база данных прогнозов" всего из генома человека, чтобы включить более 200 дополнительных организмов.
Сходства существуют между одними и теми же генами разных организмов. Даже в этом случае отдельные организмы имеют различия в частях своего генома по сравнению с другими организмами того же вида. Некоторые из этих различий влияют на функционирование белков и могут привести к заболеваниям. Сравнивая генетические последовательности, исследователи могут точно определить мутации генов, вызывающие заболевание. Но для этого нужно просеивать огромные объемы данных.
Алгоритм SIFT (сортировка нетерпимых от толерантных) предсказывает, какие изменения в гене – известные как варианты – могут повлиять на функцию белка, который кодирует ген. Используя SIFT, исследователи A * STAR вычислили потенциальные изменения, которые могут произойти с последовательностями генов у людей, чтобы составить базу данных прогнозов. Исследователи предоставляют SIFT варианты генов, которые они исследуют как возможный источник заболевания. Затем SIFT ищет варианты в своей базе данных прогнозов. Варианты, которые, по мнению SIFT, являются опасными, выделяются и могут считаться заслуживающими дальнейшего изучения.
Составление базы данных SIFT для генома человека включало выполнение вычислений на нескольких процессорах, что заняло около четырех минут, чтобы проанализировать одну последовательность гена.
"Я хотел создать базы данных SIFT для гораздо большего числа организмов, но создание базы данных людей заняло много времени," говорит системный биолог Полин Нг из Института генома Сингапура.
SIFT был адаптирован для использования с графическим процессором, чтобы делать более быстрые прогнозы. Это позволило команде расширить сферу предсказаний алгоритма, чтобы охватить более 200 других организмов. SIFT 4G, обновленный алгоритм, занимает всего 2.6 секунд для анализа последовательности гена по сравнению с 4 минутами SIFT.
Обновленная база данных и алгоритм не только облегчат выявление мутаций генов, вызывающих заболевания, но и помогут исследователям понять генетические вариации, которые делают некоторые породы животных или штаммы растений более устойчивыми или склонными к заболеваниям.