Упрощение комплексного крупномасштабного анализа генома

Исследователи из EMBL-EBI разработали новый подход к изучению влияния множественных генетических вариаций на разные признаки. Новый алгоритм, опубликованный в Nature Methods, позволяет проводить генетический анализ до 500000 особей – и многие признаки – одновременно.

Отношения между генами и конкретными признаками более сложны, чем простые взаимно однозначные отношения между генами и заболеваниями. Полногеномные ассоциативные исследования (GWAS) показывают, что многие генетические факторы влияют на любой конкретный признак, но ученые только начинают изучать, как, в частности, генетические вариации влияют на здоровье и болезнь. Две основные статистические задачи нахождения этих связей включают анализ ассоциаций между множеством различных генетических вариантов и множественных признаков и наилучшее использование данных больших когорт, включающих сотни тысяч людей.

"Очень сложно идентифицировать генетические варианты, лежащие в основе фенотипов или признаков, и обычно мы делаем это, анализируя каждый фенотип и каждый вариант один за другим," объясняет Оливер Стегле, руководитель исследовательской группы EMBL-EBI. "Но простые модели, которые мы используем для этого, слишком упрощены, чтобы раскрыть сложные зависимости между наборами генетических вариантов и фенотипами болезней."

Сложные модели, позволяющие взглянуть на комбинированное действие множества различных вариантов, до сих пор включали в себя столько вычислений, что для выполнения одного сложного запроса потребовался бы год.

"Прорыв здесь в том, что мы сделали возможным выполнение интегративного анализа с участием многих вариантов и фенотипов с той же скоростью, что и современные подходы," говорит Оливер.

Исследователи протестировали свой алгоритм на данных двух исследований из общедоступных репозиториев и сравнили результаты с существующими современными инструментами. Их исследование четырех признаков, связанных с липидами (уровни холестерина ЛПНП и ЛПВП, С-реактивный белок, триглицериды), доказало, что новый метод значительно быстрее и может объяснить большую часть этих признаков с точки зрения генетики, которая ими движет.

"Мы хотели взглянуть на эти вопросы с обеих сторон," говорит Оливер. "С одной стороны, мы хотим рассмотреть все варианты одного гена, которые могут участвовать в регуляции одного конкретного липидного признака. С другой стороны, мы хотим посмотреть на комбинированный эффект на больших наборах уровней липидов, например, чтобы узнать что-то о регуляции липидов в целом."

Используя новый метод, исследователи GWAS могут исследовать сразу несколько вариантов гена, сравнивая их с несколькими родственными фенотипами. Это значительно упрощает определение того, какие гены – или места в генах – участвуют в определенной функции, например регуляции липидов.

"Что важно в этой работе, так это то, что она повышает статистическую мощность и предоставляет людям инструменты, необходимые для анализа нескольких характеристик в очень больших когортах," говорит Оливер. "Наш алгоритм может быть использован для изучения до полумиллиона человек – до сих пор это было невозможно."

"В настоящее время люди используют либо несколько вариантов методов для одного фентотипа, либо несколько методов фенотипа, но одновременно рассматривают только один вариант. Новая схема Оливера – настоящий прорыв, потому что она позволяет вам делать и то, и другое одновременно, и ее можно масштабировать для использования на очень больших когортах, которые мы начинаем видеть в таких инициативах, как UK BioBank," говорит Эван Бирни, заместитель директора EMBL-EBI.

Новый алгоритм предоставляет столь необходимые для геномики методы, делая крупномасштабный комплексный анализ управляемой и практичной задачей.

"Наш метод, который мы называем mSet, обеспечивает принципиальный подход к тестированию статистических взаимосвязей между несколькими генетическими вариантами и группами признаков. Эти методы помогут исследователям определить, какие конкретные аспекты нашей биологии передаются по наследству, и откроют новые взгляды на генетику, лежащую в основе наших бесчисленных биологических процессов."