Двадцать лет назад в этом месяце публично был опубликован первый проект генома человека. Одним из главных сюрпризов этого проекта стало открытие, что только 1.5 процентов генома человека состоит из генов, кодирующих белок.
За последние два десятилетия стало очевидно, что те некодирующие участки ДНК, которые первоначально считались "мусорная ДНК," играют решающую роль в развитии и регуляции генов. В новом исследовании, опубликованном сегодня, группа исследователей из Массачусетского технологического института опубликовала наиболее полную карту этой некодирующей ДНК.
На этой карте представлена подробная аннотация эпигеномных меток – модификаций, указывающих, какие гены включены или выключены в разных типах клеток – в 833 тканях и типах клеток, что значительно больше, чем было описано ранее. Исследователи также определили группы регуляторных элементов, которые контролируют конкретные биологические программы, и раскрыли возможные механизмы действия около 30 000 генетических вариантов, связанных с 540 конкретными признаками.
"То, что мы доставляем, на самом деле является схемой генома человека. Двадцать лет спустя у нас есть не только гены, у нас есть не только некодирующие аннотации, но и модули, вышестоящие регуляторы, нижележащие мишени, варианты заболевания и интерпретация этих вариантов заболевания," говорит Манолис Келлис, профессор компьютерных наук, член Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института и Института Броуда при Массачусетском технологическом институте и Гарварде, и старший автор нового исследования.
Аспирант Массачусетского технологического института Карлес Бойс является ведущим автором статьи, которая сегодня публикуется в журнале Nature. Другими авторами статьи являются аспиранты Массачусетского технологического института Бенджамин Джеймс и бывшие постдоки Массачусетского технологического института Юнджин Парк и Воутер Мейлеман, которые в настоящее время являются главными исследователями в Университете Британской Колумбии и Институте биомедицинских наук Альтиуса соответственно. Исследователи сделали все свои данные общедоступными для более широкого научного сообщества.
Эпигеномный контроль
Поверх человеческого генома – последовательность нуклеотидов, составляющих генетический код – находится эпигеном. Эпигеном состоит из химических меток, которые помогают определить, какие гены экспрессируются в разное время и в разных клетках. Эти отметки включают модификации гистонов, метилирование ДНК и доступность данного участка ДНК.
"Эпигеномика непосредственно считывает метки, используемые нашими клетками, чтобы запомнить, что включить, а что выключить, в каждом типе клеток и в каждой ткани нашего тела. Они действуют как заметки, маркеры и подчеркивания," Келлис говорит. "Эпигеномика позволяет нам взглянуть на то, что каждая клетка помечена как важная для каждого типа клеток, и, таким образом, понять, как на самом деле функционирует геном."
Картирование этих эпигеномных аннотаций может выявить элементы генетического контроля и типы клеток, в которых активны различные элементы. Эти элементы управления могут быть сгруппированы в кластеры или модули, которые функционируют вместе для управления конкретными биологическими функциями. Некоторые из этих элементов являются энхансерами, которые связываются белками, активирующими экспрессию генов, в то время как другие являются репрессорами, отключающими гены.
Новая карта, EpiMap (интеграция эпигенома через несколько проектов аннотаций), построена на основе и объединяет данные нескольких крупномасштабных консорциумов карт, включая ENCODE, эпигеномику дорожной карты и геномику регуляции генов.
Исследователи собрали в общей сложности 833 биопроба, представляющих различные ткани и типы клеток, каждая из которых была нанесена на карту с немного отличающимся подмножеством эпигеномных меток, что затруднило полную интеграцию данных в нескольких консорциумах. Затем они заполнили недостающие наборы данных, объединив доступные данные для аналогичных меток и биопроб, и использовали полученный сборник из 10 000 оценок по 833 биопробам для изучения регуляции генов и болезней человека.
Исследователи аннотировали более 2 миллионов сайтов-энхансеров, покрывая только 0.8 процентов каждого биопроба и в совокупности 13 процентов генома. Они сгруппировали их в 300 модулей на основе их паттернов активности и связали их с биологическими процессами, которые они контролируют, регуляторами, которые их контролируют, и мотивами коротких последовательностей, которые опосредуют этот контроль. Исследователи также предсказали 3.3 миллиона связей между элементами управления и генами, на которые они нацелены, на основе их скоординированных паттернов активности, представляющих наиболее полную схему генома человека на сегодняшний день.
Ссылки по болезням
С тех пор, как в 2003 году был завершен окончательный проект генома человека, исследователи провели тысячи полногеномных ассоциативных исследований (GWAS), выявив общие генетические варианты, которые предрасполагают их носителей к определенному признаку или заболеванию.
В результате этих исследований было получено около 120000 вариантов, но только 7 процентов из них расположены в генах, кодирующих белок, а 93 процента – в областях некодирующей ДНК.
Однако, как действуют некодирующие варианты, чрезвычайно сложно решить по многим причинам. Во-первых, генетические варианты наследуются блоками, что затрудняет выявление причинных вариантов среди десятков вариантов в каждой области, связанной с заболеванием. Более того, некодирующие варианты могут действовать на больших расстояниях, иногда на миллионы нуклеотидов, что затрудняет поиск своего целевого гена действия. Они также чрезвычайно динамичны, что затрудняет понимание того, в какой ткани они действуют. Наконец, нерешенной проблемой остается понимание их регулирующих органов.
В этом исследовании исследователи смогли ответить на эти вопросы и предоставить кандидатские механистические идеи для более чем 30 000 этих некодирующих вариантов GWAS. Исследователи обнаружили, что варианты, связанные с одним и тем же признаком, как правило, обогащаются определенными тканями, которые имеют биологическое значение для данного признака. Например, было обнаружено, что генетические варианты, связанные с интеллектом, находятся в некодирующих областях, активных в головном мозге, в то время как варианты, связанные с уровнем холестерина, находятся в областях, активных в печени.
Исследователи также показали, что на некоторые признаки или заболевания влияют энхансеры, действующие во многих различных типах тканей. Например, они обнаружили, что генетические варианты, связанные с ишемической болезнью сердца (ИБС), активны в жировой ткани, коронарных артериях и печени, среди многих других тканей.
Лаборатория Келлиса теперь работает с различными сотрудниками, чтобы преследовать свои цели в конкретных заболеваниях, руководствуясь этими прогнозами для всего генома. Они профилируют сердечную ткань пациентов с ишемической болезнью сердца, микроглию пациентов с болезнью Альцгеймера, а также мышцы, жировую ткань и кровь пациентов с ожирением, которые являются предполагаемыми медиаторами этого заболевания на основе текущей статьи и предыдущей работы его лаборатории.
Многие другие лаборатории уже используют данные EpiMap для изучения различных заболеваний. "Мы надеемся, что наши прогнозы будут широко использоваться в промышленности и в академических кругах, чтобы помочь выяснить генетические варианты и механизмы их действия, помочь нацелить терапию на наиболее многообещающие цели и ускорить разработку лекарств для многих заболеваний," Келлис говорит.