Компьютерная геномика - новая эра

Светлана Боринская

С.А. Боринская, М.С. Гельфанд, А.А. Миронов

Светлана Александровна Боринская, кандидат биологических наук, научный сотрудник Института общей генетики им. Н.В. Вавилова РАН. Область научных интересов геномика, эволюция. Руководитель проекта 99-04-48347.
Михаил Сергеевич Гельфанд, доктор биологических наук, ведущий научный сотрудник Государственного научно-исследовательского института генетики и селекции промышленных микроорганизмов. Научные интересы связаны с компьютерной геномикой и вычислительными методами.

Андрей Александрович Миронов, кандидат физико-математических наук, заведующий лабораторией в том же институте. Занимается сходными проблемами.

Первую публикацию см.: Химия и жизнь. 2001. №2. С.36—40.

Ранее биологи изучали формы и функции организмов, переходя от целого к частям — органам и тканям. Путь современной биологии иной: она исследует части, гены и молекулы, пытаясь воссоздать картину их функционирования в целом рганизме. Возникла новая наука, геномика, объект которой — совокупность всей генетической информации организма, геном.

Работа генов определяет синтез необходимых клетке белков. Именно от их разнообразия и активности зависят молекулярные процессы, обеспечивающие существование всего живого. Установление и характеристика всех белков данного организма относится к компетенции еще одного нового на правления биологии — протеомики (от гр. — пер вый, простой белок).

По предварительным оценкам, в геноме чело века содержится примерно 30—35 тыс. генов, большинство из которых в каждой клетке «молчит». К постоянно работающим относятся гены, кодирующие компоненты аппарата синтеза белка, РНК, ферменты, ответственные засинтез и по чинку ДНК, ферменты системы обеспечения энергией и другие компоненты, необходимые для ведения «домашнего хозяйства» клетки. У человека около 1/5 всех генов отвечают за «домашнее хозяйство». Среди остальных генов есть работающие только на определенных этапах развития организма — например, кодирующие эмбриональные белки или обеспечивающие лактацию. Другие функционируют лишь в немногочисленных клетках. Так, наша способность воспринимать запахи связана с обонятельными рецепторами. Найдено всего около тысячи генов, кодирующих такие рецепторы, и в каждой клетке обонятельной луковицы из этой тысячи работает только один ген.

В каждой клетке «звучит» свой аккорд генов, который определяет спектр синтезируемых на них видов РНК, кодируемых матричной РНК белков, и соответственно свойства самой клетки. Набор активных генов различается в зависимости от типа ткани, периода развития организма, внешних или внутренних сигналов.

Перед началом гена находятся промоторы — специальные регуляторные последовательности, которые включают и выключают его работу в зависимости от полученных клеткой сигналов. Клетка «понимает», когда и какой участок генетического текста надо считывать, реализуя записанную в нем информацию. Более 20 лет назад была расшифрована структура регуляторных участков в ДНК бактерий. С тех пор многое удалось понять в работе генов.

Бурное развитие геномики связано, с одной стороны, с совершенствованием методов определения последовательности нуклеотидов в ДНК, т.е. секвенирования (от англ. sequence — последовательность). С другой стороны, лавинообразный рост объема новых данных вызвал развитие компьютерных технологий для анализа информации, записанной в ДНК. Сейчас изучают уже не отдельные фрагменты ДНК, а целые геномы десятков бактерий, дрожжей, червя-нематоды, мухи дрозофилы.

Конечно же, максимум ожиданий связан с изучением генома человека, направленным на выявление всех его генов, установление их функций, взаимодействий в норме и при нарушениях, приводящих к болезням. Полностью геном человека должен быть прочитан к 2003 г.

Это означает, что будет определена вся последовательность в 3 млрд. нуклеотидов. При этом число ошибок не должно превысить 300 тыс. (не более 1 ошибки на 10 тыс. нуклеотидов). Сегодня прочитанные участки ДНК человека еще не соединены в единую последовательность, а точность прочтения на порядок ниже необходимой.
Однако сам по себе нуклеотидный текст лишь исходный материал для дальнейшего анализа. Необходимо понять, какие фрагменты ДНКовых текстов и когда переписываются в набор молекул РНК, какие белки при этом синтезируются, как меняется при этом структура и функция клетки.

Кроме понимания фундаментальных законов жизни открытия геномики приносят заметную практическую пользу, в том числе и для медицины. Многие фармацевтические компании вкладывают огромные средства в геномные исследования. Френсис Коллинз, возглавляющий американскую про грамму «Геном человека», считает, что через 40 лет для лечения самых раз личных недугов появятся синтетические генные продукты, способные целенаправленно изменять работу заболевших клеток и органов.

Нуклеотиды любят счет

В течение 100 лет гены изучали в экспериментах in vivo (в живой клетке) и in vitro (в пробирке). Появившиеся в 60х годах компьютеры были лишь вспомогательным средством для обработки и хранения данных. С конца 80х годов началось формирование баз данных, собирающих информацию о миллионах последовательностей нуклеотидов в ДНК и РНК или аминокислот в белках. Компьютерный анализ превратился в самостоятельную область науки — биоинформатику.

Исследования in silico (в компьютере), уже помогли прочесть многие «слова» генетического текста — команды, записанные в ДНК и управляющие жизнью клетки. Для такой расшифровки созданы специальные про граммы, например для статистического анализараспределения нуклеотидов в ДНК. Напомним, что в генетическом алфавите всего четыре буквы — А (аденин), Т (тимин), Г (гуанин) и Ц (цитозин). Любители подсчета букв выяснили, сколько раз подряд может идти А или как часто в ДНК бактерий или человека Г встречаетсяпосле Ц. В «осмысленных», т.е. кодирующих, участках ДНК эти сочетания подчиняются определенным правилам, тогда как в промежутках между генами, там, где ничего существенно-
го в ДНК не записано, частота сочетаний нуклеотидов близка к случайному. Похоже на правило грамматики, которое мы учили в школе: «жи, ши пиши через и». В словах русского языка буква ы после ж не встречается (разве что в тетрадях двоечников). Так и в генетических текстах, кодирующих участках, некоторые сочетания нуклеотидов почти не встречаются, а распределение других сочетаний сильно отличается от случайного. Это видно при подсчете распределения триплетов, кодирующих аминокислоты, в генах излюбленного объекта генетиков — кишечной палочки (см. таблицу). У кишечной палочки, как и у других организмов, имеется всего 64 триплета. Три из них — ТАА, ТАГ и ТГА — не кодируют аминокислоты, а
служат сигналом окончания (терминации) синтеза белка.

Одна и та же последовательность ДНК может быть прочитана тремя способами со сдвигом на один нуклеотид. Способ чтения называется рамкой считывания. Понятно, что терминирующих триплетов нет внутри гена в кодирующей рамке считывания (в других рамках онимогут присутствовать, никому не мешая, — они не читаются, если молекулярная машина не собьется). Распределение кодирующих триплетов внутри гена различно. Так, триплет ЦТГ встречается на порядок чаще, чем триплет ЦТА, хотя оба они кодируют одну и ту же аминокислоту — лейцин. В межгенных промежутках таких различий частот нет.

Подобные подсчеты, называемые статистическими методами анализа нуклеотидных последовательностей, позволяют распознать участки генома с определенными свойствами. На

Например, у бактерий большинство болезнетворных генов находится в так называемых островках патогенности, которые отличаются от остального генома по частоте встречаемости АТ и ГЦ пар нуклеотидов.

Где искать гены?

У бактерий обнаружить гены относительно легко. Прежде всего, потому, что они занимают около 80—90% генома, так что вероятность попасть в ген гораздо больше, чем промахнуться. Кроме того, белок-кодирующий участок бактериального гена — это непрерывная открытая рамка считывания. Так что если в сплошной цепочке букв удалось найти начало гена, то он будет читаться триплетами до самого конца, т.е. до стоп-кодона.

Гены высших организмов, в том числе и человека, искать намного труд нее. У человека на участки, кодирующие белки, приходится только 5% всего генома. И белок-кодирующие участки идут не сплошь, как у бактерий, а прерываются вставочными последовательностями — интронами, которые после синтеза матричной РНК вырезаются. Ген может содержать до нескольких десятков кодирующих фрагментов — экзонов, чередующихся с интронами. К тому же в разных клетках могут использоваться различные сочетания экзонов одного и того жегена.
Таблица

Триплетный код: частота встречаемости кодонов в геноме кишечной палочки (указана средняя частота встречаемости кодона на тысячу случаев)

Триплетный код: частота встречаемости кодонов в геноме кишечной палочки

Статистический анализ позволяет с определенной долей вероятности установить, к какому участку генома относится исследуемый фрагмент. Например, включив телевизор и услышав слова «в отличие от обычного средства» или «дешевле только даром», вы сразу понимаете, что попали на рекламный ролик. Эти словосочетания в других передачах почти не встречаются. Так и определенные сочетания нуклеотидов указывают на принадлежность анализируемого куска генетического текста к интрону или экзону, кодирующему белок. Границы интронов и экзонов обозначены в ДНК специальным сочетанием нуклеотидов.

Без компьютерных биоинформационных технологий развитие геномных исследований было бы невозможным. Компьютерный поиск генов особенно важен при изучении генома человека, поскольку в этом случае методы классической генетики весьма ограничены. Ведь человек, в отличие мух-дрозофил, не может быть объектом искусственного мутагенеза или иных генетических экспериментов. Однако результаты экспериментов, поставленных на животных,
можно применить и для человеческого генома. Наиболее важные участки генома относительно мало меняются в процессе эволюции, и их функции, установленные в экспериментах на мышах или мухах (рис.1), оказываются такими же и у человека.

Компьютерный анализ генетических текстов разных организмов позволяет найти такие сходные участки. Медленнее всего изменяются фрагменты, кодирующие белки: в некоторых, наиболее важных, отдельные участки остаются неизменными на протяжении миллиардов лет эволюции — от бактерий до человека. Это дает возможность находить гены при сравнении геномов отдаленно родственных видов. Таким анализом занимается сравнительная геномика.

Ее методы используют для выявления родства отдельных генов, родства организмов, установления происхождения видов и более крупных таксонов.

12.jpg

Рис1. Сходство генов, управляющих формированием оси тела, у мухи и мыши.

Сравнительная геномика позволяет предсказывать функции генов чело века по известным функциям генов мухи или червя нематоды. Если сравнивать геномы человека и дрозофилы, можно легко обнаружить структурные гены, поскольку у неродственных организмов разница между значимыми (консервативными) и незначимыми участками заметнее. Но часть человеческих генов не похожа на мушиные, найти их при таком сравнении нельзя.

У нашей более близкой родственницы, мыши, набор генов почти такой же. Однако сходство в не кодирующих областях затрудняет поиски генов сравнительными методами, т.е. выбирать организм для сравнения надо в зависимости от конкретной задачи.

А вот гены шимпанзе почти идентичны человеческим. Геном шимпанзе отличается от нашего в среднем одним нуклеотидом из 300, поэтому его сравнение с геномом человека нельзя использовать для поиска генов. Но если гены уже известны, то существенные различия между человеком и шимпанзе скорее всего, связано именно с теми, которые делают нас людьми. По этому, как сообщил недавно журнал «Science», в Германии начат проект «Геном шимпанзе».

Гены человека, нарушения в которых приводят к наследственным заболеваниям, можно изучать на животных. Например, известно, что болезнь Альцгеймера — одна из форм старческого слабоумия, — вызвана мутациями в определенных генах. Решить эту проблему помогают эксперименты на мухах. Мутации в их генах приводят к изменениям в мушиных мозгах, сходным с таковыми в мозге пациентов с болезнью Альцгеймера. У «слабоумных» мух нарушается способность к запоминанию. Ведется поиск генов у мух, связанных с нарушениями памяти, и препаратов, способных замедлить развитие болезни — сначала у мух, а потом, надо надеяться, и у людей.

Важные для медицины и промышленности результаты дали исследования геномов бактерий. Кроме уже упоминавшейся кишечной палочки прочитаны геномы нескольких десятков возбудителей социально значимых инфекций — туберкулеза, сифилиса, тифа, гастрита, а также некоторых промышленно важных бактерий. В этих геномах выявлены практически все гены, а для многих — и функции белкового продукта, что позволяет проводить реконструкцию обмена веществ бактерии. Реконструкция основных метаболических процессов организма по последовательности нуклеотидов его генома — одно из важнейших направлений геномики, получившее название «метаболомика».

Анализ полной последовательности нуклеотидов генома возбудителя туберкулеза показал, что у этой микобактерии имеются жизненно важные ферменты, отсутствующие у человека. Поиск лекарств, действующих именно на эти ферменты, обещает переворот в борьбе с туберкулезом, уносящим миллионы человеческих жизней.

Перспективы биоинформатики

Экспериментальный поиск одного гена занимает недели и месяцы работы целой лаборатории. Компьютерные методы позволяют сделать это за считанные минуты, если ДНК организма прочитана и есть хорошие алгоритмы поиска. Созданием таких алгоритмов и занимаются биоинформатики. Раз личные программы используют для поиска генов и регуляторных сигналов в ДНК, для предсказания структуры и функций белка, его локализации в клетке, для реконструкции метаболизма.

Реконструкция метаболических реакций, происходящих в разных клетках и тканях, будет одним из следствий расшифровки генетической информации человека. На прошедшей в Канаде летом 2000 г. очередной международной конференции «Геном человека» из четырех биотехнологических компаний, поместивших на доске объявлений приглашения на работу, три ищут глав отделов биоинформатики. Отвечая на потребность в специалистах этого профиля, ряд канадских групп предлагает желающим посещать платные недельные школы по биоинформатике для получения диплома специалиста-биоинформатика.

Российская биоинформатика не отстает, а зачастую и опережает мировую. Именно российские специалисты предложили использовать одновременно несколько разных взаимно поддерживающих алгоритмов для анализа последовательностей. Каждая из существующих программ по отдельности ошибается достаточно часто. Но если использовать несколько таких «слабых» программ одновременно, то там, где их предсказания совпадают — там истина. Например, человеческие гены удается неплохо предсказывать, если одновременно смотреть на статистическое распределение нуклеотидов, сигналы сплайсинга и частоту использования кодонов.

Для оценки развития данной области науки в нашей стране можно применить критерий Ройтберга — чем больше красивых девушек на конференции, тем успешнее развивается наука. Прошедшая летом 2000 г. в Новосибирске конференция по биоинформатике соответствовала этому критерию в гораздо большей степени, чем канадская. Есть и другие показатели. В Национальном центре биоинформатике, самом крупном американском центре компьютерных геномных исследований, более 20% сотрудников — наши соотечественники. Несмотря на все трудности, с которыми сталкивается наука в нашей стране, геномные исследования активно развиваются, и они необходимы нам так же, как и другим странам.

Любая биологическая система стремится поддерживать стабильность своего существования. Даже березовая роща контролирует внутренние условия: в ней и температура воздуха отличается от окружающей, и освещенность, и ветер не так сильно дует, и влажность воздуха регулируется. Естественный отбор собирает суровую дань, уничтожая носителей неблагоприятных мутаций, — плату за приспособленность вида в целом. Во все времена люди стремились к улучшению породы. Так, в древней Спарте слабых младенцев сбрасывали со скалы. С той же целью в 30х годах в США около 100 тыс. человек подвергли принудительной стерилизации — бессмысленной с точки зрения генетики. Ведь подобные меры не снижают частоты про явления наследственных заболеваний в следующем поколении. На пороге 3го тысячелетия человечество хочет поменьше платить за собственное благополучие — взять под контроль свои генетические процессы и вносить коррективы не ценой жизни носителя неблагоприятных мутаций, а поправлять их генетические тексты по собственному разумению, добываемому в исследованиях генома человека. И без компьютерной геномики в этом деле не обойтись.