Новый алгоритм поможет уточнить структуру геномов сельскохозяйственных растений

Новый алгоритм поможет уточнить структуру геномов сельскохозяйственных растений

Рубрика Исследования

Сотрудники ФИЦ «Фундаментальные основы биотехнологии» РАН (Москва) разработали математический инструмент для поиска повторяющихся последовательностей ДНК, «разбросанных» по геномам растений. Алгоритм, в отличие от своих «предшественников», ищет не точные совпадения в ДНК, а анализирует статистические закономерности в последовательностях, то есть выявляет схожие участки, где могли произойти изменения из-за мутаций.

Такой подход позволил обнаружить в геноме риса почти миллион повторяющихся фрагментов, которые суммарно занимают более 66 % всех последовательностей ДНК. Разработка позволит точнее анализировать растительные геномы, что важно в сельском хозяйстве для создания высокопродуктивных и устойчивых к болезням культур. Результаты исследования, поддержанного грантом Российского научного фонда (РНФ), опубликованы в журнале Rice Science.

Валентина Руденко, автор статьи

Геномы растений содержат большое количество повторяющихся фрагментов ДНК. Они могут располагаться друг за другом или же быть «разбросанными» по всему геному. Большинство «разбросанных» — диспергированных — повторов представляют собой мобильные генетические элементы, или «прыгающие гены», которые способны перемещаться по геному, менять его структуру и влиять на работу других генов. Знать, где и в каком количестве в геноме содержатся такие повторы, важно, чтобы отслеживать эволюцию растений, выявлять возможные механизмы устойчивости к болезням и неблагоприятным условиям окружающей среды. Однако до сегодняшнего дня не существовало точных методов, позволяющих найти диспергированные повторы, которые накопили много мутаций. Используемые биологами алгоритмы часто пропускали нужные участки, при этом наибольшие сложности возникали в районах, где накоплено в среднем более одной мутации на нуклеотид («букву» в последовательности ДНК).

Консенсусная последовательность третьего семейства найденных повторов в геноме риса. По горизонтали показан номер основания в консенсусе, а по вертикали — основания ДНК, которые наиболее часто встречаются в данном семействе повторов. Чем больше размер буквы, обозначающий нуклеотид, тем чаще он встречается в данной позиции

Ранее был разработан подход, который назвали итеративным методом (IP-методом). В его рамках создаются позиционные весовые матрицы — математические «таблицы», строки в которых соответствуют разным нуклеотидам, а столбцы — их позициям в последовательности. Первая матрица формируется случайным образом. Если в геноме оказываются участки, похожие на неё, её структура уточняется согласно им. Процесс повторяется до тех пор, пока не будут обнаружены все значимые повторы.

Такой подход позволяет находить в геноме даже сильно изменённые (мутировавшие) повторы, благодаря чему он может найти значительно больше повторов, чем аналоги. Авторы подтвердили это, проанализировав с помощью нового алгоритма геном риса (Oryza sativa). Инструмент выявил 992 739 повторов, относящихся к 79 разным семействам. Это на 56 % больше, чем количество повторов, выявленных широко используемым биологами алгоритмом EDTA (Extensive de-novo TE Annotator). При этом повторы составили 66 % всего генома риса, что также превосходит предыдущие оценки.

Евгений Коротков, автор статьи

«Рис служит основным продуктом питания для более чем миллиарда человек. Поэтому выведение новых высокоурожайных сортов этого растения — важная продовольственная задача. Чтобы её решить, нужно понимать устройство генома риса и найти в нём все мобильные генетические элементы. Нам удалось обнаружить большое количество ранее не известных последовательностей, что поможет в поиске удачных мест встраивания генов других организмов в геном риса и в создании новых сортов. В дальнейшем мы планируем применить наш подход к другим сельскохозяйственным растениям, а также попытаться cделать IP-метод ещё более чувствительным. Мы планируем создать базу данных найденных дисперсных повторов в различных растениях и сделать её открытой для международного сообщества для проведения экспериментальных исследований», — рассказывает руководитель проекта, поддержанного грантом РНФ, Евгений Коротков, доктор биологических наук, ведущий научный сотрудник, руководитель группы математического анализа последовательностей ДНК и белков ФИЦ Биотехнологии РАН.

Источник: пресс-служба РНФ.

Новости Российской академии наук в Telegram →