Чтение онлайн

ЖАНРЫ

Математические модели в естественнонаучном образовании. Том II
Шрифт:

Первым классом методов построения филогенетических деревьев, которые обсудим, являются дистанционные методы. Они пытаются построить дерево, используя информацию, которая предположительно описывает общие расстояния между терминальными таксонами вдоль дерева.

Чтобы понять, как получить эти расстояния, представьте, что пытаемся найти эволюционные отношения четырех видов:

,
,
 и
. Выбирая тот или иной ортологичный участок ДНК из их геномов, получаем и выравниваем последовательности из каждого. Если модель замены оснований Джукса-Кантора, рассмотренная в главе 4, кажется подходящей для имеющихся данных, то вычисляем расстояния Джукса-Кантора между каждой парой последовательностей. Получатся оценки расстояний по дереву, которые сводим в Таблицу 5.2.

В зависимости от данных последовательности могли бы вместо этого принять другую модель подстановки оснований, что привело бы к использованию

другой формулы расстояния, такой как в 2-параметрической модели Кимуры или логарифмическое расстояние. Несмотря на это, расстояние, которое вычисляем между последовательностями, считается мерой количества произошедших мутаций. Если бы эти расстояния были точной мерой количества произведенных мутаций, они бы соответствовали между конечными таксонами в найденном метрическом дереве.

Таблица 5.2. Расстояния между таксонами

.45 .27 .53

.40 .50

.62

На самом деле даже не ожидаем найти дерево, которое точно соответствует имеющимся данным; в конце концов, расстояния выводятся из данных последовательности и не должны быть точно правильными. Более того, метод вывода расстояний зависел от модели, которая включала дополнительные предположения, которые, безусловно, не встречаются в реальных организмах. Надеемся, однако, что построенное дерево не будет слишком чувствительно к такого рода ошибкам на больших расстояниях.

Первый метод, который рассматриваем, называется методом среднего расстояния или, более формально, невзвешенным парно-групповым методом с арифметическими средними (UPGMA). Этот метод создает корневое дерево и предполагает наличие молекулярных часов. Самый простой способ понять алгоритм – это ознакомиться с примером его использования.

По приведенной выше таблицы данных выберем два ближайших таксона,

 и
. Поскольку они находятся на расстоянии 0,27 друг от друга, изобразим на рисунке 5.6 каждое ребро с длиной
.

 

Рисунок 5.6. UPGMA; шаг 1.

Затем объединяем

 и
 в группу и усредняем расстояния
 и
 до каждого отдельного таксона, чтобы получить расстояние от группы до этого таксона. Например, расстояние между группой
 и
 равно
, а расстояние между
 и
 равно
. Таким образом, исходная таблица сводится к таблице 5.3.

Таблица 5.3. Расстояния между групп; UPGMA, Шаг 1

.425 .575

.50

Теперь просто повторяем процесс, используя расстояния в таблице 5.3. Поскольку ближайшими таксонами и/или группами в новой таблице являются

 и
, которые находятся на расстоянии 0,425 друг от друга, то получаем рисунок 5.7.

 

Рисунок 5.7. UPGMA; шаг 2.

Ребро

 должно
иметь длину
, в то время как другое новое ребро должно иметь длину
, потому что уже есть ребро длины
 для учета некоторого расстояния между
 и другими таксонами.

Снова объединив таксоны, формируем группу

 и вычисляем расстояние от неё до
 путем усреднения исходных расстояний от
 до каждого из
,
 и
. Это приводит к значению
. Обратите внимание, что это не то же самое, что усреднение расстояния от
 до
 и до
. Поскольку новая таблица расстояний будет иметь это значение в качестве единственной записи, нет необходимости приводить ее. Изобразим рисунок 5.8, считая, что расстояние от корня до
 равно
. Конечное ребро имеет длину. 0625, таким образом, помещаем оставшийся таксон на расстоянии
 от корня.

 

Рисунок 5.8. UPGMA; шаг 3.

Как и подозревали, дерево, которое построили для имеющихся данных, не совсем соответствует этим данным. Расстояние на дереве от

 до
, например, равно
, хотя по исходным данным должно быть
. Тем не менее, расстояния между вершинами построенного дерева, по крайней мере, достаточно близки к расстояниям, указанным в исходных табличных данных.

Если бы было больше таксонов, то пришлось бы сделать больше шагов для завершения процесса UPGMA, но не было бы никаких принципиально новых действий. На каждом шаге объединяем два ближайших таксона или группы вместе, всегда размещая их на равных расстояниях от общего предка. Затем сворачиваем объединенные таксоны в группу, используя усреднение для вычисления расстояния от этой группы до таксонов и групп, которые еще предстоит объединить. Один момент, с которым следует быть особенно осторожным, заключается в том, что при вычислении расстояний между двумя группами нужно усреднить все расстояния от членов одной группы до членов другой – если одна группа имеет

 членов, а другая имеет
 членов, придется усреднить
 расстояний. Каждый шаг алгоритма уменьшает размер таблицы расстояний на единицу, так что после достаточного количества шагов все таксоны объединяются в единое дерево.

Обратите внимание, что предположение о молекулярных часах неявно присутствовала в UPGMA. В примере, когда поместили

 и
 на концы ветвей одинаковой длины, предположили, что количество мутаций, которые каждый из них претерпел от своего общего предка, было одинаковым. Метод UPGMA всегда размещает все таксоны на одинаковом расстоянии от корня, так что количество мутаций от корня до любого таксона одинаково.

Вторым рассмотрим алгоритм Фитча-Марголиаша. Этот метод немного сложнее, чем UPGMA, но основан на том же подходе. Тем не менее, попытаемся отказаться от предположения UPGMA о молекулярных часах.

Прежде чем изложить алгоритм, сделаем несколько математических наблюдений. Во-первых, если попытаемся поместить 3 таксона на некорневое дерево, то будет только одна топология, которую необходимо учитывать. Кроме того, для 3 таксонов можем назначить желаемые длины ребер, чтобы точно соответствовать данным. Чтобы убедиться в этом, рассмотрим дерево на рисунке 5.9. Если есть некоторые данные о расстоянии

,
 и
, то можно составить систему уравнений
,
,
.

Поделиться с друзьями: