Математические модели в естественнонаучном образовании. Том II
Шрифт:
Фитч и Марголиаш в 1967 году фактически предложили свой алгоритм не как самоцель, а скорее, как эвристический метод получения дерева, которое, вероятно, будет иметь определенное свойство оптимальности, о чем еще поговорим в ходе решения связанных с этим задач. Рассматриваем его здесь, как и UPGMA, в качестве шага на пути к изложению алгоритма из следующего раздела. Знакомство с UPGMA и FM-алгоритмом поможет понять более сложный метод.
Конечно, и UPGMA, и FM-алгоритм лучше выполнять компьютерными программами, чем вручную. Тем не менее, несколько ручных расчетов необходимо выполнить, чтобы полностью понять, как функционируют методы и какие предположения в них входят.
Хотя алгоритм Фитча-Марголиаша позволил получить неравные длины ветвей в деревьях, за это заплатили высокую цену – построенные деревья оказываются некорневыми. Однако, поскольку поиск корня часто желателен, возникает необходимость обойти этот недостаток.
При применении любого метода филогенетического дерева, который дает некорневое дерево, может быть включен дополнительный
Задачи для самостоятельного решения:
5.2.1. Для дерева на рисунке 5.8, построенного методом UPGMA, вычислите таблицу расстояний между таксонами вдоль дерева. Как это соотносится с исходной таблицей данных расстояний?
5.2.2. Предположим, что четыре последовательности
Таблица 5.9. Данные о расстоянии для задач 5.2.2 и 5.2.5
1.2 .9 1.7
1.1 1.9
1.6
5.2.3. Выполните UPGMA для данных расстояния в таблице 5.4, которые были использованы в примере FM-алгоритма. Производит ли UPGMA топологически то же дерево, что и алгоритм FM? А метрически?
5.2.4. FM-алгоритм использует тот факт, что данные о расстоянии, относящиеся к трем терминальным таксонам, могут быть точно подогнаны по одному некорневому дереву, относящемуся к ним.
а. Выведите 3-точечных формулы, приведенные в разделе.
б. Если расстояния равны
5.2.5. Используйте FM- алгоритм для построения некорневого дерева на данных в таблице 5.9, которая также использовалась в задаче 5.2.2. Насколько отличается получившийся результат?
5.2.6.
Предположим, что три терминальных таксона связаны некорневым метрическим деревом.а. Если три длины ребер равны 0.1, 0.2 и 0.3, объясните, почему гипотеза молекулярных часов должна быть неверной, независимо от того, где находится корень.
б. Если длины трех ребер равны 0.1, 0.1 и 0.2, объясните, почему гипотеза о молекулярных часах может быть верной. В случае, когда гипотеза оказывается верна, где должен находиться корень?
в. Если три длины ребер равны 0.1, 0.2 и 0.2, объясните, почему гипотеза молекулярных часов должна быть неверной, независимо от того, где находится корень.
5.2.7. В то время как данные о расстоянии для 3 терминальных таксонов могут точно соответствовать дереву без корней, при наличии 4 (или более) таксонов это обычно невозможно.
а. Нарисуйте некорневое дерево с терминальными таксонами A, B, C и D. Обозначьте длины пяти ребер
б. Используя для расстояния между терминальными таксонами обозначения типа
в. Приведите такой конкретный пример значений 6 расстояний между терминальными таксонами, чтобы уравнения в части (б) не могли иметь точного решения. Приведите еще один пример значений, для которых уравнения могут быть решены.
5.2.8. Известен ряд различных мер для оценки степени согласованности между данными о расстояниях и метрическими деревьями. Пусть
(Фитч и Марголиаш, 1967)
(Фаррис, 1972)
(Татено и др. , 1982)
Во всех этих мерах суммы включают слагаемые для каждой отдельной пары таксонов
а. Вычислите эти меры для дерева, построенного в разделе, используя FM- алгоритм, а также дерева, построенного из тех же данных с помощью UPGMA в задаче 5.2.3. Согласно каждому из этих показателей, какое из двух деревьев лучше подходит для данных?
б. Объясните, почему эти формулы разумно использовать для оценки соответствия. Объясните, как различия между формулами делают их более или менее чувствительными к различным типам ошибок.
Примечание: Фитч и Марголиаш предложили выбрать оптимальное метрическое дерево для соответствия данным как такое, которое минимизирует
5.2.9. Смоделируйте данные a1, a2, a3 и a4 в соответствии с моделью Джукса-Кантора с молекулярными часами. Сохраните их в файл seqdata.mat путём ввода save seqdata.mat. Загрузите ранее сохраненные данных из файла seqdata.mat в MATLAB путем ввода load seqdata. Затем исследуйте производительность UPGMA с расстоянием Джукса-Кантора, чтобы построить дерево для последовательностей a1, a2, a3 и a4. Все расстояния между последовательностями можно легко вычислить, поместив последовательности в строки массива с помощью команды a=[a1;a2;a3;a4], а затем используя команду [DJC DK2 DLD]=distances(a). Хотя эта команда вычисляет расстояния, используя каждую из формул Джукса-Кантора, 2-параметрической модели Кимуры и формул логарифмического расстояния, для решения этой задачи используйте только расстояния Джукса-Кантора.