Рассказ предка. Паломничество к истокам жизни
Шрифт:
Оценка правдоподобия требует больше вычислительных мощностей, чем метод парсимонии, поскольку здесь мы учитываем длину ветвей. Таким образом, приходится иметь дело с еще большим количеством деревьев: вдобавок к рассмотрению возможных схем ветвления мы должны учитывать возможные длины ветвей. Геркулесов труд! Поэтому, несмотря на упрощенные методы вычисления, компьютеры пока могут подвергнуть анализу небольшое количество видов.
Термин “правдоподобие” здесь имеет вполне точное значение. Возьмем древо определенной формы (с учетом длины ветвей). Из всех возможных эволюционных траекторий, посредством которых может сформироваться филогенетическое древо данной формы, всего несколько могут привести к тому тексту, который мы сейчас видим. "Правдоподобие” данного древа – это ничтожно малая вероятность получения реально существующих текстов, а не каких-нибудь текстов, которые могут появиться на таком древе. Величина правдоподобия для древа очень мала, однако это не мешает сравнить одну малую величину с другой, чтобы выбрать нужную.
Неукорененное
Выбирать "лучшее” древо методом правдоподобия можно по-разному. Самый простой способ – искать наиболее правдоподобное древо. Это метод максимального правдоподобия. Однако то, что это наиболее правдоподобное древо, вовсе не означает, что другие деревья не окажутся почти столь же правдоподобными. Совсем недавно было предложено не искать одно самое правдоподобное древо, а рассматривать все возможные. При этом степень "доверия” к древу должна зависеть от его правдоподобия. Этот подход представляет собой альтернативу методу правдоподобия и известен как байесовский метод. Если схема ветвления подтверждается большим количеством правдоподобных деревьев, мы заключаем, что эта схема с высокой вероятностью верна. Конечно, как и в методе максимального правдоподобия, мы не можем проверить все деревья. Но существуют способы упрощения вычислений, и они довольно неплохо работают.
Степень нашего доверия древу, которое мы в итоге выберем, зависит от того, насколько мы уверены в правильности каждого разветвления. Поэтому возле точек ветвления часто указывают степень “уверенности” в них. При использовании байесовского метода правдоподобие точек ветвления вычисляется автоматически, однако для других методов, таких как парсимония или максимальное правдоподобие, необходимы альтернативные способы подсчета. Чаще всего используют метод бутстрепа: многократно обсчитываются выборки данных, и оценки сравниваются с результатами для всего древа. Так мы можем понять, насколько древо устойчиво к ошибкам. Чем больше индекс бутстреп-поддержки, тем надежнее точка ветвления. Правда, точно интерпретировать полученные индексы бывает непросто. По сходному алгоритму работают методы “складного ножа” (jackknife) и “поддержки Бремера”. Все они служат для оценки достоверности точек ветвления.
Прежде чем оставить литературу, рассмотрим итоговое древо, построенное для первых 250 строк в 24 манускриптах Чосера. Это филограмма, на которой информативна не только схема ветвления, но и длина ветвей. На схеме видно, какие списки почти идентичны, а какие сильно отличаются от остальных. Эта филограмма неукорененная, то есть не указывает на то, какой из 24 манускриптов ближе всех к “оригиналу”.
Вернемся к гиббонам. Принцип парсимонии предполагает существование четырех групп. Ниже приведена укорененная диаграмма, основанная на морфологических признаках. Здесь виды рода Hylobates (настоящие гиббоны) группируются вместе, как и виды рода Nomascus. Обе группы поддерживаются высокими индексами бутстреп-поддержки (указаны над ветвями). Однако в нескольких местах порядок ветвлений не определен. Хотя Hylobates и Bunopithecus вроде бы формируют группу, индекс бутстреп-поддержки (63) представляется неубедительным для тех, кто умеет читать подобные руны. Морфологических признаков для построения древа недостаточно.
Укорененная кладограмма гиббонов, построенная на основе морфологии. Geissmann [100].
По этой причине Кристиан Роос и Томас Гайсман, ученые из Германии, обратились к молекулярной генетике, а именно к участку митохондриальной ДНК, который называют контрольным регионом. Взяв ДНК шести гиббонов, они расшифровали последовательности, выровняли их и провели анализ с помощью методов поиска ближайшего соседа, парсимонии и максимального правдоподобия. Самый убедительный результат был получен с помощью метода максимального правдоподобия, который лучше других методов справляется с эффектом притяжения длинных ветвей. Итоговое древо, где показаны отношения между четырьмя группами, приведено здесь. Значения бутстреп-поддержки на этом древе вполне убедительны. Так что, на мой взгляд, это то, что нам нужно.
Кладограмма гиббонов, построенная с помощью метода максимального правдоподобия по данным ДНК. Roos and Geissmann [246].
Видообразование у гиббонов произошло сравнительно недавно. Однако если изучать все более удаленные виды, которые будут разделены все более длинными ветвями, в конце концов даже изощренные методы Байеса и максимального правдоподобия откажутся нам служить. В определенный момент недопустимо большая доля сходств окажется случайной. Когда это происходит с ДНК, говорят, что наступило насыщение. И тогда ни один метод не поможет
реконструировать схему родственных отношений: действие времени заглушает “филогенетический” сигнал. Особенно остро этот вопрос стоит в отношении нейтральных мутаций ДНК. Давление естественного отбора не позволяет генам сбиваться с пути, удерживая их в узком диапазоне. В некоторых случаях самые важные функциональные гены могут оставаться практически неизменными сотни миллионов лет. Однако для псевдогена, с которого никогда ничего не считывается, таких промежутков времени достаточно для безнадежно сильного насыщения. В таких случаях нам приходится искать другие данные. Одна из самых перспективных идей – использование редких геномных мутаций, о которых я упоминал. Эти изменения затрагивают значительные участки ДНК, а не одну “букву”. Поскольку такие перестройки редки и, как правило, уникальны, проблема случайного сходства не возникает. Эти мутации могут выявлять неожиданные родственные связи. Мы убедимся в этом, когда к толпе пилигримов присоединятся гиппопотамы. (Вот увидите, они расскажут удивительные вещи!)А теперь обобщим то, что узнали из “Рассказа Митохондриальной Евы” и “Рассказа Неандертальца”. Cчитается, что для группы видов должно существовать лишь одно эволюционное древо. Однако из “Рассказа Митохондриальной Евы” видно, что на основе разных участков ДНК (а также для разных признаков или разных частей тела) можно построить разные деревья. Мне кажется, эта проблема заложена в самой идее филогенетических деревьев видов. Ведь вид представляет собой сложную мозаику фрагментов ДНК, полученных из разных источников. Мы увидели, что каждый ген, да и каждая “буква” ДНК, эволюционирует независимо. Для каждого фрагмента ДНК и каждого признака организма можно построить свое эволюционное древо.
С доказательствами этого мы сталкиваемся каждый день – и поэтому их не замечаем. Если предьявить марсианину гениталии мужчины, женщины и самца гиббона, пришелец, не колеблясь, решит, что наиболее близким родством связаны два самца. И правда: ген, определяющий мужской пол (SRY), никогда не бывал в теле женщины – а если и бывал, то задолго до того, как мы разошлись с гиббонами. Морфологи традиционно делают исключение для половых признаков, избегая “бессмысленных” классификаций. Однако такого рода проблемы встречаются на каждом шагу. Мы столкнулись с этим в “Рассказе Митохондриальной Евы”, когда говорили о группе крови ABo. Если рассматривать гены группы крови, окажется, что мой ген группы крови B сближает меня с шимпанзе с группой крови B, а не A. Все это касается не только генов, определяющих пол, или генов группы крови. Нет, при определенных обстоятельствах эта проблема затрагивает абсолютно все гены и признаки. Большинство молекулярных и морфологических признаков указывает на то, что шимпанзе – наш ближайший родственник. Однако меньшая доля признаков указывает на то, что наш ближайший родственник – горилла, или что шимпанзе ближе всего к гориллам, а не к человеку.
Не удивляйтесь! Популяция, предковая для всех трех видов, должна быть очень изменчивой, и у каждого гена в популяции должно быть несколько вариантов. Каждый из вариантов передается по своей линии. Вполне возможно, например, что человек и горилла получили некий ген от одной линии, а шимпанзе – от другой. После этого нужно только, чтобы разошедшиеся в древности генетические линии тянулись непрерывно до точки расхождения человека и шимпанзе. И получится, что человек произошел от одной линии, а шимпанзе – от другой [16] .
16
Чем больший промежуток времени разделяет два вида (или чем меньше размер популяции), тем больше предковых линий оказываются утрачены в результате дрейфа генов. Поэтому специалистам по систематике, желающим, чтобы деревья, построенные для видов, совпадали с деревьями, построенными для генов, лучше иметь дело с давно разошедшимися видами. Но всегда существуют гены типа SRY, для которых существование линий естественный отбор поддерживает долгое время.
Приходится признать, что одно древо не описывает весь эволюционный сюжет. Ничто не мешает нам продолжать строить деревья для видов, однако нужно помнить, что эти деревья представляют не более чем обобщение множества генных деревьев. Интерпретировать деревья можно двумя способами. Первый – традиционная генеалогическая интерпретация. Один вид является ближайшим родственником другого, если из всех рассмотренных видов именно с ним его связывает самый поздний общий предок. Второй способ интерпретации, мне кажется, только предстоит освоить. Согласно этому подходу, построенное для группы видов древо отражает родственные отношения большей части генов. То есть древо показывает результаты, за которые гены высказались “большинством голосов”.
Мне больше нравится идея голосования генов. Поэтому, когда я говорю о родстве видов, его нужно понимать именно так. Все филогенетические деревья, которые я здесь обсуждаю – касаются ли они животных, растений, грибов или бактерий, – нужно рассматривать как схемы, отражающие идеи “генного большинства”.
Узконосые обезьяны. Это общепризнанное филогенетическое древо, построенное примерно для ста видов обезьян Старого Света. (Кружки на концах ветвей указывают на количество видов в каждой группе: отсутствие кружка означает 1–9 известных видов, небольшой кружок соответствует 10–99 видам, круг побольше – 100–999 и т. д. Каждая из представленных здесь четырех групп объединяет 10–99 видов.)