Капеллан дьявола: размышления о надежде, лжи, науке и любви
Шрифт:
Все это хорошо с точки зрения экономики. Но с другой стороны, сохранять некоторую избыточность в сообщениях, ради исправления ошибок, тоже неплохая идея. Если в сообщении, совершенно лишенном избыточности, произошла ошибка, восстановить его исходный смысл уже никак невозможно. В машинные коды часто преднамеренно включают избыточные “биты контроля четности”, помогающие находить ошибки. У ДНК тоже есть различные механизмы исправления ошибок, основанные на избыточности. Когда я перейду к разговору о геномах, я вернусь к разнице между упомянутыми тремя понятиями: суммарной информационной емкости, реально использованной информационной емкости и настоящим количеством информации.
Открытие Шеннона состояло в том, что информацию любого рода, независимо от ее смысла, ее истинности или ложности, ее физического носителя, можно измерять в битах и переводить на любой другой носитель. Великий биолог Джон Б. С. Холдейн использовал теорию Шеннона, чтобы подсчитать число бит информации, передаваемое рабочей пчелой своим соседям по улью, когда она “танцует”, сообщая о местоположении источника пищи (около трех бит, чтобы сообщить направление на этот источник, и еще три бита, чтобы сообщить расстояние до него). В тех же самых единицах,
ДНК переносит информацию очень по-компьютерному, и емкость генома тоже можно, если захочется, измерять в битах. В ДНК используется не двоичный код, а четверичный. В то время как в компьютере единица информации — это 1 или 0, в ДНК это Т, А, С или G. Сколько информации будет передано от меня к вам, если я сообщу вам, что в определенном месте последовательности ДНК стоит Г? Начнем с измерения априорной неопределенности. Сколько открыто возможностей до поступления сообщения “Г”? Четыре. Сколько возможностей остается после его поступления? Одна. Стало быть, можно подумать, что было передано четыре бита информации, но на самом деле их только два. И вот почему (исходя из того, что все четыре буквы встречаются с равной вероятностью, как четыре масти в колоде карт). Вспомним, что шенноновская мера касается наиболее экономного способа передачи сообщения. Представьте ее себе как число вопросов, предполагающих ответ “да” или “нет”, которые понадобилось бы задать, чтобы свести исходную неопределенность из четырех возможностей к определенности, если предположить, что вопросы будут сформулированы самым экономным способом. “Идет ли эта таинственная буква по алфавиту перед D)?” [123] Нет. Это сводит неопределенность к вариантам Т и G, и теперь нам понадобится только один дополнительный вопрос, чтобы узнать разгадку. Итак, в соответствии с этим методом измерения, информационная емкость каждой “буквы” ДНК составляет два бита.
123
Химик скорее спросил бы: “Это производное пиримидина?” — но в моем примере такой вопрос мог бы сбить с толку. Лишь случайно получилось так, что четыре буквы алфавита ДНК оказались распределены поровну между двумя группами химических соединений, производными пурина и пиримидина.
Во всех случаях, когда априорную неопределенность знаний получателя можно выразить как число равновероятных альтернатив N, количество информации в сообщении, сводящем эти альтернативы к одной, составляет log2N (степень, в которую нужно возвести двойку, чтобы получить число альтернатив N). Если выбрать карту — любую карту — из обычной колоды, то сообщение, какая это карта, будет нести log252, или 5,7 бит информации. Иными словами, если бы мы сыграли в большое число игр на угадывание, нам потребовалось бы в среднем 5,7 вопроса, требующих ответа “да” или “нет”, чтобы угадать эту карту, при условии, что мы будем задавать вопросы самым экономным способом. Первые два вопроса позволили бы нам узнать масть (например, “Она красная?” и “Это бубны?”), а оставшиеся три или четыре — успешно разделить и проверить всю эту масть (“Старше шестерки?” и тому подобное), в итоге неминуемо придя к искомой карте. Когда априорная неопределенность представляет собой своего рода смесь альтернатив, которые не равновероятны, формула Шеннона преобразуется в немного усложненную формулу для расчета взвешенного среднего, которая, впрочем, по сути аналогична. Кстати, шенноновская формула взвешенного среднего — это именно та формула, которую физики с XIX века используют для расчета энтропии. Отсюда следуют интересные вещи, но здесь я не буду их рассматривать [124] .
124
Эту формулу используют также экологи в качестве коэффициента разнообразия.
Этих сведений из теории информации будет достаточно. Эта теория давно привлекает меня, и я использовал ее в некоторых своих научных работах разных лет. Теперь давайте подумаем, как ее можно использовать, чтобы ответить на вопрос, увеличивается ли количество информации в геномах в ходе эволюции. Во-первых, давайте вспомним разницу между тремя понятиями: суммарной информационной емкости, реально использованной информационной емкости и настоящим количеством информации, записанной самым экономным из всех возможных способов. Суммарная информационная емкость человеческого генома измеряется в гигабитах. У обыкновенной бактерии кишечной палочки (Escherichia coli) она измеряется в мегабитах. Мы, как и все другие животные, происходим от предка, которого, если бы у нас сегодня была возможность его исследовать, мы отнесли бы к бактериям. Итак, за миллиарды лет эволюции, прошедшие со времени жизни этого предка, информационная емкость нашего генома могла вырасти где-то на три порядка (степени десятки) — примерно в тысячу раз. Это довольно правдоподобно и утешительно для человеческого достоинства.
Должны ли мы тогда чувствовать, что человеческое достоинство унижает тот факт, что у гребенчатого тритона (Triturus cristatus) емкость генома оценивается в сорок гигабит — на порядок больше, чем у человека? Нет, потому что большая часть емкости генома любого животного в любом случае не используется для хранения полезной информации. Существует множество нефункциональных
псевдогенов (см. ниже) и множество повторяющихся бессмысленных последовательностей, полезных для судебно-медицинских экспертов, но не транслируемых в живых клетках в белки. У гребенчатого тритона “жесткий диск” вместительнее, чем у нас, но поскольку основная часть жесткого диска у обоих наших видов не используется, нам не стоит обижаться. У родственных гребенчатому видов тритонов геномы гораздо меньше. Зачем Создателю понадобилось так произвольно и нечестно разыграть размеры генома между тритонами — проблема, над которой могли бы поразмыслить креационисты. С эволюционной точки зрения все объясняется просто [125] .125
Мое предположение (“Эгоистичный ген”, 1976), что избыточная ДНК — это некий паразит, было подхвачено другими учеными (“эгоистичная ДНК”). См. второе издание “Эгоистичного гена”: Dawkins, R. The Selfish Gene, 2nd edn. Oxford University Press, 1989, pp. 44-45, 275.
Ясно, что суммарная емкость геномов весьма изменчива во всех царствах живой природы и должна была сильно меняться в ходе эволюции, вероятно в обоих направлениях. Потери генетического материала называют делециями. Новые гены возникают посредством разных форм дупликации. Это можно хорошо проиллюстрировать на примере генов гемоглобина — сложной белковой молекулы, переносящей кислород в крови.
Гемоглобин взрослого человека составлен из четырех белковых цепочек, называемых глобинами, сплетенных друг с другом. Их подробные последовательности показывают, что четыре цепочки глобинов близкородственны друг другу, но не идентичны. Две из них называют альфа-глобинами (каждый из них представлен цепочкой из 141 аминокислоты), а еще две — бета-глобины (каждый из них представлен цепочкой из 146 аминокислот). Гены, кодирующие альфа-глобины, находятся в 11-й хромосоме, а гены, кодирующие бета-глобины, в 16-й хромосоме. В каждой из этих хромосом имеется кластер из расположенных подряд генов глобинов, разделенных вкраплениями из некоторого количества “мусорной ДНК”. Альфа-кластер, на 11-й хромосоме, содержит семь генов глобинов. Четыре из них — псевдогены: варианты генов альфа-глобина, испорченные ошибками в их последовательностях и не транслируемые в белки. Два — настоящие альфа-глобины, используемые у взрослого человека. Последний называется дзета-глобином и используется только у эмбрионов. Сходным образом и бета-кластер, на 16-й хромосоме, содержит шесть генов, из которых часть выключены, а один используется только у эмбриона. Гемоглобин взрослых, как мы уже поняли, содержит две альфа- и две бета-цепочки.
Не забивайте себе голову подробностями. Вот что важно: точный анализ, буква за буквой, показывает, что разные типы генов глобинов в буквальном смысле родственны друг другу, как члены одной семьи. Но эти дальние родственники по-прежнему живут вместе в нашем собственном геноме, а также в геномах всех позвоночных. В масштабе целых организмов все позвоночные — тоже родственники. Древо эволюции позвоночных — это генеалогическое древо, с которым мы все знакомы. Точки его ветвления соответствуют случаям видообразования — разделения видов на пары дочерних видов. Но есть и еще одно генеалогическое древо, занимающее ту же временную шкалу, ветви которого соответствуют не случаям видообразования, а случаям дупликации генов в пределах генома.
Та дюжина или около того разных глобинов, которые имеются у каждого из нас, происходят от древнего гена глобина, который у нашего далекого предка, жившего около полумиллиарда лет назад, дуплицировался, после чего обе копии остались в геноме. Так у этого гена стало две копии в двух разных частях генома у всех потомков того животного. Одной копии суждено было положить начало альфа-кластеру (в том участке, который в итоге стал 11-й хромосомой нашего генома), другой — бета-кластеру (в 16-й хромосоме) . Шло время, происходили дальнейшие дупликации (а также, несомненно, и некоторые делеции). Около четырехсот миллионов лет назад предковый альфа-ген вновь дуплицировался, но на этот раз две полученные копии остались по соседству друг с другом, в одном кластере на той же хромосоме. Одному из них суждено было стать геном дзета-глобина, который используется эмбрионами, а другие стали генами альфа-глобинов, которые используются взрослыми людьми (другие ветви положили начало нефункциональным псевдогенам, упоминавшимся выше). Похожая история происходила и в бета-ветви этого семейства, только дупликации случались в другие моменты геологической истории.
Но вот еще один факт, столь же интересный. Учитывая, что расхождение между альфа-кластером и бета-кластером произошло пятьсот миллионов лет назад, разумеется, не только наши человеческие геномы должны демонстрировать это расхождение — то есть хранить альфа-гены в иной части генома, чем бета-гены. Мы должны наблюдать то же внутригеномное расхождение, если мы исследуем геномы любых других млекопитающих, птиц, рептилий, амфибий и костных рыб, потому что наш общий предок с ними всеми жил меньше, чем пятьсот миллионов лет назад. Где бы это предположение ни проверяли, оно подтверждалось. Позвоночное, у которого мы имеем наибольшие основания надеяться не обнаружить следов такого же как у нас древнего расхождения альфа- и бета-генов, должно быть бесчелюстным, таким как минога, потому что это наши самые дальние родственники среди доживших до наших дней позвоночных — единственные из современных позвоночных, чей общий предок с остальными позвоночными мог жить еще до расхождения альфа- и бета-генов. И действительно, эти бесчелюстные — единственные известные позвоночные, у которых разделение на альфа-и бета-гены отсутствует.
Дупликация генов в пределах генома играет сходную историческую роль с дупликацией видов (видообразованием) в филогенезе. Она ответственна за разнообразие генов, так же как видообразование ответственно за филетическое разнообразие. Все великолепное разнообразие жизни возникло, начавшись с одного всеобщего предка, посредством ряда ответвлений новых видов, которые в итоге положили начало большим ветвям царств живой природы и сотням миллионов других видов, украсивших собой Землю. Похожий ряд ветвлений, но на сей раз в пределах геномов (дупликаций генов), породил обширную и разнообразную популяцию кластеров генов, составляющих современный геном.