Жизнь VS Энтропия - страница 14

Шрифт
Интервал


Предложения языка мРНК обладают некоторой «грамматикой». Во-первых, имеются химические знаки «начало» и «конец», которые не определяют формулу белка, а лишь управляют процессом трансляции (они получили названия «5’-кэп» и «3’-кэп»). Эту же роль играют примыкающие к ним не транслируемые области (НТО). Собственно формулу белка определяет кодирующая последовательность – рис. 4.




Рис. 4. Грамматика предложений мРНК.


Алфавит и, соответственно, текст кодирующей последовательность мРНК наследуется от ДНК заменой одной буквы (тимин (Т) на урацил (У)). Иначе говоря, это четверка букв-нуклеотидов (А, Г, У, Ц) или в латинском алфавите (A, G, U, C). Алфавит языка белков содержит двадцать букв, химически представляющих собой остатки α-L-аминокислот. Вопрос «как кодирующие последовательности мРНК из четырех нуклеотидов хранят информацию о последовательностях белковых молекул из двадцати аминокислотных остатков» занимал умы многих выдающихся ученых в 50-е годы. Среди них физики Г. Гамов и Р. Фейнман, биохимики Ф. Крик и Дж. Уотсон и многие другие. Были предложены различные виды генетического кода, основанные на чисто информационных подходах. В теории информации к тому времени уже были решены многие задачи оптимального кодирования сообщений. Казалось, что генетический код может иметь отношение к одному из таких решений. Наиболее компактный код при кодировании сообщений относится к классу «кодов без запятой», т. е. в алфавите нет выделенного знака, разделяющего отдельные смысловые единицы («слова»). В современной письменности естественных языков таковыми служат «пробел», «запятая» или другие знаки препинания. Если полагать, что «запятые» проставляются безошибочно, то выделение отдельных слов – тривиальная задача. Но, например, в новгородских берестяных грамотах разделители почти не вписывались в текст, и эта задача становилась иногда весьма трудной, а при определенном контексте, однозначно неразрешимой. Коды без запятой, обладающие свойством однозначного решения такой задачи называются префиксными. Информатиками еще в начале 60-ых годов XX-го века найдены оптимальные (имеющие статистически минимальную длину сообщений) способы построения кодов без запятой (код Фано, код Хаффмена). Одна из гипотез относительно генетического кода, выдвинутая Ф. Криком, базировалась именно на этих идеях. В коде без запятой слова имеют разную длину, но любая их комбинация, даже записанная подряд без разделителей, может быть декодирована, т. е. разделена на слова, единственным образом. Эта идея казалась весьма продуктивной, а при некоторых предположениях даже объясняла возникновение сакрального числа 20 аминокислот. Но в итоге оказалась неверной.