Жизнь VS Энтропия - страница 15

Шрифт
Интервал


Простой способ построить однозначно декодируемый код без запятой – сделать все его слова одной длины. Такие коды называются блочными. По этому пути пошел Г. Гамов, предложивший первый вариант генетического кода в 1954 году. Для кодирования 20 букв-аминокислот в четырехбуквенном алфавите минимальная необходимая длина слов равна трем (42<20< 43). Примечательно, что при определенных допущениях код Гамова также давал объяснение загадочному числу 20. Более того, в части идеи трехбуквенного кодирования без запятой он оказался правильным. Однако в прочих деталях эта гипотеза, как и все другие, оказались неверны. Природа перехитрила целую группу выдающихся умов, применив, на первый взгляд, совсем не оптимальное решение. Это выявилось путем прямых физико-химических расшифровок формул аминокислот и белков.

Трехбуквенный блочный код для двадцати аминокислот сильно избыточен: 20<<43=64. Однако избыточность кода, как и избыточность вообще, дает возможность борьбы с ошибками в работе любых систем. В теории информации построение корректирующих кодов, позволяющих путем математических процедур выявлять и автоматически исправлять такие ошибки, является одной из основных задач. Не является ли и здесь избыточность следствием решения природой этой задачи? В таблице 1 приведен реальный генетический код. Трехбуквенные слова кода из алфавита (A, G, U, C) называют кодонами. Из 64 кодонов 61 используется для кодирования 20-ти аминокислот, а три выполняют функции точки в конце генов (стоп-кодоны). Один из кодирующих кодонов, а именно метионин (AUG), выполняет особую роль – все предложения языка белков начинаются с него. Поэтому его еще называют стартовым кодоном, хотя он может появляться и внутри предложений. Код действительно избыточен – почти все аминокислоты имеют несколько вариантов кодирования. Однако легко заметить, что в ряде случаев действует следующее правило: «кодоны одной и той же аминокислоты отличаются только последней буквой».

В этих случаях ошибки в последних буквах кодонов корректируется системой передачи генетической информации на этапе ДНК → белки. Например, любые замены последних букв у кодонов валина, пропина, треонина, аланина и глицина не отражаются на синтезированных клеткой белках. То же можно сказать о четырех из шести кодонах серина и аргинина (стоит отметить, что указанные замены в оставшихся кодонах переводят эти аминокислоты друг в друга). Как физически происходит коррекция ошибок.