Способы записи биологической информации. Генетический (биологический) код.
Переход от преджизни к жизни на Земле связывают с оформлением потока информации(см. п. 1.4.6, рис. 2.22). Любая информация,
включая биологическую, для ее сохранения или манипуляций с нею требует системы записиили кодирования.В мире жизни это решается благодаря информационным макромолекулам(ДНК, РНК, белки), представляющим собой биомолекулярные тексты(взаимосоответствующие по содержанию ДНКовые, РНКовые и белковые), составленные с использованием биологического (генетического) кода.Использование в биоинформатике названных выше полимеров дает право называть земную жизнь белково-нуклеиновой.
Вопрос о химической природе носителя биологической информации в клетке долгое время был предметом дискуссий. Решающим аргументом в пользу нуклеиновых кислот (ДНК) послужили результаты опытов Ф. Гриффита (1928), воспроизведенных на новом методическом уровне О. Эйвери (1944). Эти результаты говорили о том, что приобретение пневмококками непатогенного штамма патогенных свойств обусловлено проникновением в эти пневмококки ДНК пневмококков патогенного штамма. Другие доказательства биоинформационно-генетической функции ДНК:
• постоянство содержания ДНК в соматических клетках организма;
• соответствие содержания ДНК плоидности клеток (в соматических клетках ее вдвое больше, чем в половых);
• явление генетической рекомбинации у прокариот при их конъюгации, в ходе которой осуществляется проникновение фрагментов ДНК из одной бактериальной клетки в другую с соответствующим изменением фенотипических свойств;
• феномен трансдукции - изменение наследственных свойств бактериальных клеток путем переноса ДНК от одного штамма к другому при помощи бактериофага;
• инфицирующая способность вирусов определяется их нуклеиновой кислотой.
Метаболическая стабильность (сохранность информации),большие размеры молекул (информационная емкость),надмолекулярная организация ДНК в виде биспирали, образованной комплементарными макромолекулами (матричный механизм копированияили «снятия» информации)отвечают требованиям к материалу, выполняющему функции хранения и тиражирования генетической информации. По-иному обстоят дела с использованием информации в процессах развития и жизнедеятельности. Из природных полинуклеотидов РНК (но не ДНК) может проявлять ферментативную активность (рибозимы), но в очень ограниченном объеме. Белки же характеризуются такой активностью в полной мере. Оформившийся в эволюции механизм «опо-
средованного автокатализа пептидов»(см. п. 1.4.4) или, другими словами, процесс биосинтеза белка в клетке, объединил в себе потенциал обоих типов биополимеров и предопределил структуру информационной системы (потока информации) живых форм.Главные участники этой системы - ДНК, РНКи белки.
В мире жизни присутствует два вида текстов: связанные с нуклеиновыми кислотами, записанные при помощи нуклеотидов, и связанные с белками, записанные при помощи аминокислот.
Расчеты говорят о том, что для кодирования одной аминокислоты в белке достаточно тройки нуклеотидовв ДНК и/или РНК. Число возможных сочетаний из 4 нуклеотидов по 4, располагающихся по-разному в молекуле ДНК, измеряется астрономическими цифрами. Так, во фрагменте ДНК всего из 100 п.н. теоретически может быть закодированы аминокислотные последовательности 4100 белков среднего размера. Число сочетаний из 4 по 2 (16) при количестве аминокислот в «стандартном» наборе для синтеза белков 20 недостаточно, тогда как число сочетаний из 4 по 3 (64) удовлетворяет критерию достаточности.
В пробирке синтезировали короткие фрагменты РНК, содержащие один из четырех нуклеотидов. Эти фрагменты затем использовали в искусственных системах синтеза белка. Применяя фрагмент поли-У (по-лиуридиловый полимер), получали пептид, состоящий исключительно из аминокислоты фенилаланина. Был сделан вывод, что три уридило-вых нуклеотида в РНК (три адениловых нуклеотида в ДНК) кодируют в белках фенилаланин. Благодаря описанному приему, в 60-х гг. ХХ столетия генетический код был расшифрован полностью (табл. 2.2). Тройки нуклеотидов,соответствующие отдельным аминокислотам, получили название триплетовили кодонов.
Таблица 2.2.Генетический (биологический) код: аминокислоты и кодирующие их триплеты ДНК
Приведенные в табл. 2.2 триплеты располагаются в кодогенной молекуледвойной спирали ДНК. и(м)РНК, обеспечивающая синтез белка с определенной аминокислотной последовательностью, образуется на парной ей матричной молекулебиспирали. В триплетах и(м)РНК, в сравнении с триплетами ДНК, тимидиловый нуклеотид (Т) заменен на уридиловый (У). Генетический код в виде триплетов и(м)РНК приведен в табл. 2.3.
Таблица 2.3.Генетический (биологический) код: аминокислоты и кодирующие их триплеты и(м)РНК
Нуклеотидные последовательности генов одной хромосомы обычно размещены в одной и той же молекуле биспирали ДНК, но есть исключения. Так, из пяти гистоновых генов плодовой мухи для двух генов информация записана в одной полинуклеотидной цепи, а для трех других генов - в парной ей цепи биспирали ДНК. Таким образом, роль кодогенной (а также матричной) молекулы может выполнять любая из цепей двойной спирали.
Единицей информации в молекулах ДНК служит тройка нуклеоти-дов или триплет, то есть генетический код является триплетным.При этом 4 нуклеотида, строящие ДНК, образуют 64 триплета, из которых 61 кодирует 20 аминокислот (смысловые триплеты),а 3 не имеют кодируемых аминокислот и служат для обозначения пункта терминации (завершения) транскрипции (бессмысленныеили нонсенс-кодоны, стоп-кодоны).Генетический код является неперекрывающимся(отдельной аминокислоте соответствует самостоятельный триплет), непрерывным(триплеты для последовательности аминокислот в конкретном белке следуют друг за другом без «пробелов», но см. интроны, п. 2.4.5.5), универсальным(одни и те же триплеты используются для кодирования одних и тех же аминокислот у представителей всех групп живых существ - от вирусов и прокариот до млекопитающих, в том числе человека; известны исключения - см. здесь же, ниже), вырожденным(для кодирования одной аминокислоты, кроме метионина и триптофана, используется от двух до шести триплетов), специфичным(конкретному триплету соответствует одна аминокислота).
Если для аминокислоты существует от двух до четырех триплетов (аланин, валин, глицин, пролин, треонин), то различия между триплетами касаются исключительно последнего, третьего нуклеотида (нонсенс-кодоны не подпадают под это правило). В таком случае мутационное изменение третьего нуклеотида в триплете примерно в 64% дает триплет-синоним, что служит повышению уровня сохранности информации в ДНК. Сходные по строению и/или химическим свойствам аминокислоты имеют триплеты с одним и тем же центральным (вторым) нуклеотидом. К примеру, триплеты гидрофобных аминокислот (фенилаланин, лейцин, изолейцин, метионин, валин) имеют в ДНК второй нуклеотид А, а в и(м)РНК - У. Эта особенность генетического кода создает «биоинформационный буфер», который сводит к минимуму влияние многих генных мутаций на функциональные характеристики соответствующих белков (гидрофобная аминокислота меняется на гидрофобную).
Есть примеры, не отвечающие принципу универсальности генетического кода. Так, в клетках распространенного возбудителя микозов человека Candida albicans кодон ЦУГ соответствует аминокислоте серину, а не лейцину, как в клетках почти всех других живых форм. В автономной белокобразующей системе митохондрий клеток млекопитающих триплет и(м)РНК АУА соответствует аминокислоте метионину, тогда как в цитоплазме этих же клеток - изолейцину. Триплеты ТЦГ и ТЦЦ митохондриальной ДНК некоторых видов организмов не кодируют аминокислот, являясь нонсенс-кодонами. В приведенных примерах функционально-генетические особенности поименованных кодонов воспроизводятся на постоянной основе, что дает основания рассматривать эти особенности как следствие своеобразия эволюционного процесса.
Во всех кодовых системах записи выделяют буквы (алфавит)и слова (словарь)текста. В кодовой системе нуклеиновых кислот (ДНК, РНК) буквы - это нуклеотиды (4-буквенный алфавит),а слова - тройки нуклеотидов или триплеты, которым соответствуют отдельные аминокислоты (61-словный словарь,включая синонимы).
Изменения в нуклеотидных последовательностях (генетических текстах) ДНК приводят к искажению информации и носят название генных или истинных мутаций. Такие изменения состоят в замене одного смыслового триплета на другой или нонсенс-кодон, выпадении или вставках нуклеотидов, что приводит к сдвигу рамки считывания биоинформации. У людей известно несколько сотен (из 5 тыс. генных болезней, выявленных на 2004 г.) наследственных болезней, для которых обнаружен мутировавший ген и описан фенотипический эквивалент мутации. В эту группу входят ахондроплазия (характерный признак - непропорциональная карликовость), вызываемая заменой гуанилового нуклеотида на цитидиловый в гене рецептора гормона роста, серповидноклеточная анемия (характерный признак - эритроциты серповидной формы в связи с понижением растворимости и повышением степени полимеризации гемоглобина), вызываемая заменой в гене β-глобина в 6-м положении триплета глутаминовой кислоты на триплет валина, α-талассемия (характерный признак - гемолитическая анемия в связи с аномальной структурой гемоглобина по α-глобину), вызываемая выпадением некоторого количества нуклеотидов в гене α-глобинового кластера, невосприимчивость людей к вирусу иммунодефицита человека (ВИЧ), обусловливаемая выпадением части нуклеотидов (ДНК-текста) в гене ccr5 (кодирует белок-рецептор для локальных регуляторов клеточной
активности β-цитокинов; мутантный белок лишен аминокислотной последовательности, необходимой для проникновения вируса в клетки).