Обоснование выбора условий поиска и критериев сортировки праймеров
Предложенный нами эвристический метод предполагает использование полных геномных последовательностей организмов для подбора ПЦР праймеров, для выявления полиморфных фрагментов, дающих в случае минимальных генетических различий между исследуемым объектом и объектом того же вида, геном которого представлен в базе данных, оптимальные результаты.
Оптимальным результатом подбора такого праймера, является максимальное количество четко различимых полиморфных фрагментов, полученных при ПЦР и детектированных при помощи электрофореза.
Электрофорез в данном случае представляет собой метод разделения макромолекул под действием внешнего электрического поля. Скорость движения молекул при электрофорезе зависит от их электрофоретической подвижности, которая в свою очередь, для молекул, имеющих одинаковую структуру, таких как последовательности нуклеиновых кислот, зависит от длины этих молекул. Таким образом, чтобы фрагменты, которые представляют собой цепочки нуклеиновых кислот, были различимы (не перекрывались при электрофорезе), нужно, чтобы они имели разную молекулярную массу.
Второе условие, то есть возможность детектирования как можно большего количества полиморфных фрагментов, зависит от разрешающей способности конкретной технологии электрофореза, применяемой при разделении продуктов ПЦР, а именно: от вида гелеобразователя (агароза, полиакриламид и т.д.) и его концентрации, среды разделения (концентрация и состав буфера), напряжения и силы тока, размера геля и концентрации образца в нем. Для стандартного электрофореза в агарозном геле оптимальным для детектирования считается наличие в продуктах ПЦР от 10 до 40 фрагментов разной молекулярной массы. При этом на размеры фрагментов также налагаются ограничения, так для большинства амплификаторов максимальная длина амплифицируемого фрагмента при ПЦР не может превышать 3500 пар нуклеотидов (фрагменты большей длины просто не способны синтезироваться), а фрагменты имеющие длину меньше 50-60 пар нуклеотидов плохо разделяются при электрофорезе в агарозном геле. Таким образом, рекомендуется чтобы все фрагменты, получаемые в результате ПЦР, находились в диапазоне от 60 до 3500 пар оснований.
Сам метод поиска случайных праймеров, не ассоциированных с конкретными генами, регуляторными или иными известными последовательностями, заключается в подборе всех возможных вариантов последовательностей, имеющих одинаковый префикс, по полной геномной последовательности анализируемого организма, дающих при моделировании условий ПЦР максимальное количество четко различимых полиморфных фрагментов. При этом предполагается использование единичного праймера, а все возможные фрагменты, образовавшиеся в результате ПЦР, будут ограничены прямой и инвертированной последовательностями этого праймера (рис. 2.1.).
Рисунок 2.1. Образование фрагментов ПЦР при использовании одного праймера.
В качестве префикса искомого праймера могут выступать:
· отдельные нуклеотиды;
· триплеты (кодоны), комбинации из трех последовательно расположенных нуклеотидов (например, старт-кодоны);
· сайты рестрикции, короткие последовательности нуклеотидов в молекуле ДНК, которые распознаются ферментом рестриктазой;
· другие, важные для молекулярного биолога, короткие фрагменты ДНК, длины которых недостаточно для формирования полноценного праймера.
Непосредственно метод поиска состоит из трех основных этапов. На первом этапе выбирается префикс будущего праймера, в соответствии с конкретными задачами, и ищутся все точки вхождения этого префикса в полную геномную последовательность. При этом при обнаружении очередной точки входа префикса в последовательность ДНК, программа формирует массив праймеров, путем сохранения самого префикса и части следующей за ним геномной последовательности так, чтобы суммарная длина праймера составляла 13-25 нуклеотидов (рис 2.2.).
Рисунок 2.2. Пример формирования массива праймеров с одинаковым префиксом.
В итоге для каждой точки входа формируется по 13 вариантов последовательностей праймеров, отличающихся друг от друга длиной суффикса. Результатом этой стадии является формирование большого массива праймеров, включающего все возможные варианты праймеров для всех возможных точек входа префикса в последовательность ДНК.
Таким образом, праймером, в нашем случае, будет являться подстрока длиной 13-25 символов, входящая в строку – последовательность ДНК, один или более раз и имеющая четко заданный префикс. При этом уникальность последовательности праймеров будет обеспечиваться различием в их суффиксах.
На следующем этапе программа осуществляет постановку виртуальной ПЦР. Для каждого праймера, отобранного на первом этапе, осуществляется поиск точек вхождения его прямой и инвертированной формы в геномную последовательность. При этом сохраняются все последовательности ограниченные, в начале прямой и в конце инвертированной, последовательностью праймера и имеющие длину от 60 до 3500 символов (пар оснований). Результатом этой стадии, является отбор только тех последовательностей праймеров, которые потенциально способны к образованию фрагментов определенной длины при проведении ПЦР.
На последнем этапе необходимо провести отбор наиболее «удачных» праймеров, то есть, как было сказано выше, тех которые при реакции ПЦР дают максимальное количество четко различимых фрагментов, и отсортировать их в порядке понижения приоритета. Для осуществления этой задачи необходимо разработать критерий, позволяющий поставить в соответствие каждому праймеру некую величину, численное значение которой служило бы однозначной оценкой его «приоритетности» над другими.
Использование в качестве такого критерия общего количества фрагментов, которое способен давать праймер при постановке ПЦР, не является рациональным, так как при этом не учитывается качество этих фрагментов. Так если некоторый праймер способен образовать при ПЦР n различных фрагментов, m из которых будут иметь близкую по значению молекулярную массу с одним или несколькими другими фрагментами, то при разделении с помощью электрофореза можно будет идентифицировать только n-m фрагментов. При этом невозможно будет однозначно определить, образовались ли при ПЦР все эти фрагменты, или только часть из них, что может привести к некорректной трактовке результатов эксперимента. Иными словами, необходим критерий, который также обеспечивал бы возможность количественной оценки вероятности фрагментов, которые можно четко идентифицировать.
Известно, что скорость движения фрагментов нуклеиновых кислот при электрофорезе обратно пропорциональна логарифму их молекулярной массы. То есть, для i-го фрагмента с молекулярной массой x справедливо соотношение yi ~ ln(1/xi), где yi – расстояние на которое сместился i-й фрагмент за определенный промежуток времени (рис 2.3.).
Рисунок 2.3. Зависимость скорости движения фрагментов ДНК при электрофорезе от их молекулярной массы.
При этом «различимость» двух фрагментов i и i+1 определяется параметром Δy и может быть описана следующим соотношением (2.1):
, (2.1)
где xi и xi+1 – молекулярные массы фрагментов i и i+1, соответственно; а yi и yi+1 – расстояние на которое сместились эти фрагменты при электрофорезе.
Таким образом, критерий обеспечивающий, наибольшую «различимость» полученных в результате ПЦР фрагментов можно представить следующим выражением (2.2):
, (2.2)
где n – общее количество образующихся при ПЦР фрагментов.
Однако этот критерий не учитывает приоритет тех праймеров, которые дали большее количество полиморфных фрагментов. Критерий, который учитывает и количество фрагментов, и их максимальные отличия друг от друга можно записать в следующем виде (2.3):
(2.3)
Таким образом, результатом работы программы должен являться сформированный список наиболее оптимальных праймеров, для которых критерий TVmax > 0. Этот список праймеров должен быть отсортирован в порядке уменьшения TVmax, так чтобы чем ближе праймер располагался к началу списка, тем более приоритетным было его использование.
Реализация разработанных нами алгоритмов, если это точно не оговорено, осуществлялась на языке Си.