К.С. Невтыра, Т.А. Колчанова
Тюменский государственный нефтегазовый университет
Digital files stored and retrieved using DNA memory
Запись информации и её извлечение с помощью
ДНК-памяти
Forget hard disks or DVDs. If you want to store vast amounts of information look instead to DNA, the molecule of which genes are made.
Scientists in the UK have stored about a megabyte's worth of text, images and speech into a speck of DNA and then retrieved that data back almost faultlessly. They say that a larger-scale version of the technology could provide an extremely dense and long-lived form of digital storage that is particularly well suited to data archiving.
As ever-greater quantities of electronic data are produced, the problem of how to store that data becomes more acute. There are many options for archiving data but all have their drawbacks. For example, hard disks used in data centres are expensive and need a constant source of electricity, and magnetic tape, while requiring no power, starts to degrade after a few years.
In the latest research, Nick Goldman and colleagues at the European Bioinformatics Institute near Cambridge have stored digital information by encoding it in the four different bases that make up DNA.
Забудьте о жестких дисках и DVD. Если вы хотите сохранить огромное количество информации, обратите внимание на ДНК, молекулу, из которой состоят гены.
Британские ученые записали около мегабайта текста, изображений и речи в частицу ДНК и затем считали данные практически без потерь. Они считают, что увеличенная версия этой технологии может обеспечить крайне вместительную и долговечную форму цифрового хранилища, что отлично подходит для архивации данных.
С увеличением количества производства электронных данных, проблема хранения этих данных обостряется. Есть много способов архивации, но у всех есть свои недостатки. Например, жесткие диски, использующиеся в дата-центрах, дороги и нуждаются в постоянном источнике тока, а магнитные ленты, не требующие энергии, начинают разрушаться через несколько лет.
В последних исследованиях, Ник Гольдман и его коллеги в Европейском Биоинформационном Институте Кэмбриджа, записали цифровую информацию путем кодирования ее в четыре различных основы, образующих ДНК. В то время, как эта техника неудобна в плане беспорядочного доступа или возможности перезаписи, у нее есть пара крупных преимуществ. Одна из них – огромная вместимость, как результат того, что информация хранится на молекулярном уровне, а вторая – долговечность. По словам Гольдмана, неповрежденная ДНК был извлечена из костей неандертальца 10-и или тысячелетней давности. «Природа сделала эту молекулу крайне стабильной»,- говорит Ник: «И мы пользуемся её плодами».
Группа использовала ДНК, произведенную в лаборатории, вместо взятой из живого организма, т.к. последняя уязвима к мутациям и, следовательно, к потерям данных. Но, чтобы воспользоваться таким подходом, исследователям пришлось преодолеть пару трудностей. Одна из них заключалась в том, что с помощью нынешних технологий возможно создать – или «синтезировать» - только короткие участки ДНК, а чем короче участок, тем меньше его вместимость. Чтобы обойти эту проблему, Гольдман и его коллеги разработали систему кодировки, в которой доля каждого участка зарезервирована для индексации, указывая, к какому файлу принадлежит участок и где этот файл расположен, что позволяет одному файлу состоять из нескольких участков.
Вторая трудность заключалась в избегании ошибок, возникающих во время как записи, так и чтения, особенно когда соседствующие основания цепи имеют одинаковое значение. Решено было просто кодировать данные тритами - цифрами 0,1 или 2 - и обуславливать, что трит, представленный одной из трех основ, не используется для кодирования трита, идущего за ним. Дополнительная мера заключалась в копировании последних 75% каждого участка в начало последующего.
Команда тестировала схему путем кодирования пяти файлов в одну последовательность ДНК и дальнейшего разделения её на 15000 равных участков, длиной в 117 основ. Примечательно, что одним из файлов был PDF известной двуспиральной бумаги Ватсона и Крикса, успешно закодированной в двойной спирали. Шекспировские сонеты и 30-исекундная запись речи Мартина Лютера Кинга «I have a Dream» были также записаны в формате MP3. Команда затем загрузила закодированные файлы на приватную веб-страницу, чтобы позволить Agilent Technologies в Калифорнии синтезировать эту ДНК. В создание молекулы было вовлечено использование сложного вида струйного принтера который наносит химические реагенты на микроскопический участок так, чтобы наращивать цепь ДНК по одной молекуле, и затем повторяет процедуру столько раз, сколько требуется.
Отправленный в виде небольшого количества порошка при комнатной температуре и без специализированной упаковки, ДНК прибыла в Хайдельберг (Германия) в главный корпус Европейской Лаборатории Молекулярной Биологии, в которую входит Европейский Биоинформационный Институт. Поместив ДНК в раствор, информация была считана с помощью современной лабораторной машины, и полученные серии основ были затем декодированы на компьютере, чтобы восстановить те 5 файлов. 4 файла были точными копиями оригиналов, в то время как пятый файл потребовал корректировки, чтобы восстановить полный объем данных.
Гольдман и его коллеги заявляют о достижении вместимости в 2 петабайта (10^15 байт) на грамм ДНК, которые, по их вычислениям, позволят хранить 100 миллионов часов видео в высоком разрешении в чашке чая. Их образец ДНК был (?) очень мал. «В нашей камере для тестов ДНК выглядит как горстка пыли»,- говорит Гольдман: «На самом деле, образец настолько мал, что когда он к нам прибыл, казалось, что камера пуста».
На сегодняшний день технология слишком дорога, чтобы конкурировать в сфере долгосрочного хранения. Но Гольдман уверен, что цены будут падать, придавая интерес исследованиям ДНК. Если цена синтеза ДНК упадет в 100 раз в следующем десятилетии, что он считает возможным, техника будет такой же дешевой, как магнитные ленты для хранения данных, существующие по меньшей мере 50 лет. Это потому, что, в отличие от лент, которые нуждаются в постоянной перезаписи, ДНК остается неизменной до тех пор, пока она хранится в прохладном, сухом и темном месте.
Нынешняя работа сопровождается похожими исследованиями, сделанными в прошлом году командой Гарвардской Медицинской Школы, в состав которой входил Срирам Козури. Его группа использовала систему кодировки, которая вовлекала использование битов вместо тритов и включала в себя небольшие излишества. Однако, он говорит, что эти две техники, тем не менее, являются «похожими подходами к одной идее», добавляя, что оба исследования показывают, что хранилища на основе ДНК «приближаются к тому, чтобы вызвать интерес инвесторов».
Д.А. Паздер, М.В. Заичко