Группа исследователей из Китайского университета Гонконга нашла способ шифрования и хранения данных в бактериях. В 1 г живого материала помещается примерно 900 ТБ информации. Проект называется Bioencryption (см. презентацию), и создан он был для международного конкурса iGEM-2010 (International Genetically Engineered Machine).
Шифрование осуществляется методом перемешивания ДНК (DNA shuffle). Считывание информации из бактерий подтверждается контрольной суммой.
Для хранения данных, как и можно было предположить, используется четверичная система счисления, по количеству нуклеотидов (0 = A, 1 = T, 2 = C, 3 = G).
Текст переводится в цифры по таблице ASCII (i = 105; G = 71; E = 69; M = 77), затем в четверичную систему (105 → 1221; 71 → 0113; 69 → 0111; 71 → 0131), а потом в цепочку нуклеотидов.
iGem → 1221011301110131 → ATCTATTGATTTATGT
Затем информацию пропускают через алгоритм компрессии, чтобы не тратить впустую нуклеотиды.
Для шифрования и хранения данные разбиваются на блоки по 1 КБ (столько помещается в одну клетку бактерии) и создаётся 4-уровневая структура адресации, с заголовком и футером для каждого фрагмента.
Для хранения используются организмы E.coli DH5 α. Учёные синтезируют ДНК с необходимой последовательностью нуклеотидов и внедряют её в клетки бактерий. В 1 грамме бактерий содержится примерно 10 миллионов клеток, так что информация может быть продублирована сотни тысяч раз естественным методом (путём деления клеток).
Заметим, что синтез ДНК до сих пор остаётся дорогим удовольствием (примерно $0,29 за базовую пару), и оборудование для этого нужно очень дорогое.
По информационной ёмкости 1 грамм бактерий равен примерно 900 ТБ. Учёные считают, что созданная ими информационная система может использоваться для хранения мультимедийных файлов: фотографий, музыки, кинофильмов. Они предупреждают только, что в синтетические бактерии лучше всего изначально вставлять штрихкоды, чтобы не перепутать их с биологическими организмами.