LINUX.ORG.RU
ФорумAdmin

парсинг бинарных данных

 ,


0

4

Доброго времени суток!

А есть ли какая-нибудь либа для парсинга бинарных данных? чтобы формат регэкспа был примерно как в перле, но позволяло достучаться до отдельных битов внутри слова. Скажем, хочу я найти во всем потоке данных все последовательности вида "0b01110[001,100]|0b1101[111,101]".

Задача встала отсюда. Захотелось проверить, насколько уменьшение используемой памяти ускорит производительность. Вроде должно быть ускорение раз в 16 для этой задачи, так как достаточно только 2 бит для кодирования основания ДНК и проверять можно не посимвольно, а целыми блоками по 4 байта (2 байта от первого и 2 байта от второго шаблона, чтобы учесть границу).

★★

Последнее исправление: aido (всего исправлений: 1)

так как достаточно только 2 бит для кодирования основания ДНК

На сколько я понимаю в реальных ридах ДНК могут быть ещё и непрочитанные основания. В тексте обычно обозначают то-ли вопросительным знаком, то-ли символом «_».

MrClon ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.