Ищу алгоритм для сжатия массива упорядоченных целых чисел

2

2

Требования: быстрая распаковка, сжатие на 30-40%. Числа 32-битные, не подряд, но отсортированы по возрастанию.

Ссылка

←	Стек для java для get things done

Взлетит Assembly подобная площадка для рунета?

→

http://stackoverflow.com/questions/283299/best-compression-algorithm-for-a-se...

hope13 ★★★
(24.11.15 05:32:18 MSK)

Ответ на: комментарий от hope13 24.11.15 05:32:18 MSK

https://github.com/lemire/SIMDCompressionAndIntersection

This library can decode at least 4 billions of compressed integers per second on most desktop or laptop processors. That is, it can decompress data at a rate of 15 GB/s. This is significantly faster than generic codecs like gzip, LZO, Snappy or LZ4.

Неплохо так.

jollybeaver
(24.11.15 06:22:19 MSK) автор топика

Ответ на: комментарий от jollybeaver 24.11.15 06:22:19 MSK

Поэтому я и привёл эту ссылку. Надеюсь тебе пригодится.

hope13 ★★★
(24.11.15 06:25:52 MSK)

Ссылка

Самый простой вариант сделать последовательность разностей, закодированную с переменной длиной и сжать RLE потом. После этого можно убрать остальную избыточность через deflate или xz.

Xenius ★★★★★
(24.11.15 06:59:15 MSK)

Ответ на: комментарий от Xenius 24.11.15 06:59:15 MSK

Я бы вообще deflate сжимал (38% дает запросто), но он медленно распаковывается.

jollybeaver
(24.11.15 08:02:27 MSK) автор топика

Ответ на: комментарий от jollybeaver 24.11.15 08:02:27 MSK

Я бы вообще deflate сжимал (38% дает запросто), но он медленно распаковывается.

А если взять последовательность разностей и RLE?

Xenius ★★★★★
(24.11.15 08:15:25 MSK)

Ответ на: комментарий от Xenius 24.11.15 08:15:25 MSK

Попробовал snappy на последовательности разностей - вообще отлично: коэффициент сжатия 50% и время распаковки в 5-6 раз меньше, чем у стандартных gzip/deflate/lzw/zlib.

jollybeaver
(24.11.15 08:28:57 MSK) автор топика

http://ipv6.lurkmo.re/Алексей_Бабушкин, же.

~~weare~~ ★★
(24.11.15 08:30:51 MSK)

Ссылка

Ответ на: комментарий от Xenius 24.11.15 08:15:25 MSK

А годную реализацию RLE на гитхабе фиг найдешь, надо свою писать.

jollybeaver
(24.11.15 11:45:18 MSK) автор топика

Ссылка

Ответ на: комментарий от Xenius 24.11.15 08:15:25 MSK

Плохо жмет RLE такие данные. Где snappy сжимает наполовину, RLE (простая реализация с гистограммой) - всего на 1%, в то время как скорость у snappy всего на чуточку меньше.

jollybeaver
(26.11.15 04:39:06 MSK) автор топика

Ссылка

Ответ на: комментарий от jollybeaver 24.11.15 08:28:57 MSK

Попробовал snappy на последовательности разностей

можно не строить последовательность разниц - результат snappy не будет существенно отличаться, такими вычислениями вы не изменяете избыточность.

сугубо академично: вопрос у вас скорее не о сжатии данных, а о наиболее компактном представлении множества. Если знать больше о данных (вероятность дублировании значений, типичные длины выборок и прочее) то тут могут накидать идей/методов по «сжатию» в разы и на порядки, а не на жалкие 30-40%

MKuznetsov ★★★★★
(26.11.15 08:48:49 MSK)

Ответ на: комментарий от jollybeaver 24.11.15 08:28:57 MSK

Попробовал snappy на последовательности разностей...

А если транспонировать? Жать не оригинальную последовательность, а сначала старшие байты, потом помладше итд?

anonymous
(26.11.15 09:01:31 MSK)

Ответ на: комментарий от anonymous 26.11.15 09:01:31 MSK

Ха. Тоже к этому пришел - еще до прочтения ответа. Результат значительно улучшается, да.

anonymous
(26.11.15 16:44:08 MSK)

Ссылка

Ответ на: комментарий от MKuznetsov 26.11.15 08:48:49 MSK

Значения уникальные, не повторяются.

anonymous
(26.11.15 16:47:18 MSK)

Ответ на: комментарий от anonymous 26.11.15 16:47:18 MSK

Собственно, это набор ID-шников - от 1 до N, с пропусками.

anonymous
(26.11.15 16:55:09 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Стек для java для get things done

Development

Взлетит Assembly подобная площадка для рунета?

→

Похожие темы