LINUX.ORG.RU
ФорумAdmin

База данных со сжатием данных.

 ,


0

1

Есть 10 Тб очень похожих друг 10 символьных слов:

AAAAAAAAAA AAAAAAAAAB AAAAAAAAAC

и т.д.

И еще

32 Тб хешей md5 этих слов, имеющих частично одинаковую структуру.

Какую БД использовать для их сжатия? ЛГБТ таблицы не предлагать, там CPU генератор.

Ходят слухи что БД от яндекса неплохо экономит место, кликхаус кажется, я не проверял если чего

Dred ★★★★★
()

то есть ты хочешь взять какую-то из СУБД, которые рассчитаны на хранение и обеспечение доступа к данным, и навесить на нее обязанности архивирования-разархивирования данных? просрать все индексы, превратить сложные запросы в адский ад, просто потому что тебе жалко еще один винт воткнуть? я правильно понял?

anonymous
()
Ответ на: комментарий от anonymous

просто потому что тебе жалко еще один винт воткнуть?

42 Тб для домашнего использования. Там рандомно сгенерированные 10 символов, из которых делается md5 и которые надо извлечь за 10 минут.

steemandlinux ★★★★★
() автор топика
Ответ на: комментарий от steemandlinux

Там рандомно сгенерированные 10 символов, из которых делается md5 и которые надо извлечь за 10 минут.

и база для этой херни затем, чтобы что? сдается мне, ты сейчас ищешь лубрикант для удобного удаления гланд через задницу

anonymous
()

чо насчет того чтобы хранить эти слова сразу пожатые RLE например?

Deleted
()
Ответ на: комментарий от anonymous

Сфига ты взял, что это пароли? Это проверка вводимых данных на честность.

steemandlinux ★★★★★
() автор топика
Ответ на: комментарий от steemandlinux

Нашел clickhouse,

Будут вопросы - кастуй, тоже на ней сижу. Кратко - быстрая, но со своими тонкостями

upcFrost ★★★★★
()

Вариант (если питон используешь): использовать HDF5 и pytables. Оно умеет в прозрачное сжатие и эффективную работу с большими датасетами. Правда, хорошо только на ридонли данных, т.к. запись там только однопоточная со всеми вытекающими. Но индексы вроде есть.

lu4nik ★★★
()
Последнее исправление: lu4nik (всего исправлений: 1)
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.