База данных со сжатием данных.

базы данных, сжатие

0

1

Есть 10 Тб очень похожих друг 10 символьных слов:

AAAAAAAAAA AAAAAAAAAB AAAAAAAAAC

и т.д.

И еще

32 Тб хешей md5 этих слов, имеющих частично одинаковую структуру.

Какую БД использовать для их сжатия? ЛГБТ таблицы не предлагать, там CPU генератор.

Ссылка

←	Использование адресов 255.x.0.0/16 для overlay-подсетей в Docker

apt-listchanges segmentation fault

→

А если любую базу, но на ФС со сжатием ?

AS ★★★★★
(09.11.17 23:41:18 MSK)

Ходят слухи что БД от яндекса неплохо экономит место, кликхаус кажется, я не проверял если чего

Dred ★★★★★
(09.11.17 23:46:53 MSK)

Ответ на: комментарий от AS 09.11.17 23:41:18 MSK

Не факт что это эффективно.

steemandlinux ★★★★★
(09.11.17 23:48:14 MSK) автор топика

Ссылка

Ответ на: комментарий от Dred 09.11.17 23:46:53 MSK

Нашел clickhouse, посмотрим про что.

По описанию просто идеально подходит.

steemandlinux ★★★★★
(09.11.17 23:49:01 MSK) автор топика
Последнее исправление: steemandlinux 09.11.17 23:51:07 MSK (всего исправлений: 1)

то есть ты хочешь взять какую-то из СУБД, которые рассчитаны на хранение и обеспечение доступа к данным, и навесить на нее обязанности архивирования-разархивирования данных? просрать все индексы, превратить сложные запросы в адский ад, просто потому что тебе жалко еще один винт воткнуть? я правильно понял?

anonymous
(09.11.17 23:49:58 MSK)

Ответ на: комментарий от anonymous 09.11.17 23:49:58 MSK

просто потому что тебе жалко еще один винт воткнуть?

42 Тб для домашнего использования. Там рандомно сгенерированные 10 символов, из которых делается md5 и которые надо извлечь за 10 минут.

steemandlinux ★★★★★
(09.11.17 23:52:58 MSK) автор топика

Ответ на: комментарий от steemandlinux 09.11.17 23:52:58 MSK

Там рандомно сгенерированные 10 символов, из которых делается md5 и которые надо извлечь за 10 минут.

и база для этой херни затем, чтобы что? сдается мне, ты сейчас ищешь лубрикант для удобного удаления гланд через задницу

anonymous
(09.11.17 23:54:31 MSK)

Ответ на: комментарий от anonymous 09.11.17 23:54:31 MSK

А в чем хранить кусок в 42 тб?

steemandlinux ★★★★★
(09.11.17 23:55:13 MSK) автор топика

Ответ на: комментарий от steemandlinux 09.11.17 23:55:13 MSK

кусок чего?

anonymous
(09.11.17 23:55:48 MSK)

Ответ на: комментарий от anonymous 09.11.17 23:55:48 MSK

кусок данных, которые hashcat сгенерировал.

steemandlinux ★★★★★
(09.11.17 23:57:15 MSK) автор топика

чо насчет того чтобы хранить эти слова сразу пожатые RLE например?

Deleted
(09.11.17 23:57:36 MSK)

Ссылка

Ответ на: комментарий от steemandlinux 09.11.17 23:57:15 MSK

млять, и тут мамкины какиры. как же вы достали, упыри безмозглые.

anonymous
(09.11.17 23:59:15 MSK)

Ответ на: комментарий от anonymous 09.11.17 23:59:15 MSK

Сфига ты взял, что это пароли? Это проверка вводимых данных на честность.

steemandlinux ★★★★★
(10.11.17 00:01:56 MSK) автор топика

Ссылка

Ответ на: комментарий от steemandlinux 09.11.17 23:49:01 MSK

Нашел clickhouse,

Будут вопросы - кастуй, тоже на ней сижу. Кратко - быстрая, но со своими тонкостями

upcFrost ★★★★★
(10.11.17 11:13:43 MSK)

Ссылка

Вариант (если питон используешь): использовать HDF5 и pytables. Оно умеет в прозрачное сжатие и эффективную работу с большими датасетами. Правда, хорошо только на ридонли данных, т.к. запись там только однопоточная со всеми вытекающими. Но индексы вроде есть.

lu4nik ★★★
(10.11.17 11:39:04 MSK)
Последнее исправление: lu4nik 10.11.17 11:40:36 MSK (всего исправлений: 1)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Использование адресов 255.x.0.0/16 для overlay-подсетей в Docker

Admin

apt-listchanges segmentation fault

→

Похожие темы