Посоветуйте column-based СУБД для быстрого добавления 1 млн записей в минуту и запроса их оттуда редкого, но быстрого.

0

2

Есть запись (entry). Она делится на условные Key и Value. Key состоит из 5 строковых полей и пары INT-овых, по каждому из которых хотелось бы выбирать Value, на которое показывает этот составной Key. Value состоит из 5 int-значений и хотелось бы выбирать всегда какое-то одно из них. Т.е. Value — это вектор INT-ов. Т.е. это база для аналитики. Т.е. быстрее всего будет column-based.

Обозначим все поля Key как Key:0, Key:1 и т.п. Все поля Value как Value:0, Value:1, Value:2 и т.п. Тогда:

Варианты запросов, которые должны летать:

вот Key:1, дайте последовательность всех Value:2 за последний день

нет Key («любое значение»), дайте последовательность всех Value:2 за последний день

вот Key:0 И Key:1, дайте последовательность Value:2 за последний день

Минимальное пожиралово диска побочными структурами данных, минимальное пожиралово ОЗУ, возможность безопасно удалить большой интервал старых данных без проседания операций записи-чтения, сжатие исторических данных желательно, транзакции не нужны никакие вообще.

Что стоит посмотреть? Yandex ClickHouse?

Ссылка

←	Python - Функция запроса к БД MySQL и возврат кортежа

bash. опция -n

→

редкого, но быстрого

reprimand ★★★★★
(14.09.16 19:45:01 MSK)

Ссылка

SQLite же. По мульену в минуту nas сам подбирай.

cnupm ★
(14.09.16 20:32:14 MSK)

Ответ на: комментарий от cnupm 14.09.16 20:32:14 MSK

SQLite для key-value storage? Тормозить будет довольно сильно.

ТС-у нужно что-то типа memcached

reprimand ★★★★★
(14.09.16 20:36:53 MSK)
Последнее исправление: reprimand 14.09.16 20:37:10 MSK (всего исправлений: 1)

смотри кликхаус, да. доки у него так-себе и стандартный клиент, кхм, странный. но жить можно. зато он очень хорошо жмет данные, да и выборки шустрые.

iSage ★★★★
(14.09.16 22:01:57 MSK)

Ссылка

Cassandra Je!!

bookman900 ★★★★★
(14.09.16 22:10:53 MSK)

Ответ на: комментарий от reprimand 14.09.16 20:36:53 MSK

Column-based =/ key-value

bookman900 ★★★★★
(14.09.16 22:11:14 MSK)

Ссылка

cassandra полностью подходит. Главное правильно индексы проставить. Жмет отлично данные по столбцам.

TOXA ★★
(14.09.16 23:09:07 MSK)

требования весьма противоречивые. Быстрая запись одновременно с быстрыми условными запросами не бывает, тем более не бывает такое богатство со сколь-нибудь малым потреблением ресурсов. Можно писать в одну базу, какойнить no-sql без ничего или вообще в файл, потом периодически сливать оттудова большие пачки данных уже в чего-нибудь вменяемое со столбцами и многоколоночными индексами и, возможно, партицированием.

arkhnchul ★★★
(14.09.16 23:20:21 MSK)

Ответ на: комментарий от arkhnchul 14.09.16 23:20:21 MSK

Быстрая запись с быстрым чтением бывает: контора Tokutek вон коммерциализировала buffered B-Tree, описанные Lars Arge (имя чувака).

hlamotron ★
(14.09.16 23:23:32 MSK) автор топика

Ответ на: комментарий от bookman900 14.09.16 22:10:53 MSK

Cassandra

ЕМНИП добавление там самая дорогая операция.

exception13 ★★★★★
(14.09.16 23:24:23 MSK)

Ответ на: комментарий от bookman900 14.09.16 22:10:53 MSK

ну и Cassandra таки wide-row больше. а для 5 int'ов это как то оверхед.

exception13 ★★★★★
(14.09.16 23:25:57 MSK)

CouchBase же, мужчина!

menangen ★★★★★
(15.09.16 00:02:18 MSK)

Ссылка

Ответ на: комментарий от reprimand 14.09.16 20:36:53 MSK

SQLite для key-value storage? Тормозить будет довольно сильно.

ТС-у нужно что-то типа memcached

скорее всего ТС`у этого будет заглаза. А вообще точно так.

ТС точно не специализируется в highload, цифры взяты с потолка, и вопросы такого уровня (10^7/sec) не решаются на ЛОР, тут ему таакого насоветуют :-) Так что SQLite дабы ножку не сломать на первых этапах..

MKuznetsov ★★★★★
(15.09.16 00:06:48 MSK)

Ответ на: комментарий от MKuznetsov 15.09.16 00:06:48 MSK

Где ты прочитал про 10^7 / sec? Цифры тут упоминались максимум 10^6, а вместо сек упоминалась минута.

Я прекрасно понимаю что тут насоветуют, но мне никто не запрещал посылать любые совету нах.

hlamotron ★
(15.09.16 00:42:30 MSK) автор топика

Ссылка

Ответ на: комментарий от exception13 14.09.16 23:25:57 MSK

Буду знать на будущее. Благодарю.

bookman900 ★★★★★
(15.09.16 00:52:44 MSK)

Ссылка

Ответ на: комментарий от hlamotron 14.09.16 23:23:32 MSK

мало ли что там какая контора нарисовала (тем более особо не заметно открытия грааля святого, всем как-то пофиг на их tokudb). Суть не в конкретном продукте, а в том, что большинство методов ускорения выборок данных по неким условиям (индексы и прочее вот это вот все с деревьями, фракталами и чертями рогатыми) замедляет сих данных запись относительно случая их отсутствия.

arkhnchul ★★★
(15.09.16 00:58:29 MSK)

Ответ на: комментарий от TOXA 14.09.16 23:09:07 MSK

индексЫ? мб я отстал от жизни, и ковырял ее довольно давно, но поиметь в кассандре несколько индексов по воспоминаниям было не очень-то можно.

arkhnchul ★★★
(15.09.16 01:01:50 MSK)

Ответ на: комментарий от arkhnchul 15.09.16 00:58:29 MSK

Замедляет конечно. Но речь не о том, чтобы получить максимальную скорость чтения, когда голова диска читает сектора последовательно и никуда не перемещается :)

hlamotron ★
(15.09.16 01:19:44 MSK) автор топика

Ссылка

кстати

вот Key:1, дайте последовательность всех Value:2 за последний день

какое время выдачи результата по такому запросу будет признано приемлемым? Даже если не фильтровать по дате, а иметь только значения одного дня, это, на минуточку, 1.44e+9 записей, из которых нужно выгрести нужные по значению одного из ключей.

arkhnchul ★★★
(15.09.16 01:31:21 MSK)

Ссылка

Ответ на: комментарий от arkhnchul 15.09.16 01:01:50 MSK

Судя по докам с версии 1.1 можно индексы навешивать

TOXA ★★
(15.09.16 08:01:43 MSK)

<sarcasm> SybaseIQ <sarcasm/>

anonymous
(15.09.16 08:38:14 MSK)

Ссылка

Ответ на: комментарий от MKuznetsov 15.09.16 00:06:48 MSK

SQLite дабы ножку не сломать на первых этапах..

10**6 записей в минуту многовато для SQLite. Может, конечно, ТС слегка перестраховался, данных будет меньше.

Допустим, если у него сырая запись (ключ+значение) около 500 байт, в день получается 720Г. Это без всяких дополнительных расходов на индексы и прочее. Даже если запись по 100 байт, получается почти 150Г в день.

SQLite для такого лучше рассматривать где-то в конце списка. Где-то за остальными РСУБД общего назначения.

hlamotron, непонятно, какие тебе нужны отчеты, но как правило на таких данных смысла строить индексы по всем-всем ключам нет.

Обычно делают что-то вроде map-reduce. Фильтруют и агрегируют в небольшую таблицу (в key-value хранилище или даже в СУБД) то что нужно получить быстро. То, что нужно редко нет смысла предпросчитывать. Можно по запросу пересканировать исторические данные для редких и необычных запросов, пользователь подождет

Deleted
(15.09.16 09:52:19 MSK)