LINUX.ORG.RU

Какая СУБД для OLAP?

 , ,


2

3

Добрый вечер. Скажите, пожалуйста, какие сейчас есть СУБД для OLAP? Нужно быстро крутить ~5ТБ, делать группировки и отдавать в BI. Единственное, что приходит в голову - затюненный под DWH Оракл. Ещё есть Кликхаус, но кажется, это немного локальный продукт. Т.к. важна скорость отклика, экосистема хадупа не подходит.

Ответ на: комментарий от Paka_RD

В итоге, я так понял, ничего кроме кликхауса больше нет.

Походу, вы это знали еще до того как пришли сюда с вопросом. Просто решили себя перепроверить. Если с Ораклом работали то с Кликхаусом разберетесь, он проще.

Obezyan
()
Ответ на: комментарий от Obezyan

Ну, мир большой, вот и спрашиваю у Сообщества. Мне вот, например, в этой ветке добавили в коллекцию - упомянули kdb, почитаю. К тому же, решение может быть не обязательно через СУБД, это может быть какая-то надстройка над ROLAP, в виде распределённого сервиса (наверно :) ). А по кликхаусу - да, у нас знающие сотрудники есть, всегда помогут.

Paka_RD
() автор топика
Ответ на: комментарий от sanyo1234

https://www.citusdata.com/faq

А у вас есть опыт работы с Citus ? Можете подсказать?

Вчера вот смотрел, может я что-то делаю не так.

Исходно - есть табличка на миллиард строк. В ClickHouse она 8ГБ. И прекрасная скорость запросов с агрегациями по ней. Единицы-десятки ms. Плохо, что когда хочется подженить на ней какие-то доп.данные из PG вся прелесть кончается и начинаются костыли. Они работают. Просто... некрасивые.

Если эту таблицу запихать в обычный heap PG - получается 120ГБ без индексов. И никакими индексами даже близко по скорости не похоже. С индексами под 200ГБ

Если эту же таблицу запихать в Citus-PG (т.е. в columnar) опять получается 8ГБ. Казалось бы хорошо. Ровно как в CH. Но относительно приличную скорость запросов можно получить только если сразу попасть секциями в нужные запросам поля. Т.е. по сути получается надо строго под конкретный запрос целится в partition by при создании таблицы ?

У него на текущий момент вся прелесть только в том, что место на диске экономит что ли?

Toxo2 ★★★★
()
Последнее исправление: Toxo2 (всего исправлений: 2)
Ответ на: комментарий от Toxo2
Yes, sharding capabilities in Citus Data (now called Citus DB) are part of paid offerings. Here are some details on the Citus DB editions and sharding features:

    Citus Community Edition (open source)
        This free version does NOT include sharding features
        Limited to a single node and no sharding or horizontal scaling

    Citus Standard and Premium Editions (commercial)
        Sharding is ONLY available in the paid Standard and Premium versions
        Enables distributing large tables into logical shards across nodes
        Includes distributed query planner for optimized shard queries
        Standard Edition supports hash and range partitioning for sharding
        Premium Edition further adds support for multi-tenant sharding

So in summary - the free Community Edition does NOT support sharding or horizontal scaling to multiple nodes. The commercial editions unlock full distributed sharding capabilities, as a premium feature over open source.
sanyo1234
()
Ответ на: комментарий от sanyo1234

Это-то как раз не интересно. Пока нет вопроса с сегментированием на разные узлы. Средствами PG вполне нормально пилится на секции, как обычные таблицы, так и columnar, как минимум в рамках одного хоста.

Вопрос про вот это место в документации:

Future versions of Citus will incrementally lift the current limitations:

Append-only (no UPDATE/DELETE support)
No space reclamation (e.g. rolled-back transactions may still consume disk space)
Support for hash and btree indices only
No index scans, or bitmap index scans
...
я так понимаю, что оно вообще не умеет индексировать, а CH умеет? Если вы с ним работали - у вас получилось добиться скорости запросов похожей на CH?

Toxo2 ★★★★
()
Последнее исправление: Toxo2 (всего исправлений: 2)
Ответ на: комментарий от Toxo2

Если вы с ним работали - у вас получилось добиться скорости запросов похожей на CH?

Я упражнялся только на тестовом однонодовом сервере :)

К сожалению, не было подобных оплачиваемых задач.

sanyo1234
()
Ответ на: комментарий от sanyo1234

Понял, отстал.

Так-то замечательно было бы, конечно, внутри PG и так, и эдак мочь. В CH ещё и отдельное приключение с дедупликацией записей по первичному ключу к тому же.

Но пока не выходит. Вероятно и не должно.

Toxo2 ★★★★
()