LINUX.ORG.RU

Какая СУБД для OLAP?

 , ,


2

3

Добрый вечер. Скажите, пожалуйста, какие сейчас есть СУБД для OLAP? Нужно быстро крутить ~5ТБ, делать группировки и отдавать в BI. Единственное, что приходит в голову - затюненный под DWH Оракл. Ещё есть Кликхаус, но кажется, это немного локальный продукт. Т.к. важна скорость отклика, экосистема хадупа не подходит.

Ответ на: комментарий от Paka_RD

Ты глубоко заблуждаешься. ДомикНажатий типичный русский продукт, который родили в России за деньги русских налогоплатильщиков и потом его безвозмездно передали западным партнерам. Теперь же ДомикНажатий не имеет с Россией ничего общего и даже морозится от нее примерно как Аркаша Волож. Как говорил один мужик, цап-царап. Только в другую сторону. Классическая история, короче.
Используют его давно большие компании, как то IBM или Netflix. Тут есть список контор: https://clickhouse.com/docs/en/about-us/adopters

У меня так коллега от него отказался, аргументируя похожими сказками, мол «перестанет Яндекс его писать и проект умрет», «это мелкая поделка Яндекса» и т. п.

urxvt ★★★★★
()
Последнее исправление: urxvt (всего исправлений: 2)

Если рассматривать самое совместимое с обычным PostgreSQL:

Citus databases continue scaling out horizontally as we speak. On the last count, one Citus user had a 100-node production Citus cluster with over 50 TB of memory and 700 TB of data (1.4 PB uncompressed.) Another user manages 1.6 PB of time series data in Citus. The Microsoft Windows team manages their ship-room decisions by using Citus to scale out Postgres across 54 nodes and a total of 3,456 cores, 27 TB of memory, and 1.6 PB of SSD storage.

That said, there are plenty of Citus users who benefit significantly from the parallelism of Citus—and our ability to serve mixed transactional and analytic workloads—at a much smaller scale, with smaller 2-node clusters. And as of Citus 10, you can now shard Postgres on a single node, adopting a distributed data model from the start.

https://www.citusdata.com/faq

Наверно, ещё Greenplum, но что там с лицензированием, кто-то в курсе? Есть ли бесплатные варианты?

sanyo1234
()
Ответ на: комментарий от urxvt

У меня так коллега от него отказался, аргументируя похожими сказками, мол «перестанет Яндекс его писать и проект умрет», «это мелкая поделка Яндекса» и т. п.

А что там с YDB ?

sanyo1234
()

Шустрый клик с кучей функций или векторные костыли под слона. Выбор очевиден.

ЗЫ есть ещё отдельные базы вроде DuckDB, но зависеть от таких очень непопулярных баз дело сомнительное.

ac130kz ★★
()
Последнее исправление: ac130kz (всего исправлений: 1)
Ответ на: комментарий от urxvt

Честно говоря, не понял, при чем тут оно и что ты имеешь ввиду.

YDB natively supports different processing options, such as OLTP and OLAP. The current version offers limited analytical query support. This is why we can say that YDB is currently an OLTP database.

https://ydb.tech/en/docs/concepts/

sanyo1234
()
Ответ на: комментарий от Paka_RD

это немного локальный продукт ассоциируется с импортозамещением, почти как Postgre

какая-то бредятина, если честно.

Ставь какое-нибудь говно от оракла под винду, раз тебе нужна промывка мозгов маркетологами. Не забудь ещё заложить квартиру бабки и купить какой-нибудь херни типа нетаповского стораджа.

я в шоке от того, как можно с одной стороны найти сайт LOR в интернете, а с другой стороны нахвататься таких бредней.

max_lapshin ★★★★★
()
Ответ на: комментарий от urxvt

ну тут как. Злые языки (типа тебя, хехе) говорят что-то, что видно невооруженным глазом.

Так же невооруженным глазом видно, что слово «западные инвестиции» лучше и технически правильнее поменять на «задолжать бандитам, которые привыкли решать бизнес-вопросы бетономешалкой». А судя по тому, как Миловидов оперативно зиганул, возникают вопросы: ему и его семье угрожали, или у них там это стандарт мировоззрения.

А добрые языки зигуют и пишут публичные покаянные письма =)

Понятно, что эта вся ситуация пойдет во вред кликхаусу и он будет обречен на умирание, как nginx, но это будет нескоро.

max_lapshin ★★★★★
()

Нужно быстро крутить

бесплатный совет - кликхауз. нет ничего, кроме кликхауза. кроме тех случаев, когда вся ваша контора гадит деньгами и девать их вам категорически некуда. но в этом случае все остальные советы бесплатными уже не будут.

olelookoe ★★★
()
Ответ на: комментарий от urxvt

Не спорю, Кликхаус достойный продукт и под задачу подходит лучше всего. Просто решил спросить, есть ли какие-то решения решения на рынке от маститых фирм.

По поводу Greenplum и прочих MPP - они немного про другое. Пока будут воркеры по нодам разбрасывать, «пользователь уйдет на другой сайт» :)

Хотелось найти быструю inmemory-крутилку для ROLAP. С хорошей отзывчивостью за счет всяких ухищрений вроде матвью, кэширования и прочих стат.оптимизаций.

Paka_RD
() автор топика
Ответ на: комментарий от Paka_RD

ещё непонятнее.

Ты пришел на LOR с тем, чтобы поискать замену кликхаусу, которая тебе обойдется минимум в 100 килобаксов на старте?

Всерьез считаешь, что тут ошиваются продавцы, которые быстро тебя квалифицируют, разберут с тобой график бюджетирования твоей организации, подберут правильный cash flow план для твоей личной мотивации (в смысле, как тебе откат дать) и уже к 2026-му году начнется этап внедрения?

Т.е. яндекс, который крутится на кликхаусе — это так, вшивая заштатная непонятная конторка из этого вашего новомодного интернетика для школьников, а нужно что-то от маститых и откатистых?

max_lapshin ★★★★★
()
Ответ на: комментарий от max_lapshin

Нет, конечно я не за покупкой пришел. Просто хочу понимать, какие продукты сейчас есть под мою задачу. Раньше всё было просто - был оракл, а у конторы хорошая лицензия на него. И я понимал, под какую технологию затачивать свой софт (в его случае - OCI/OCCI). У вас кругозор побольше, вот и пришел спросить, что есть ещё.

Paka_RD
() автор топика
Ответ на: комментарий от Paka_RD

Ну, если что, rolap от оракла, мягко говоря, неповторим. Все другие решения требуют подготовленных агрегатов.

Можно попробовать стек pentaho или майкрософтовский - но там только с готовыми агрегатами, «поиграть» не получится.

Shadow ★★★★★
()
Последнее исправление: Shadow (всего исправлений: 1)
Ответ на: комментарий от lovesan

https://dropbox.tech/infrastructure/how-we-migrated-dropbox-from-nginx-to-envoy

понятно, что процесс будет небыстрым, но в прошлом году сделали всё, чтобы русские авторы перестали туда коммитить, так что angie вместо него.

max_lapshin ★★★★★
()
Ответ на: комментарий от Paka_RD

забыть про оракл, пока на проде базу не дропнули удаленно.

Вы смотрели на возможности кликхауса? Там чего-то не хватает для того, как вы привыкли пользоваться?

max_lapshin ★★★★★
()
Ответ на: комментарий от lovesan

nginx до того, как его продали позиционировался как «супер стабильный и быстрый» сервер, куда создатель как раз не хотел пихать нескучные доп… обои с жутким убогим устаревшим синтаксисом и тп. А людям нужно свистоперделки - отсюда и пошел «колхоз» …

ivanich10
()
Ответ на: комментарий от max_lapshin

ага бывший программист, который баги чинил в nginx заделался эффективным менеджером и сделал форк с импортозамещением ( чтобы капусту рубить с местных контор). Профит.

ivanich10
()
Ответ на: комментарий от ivanich10

я тебе подскажу: после того как назавидуешься в кулачок в уголке, можешь прислать им резюме и если ты хоть чего-то умеешь, то почему бы и не поработать с ними. Ну это конечно если ты чего-то из себя представляешь.

max_lapshin ★★★★★
()

OLAP

По моему печальному опыту работы с олап, могу сказать что заткнуть все хотелки BI олапом - это только приятная идея, что мол вот сейчас сделаем олап и проблему закроем. На практике это всё неудобно, медленно, неэффективно и всё равно ты будешь писать запросы для олапа руками. Приходишь к тому, что хочется какой-то sql конструктор для людей, где уже будут какие-то полуготовые человеческие выборки, который делает тоже самое что олап, но в более частных случаях.

Мб, конечно, у тебя какой-то особенный олап есть, на вход которого ты подаешь то, что тебе надо сделать/добавить, а на выходе получаешь готовые запрос(ы) к бд, а не то, что денормализируешь сначала таблицы, а потом отдаешь куда-то всю эту кашу.

crutch_master ★★★★★
()
Ответ на: комментарий от mrjaggers

А ты молодец, годно держишь марку либерданутого. В очередной раз прекрасно продемонстрировал вашу приверженность свободе слова, мыслей и взглядов.

P. S.
Модератор, лучше потри этого унтерменша, за оскорбление участников форума в его профиле.

urxvt ★★★★★
()
Ответ на: комментарий от crutch_master

Ну, нам это нужно для графиков, которые рисует веб-морда + есть нечто вроде сводной таблицы. Вот и нужно быстро делать группировки/фильтры/сортировки для этих дэшбордов.

Просто про Кликхаус я и так знаю, было интересно узнать про другие варианты.

Paka_RD
() автор топика
Ответ на: комментарий от crutch_master

С малым объемом данных. Посчитать же сумму за каждый месяц по одной колонке будет на много порядков быстрей на ClickHouse, в сравнении с тем же Postgres (стоковым).

urxvt ★★★★★
()
Ответ на: комментарий от Paka_RD

Тю... Я думал, задача стоит сделать из менеджеров аналитиков... Кликхаус и вперёд. Ну или эластик, если неформализованные данные, с определением агрегатов и сбросом промежуточных данные в любую бд.

Shadow ★★★★★
()
Последнее исправление: Shadow (всего исправлений: 1)
Ответ на: комментарий от max_lapshin

Миловидов оперативно зиганул во вред кликхаусу и он будет обречен на умирание

Я ничего не понял из твоего поста. Что значит «зиганул»? Поддержал агрессию США против России? Кто такой Миловидов? Что случилось с кликхаусом? Кликхаус «всё», потому что денег на поддержку больше нет?

asdpm
()
Ответ на: комментарий от Shadow

С данными никаких проблем нет - всё нормализовано, только числа и недлинные строки (типа varchar2(256)). Да и апдейтов нет, только чтение. Проблема лишь в их количестве - миллиарды строк. Вот и спросил, есть ли специализированное решение для быстрой агрегации массивов. Про Кликхаус я знаю, достойное решение для такой задачи. Но может, есть что-то ещё?

Paka_RD
() автор топика
Ответ на: комментарий от Paka_RD

миллиарды строк

Миллиарды строк за какой период? Я видел системы сбора и хранения телеметрии на Kafka + ClickHouse, на хороших серверах они захлебываются где-то на 100000 событий в секунду. Это, грубо говоря, около 8-9 миллиардов событий («строк») в сутки.

Если нужно обрабатывать быстрее и без покупки дорогого железа, то скорее всего вы ничего готового не найдете.

anonymous
()
Ответ на: комментарий от anonymous

Ну, не на столько много.

  • это за весь период, просто общее кол-во строк в таблице. Самодельное решение крутит ~100.000.000 строк за 5 сек - сортировки/группировки на одном хосте со 128ГБ ОЗУ и 16 ядрами. Есть ещё аналогичные хосты рядом, но писать распределённый велосипед почему-то не охота :)
Paka_RD
() автор топика

У вас действительно выбор между Oracle и ClickHouse.

Главная проблема Oracle - найти специалистов которые правильно его настроит под вашу задачу. Вы сами не справитесь, учитывая что вы пришли с этим вопросом на форум фриков от мира линукса. Они тоже не справятся. Поэтому технические проблемы Оракла не вижу смысла описывать.

ClickHouse вполне можно осилить своими силами, но у него есть несколько проблем которые могут вылезти при таком объеме данных:

  1. Он требует денормализации данных т.к. медленно работает с multi-join запросами. Если у вас уже подготовлены плоские таблицы по котором просто нужна множественная группировка то это не проблема.

  2. Если вам нужна аналитика в реальном времени то все хорошо до тех пор пока не начнут литься новые данные. От этого могут начаться просадки по производительности. нужно смотреть как много и как часто приходят новые данные. Если в реальном времени не нужно то можно пропустить этот пункт.

  3. Масштабирование - изменение кластера требует ручной перебалансировки данных. Это может быть как «все ок» так и «Ад и Израиль», зависит от того как эти данные хранятся.

В итоге, вам стоит попробовать ClickHouse и посмотреть, подходят ли ваши данные под него. В этом случае именно данные под систему, а не система под данные. Если подходят, то вам повезло - смело внедряйте. Если нет - ищите спеца по Ораклу.

Obezyan
()
Ответ на: комментарий от Obezyan

Я на оракле и специализируюсь (вернее, специализировался), но Оракл мне сейчас нельзя (импортозамещение).

В итоге, я так понял, ничего кроме кликхауса больше нет.

Paka_RD
() автор топика