Много мелких записей - как и в чем хранить?

1

1

Смотрите какая штука. Есть некие документы, состоящие из фиксированного числа полей, но переменного числа строк (обычно до 10 тысяч). Документы эти парсятся и добавляются в БД в режиме реального времени - то есть, это надо делать быстро. Из базы почти всегда достаются части одного документа, по сотне записей, например.

В чем и как мне это хозяйство хранить? Может есть какой-то более подходящий вариант, чем Монга и тупое разбиение документов на отдельные записи? Может какие-то ноу-хау придумали, а я в танке и все пропустила?

Ссылка

←	Gdb, как вытащить исходники?

IRedMail + OwnCloud

→

А если зайти с другой стороны: какие при текущей схеме хранения существуют проблемы, которые надо решить?

Zenom ★★★
(06.09.16 16:32:12 MSK)

Ответ на: комментарий от Zenom 06.09.16 16:32:12 MSK

Как-то муторно и не очень быстро получается. Нужно вытаскивать эти куски по отдельному индексу. Я думала, может какие-то интересные идеи есть на этот счет. Например, хранить весь документ целиком как одну запись, а отдельные его строки - как встроенный документ.

Dirty_Diana
(06.09.16 16:39:51 MSK) автор топика

Берете помечаете документ индексом по отдельному полю и применяете по нему партиционирование https://habrahabr.ru/post/66151/

Это должно улучшить скорость ибо 10000 строк будут сохраняться в отдельном файле

ism ★★★
(06.09.16 16:50:30 MSK)

Ответ на: комментарий от ism 06.09.16 16:50:30 MSK

Спасибо, но с SQL я связываться не буду. Не для этой задачи.

Dirty_Diana
(06.09.16 17:02:08 MSK) автор топика

Ссылка

Есть некие документы, состоящие из фиксированного числа полей, но переменного числа строк

для всех документов число и набор полей одинаковые?

запросы идут - просто последовательная выборка по «номеру строки»? ACID требуется? Сколько всего документов? Надо ли их удалаять, и как долго хранить?

Deleted
(06.09.16 17:05:37 MSK)
Последнее исправление: Deleted 06.09.16 17:05:57 MSK (всего исправлений: 1)

Ответ на: комментарий от Deleted 06.09.16 17:05:37 MSK

Да, последовательно. ACID - опционально, может и так прожить. Документов дофига - миллионы. Хранятся постоянно, хотя удалять тоже бывает нужно, но редко.

Dirty_Diana
(06.09.16 17:09:17 MSK) автор топика

Ответ на: комментарий от Dirty_Diana 06.09.16 17:09:17 MSK

для всех документов число и набор полей одинаковые?

Вот это не отвечено.

В общем случае, если действительно нужен только последовательный доступ, не нужен никакой индекс, и оне не модифицируются (я про UPDATE) почемуб не хранить в виде файла на документ?

Deleted
(06.09.16 17:16:51 MSK)
Последнее исправление: Deleted 06.09.16 17:17:08 MSK (всего исправлений: 1)

Ответ на: комментарий от Deleted 06.09.16 17:16:51 MSK

Набор полей одинаковый. Не хочу городить свой огород, потому что позже обязательно появится какое-то новое требование, и что я потом с этими файлами делать буду?

Короче, монга - так монга.

Dirty_Diana
(06.09.16 17:32:48 MSK) автор топика

Есть еще тарантул https://tarantool.org/, но мопед не мой.

Vit ★★★★★
(06.09.16 17:45:07 MSK)

Ссылка

Рекомендую к прочтению всем причастным: https://medium.baqend.com/nosql-databases-a-survey-and-decision-guidance-ea78...

bytecode ★★★
(06.09.16 17:47:07 MSK)

Ответ на: комментарий от Dirty_Diana 06.09.16 17:32:48 MSK

если одинаковый, то реляционная база данных - наиболее пригодный вариант, только аккуратнее со всякими мускулями

Deleted
(06.09.16 17:48:59 MSK)

Ссылка

Ответ на: комментарий от bytecode 06.09.16 17:47:07 MSK

кратко, что там? очередное откровение кэпа?

Deleted
(06.09.16 17:49:21 MSK)

Ответ на: комментарий от Deleted 06.09.16 17:49:21 MSK

Его концентрат с вкраплениями.

bytecode ★★★
(06.09.16 17:58:20 MSK)

Ссылка

Ответ на: комментарий от Dirty_Diana 06.09.16 16:39:51 MSK

Например, хранить весь документ целиком как одну запись, а отдельные его строки - как встроенный документ.

Только имей в виду, что поддокументы - это виртуальная штука и инструменты для работы с ними очень куцые. К тому же сомневаюсь, что монга внутри умеет читать документ частично.

Vit ★★★★★
(06.09.16 18:00:15 MSK)

Ссылка

Тогда ваша база с кешированием redis

ism ★★★
(06.09.16 18:06:46 MSK)

Ссылка

https://tarantool.org/

kawaii_neko ★★★★
(06.09.16 18:09:46 MSK)

Ссылка

PostgreSQL уже советовали?

AnDoR ★★★★★
(06.09.16 21:58:35 MSK)

Ссылка

Есть еще cassandra. Ее фишка в очень быстром чтении куска данных (data range), при условии что запрос хорошо ложится на ту модель, как хранятся данные в самой cassandra. Но штука капризная со своими особенностями. Нужно изучить и понять, как cassandra хранит данные.

~~dave~~ ★★★★★
(07.09.16 07:28:01 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Gdb, как вытащить исходники?

Development

IRedMail + OwnCloud

→

Похожие темы