Postgres, пагинация и длинные запросы

0

4

Ситуация такая: есть постгрес с огромной и медленной базой на тормознутом сервере.

Сейчас каждый запрос — это SELECT COUNT(*) FROM QUERY для оформления кнопочек пагинации, и SELECT * FROM QUERY LIMIT X OFFSET Y собственно для выбора каждой отдельной страницы.

Можно ли как-нибудь совместить эти два запроса в один? Чтобы я одним запросом получил и общее количество данных, и нужную мне страницу?

Сейчас я запилил кеширование результатов первого запроса, но выглядит как-то костыльно. Оба выполняются примерно по минуте.

Ссылка

←	Qt widget in non Qt gui

Сделать так, что бы символы из библиотек гарантированно не пересекались, без модификации исходного кода

→

И два запроса внезапно станут работать быстрее в одном?

Не показывай общее количество страниц. Запрашивай LIMIT X+1, если в результате записей больше чем X, то показывай X записей и кнопку «Next page»

disarmer ★★★
(08.04.17 15:41:38 MSK)

Ответ на: комментарий от disarmer 08.04.17 15:41:38 MSK

И два запроса внезапно станут работать быстрее в одном?

Да, у меня было такое предположение, из-за того, что оба запроса выполнялись примерно одинаковое время

Не показывай общее количество страниц. Запрашивай LIMIT X+1, если в результате записей больше чем X, то показывай X записей и кнопку «Next page»

Блин, гениально. Спасибо

derlafff ★★★★★
(08.04.17 15:43:26 MSK) автор топика

Ответ на: комментарий от derlafff 08.04.17 15:43:26 MSK

С другой стороны, тему оставляю как нерешенную, потому что общее количество результатов поиска таки хочется иметь на виду.

derlafff ★★★★★
(08.04.17 15:45:28 MSK) автор топика

Ссылка

Offset это плохой вариант. База будет вычитывать все записи до offset. Для быстрой пагинации надо запоминать id последней записи на странице и потом запрашивать от этого id (это для упорядоченного по id запроса, для других полей так же). Число страниц точно и быстро вычислить нельзя, count(*) это просмотр всего ответа, быстро можно только приблизительную оценку у оптимизатора узнать. В принципе оно обычно точно никому не нужно.

~~Legioner~~ ★★★★★
(08.04.17 15:49:36 MSK)

Медленный SELECT COUNT(*) в постгрисе это же известная фича?

https://wiki.postgresql.org/wiki/Slow_Counting

В некоторых случаях он вынужден перебирать всю таблицу

Можно или выбирать приблизительное количество записей (в статье есть ссылка на пример) или держать отдельную таблицу с количеством записей. И обновлять ее триггерами, например

Deleted
(08.04.17 15:50:01 MSK)

Ответ на: комментарий от Deleted 08.04.17 15:50:01 MSK

Спасибо.

Вообще, я кажется жутко туплю и нужно просто воткнуть эластик, а не пытаться геморроиться с постгресом.

derlafff ★★★★★
(08.04.17 15:51:55 MSK) автор топика

Ссылка

Ответ на: комментарий от Legioner 08.04.17 15:49:36 MSK

Увы, у меня поиск не отсортирован по уникальным полям.

derlafff ★★★★★
(08.04.17 15:54:17 MSK) автор топика

Ссылка

Сколько всего записей? Если мало - смотри индексы и кривизну запросов (не должно оно так тормозить). Если много - запили хранилку чтобы обновлять общее число элементов на инсерт/делит. Кешируй результаты запросов, запоминай какие элементы на какой запрос выбирались.

ya-betmen ★★★★★
(08.04.17 15:58:01 MSK)

Ответ на: комментарий от ya-betmen 08.04.17 15:58:01 MSK

6млн записей, хочу по разным полям произвольно искать. Т.е. не по всем сразу, а по параметрам. Запросы практически все уникальные, за исключением просмотров разных страниц.

Плюс, базу очень штырит от постоянных записей (но хоть как-то это победил при помощи COPY TO)

Я тут выше уже отписался — кажется, самое разумное решение в моем случае — эластик. Странно, что сразу об этом не подумал

derlafff ★★★★★
(08.04.17 15:59:31 MSK) автор топика
Последнее исправление: derlafff 08.04.17 16:00:04 MSK (всего исправлений: 2)

Ответ на: комментарий от derlafff 08.04.17 15:59:31 MSK

Запросы практически все уникальные

Есть статистика или умозрительная оценка?

ya-betmen ★★★★★
(08.04.17 16:30:22 MSK)

Ответ на: комментарий от ya-betmen 08.04.17 16:30:22 MSK

Я — единственный пользователь этого дерьма пока :) Так что и статистика, и приблизительная оценка

Делал кеширование результатов на уровне nginx, особо не помогло

derlafff ★★★★★
(08.04.17 16:32:13 MSK) автор топика
Последнее исправление: derlafff 08.04.17 16:32:57 MSK (всего исправлений: 1)

Ответ на: комментарий от derlafff 08.04.17 16:32:13 MSK

Я — единственный пользователь этого дерьма пока :) Так что и статистика, и приблизительная оценка

Понял.

ya-betmen ★★★★★
(08.04.17 16:35:29 MSK)

Ссылка

SELECT id AS id, count(*) OVER() AS total_count FROM table WHERE ... ORDER BY ... LIMIT ... OFFSET ...

Frost ★★★
(08.04.17 16:40:18 MSK)

Ссылка

огромной и медленной базой

а сколько всего элементов в базе?

Frost ★★★
(08.04.17 16:50:44 MSK)

Ответ на: комментарий от Frost 08.04.17 16:50:44 MSK

7 млн сейчас. Для говновиртуалки довольно тяжело. Простые запросы выполняются в пределах секунды, но с тяжелыми — беда

derlafff ★★★★★
(08.04.17 16:52:33 MSK) автор топика
Последнее исправление: derlafff 08.04.17 16:52:42 MSK (всего исправлений: 1)

Ответ на: комментарий от derlafff 08.04.17 16:52:33 MSK

rum не пробовал ещё? https://github.com/postgrespro/rum

Frost ★★★
(08.04.17 16:55:01 MSK)
Последнее исправление: Frost 08.04.17 16:55:51 MSK (всего исправлений: 1)

Ответ на: комментарий от Frost 08.04.17 16:55:01 MSK

https://github.com/tonsky/rum

это? как оно должно мне помочь?

derlafff ★★★★★
(08.04.17 16:56:21 MSK) автор топика

Ответ на: комментарий от derlafff 08.04.17 16:56:21 MSK

а как тебе эластик поможет?:) точно также и rum, часть запросов через него делать

Frost ★★★
(08.04.17 16:57:48 MSK)

LIMIT .. OFFSET - не «пагинация».

AnDoR ★★★★★
(08.04.17 16:58:52 MSK)

Ответ на: комментарий от AnDoR 08.04.17 16:58:52 MSK

Это Очень важное уточнение имеет какое-то влияние на ответ на заданный вопрос?

derlafff ★★★★★
(08.04.17 17:00:43 MSK) автор топика

Ответ на: комментарий от derlafff 08.04.17 16:56:21 MSK

единственное он на postgresql 9.6+

Frost ★★★
(08.04.17 17:01:13 MSK)

Ответ на: комментарий от Frost 08.04.17 17:01:13 MSK

извини, я так и не понял, причем тут либа для генерации html...

у меня даже clojure/js нигде нет

derlafff ★★★★★
(08.04.17 17:01:56 MSK) автор топика

Ответ на: комментарий от derlafff 08.04.17 17:01:56 MSK

6млн записей, хочу по разным полям произвольно искать. Т.е. не по всем сразу, а по параметрам. Запросы практически все уникальные, за исключением просмотров разных страниц.
Плюс, базу очень штырит от постоянных записей (но хоть как-то это победил при помощи COPY TO)
Я тут выше уже отписался — кажется, самое разумное решение в моем случае — эластик. Странно, что сразу об этом не подумал

может это я не так понял, эластик это Elasticsearch или другой какой?

Frost ★★★
(08.04.17 17:06:26 MSK)

Ответ на: комментарий от derlafff 08.04.17 17:00:43 MSK

Вот даже на хабре есть примеры как делать консистентную пагинацию https://habrahabr.ru/post/301044/.
А LIMIT .. OFFSET - неконсистенты

AnDoR ★★★★★
(08.04.17 17:06:33 MSK)

Ответ на: комментарий от Frost 08.04.17 17:06:26 MSK

Он самый.

Если что, гуй для отправки запросов у меня уже есть

derlafff ★★★★★
(08.04.17 17:11:40 MSK) автор топика

Ответ на: комментарий от derlafff 08.04.17 17:11:40 MSK

ну, и в чем тогда несостыковка? я тебе предложил полнотекстовый поиск по всем полям какие захочешь не через Elasticsearch, а через rum который и есть дополнение для postgresql полнотекстового поиска сравнимый по скорости c Elasticsearch. Про генерацию html не шло ведь речи.

Frost ★★★
(08.04.17 17:17:13 MSK)

Ответ на: комментарий от Frost 08.04.17 17:17:13 MSK

Все, нашел: https://github.com/postgrespro/rum

До этого нагуглил какой-то другой rum

derlafff ★★★★★
(08.04.17 17:24:48 MSK) автор топика

Ответ на: комментарий от derlafff 08.04.17 17:24:48 MSK

Я просто сам на него не нарадуюсь, сейчас как раз его использую «и в хвост и в гриву», поэтому и рекомендую, он на лету добавляет элемент в поисковый индекс и много чего ещё.

Frost ★★★
(08.04.17 17:27:36 MSK)

Ответ на: комментарий от AnDoR 08.04.17 17:06:33 MSK

Спасибо, полезно.

Увы, в моем случае подходят только limit/offset и курсоры.

Разве что для частных случаев (на которых постгрес и так неплох) уместны другие способы из статьи

derlafff ★★★★★
(08.04.17 17:28:20 MSK) автор топика
Последнее исправление: derlafff 08.04.17 17:28:29 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от AnDoR 08.04.17 17:06:33 MSK

https://habrahabr.ru/post/301044/#comment_9615182

SELECT * FROM test_table JOIN (SELECT id FROM test_table ORDER BY id LIMIT 100000, 30) as b ON b.id = test_table.id

Хм, интересно! Сейчас попробую, даст ли мне это какой-нибудь профит

derlafff ★★★★★
(08.04.17 17:32:54 MSK) автор топика

Ссылка

Ответ на: комментарий от derlafff 08.04.17 15:59:31 MSK

А о банальной денормализации для оптимизации поиска вы не думали? Зачем лишнюю сущность в виде Эластика присобачивать?

sanwashere ★★
(08.04.17 19:26:43 MSK)

Ответ на: комментарий от sanwashere 08.04.17 19:26:43 MSK

Чтобы денормализовать, сначала надо нормализовать. А то, судя по всему, у тс все плохо.

Shadow ★★★★★
(08.04.17 20:07:28 MSK)

Ссылка

Ответ на: комментарий от sanwashere 08.04.17 19:26:43 MSK

Думаю над возможными решениями, никуда не тороплюсь.

Самые тяжелые запросы — это регулярки по нормальному тексту, регулярки по html (но это я придумал, как заменить на триггер+доп. поле) + поиск по тегам.

derlafff ★★★★★
(08.04.17 20:19:41 MSK) автор топика
Последнее исправление: derlafff 08.04.17 20:19:47 MSK (всего исправлений: 1)

Ответ на: комментарий от derlafff 08.04.17 20:19:41 MSK

Если речь идёт о специфичной индексации страниц, то для быстрого старта можно взять что-нибудь типа Python Soup и соответствующей структуры таблиц, если уж PostgreSQL нужен. Да и текст наверное не в общем виде нужен, - можно сразу на входе преобразовать.

sanwashere ★★
(08.04.17 20:23:52 MSK)

Ответ на: комментарий от sanwashere 08.04.17 20:23:52 MSK

Да, что-то вроде того.

Оригинальный текст мне нужен.

О нужде в стеммированном виде думаю. Боюсь, что нет — места на впс довольно мало, а все это уже довольно прилично место занимает. С другой стороны, все-таки хочется быстро статистики считать.

При задаче поиска мне регулярок хватает, при «добыче» записей я, конечно, использую lxml

derlafff ★★★★★
(08.04.17 20:27:40 MSK) автор топика

Ссылка

Ответ на: комментарий от Frost 08.04.17 17:27:36 MSK

Блин, а пакетов для дебиана нет?

derlafff ★★★★★
(10.04.17 21:53:25 MSK) автор топика

Ответ на: комментарий от derlafff 10.04.17 21:53:25 MSK

Нет, там сборка, да и не долгая.

Frost ★★★
(11.04.17 01:12:24 MSK)

Ссылка

29 августа 2017 г.

Ответ на: комментарий от Frost 08.04.17 16:57:48 MSK

Помог.

Как все было:

Сначала я перенес все на RUM (в последствии — на GIN) и долго-долго дрочил на производительность запросов.

Потом плюнул, выпилил полностью постгрес и стал использовать эластик в качестве БД.

В целом простые запросы стали выполняться медленней, но все равно за секунды. Принципиально стали возможны запросы, которые из-за особенностей постгреса вообще не использовали индексы (например, полнотекстовой поиск + сортировка по произвольному полю)

derlafff ★★★★★
(29.08.17 16:30:27 MSK) автор топика

Ответ на: комментарий от derlafff 29.08.17 16:30:27 MSK

и долго-долго дрочил на производительность запросов

А чем rum то не угодил? И время запросов интересно посмотреть, можешь хоть по памяти для сравнения выложить.

Frost ★★★
(29.08.17 17:16:06 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Qt widget in non Qt gui

Development

Сделать так, что бы символы из библиотек гарантированно не пересекались, без модификации исходного кода

→

Похожие темы