Реактивный поиск

4

6

Есть данные - миллиард строк в utf-8, для начала. Потенциально - 5-10 миллиардов. Простые строки.
Есть задача - быстро выбирать по этим данным. Желательно с любыми условиями, вплоть до регулярок.

grep/fgrep не подошли из-за скорости.
Начал пробовать elasticsearch, который на лоре как раз используют. Сначала радовал шустростью, но на импорте где-то 150кк записи начал адово тормозить. Но на тех данных, что он смог импортировать - скорость радует.

Может я куда-то не туда копаю и есть более очевидное решение этой задачи?

Вопрос 2 (очень важный): если я в elasticsearch залью все подряд данные с автогенерируемым _id, как я могу потом почистить базу от неуникальных значений?

P.S. Бонус - если рекомендуемое вами решение позволит контролировать уникальность строк (мне это крайне необходимо), то будет вобще супер. Сейчас приходится кормить elasticsearch данные в виде _id = string, видимо поэтому он так сильно тормозит.

Ссылка

←	Django, проблема с пониманием orm.

Flask, настройки

→

← 1 2 →

Тормозит же при добавлении. Разве нельзя зафигачить их в базу, а es понемногу бы их индексировал?

anonymous
(24.07.14 01:08:35 MSK)

Ответ на: комментарий от anonymous 24.07.14 01:08:35 MSK

Разве нельзя зафигачить их в базу, а es понемногу бы их индексировал?

Честно говоря, мне не хочется плодить лишние сущности. Хочется взять свои данные и залить их в эластик, а потом по ним искать. Это сильно неправильно?

~~xtraeft~~ ★★☆☆
(24.07.14 01:12:14 MSK) автор топика

Ответ на: комментарий от xtraeft 24.07.14 01:12:14 MSK

maxcom, может ты что-то сможешь посоветовать?

~~xtraeft~~ ★★☆☆
(24.07.14 01:27:08 MSK) автор топика

Делаешь подсказку для поисковика или что то аналогичное?

umren ★★★★★
(24.07.14 01:44:52 MSK)

Ответ на: комментарий от umren 24.07.14 01:44:52 MSK

Делаешь подсказку для поисковика или что то аналогичное?
подсказку для поисковика

Не понял. Нет, делаю поиск по своим данным для внутренних задач. grep перестал устраивать.

~~xtraeft~~ ★★☆☆
(24.07.14 01:47:02 MSK) автор топика

Ответ на: комментарий от xtraeft 24.07.14 01:47:02 MSK

По такому количеству строк, мало что может нормально работать мне кажется, особенно если часто искать, надо к проблеме с другого угла подходить как минимум разбить все строки на группы/корни/начало строки, это сильно ускорит процесс, как часто данные обновляются?

umren ★★★★★
(24.07.14 01:50:11 MSK)

Ответ на: комментарий от umren 24.07.14 01:50:11 MSK

По такому количеству строк, мало что может нормально работать мне кажется

Спасибо за мнение, к сожалению оно тут мимо абсолютно

~~xtraeft~~ ★★☆☆
(24.07.14 01:51:51 MSK) автор топика

Ответ на: комментарий от xtraeft 24.07.14 01:51:51 MSK

tazhate, наобум тебя призываю, может подскажешь чего?

~~xtraeft~~ ★★☆☆
(24.07.14 02:03:44 MSK) автор топика

Ответ на: комментарий от xtraeft 24.07.14 02:03:44 MSK

кастуй программеров, а не быдлоадминов

anonymous
(24.07.14 02:37:49 MSK)

сколько весит примерно? один файл?

anonymous
(24.07.14 02:45:14 MSK)

Ответ на: комментарий от anonymous 24.07.14 02:45:14 MSK

Какой? 400кк строк - около 25Гб.
В эластик лью по 300к строк - эти чанки весят ну, до 100 мегабайт каждый.

Утром потестил - ура, 300кк чанк льется за 5-10 сек ( _id = string). Обрадовался, воткнул цикл и пошел пить водку. Вернулся - с ~700 куска (может и раньше) оно начало тормозить. Подозреваю, что тормозить оно будет в геометричской прогрессии, или еще того хуже. Есть вариант переделать архитектуру импорта, но вот на какую? И нужен ли тогда тут вобще эластик?

~~xtraeft~~ ★★☆☆
(24.07.14 02:49:47 MSK) автор топика
Последнее исправление: xtraeft 24.07.14 02:53:09 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от anonymous 24.07.14 02:37:49 MSK

кастуй программеров, а не быдлоадминов

Попытка не пытка. Честно говоря, не очень надеюсь получить ответ на лоре (или хотя бы пинок-намек в сторону решения), но опять же - попытка не пытка.

~~xtraeft~~ ★★☆☆
(24.07.14 02:50:55 MSK) автор топика

Ссылка

засунь в хадуп или а спарк, если есть мощностя

anonymous
(24.07.14 02:59:21 MSK)

Ссылка

Может, это тормозит дельта-импорт. Можно попробовать сперва залить данные, а потом построить индекс. Как понимаю, elasticsearch должен это уметь, https://github.com/jprante/elasticsearch-river-jdbc/issues/29 .

Я для (гораздо меньшего) поиска использовал Sphinx Search, он был быстрее, чем Lucene, но это сам поиск, не импорт. Но если данные меняются, то он не подойдет: инкрементально он работать не умеет.

anonymous
(24.07.14 03:21:32 MSK)

Кто-то тут подкинул линк http://habrahabr.ru/post/224877/
Почитаю на днях и поковыряю конфиг. Но тред все равно интересен, может и правда есть что то более подходящее?

~~xtraeft~~ ★★☆☆
(24.07.14 03:39:05 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 24.07.14 03:21:32 MSK

Можно попробовать сперва залить данные, а потом построить индекс

Как тогда быть с импортом неуникальных строк? Их не надо импортировать.

Ну хотя можно их импортировать, а потом каким то костылем искать по всей базе дубли и удалять их, но это помоему очень криво.

~~xtraeft~~ ★★☆☆
(24.07.14 03:40:33 MSK) автор топика
Последнее исправление: xtraeft 24.07.14 03:41:38 MSK (всего исправлений: 1)

Ответ на: комментарий от xtraeft 24.07.14 03:40:33 MSK

Можно данные сперва упорядочить linux-овым sort-ом (который sort -u), он же и большие файлы умеет обрабатывать.

anonymous
(24.07.14 06:23:36 MSK)

Я бы залил в постгрес с unique индексом по строке - так отсечем неуникальные строки. Памяти надо будет дофига и заливаться будет долго.

А для поиска sphinxsearch - по 10 миллиардам строк будет шустро искать. regexpы он не поддерживает, но есть вот что - http://sphinxsearch.com/docs/current.html#extended-syntax возможно покроет многие кейсы. regexpы поддерживает сам постгресс, хотя для таких объемов нужна куча памяти.

pi11 ★★★★★
(24.07.14 06:44:47 MSK)

Ответ на: комментарий от anonymous 24.07.14 03:21:32 MSK

Но если данные меняются, то он не подойдет: инкрементально он работать не умеет.

Если данные добавляются - то можно дельта индексы использовать. Если изменяются, то да - нужно все переиндексировать. Но кстати на переиндексации sphinx быстрее всего, что я пробовал.

pi11 ★★★★★
(24.07.14 06:46:10 MSK)

Ссылка

Разбей на файлы по миллиону строк. Тогда проще гораздо будет.

~~rezedent12~~ ☆☆☆
(24.07.14 08:55:40 MSK)

Почему не уникальные строки тебе мешают?

bj ★
(24.07.14 09:17:08 MSK)

Ответ на: комментарий от rezedent12 24.07.14 08:55:40 MSK

Тогда проще гораздо будет.

С хрена? У него уникальный индекс при вставке.

bj ★
(24.07.14 09:18:05 MSK)

Ответ на: комментарий от bj 24.07.14 09:18:05 MSK

С хрена? У него уникальный индекс при вставке.

Потому что вероятно такие проблемы начинаются из за особенностей работы файловой системы и метода взаимодействия с ней программы.

~~rezedent12~~ ☆☆☆
(24.07.14 09:51:59 MSK)

Ссылка

Ответ на: комментарий от rezedent12 24.07.14 08:55:40 MSK

Смеешься? Я же написал, что импорчу кусками по 300 000 строк.

~~xtraeft~~ ★★☆☆
(24.07.14 12:12:38 MSK) автор топика

Ответ на: комментарий от pi11 24.07.14 06:44:47 MSK

Так эластик и по базе может искать, нафиг тут сфинкс? Но хотелось бы без бд решить задачу, если это возможно.

~~xtraeft~~ ★★☆☆
(24.07.14 12:13:23 MSK) автор топика

Ответ на: комментарий от xtraeft 24.07.14 12:12:38 MSK

Смеешься? Я же написал, что импорчу кусками по 300 000 строк.

В один файл?

~~rezedent12~~ ☆☆☆
(24.07.14 12:13:27 MSK)

Ответ на: комментарий от bj 24.07.14 09:17:08 MSK

Потому что:
1. Незачем их хранить.
2. Лишние проблемы при выборках (придется при каждой выборке чекать результат еще и на неуник).

~~xtraeft~~ ★★☆☆
(24.07.14 12:14:51 MSK) автор топика

Ответ на: комментарий от rezedent12 24.07.14 12:13:27 MSK

Какой файл? Уходи, если нечего сказать по теме.

~~xtraeft~~ ★★☆☆
(24.07.14 12:15:08 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 24.07.14 06:23:36 MSK

Каждый раз перед импортом? И хранить данные от каждого обновления и еще по ним sort делать?

~~xtraeft~~ ★★☆☆
(24.07.14 12:26:17 MSK) автор топика

Ссылка

Ответ на: комментарий от xtraeft 24.07.14 12:13:23 MSK

Так эластик и по базе может искать, нафиг тут сфинкс?

Я тебе просто предлагаю альтернативное решение без эластика (я с ним не работал ни разу). Сфинкс очень быстрый и объемы большие ворочает. При этом к ресурсам не требователен.

Если не хочешь БД, то файлы можно например в xml перегнать и тоже скормить сфинксу. Но тут без решения вопроса об уникальности строк.

pi11 ★★★★★
(24.07.14 12:42:03 MSK)

Ответ на: комментарий от pi11 24.07.14 12:42:03 MSK

Сфинкс очень быстрый и объемы большие ворочает. При этом к ресурсам не требователен.

elasticsearch не менее быстрый, вопрос не стоит в скорости его работы.

Если не хочешь БД, то файлы можно например в xml перегнать и тоже скормить сфинксу. Но тут без решения вопроса об уникальности строк.

Если б не этот вопрос, я бы не создавал тред.

~~xtraeft~~ ★★☆☆
(24.07.14 12:45:05 MSK) автор топика

Ссылка

не велосипедируй - твоя задача решается заливкой данных в нормальную БД, она за тебя проконтролирует и уникальность данных, и быстрый поиск выполнит

правильно настроенный мускул вполне бы справился

EugeneBas ★★
(24.07.14 13:05:21 MSK)

Ответ на: комментарий от EugeneBas 24.07.14 13:05:21 MSK

и быстрый поиск выполнит

ГЫГЫГЫГЫГЫ

~~xtraeft~~ ★★☆☆
(24.07.14 13:18:31 MSK) автор топика

Ответ на: комментарий от xtraeft 24.07.14 13:18:31 MSK

ГЫГЫГЫГЫГЫ

Ты бы попробовал сначала, а потом уже ГЫГЫГЫГЫГЫ.

MySQL уже посоветовали, у PostgreSQL тоже есть full-text search

grep перестал устраивать.

Или купи памяти побольше

anonymous
(24.07.14 14:44:36 MSK)

Ссылка

Ответ на: комментарий от xtraeft 24.07.14 13:18:31 MSK

может тогда лучше ортопедом заделаешься, раз уж так костыли любишь? в матерых СУБД уже все, что можно, оптимизировали до тебя

EugeneBas ★★
(24.07.14 15:34:16 MSK)
Последнее исправление: EugeneBas 24.07.14 15:35:44 MSK (всего исправлений: 1)

Ответ на: комментарий от xtraeft 24.07.14 01:27:08 MSK

refresh_interval попробуй увеличить и с другими настройками поиграться

maxcom ★★★★★
(24.07.14 16:30:44 MSK)

ack, ack-grep. Замечательная грепалка.

Hertz ★★★★★
(24.07.14 16:34:55 MSK)

Ответ на: комментарий от EugeneBas 24.07.14 15:34:16 MSK

Поиск текста везде очень медленный по сравнению с поисковыми движками, такими как сфинкс, лучен и тд. А на таких объемах поиск с помощью средств субд будет тормозить просто адово.

pi11 ★★★★★
(24.07.14 17:06:45 MSK)

Ответ на: комментарий от pi11 24.07.14 17:06:45 MSK

сфинкс интегрируется как в мускул, так и в постгрес (пруф)

В чем проблема?

EugeneBas ★★
(24.07.14 18:55:42 MSK)

Ответ на: комментарий от EugeneBas 24.07.14 18:55:42 MSK

Ты писал, что субд поиск выполнит. А я тебе сказал, что на таких объемах субд будет тормозить. Вот в чем проблема. Про Сфинкс я сам и писал, зачем ты мне этот пруф привел вообще не понятно.

pi11 ★★★★★
(24.07.14 19:06:12 MSK)

Ответ на: комментарий от pi11 24.07.14 19:06:12 MSK

субд выполнит его и не поперхнется, возможно ее скорости не хватит, значит нужно будет прикрутить сфинкс, но это не повод для ТСа хранить данные в текстовом файле\файлах и грепать, в этом суть

EugeneBas ★★
(24.07.14 19:44:22 MSK)

Ответ на: комментарий от EugeneBas 24.07.14 19:44:22 MSK

На миллиарде строк mysql/postgres будет искать в строках минуты. А сфинкс можно и к текстовым файлам прикрутить (надо только в xml конвертнуть их).

возможно ее скорости не хватит

Я тебе точно скажу, что не хватит. СУБД я бы здесь использовал из-за того, что с данными удобнее работать будет.

pi11 ★★★★★
(24.07.14 20:22:00 MSK)
Последнее исправление: pi11 24.07.14 20:28:14 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от xtraeft 24.07.14 12:14:51 MSK

Ты же должен понимать, что с таким индексом дальше будет только хуже.

Если выгрузка одноразовая, то можно и потерпеть. Если каждый день такие объемы, то тут или привинчивать дедупликацию при выборке, или препроцессить на хадуп кластере.

bj ★
(24.07.14 21:52:19 MSK)

Ответ на: комментарий от EugeneBas 24.07.14 19:44:22 MSK

Давай, загони 15 млрд. записей в свой ненаглядный мускуль и проверь. Он даже в процессе записи раком встанет.

bj ★
(24.07.14 21:54:05 MSK)

Ответ на: комментарий от bj 24.07.14 21:54:05 MSK

не встанет, да и на сколько я понял задачу, ТСу нужно один раз залить и часто искать, поэтому не особо важно сколько будет идти наливка данных

EugeneBas ★★
(25.07.14 11:14:30 MSK)

Ответ на: комментарий от EugeneBas 25.07.14 11:14:30 MSK

Ты задачу тс не понял.

bj ★
(25.07.14 11:17:51 MSK)

Ответ на: комментарий от bj 24.07.14 21:54:05 MSK

Он даже в процессе записи раком встанет.

Да ладно.

Я вот не поленился и загнал в PostgreSQL миллиард записей с id и текстом. В партиционированную таблицу (1000 подтаблиц по 10**6 записей), без индексов

 bigt_fill 
-----------
 
(1 запись)

Время: 2239313,792 мс

Меньше 40 минут. Заполнение выглядит вполне линейно, я на глаз разницу во времени между заполнением первых таблиц и последних не заметил. Да, конфиг PostgreSQL не трогал

Не думаю что MySQL будет сильно отличаться

То есть как это будет обрабатывать модуль полнотекстового поиска конечно непонятно, но хотя бы попробовать можно

Deleted
(25.07.14 11:20:46 MSK)

Ответ на: комментарий от bj 25.07.14 11:17:51 MSK

Ты задачу тс не понял.

ну тогда разъясни, может я действительно не от тех условий отталкиваюсь? а еще лучше будет, если автор ~~xtraeft~~ сам разъяснит этот вопрос

EugeneBas ★★
(25.07.14 11:49:48 MSK)

Ответ на: комментарий от EugeneBas 24.07.14 19:44:22 MSK

но это не повод для ТСа хранить данные в текстовом файле\файлах и грепать, в этом суть

Никто их и не грепает, иди почитай как поисковые движки типа эластика или сфинкса работают.

в матерых СУБД уже все, что можно, оптимизировали до тебя

Поиск средствами бд проигрывает в разы-порядки поиску сфинксом/эластиком и подобными.

~~xtraeft~~ ★★☆☆
(25.07.14 13:55:53 MSK) автор топика

Ссылка

Ответ на: комментарий от EugeneBas 25.07.14 11:49:48 MSK

а еще лучше будет, если автор xtraeft сам разъяснит этот вопрос

Тут нечего разъяснять, те кто знает, все поняли сразу.

~~xtraeft~~ ★★☆☆
(25.07.14 13:58:04 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

←	Django, проблема с пониманием orm.

Web-development

Flask, настройки

→

Похожие темы