Приключения с полнотекстовым поиском recoll. Или SSD и всё, всё, всё

0

2

Я уже пару раз создавал темы на LOR:

(ещё в 2015) Фризы системы, iotop 99.99% но W/R = 0

(и 5 дней назад) Во что упирается индексатор recall/xapian

В 2015-м году я так и не разобрался, забросил. Сейчас кажется до истины дошёл. Просто история успеха или неуспеха, как считать.

Индексируется для локального поиска порядка 500 тысяч разных документов, общим объёмом где-то более 600Гб в пожатом виде. Хранятся внутри .zip, zip в свою очередь в более крупных.

Ещё в 2015 году столкнулся с большими и нарастающими тормозами из-за чего процесс стал занимать недели и я даже не дождался после примерно как раз недели общего времени. За которое было проиндексировано менее половины.

Сейчас с новыми версиями на новых дисках примерно тоже самое. Какие были советы можно почитать в вышеприведенных темах.

В общем, я наконец-то прикупил SSD - Samsung EVO 860 на 500 Гб., отформатировал в XFS и поместил туда индексы. «Процесс пошёл» куда резвее и уже за 15 минут было проиндексировано 14 тысяч документов.

Однако, замедление стало и тут заметно! Не так явно как на HDD, но тоже. Даже составил таблицу:

Обработано док-в	Время, мин.	Файлов/сек
14000	15	15.5
20000	30	11.1
30000	57	5.8
34000	67	8.4
40000	88	7.5
50000	121	6.9
55000	139	6.6
56551	145	6.5

Как можно видеть скорость падает, не считая не совсем понятной аномалии в районе 30 тысяч.

Что интереснее, по мере падения скорости, растёт объем записываемых данных на SSD. При примерно равном общем занятом объёме. Общее количество записанных гигабайт берётся из SMART для SSD (поле 241 Total_LBAs_Written) затем * 512/1024/1024/1024) = Gb

Обработано док-в	Записано на SSD, Гб	du -sh в Гб
26500	224	23
28060	248	23
30000	279	23
32000	309	24
34000	339	23
38000	412	24
40000	445	24
50000	623	28
55000	718	33
56551	751	30

Итак за 2 часа 25 минут на SSD было записано уже 751 Гб.
Что это не случайно показывает команда iotop -obPat в которой можно посмотреть, что процесс recollindex записал уже 261 Гб за 39 минут после возобновления индексации. (прочитал 25 Гб за это же время)

Причём из таблицы следует, что объём перезаписываемых данных всё время растёт. В районе 14 тысяч файлов 1Гб набирался на 118 обработанных файлов. К 56 тысячам уже 1 Гб перезаписи генерируют 75 файлов.

Оставлю-ка я до утра.

Мораль сей басни или какие предсказания:

Справится ли SSD или тоже упрётся в потолок производительности, как и HDD?
Насколько мне хватит SSD? вот так вот одна единственная программка и хренак ресурса нет ;-)) Чую полная обработка будет стоить как бы не менее 10% от гарантийных 300 TBW
Как-то я недооценивал важность SSD
Можно ли сказать, что архитектура recoll/xapian кривая, косая?
Смех, смехом, но как бы не тот случай, когда Optane 900p имеет преимущество. Или во всяком случае что-то серверное с большим количеством циклов перезаписи. Обычных SSD с их ресурсом мало для разных там recoll’ов.

Ссылка

←	OpenBSD не смогли в Rust

Экранов много не бывает?

→

← 1 2 →

Ответ на: комментарий от anonymous_incognito 16.01.20 02:05:50 MSK

На флибусту похоже)

pekmop1024 ★★★★★
(16.01.20 02:07:44 MSK)

Ответ на: комментарий от crypt 15.01.20 19:59:48 MSK

Ну как ты будешь распространять эту свою ФС со сжатием? Этот архив, если что просто скаченное в интернете, а не какая-нибудь энтерпрайзная система.

anonymous_incognito ★★★★★
(16.01.20 02:09:34 MSK) автор топика

Ответ на: комментарий от anonymous_incognito 16.01.20 02:09:34 MSK

тем более бред какой-то. распространять один архив в 600Гб? что за дибилизм? если ты его индексируешь, то чтобы люди в нем находили что-то нужное. если находить что-то нужное, то и скачивать нужно давать кусками.

~~crypt~~ ★★★★★
(16.01.20 13:33:41 MSK)
Последнее исправление: crypt 16.01.20 13:34:03 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от pekmop1024 16.01.20 02:07:44 MSK

на флибусту похоже)

может, он просто стихи любит писать:)

~~crypt~~ ★★★★★
(16.01.20 13:35:10 MSK)

Ссылка

Ответ на: комментарий от anonymous_incognito 16.01.20 02:09:34 MSK

Этот архив, если что просто скаченное в интернете, а не какая-нибудь энтерпрайзная система.

так вот не нужно этот архив хранить одним большим куском того, чем его когда-то давно мамонт произвел. надо преобразовать под нужды хранения и отдачи.

~~crypt~~ ★★★★★
(16.01.20 13:39:57 MSK)

Ссылка

Ответ на: комментарий от anonymous_incognito 16.01.20 02:09:34 MSK

как ты будешь распространять эту свою ФС со сжатием

да тот же nginx может отдавать в сеть пожатые файлы. зачем этот бред с зипами в 2020 году.

~~crypt~~ ★★★★★
(16.01.20 13:45:30 MSK)

да причём здесь recoll.
ФС какая? падика бтрфс? и планировщик io и приоритетов в современном ядре сломан нахер.

~~darkenshvein~~ ★★★★★
(16.01.20 13:47:27 MSK)

Ответ на: комментарий от darkenshvein 16.01.20 13:47:27 MSK

до XFS

~~darkenshvein~~ ★★★★★
(16.01.20 13:48:17 MSK)

Ссылка

Ради смеха, попробуй на ядре 3.16, например

~~darkenshvein~~ ★★★★★
(16.01.20 13:51:47 MSK)

Ответ на: комментарий от darkenshvein 16.01.20 13:51:47 MSK

смех начнется, когда он объяснит, почему ему вообще повторная индексация всего этого объема нужна. правда это будет смех сквозь слезы.

~~crypt~~ ★★★★★
(16.01.20 14:01:27 MSK)

Ответ на: комментарий от crypt 16.01.20 14:01:27 MSK

да немного на самом деле. я реколлом индексировал пару сетевых библиотек, типа либруска, и ещё какие доки в пдф и журналы. суммарно с прочей нетекстовой мелочью 6 тб на трёх дисках.
индексатор где то недели две возился, вместе с рар/зип арзхивами пыхтел.

~~darkenshvein~~ ★★★★★
(16.01.20 14:21:55 MSK)

Ответ на: комментарий от darkenshvein 16.01.20 14:21:55 MSK

я не знаю, что за рекол, но ты с ТС явно любишь один вид порно. можете вечерком с пивком собираться...

~~crypt~~ ★★★★★
(16.01.20 14:23:33 MSK)

Ответ на: комментарий от crypt 16.01.20 13:45:30 MSK

да тот же nginx может отдавать в сеть пожатые файлы. зачем этот бред с зипами в 2020 году.

Ты вообще не представляешь о чём речь. Такие вещи в таком объёме отдаются не nginx’ом, а торрентами. Ибо трафик.

anonymous_incognito ★★★★★
(17.01.20 15:36:33 MSK) автор топика

Ответ на: комментарий от crypt 16.01.20 14:23:33 MSK

Ты выносишь очень ценное мнение, не зная подробностей. Человек тебе сказал, что индексировал пару сетевых библиотек.

Теперь слушаю как он их должен был получить nginx’ом и в какую БД и каким софтом запихать.

anonymous_incognito ★★★★★
(17.01.20 15:37:39 MSK) автор топика
Последнее исправление: anonymous_incognito 17.01.20 15:39:25 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от darkenshvein 16.01.20 14:21:55 MSK

индексатор где то недели две возился, вместе с рар/зип арзхивами пыхтел.

Ну вот это и не правильно на мой вкус. Хорошая система индексации должна по моим представлениям потратить не более, чем ну суток на Тб максимум.

anonymous_incognito ★★★★★
(17.01.20 15:40:48 MSK) автор топика

Ссылка

Ответ на: комментарий от darkenshvein 16.01.20 13:51:47 MSK

Прошлый раз как бы не 3.16 и было. В любом случае, как бы не был сломан планировщик, но размер дискового трафика на запись какой-то невменяемый на мой взгляд.

anonymous_incognito ★★★★★
(17.01.20 15:41:30 MSK) автор топика
Последнее исправление: anonymous_incognito 17.01.20 15:42:13 MSK (всего исправлений: 1)

Ответ на: комментарий от anonymous_incognito 17.01.20 15:36:33 MSK

Ты вообще не представляешь о чём речь.

вот с этим замечанием я кстати согласен. мое мнение, что тебе вместо твоих изысканий (три топика) стоит создать новый, где подробно описать задачу и вместе с лоровцами обсудить ее решение с чистого листа.

~~crypt~~ ★★★★★
(17.01.20 19:59:49 MSK)

Ответ на: комментарий от anonymous_incognito 17.01.20 15:41:30 MSK

Ещё в 2015 году столкнулся с большими и нарастающими тормозами

дак я не понял тогда, на что ты грешишь, что движок реколла после пачки апдейтов стал кривее, или что дисковый планировщик(ну и процессов до кучи) стал кривее?

~~darkenshvein~~ ★★★★★
(17.01.20 21:19:58 MSK)
Последнее исправление: darkenshvein 17.01.20 21:20:13 MSK (всего исправлений: 1)

Ответ на: комментарий от darkenshvein 17.01.20 21:19:58 MSK

Некоторые простые вещи настолько просты, что иногда не сразу до них додумываешься. Но когда я замерил поток на запись, стало понятно, что recoll (или xapian скорее) похоже непрерывно перезаписывает индексы. И по мере роста количества проиндексированных файлов растёт и объём перезаписи индексов.

Возможно сортируя их каждый раз, но это уже догадка.

И вот это трудно назвать правильной архитектурой и именно на это уходит всё время работы. Причём пока размер исходного файла для индексации не превысил примерно 30Гб и 15 000 файлов оно как бы и всё нормально по большому счёту. Но вот более - ты говоришь две недели индексировал (интересно на ssd или нет?)

Это совсем не то, что можно использовать для больших массивов данных и тут никакой оптан не поможет, даже если под индексы вообще RAM-диск использовать, на каком-то объёме и он затыкаться будет.

Обидно ещё, что в принципе по своему интерфейсу, «всеядности» к файловым формату recoll неплохая вещь.

anonymous_incognito ★★★★★
(17.01.20 22:36:09 MSK) автор топика
Последнее исправление: anonymous_incognito 17.01.20 22:38:50 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от crypt 17.01.20 19:59:49 MSK

Ну я же описал вначале объект который индексируется. Объект не я создаю.

Задача легко и быстро его проиндексировать для полнотекстового поиска. recoll хорош тем, что готовый.

Как бы аналог таких программ как Google Desktop Search и т.п.

Например, для lucene почему-то не нашёл устраивающего готового варианта.

anonymous_incognito ★★★★★
(17.01.20 22:41:45 MSK) автор топика

Ответ на: комментарий от anonymous_incognito 17.01.20 22:41:45 MSK

Объект не я создаю

т.е.? что происходит вообще?

~~crypt~~ ★★★★★
(17.01.20 22:53:10 MSK)

Ответ на: комментарий от crypt 17.01.20 22:53:10 MSK

Ну представь себе, что ты скачиваешь, как сказал darkenshvein, электронную библиотеку и хочешь локально в ней искать что-то полнотекстово.

anonymous_incognito ★★★★★
(17.01.20 23:21:53 MSK) автор топика

Ответ на: комментарий от anonymous_incognito 17.01.20 23:21:53 MSK

т.е. ты регулярно с торрентов скачиваешь 600 гигов и хочешь там что-то искать???

~~crypt~~ ★★★★★
(17.01.20 23:23:39 MSK)

Ответ на: комментарий от crypt 17.01.20 23:23:39 MSK

Ну почему регулярно? Хотя тоже интересный юзкейс.

Для этих целей давно были придуманы системы полнотекстового поиска среди файлов. Некоторые ещё с 1991-го года развиваются, например, http://www.dtsearch.com/index.html

Где-то в начале 2000-х вообще был зоопарк из них.

anonymous_incognito ★★★★★
(17.01.20 23:26:49 MSK) автор топика
Последнее исправление: anonymous_incognito 17.01.20 23:27:46 MSK (всего исправлений: 1)

Ответ на: комментарий от anonymous_incognito 17.01.20 23:26:49 MSK

ну добро бы ты скачал один раз, проиндексировал и успокоился, но ты же сам пишешь, что задачу по индексации запускаешь с 2015 года. стало быть скорее регулярно, чем однократно.

ок, то есть ты свою библиотеку скачал, а конвертировать из зипов в какую-нибудь систему не хочешь, потому что продолжаешь ее раздавать торрентами?

~~crypt~~ ★★★★★
(18.01.20 18:53:46 MSK)

Ответ на: комментарий от crypt 18.01.20 18:53:46 MSK

Я не скачивал библиотеку и тем более не раздаю её, а задачу индексирования я просто с 2015 года так и не сделал даже один раз. Понимаю, кажется странным, но почему бы нет? Особо не нужно, скорее любопытство. Тогда были и другие дела, сейчас решил в конце-концов разобраться.

Но такое ощущение, что хоть свою программу для индексации пиши.

anonymous_incognito ★★★★★
(18.01.20 22:45:38 MSK) автор топика

Ответ на: комментарий от anonymous_incognito 18.01.20 22:45:38 MSK

Ну представь себе, что ты скачиваешь, как сказал darkenshvein, электронную библиотеку

Я не скачивал библиотеку

мда. ты уж определись, хочешь ты поделиться, что там у тебя или хочешь оставить в секрете.

~~crypt~~ ★★★★★
(18.01.20 23:01:12 MSK)

Ответ на: комментарий от crypt 18.01.20 23:01:12 MSK

О господи, да просто сборная солянка всякого разного, в том числе и какие-то файлы от электронных библиотек вроде Колхоза. По структуре и в самом деле похоже на электронную библиотеку.

anonymous_incognito ★★★★★
(19.01.20 01:02:43 MSK) автор топика