Я уже пару раз создавал темы на LOR:
(ещё в 2015) Фризы системы, iotop 99.99% но W/R = 0
(и 5 дней назад) Во что упирается индексатор recall/xapian
В 2015-м году я так и не разобрался, забросил. Сейчас кажется до истины дошёл. Просто история успеха или неуспеха, как считать.
Индексируется для локального поиска порядка 500 тысяч разных документов, общим объёмом где-то более 600Гб в пожатом виде. Хранятся внутри .zip, zip в свою очередь в более крупных.
Ещё в 2015 году столкнулся с большими и нарастающими тормозами из-за чего процесс стал занимать недели и я даже не дождался после примерно как раз недели общего времени. За которое было проиндексировано менее половины.
Сейчас с новыми версиями на новых дисках примерно тоже самое. Какие были советы можно почитать в вышеприведенных темах.
В общем, я наконец-то прикупил SSD - Samsung EVO 860 на 500 Гб., отформатировал в XFS и поместил туда индексы. «Процесс пошёл» куда резвее и уже за 15 минут было проиндексировано 14 тысяч документов.
Однако, замедление стало и тут заметно! Не так явно как на HDD, но тоже. Даже составил таблицу:
Обработано док-в | Время, мин. | Файлов/сек |
---|---|---|
14000 | 15 | 15.5 |
20000 | 30 | 11.1 |
30000 | 57 | 5.8 |
34000 | 67 | 8.4 |
40000 | 88 | 7.5 |
50000 | 121 | 6.9 |
55000 | 139 | 6.6 |
56551 | 145 | 6.5 |
Как можно видеть скорость падает, не считая не совсем понятной аномалии в районе 30 тысяч.
Что интереснее, по мере падения скорости, растёт объем записываемых данных на SSD. При примерно равном общем занятом объёме. Общее количество записанных гигабайт берётся из SMART для SSD (поле 241 Total_LBAs_Written) затем * 512/1024/1024/1024) = Gb
Обработано док-в | Записано на SSD, Гб | du -sh в Гб |
---|---|---|
26500 | 224 | 23 |
28060 | 248 | 23 |
30000 | 279 | 23 |
32000 | 309 | 24 |
34000 | 339 | 23 |
38000 | 412 | 24 |
40000 | 445 | 24 |
50000 | 623 | 28 |
55000 | 718 | 33 |
56551 | 751 | 30 |
Итак за 2 часа 25 минут на SSD было записано уже 751 Гб.
Что это не случайно показывает команда iotop -obPat в которой можно посмотреть, что процесс recollindex записал уже 261 Гб за 39 минут после возобновления индексации. (прочитал 25 Гб за это же время)
Причём из таблицы следует, что объём перезаписываемых данных всё время растёт. В районе 14 тысяч файлов 1Гб набирался на 118 обработанных файлов. К 56 тысячам уже 1 Гб перезаписи генерируют 75 файлов.
Оставлю-ка я до утра.
Мораль сей басни или какие предсказания:
-
Справится ли SSD или тоже упрётся в потолок производительности, как и HDD?
-
Насколько мне хватит SSD? вот так вот одна единственная программка и хренак ресурса нет ;-)) Чую полная обработка будет стоить как бы не менее 10% от гарантийных 300 TBW
-
Как-то я недооценивал важность SSD
-
Можно ли сказать, что архитектура recoll/xapian кривая, косая?
-
Смех, смехом, но как бы не тот случай, когда Optane 900p имеет преимущество. Или во всяком случае что-то серверное с большим количеством циклов перезаписи. Обычных SSD с их ресурсом мало для разных там recoll’ов.