История изменений

Некоторые простые вещи настолько просты, что иногда не сразу до них додумываешься. Но когда я замерил поток на запись, стало понятно, что recoll (или xapian скорее) похоже непрерывно перезаписывает индексы. И по мере роста количества проиндексированных файлов растёт и объём перезаписи индексов.

Возможно сортируя их каждый раз, но это уже догадка.

И вот это трудно назвать правильной архитектурой и именно на это уходит всё время работы. Причём пока размер исходного файла для индексации не превысил примерно 30Гб и 15 000 файлов оно как бы и всё нормально по большому счёту. Но вот более - ты говоришь две недели индексировал (интересно на ssd или нет?)

Это совсем не то, что можно использовать для больших массивов данных и тут никакой оптан не поможет, даже если под индексы вообще RAM-диск использовать, на каком-то объёме и он затыкаться будет.

Обидно ещё, что в принципе по своему интерфейсу, «всеядности» к файловым формату recoll неплохая вещь.

Некоторые простые вещи настолько просты, что иногда не сразу до них додумываешься. Но когда я замерил поток на запись, стало понятно, что recoll (или xapian скорее) похоже непрерывно перезаписывает индексы.

Возможно сортируя их каждый раз, но это уже догадка.

И вот это трудно назвать правильной архитектурой и именно на это уходит всё время работы. Причём пока размер исходного файла для индексации не превысил примерно 30Гб и 15 000 файлов оно как бы и всё нормально по большому счёту. Но вот более - ты говоришь две недели индексировал (интересно на ssd или нет?)

Это совсем не то, что можно использовать для больших массивов данных и тут никакой оптан не поможет, даже если под индексы вообще RAM-диск использовать, на каком-то объёме и он затыкаться будет.

Обидно ещё, что в принципе по своему интерфейсу, «всеядности» к файловым формату recoll неплохая вещь.

Некоторые простые вещи настолько просты, что иногда не сразу до них додумываешься. Но когда я замерил поток на запись, стало понятно, что recoll (или xapian скорее) похоже непрерывно перезаписывает индексы.

Возможно сортируя их каждый раз, но это уже догадка.

И вот это трудно назвать правильной архитектурой и именно на это уходит всё время работы. Причём пока размер исходного файла для индексации не превысил примерно 30Гб и 15 000 файлов оно как бы и всё нормально по большому счёту.

Это совсем не то, что можно использовать для больших массивов данных и тут никакой оптан не поможет, даже если под индексы вообще RAM-диск использовать, на каком-то объёме и он затыкаться будет.