История изменений
Исправление anonymous_incognito, (текущая версия) :
Некоторые простые вещи настолько просты, что иногда не сразу до них додумываешься. Но когда я замерил поток на запись, стало понятно, что recoll (или xapian скорее) похоже непрерывно перезаписывает индексы. И по мере роста количества проиндексированных файлов растёт и объём перезаписи индексов.
Возможно сортируя их каждый раз, но это уже догадка.
И вот это трудно назвать правильной архитектурой и именно на это уходит всё время работы. Причём пока размер исходного файла для индексации не превысил примерно 30Гб и 15 000 файлов оно как бы и всё нормально по большому счёту. Но вот более - ты говоришь две недели индексировал (интересно на ssd или нет?)
Это совсем не то, что можно использовать для больших массивов данных и тут никакой оптан не поможет, даже если под индексы вообще RAM-диск использовать, на каком-то объёме и он затыкаться будет.
Обидно ещё, что в принципе по своему интерфейсу, «всеядности» к файловым формату recoll неплохая вещь.
Исправление anonymous_incognito, :
Некоторые простые вещи настолько просты, что иногда не сразу до них додумываешься. Но когда я замерил поток на запись, стало понятно, что recoll (или xapian скорее) похоже непрерывно перезаписывает индексы.
Возможно сортируя их каждый раз, но это уже догадка.
И вот это трудно назвать правильной архитектурой и именно на это уходит всё время работы. Причём пока размер исходного файла для индексации не превысил примерно 30Гб и 15 000 файлов оно как бы и всё нормально по большому счёту. Но вот более - ты говоришь две недели индексировал (интересно на ssd или нет?)
Это совсем не то, что можно использовать для больших массивов данных и тут никакой оптан не поможет, даже если под индексы вообще RAM-диск использовать, на каком-то объёме и он затыкаться будет.
Обидно ещё, что в принципе по своему интерфейсу, «всеядности» к файловым формату recoll неплохая вещь.
Исходная версия anonymous_incognito, :
Некоторые простые вещи настолько просты, что иногда не сразу до них додумываешься. Но когда я замерил поток на запись, стало понятно, что recoll (или xapian скорее) похоже непрерывно перезаписывает индексы.
Возможно сортируя их каждый раз, но это уже догадка.
И вот это трудно назвать правильной архитектурой и именно на это уходит всё время работы. Причём пока размер исходного файла для индексации не превысил примерно 30Гб и 15 000 файлов оно как бы и всё нормально по большому счёту.
Это совсем не то, что можно использовать для больших массивов данных и тут никакой оптан не поможет, даже если под индексы вообще RAM-диск использовать, на каком-то объёме и он затыкаться будет.