LINUX.ORG.RU

История изменений

Исправление shahid, (текущая версия) :

Ещё касательно оптимизации: есть проблемы long-tail'а в инвертированных индексах. Это когда очень редкие термы, по которым скорее всего НЕ будут искать никогда, заметно удлиняют количество ключей в индексе, что, в свою очередь, пропорционально сказывается на оперативке.

Содержимое long-tail'а — например какие-нить слова с опечатками, числа, абракадабры, примеры стойких паролей с проиндексированных форумов и их md5/sha512-хешей, технические маркировки моделей продуктов (в случае индексирования интернет-магазинов). Подобный набег на RAM очень существенен при росте разнородности данных, а это очень больно ударяет по кошельку. Такие термы выявляются (по частотам встречаемости в корпусе и регэкспом /слова с цифрами/), а затем или срезаются (путём сильного расширения списков стоп-слов), или токинизируются на куски, или как-то ещё нормализуются/трансформируются в более простые и частые термы.

Исправление shahid, :

Ещё касательно оптимизации: есть проблемы long-tail'а в инвертированных индексах. Это когда очень редкие термы, по которым скорее всего НЕ будут искать никогда, заметно удлиняют количество ключей в индексе, что, в свою очередь, пропорционально сказывается на оперативке.

Содержимое long-tail'а — например какие-нить слова с опечатками, числа, абракадабры, примеры стойких паролей с проиндексированных форумов и их md5/sha512-хешей, технические маркировки моделей продуктов (в случае индексирования интернет-магазинов). Подобный набег на RAM очень существенен при росте разнородности данных, а это очень больно ударяет по кошельку. Такие термы выявляются (по частотам встречаемости в корпусе и регэкспом /слова с цифрами/), а затем или срезаются (путём сильного расширения списков стоп-слов), или как-то грубо нормализуются/трансформируются в более простые термы.

Исходная версия shahid, :

Ещё касательно оптимизации: есть проблемы long-tail'а в инвертированных индексах. Это когда очень редкие термы, по которым скорее всего НЕ будут искать никогда, заметно удлиняют количество ключей в индексе, что, в свою очередь, пропорционально сказывается на оперативке.

Содержимое long-tail'а — например какие-нить слова с опечатками, числа, абракадабры, примеры стойких паролей с проиндексированных форумов, технические маркировки моделей продуктов (в случае индексирования интернет-магазинов). Подобный набег на RAM очень существенен при росте разнородности данных, а это сильно ударяет по кошельку. Такие термы выявляются (по частотам встречаемости в корпусе), а затем или срезаются (путём сильного расширения списков стоп-слов), или как-то грубо нормализуются/трансформируются в более простые термы.