LINUX.ORG.RU

История изменений

Исправление torvn77, (текущая версия) :

В некой струтуре данных (hashtable, b+-tree и т.п.) лежит и занимает место много ключеый [«баран»,«баранов»,«баранам»,

Имхо с самого начала неправильно.
Слышал такое слово как индексация?

Так вот, первым делом индексируемые тексты сводятся с помощью нехитрого алгоритма к корням и атрибутам корней(падёж, склонение, род и пр.).

Далее для каждого текста делается словарь получаемый сортировкой этих корней с подсчётом количества дубликатов с их последующим удалением.

И вот уже по этим словарям делается индекс, то есть общий словарь корней в котором для каждого корня указывается список текствов в которых он употреблён.

В принципе такой индекс можно попробовать на bash состряпать.

Исходная версия torvn77, :

В некой струтуре данных (hashtable, b+-tree и т.п.) лежит и занимает место много ключеый [«баран»,«баранов»,«баранам»,

Имхо с самого начала неправильно.
Слышал такое слово как индексация?

Так вот, первым делом индексируемые тексты сводятся с помощью нехитрого алгоритма к корням и атрибутам корней(падёж, склонение, род и пр.).

Далее для каждого текста делается словарь получаемый сортировкой этих корней с подсчётом количества дубликатов с их последующим удалением.

И вот уже по этим словарям делается индекс, то есть общий словарь корней в котором для каждого корня указывается список текствов в которых он употреблён.