История изменений
Исправление torvn77, (текущая версия) :
В некой струтуре данных (hashtable, b+-tree и т.п.) лежит и занимает место много ключеый [«баран»,«баранов»,«баранам»,
Имхо с самого начала неправильно.
Слышал такое слово как индексация?
Так вот, первым делом индексируемые тексты сводятся с помощью нехитрого алгоритма к корням и атрибутам корней(падёж, склонение, род и пр.).
Далее для каждого текста делается словарь получаемый сортировкой этих корней с подсчётом количества дубликатов с их последующим удалением.
И вот уже по этим словарям делается индекс, то есть общий словарь корней в котором для каждого корня указывается список текствов в которых он употреблён.
В принципе такой индекс можно попробовать на bash состряпать.
Исходная версия torvn77, :
В некой струтуре данных (hashtable, b+-tree и т.п.) лежит и занимает место много ключеый [«баран»,«баранов»,«баранам»,
Имхо с самого начала неправильно.
Слышал такое слово как индексация?
Так вот, первым делом индексируемые тексты сводятся с помощью нехитрого алгоритма к корням и атрибутам корней(падёж, склонение, род и пр.).
Далее для каждого текста делается словарь получаемый сортировкой этих корней с подсчётом количества дубликатов с их последующим удалением.
И вот уже по этим словарям делается индекс, то есть общий словарь корней в котором для каждого корня указывается список текствов в которых он употреблён.