Допустим есть некий полностью абстрактный текст - просто набор байт. Но это для прораммы он является набором байт, для человека это может быть осмысленным текстом. Нужно как-то выделить из этого текста отдельные слова. Т.е. нужно искать повторяющиеся последовательности байтов. Причём надо с одной стороны искать и не маленькие последовательности (буквы, слоги), но и не сильно длинные (повторяющиеся словосочетания, предложения). Возможно ли это? И может есть какие-нибудь алгоритмы? Что-то вечером в голову ничего путного не приходит...
Похожие темы
- Форум Шифрование файлов без закладок для спецслужб. (2016)
- Форум Стеганография и шизофазия (2009)
- Форум софт для распознавания текста (2007)
- Форум Нужен алгоритм гарантированного создания названий файлов (2022)
- Форум Алгоритмы распознавания нечеткого ввода текста? (2012)
- Форум алгоритм из речи в текст (2013)
- Форум Sed? Замена слова в тексте. (2010)
- Форум libhunspell: разбить текст на слова (2016)
- Форум Анализ текста: поиск пар слов (2015)
- Форум Подсчёт повторений слов в тексте (2015)