LINUX.ORG.RU

Подскажите language text identification...


0

1

Нужна программа для определения языка текста с консольным интерфейсом для использования в bash скриптах под Ubuntu 10 может кто встречал?

В гугле в принципе много нашел, но как только присмотрюсь оказываеться то для Windows, то online то нельзя скачать(((


могу порекомендовать Apache Tika, но она для использования в скриптах наверное тяжеловата

maxcom ★★★★★
()
Ответ на: спасибо! от ganzzz

Нда... встроить то подходит, но как оказалось плохо определяет html-ки... определяет он по наборам символов следовательно после конвертера html2text исходная кодировка теряеться html без конвертера в текст тоже не определяет. Соответственно нужено анализировать не по кодировке, а по слогам и словам...

ganzzz
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.