LINUX.ORG.RU

libhunspell: разбить текст на слова

 


0

1

spell() понимает слово «word», а «word,» (с запятой в конце) уже нет. Как разбить текст (английский) на слова? В hunspell/hunspell.h что-то не вижу такой функции. Стемминг есть, варианты написания есть, но где, блин, парсинг и токенизация?

где, блин, парсинг и токенизация?

В библиотеке парсинга и токенизации. Hunspell — это спеллчекинг.

Deleted
()
Ответ на: комментарий от anonymous

sed «s/\W/\n/g» | sed «/^$/d»

awk -v OFS='\n' '$1=$1'

anonymous
()
Ответ на: комментарий от meskalin

Она не спотыкается на точках, запятых и прочем.

meskalin
() автор топика
Ответ на: комментарий от Deleted

hunspell. Она умеет. Почему этого нет в библиотеке?

meskalin
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.