Пытаюсь в большом текстовом фаиле оставить только русские слова с пробелами, чтобы потом с помощью sort -u получить только уникальные слова. Но почему то остается куча мусора.
пробовал вот так
sed -i -e 's/[^а-яА-ЯёЁ\ ]\+//g;s/\ \{2,\}/\ /g' file.txt
В выхлопе остаются русские слова и мусор наподобие:
«»…—”•
С седом никогда не имел дело, поэтому сначала все удалял по 1 символу, затем уже понял что можно удалить [:punct:] и т.д. а потом подсказали решение сверху, но почему то все равно не все удаляет
Подскажите пожалуйста - как можно побороть?
p.s. выхлоп после приведенной команды + в нем прошелся:
nice -10 sed -i 's/^ *//g' 123.txt пробел в начале строки
nice -10 sed -i '/./!d' 123.txt Удаляет все пустые строки из файла