Имеется файл HTML, где все не-ASCII символы заменены на последовательности вида "&#nnnnn;"
, например "て"
. (Для определённости — японский язык в UTF-8.) Существует ли быстрый способ заменить эти последовательности на соответствующие символы? Написать пару тысяч регулярных выражений для замены можно, но долго и громоздко. Открыть в браузере и скопировать в редактор можно, но неинтересно. Как ещё можно это сделать?
Заранее спасибо.
Ответ: recode умеет конвертировать такие последовательности в символы. В моём случае отсутствовали символы вроде &
или <
, поэтому оказалось достаточно команды:
cat Gackt-Redemption.html | recode html..utf-8