История изменений
Исправление sunjob, (текущая версия) :
проявилась новая проблема, из-за оставшихся хвостов с кодировкой просматривается кракозяброй
<meta
http-equiv="Content-Type"
content="text/html; charset=koi8-r">
<meta
для исправления нужно
charset=<любое значение>
заменять
charset=utf-8
итого вопрос: как это сделать простыми средствами баша... ну или то, что нормально впишется в баш?
т.е. на данный этап решено
charset=koi8-r
менять
charset=utf-8
тестовый скрипт
#!/bin/sh
set -e; clear
HTM=test.htm
CHARSET_DISPLAY=UTF8
CHARSET_ASSUME=utf-8
#
# ищем charset=koi8-r">
#
enconv -L ru_RU.UTF-8 < $HTM | \
sed -e "s%charset=koi8-r%charset=$CHARSET_ASSUME%" | \
lynx -dump -force_html -stdin -display_charset=UTF8 -assume_charset=utf-8
минусы такого простого решения в том, что если в тексте встретиться «это», то тоже будет заменено на «тото» :о)
Исходная версия sunjob, :
проявилась новая проблема, из-за оставшихся хвостов с кодировкой просматривается кракозяброй
charset=<...>
для исправления нужно
charset=<любое значение>
заменять
charset=utf-8
итого вопрос: как это сделать простыми средствами баша... ну или то, что нормально впишется в баш?
т.е. на данный этап решено
charset=koi8-r
менять
charset=utf-8
тестовый скрипт
#!/bin/sh
set -e; clear
HTM=test.htm
CHARSET_DISPLAY=UTF8
CHARSET_ASSUME=utf-8
#
# ищем charset=koi8-r">
#
enconv -L ru_RU.UTF-8 < $HTM | \
sed -e "s%charset=koi8-r%charset=$CHARSET_ASSUME%" | \
lynx -dump -force_html -stdin -display_charset=UTF8 -assume_charset=utf-8
минусы такого простого решения в том, что если в тексте встретиться «это», то тоже будет заменено на «тото» :о)