LINUX.ORG.RU

История изменений

Исправление sunjob, (текущая версия) :

проявилась новая проблема, из-за оставшихся хвостов с кодировкой просматривается кракозяброй

    <meta
     http-equiv="Content-Type"
     content="text/html; charset=koi8-r">
    <meta

для исправления нужно

charset=<любое значение>
заменять
charset=utf-8

итого вопрос: как это сделать простыми средствами баша... ну или то, что нормально впишется в баш?

т.е. на данный этап решено

charset=koi8-r
менять
charset=utf-8

тестовый скрипт

#!/bin/sh
set -e; clear

HTM=test.htm
CHARSET_DISPLAY=UTF8
 CHARSET_ASSUME=utf-8

#
# ищем charset=koi8-r">
#

enconv -L ru_RU.UTF-8 < $HTM | \
sed -e "s%charset=koi8-r%charset=$CHARSET_ASSUME%" | \
lynx -dump -force_html -stdin -display_charset=UTF8 -assume_charset=utf-8

минусы такого простого решения в том, что если в тексте встретиться «это», то тоже будет заменено на «тото» :о)

Исходная версия sunjob, :

проявилась новая проблема, из-за оставшихся хвостов с кодировкой просматривается кракозяброй

charset=<...>

для исправления нужно

charset=<любое значение>
заменять
charset=utf-8

итого вопрос: как это сделать простыми средствами баша... ну или то, что нормально впишется в баш?

т.е. на данный этап решено

charset=koi8-r
менять
charset=utf-8

тестовый скрипт

#!/bin/sh
set -e; clear

HTM=test.htm
CHARSET_DISPLAY=UTF8
 CHARSET_ASSUME=utf-8

#
# ищем charset=koi8-r">
#

enconv -L ru_RU.UTF-8 < $HTM | \
sed -e "s%charset=koi8-r%charset=$CHARSET_ASSUME%" | \
lynx -dump -force_html -stdin -display_charset=UTF8 -assume_charset=utf-8

минусы такого простого решения в том, что если в тексте встретиться «это», то тоже будет заменено на «тото» :о)