LINUX.ORG.RU

Как удалить все invalid characters из xml файлов?

 , , ,


0

1

Есть директория с UTF-8 файлами SC_TASK_0.xml SC_TASK_1.xml …. SC_TASK_50.xml

Необходимо написать скрипт, который будет удалять из файлов в директории все invalid characters. Пока встретился только Invalid character (Unicode: 0xB) .

Пример проблемного кусочка xml: https://pastebin.com/N6HBCDXe

Проблема в символе VT - Vertical tab.

Опытным путём удалось обрезать в одном файле, но как сделать это для всех файлов в определённой папке, сохранив их названия.



Последнее исправление: xakon (всего исправлений: 2)

Ответ на: комментарий от Rx0

Покопавшись в xml, удалось выяснить что проблема в символе VT - Vertical Tab. Его нужно удалить/заменить из файлов в папке скриптом.

xakon
() автор топика
Ответ на: комментарий от xakon

Если вдруг кому понадобится, то удалось решить так:

perl -wpe’s#\x0B#\x0A#g’ file1.xml > file2.xml

где x0B и x0A символы, которые нужно удалить из файла.

xakon
() автор топика
Ответ на: комментарий от mord0d

Да, спасибо за подсказку. Но может всё-таки кто-то скажет как НУЖНО сделать, а не раскритикует мой вариант решения)

xakon
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.