LINUX.ORG.RU

antiword UTF-R


0

0

Подскажите, antiword с юникодной локалью работает?
У меня две машины, одна под кои, там всё ОК, а другая на юникоде, с ней проблемы. Пробовал даже так:

$ antiword СНиП_82-02-95.doc | iconv -f KOI8-R -t UTF-8 | vi -

Выводит одни кракозябры.. :-\

★★★

Короче нужен DOC > HTML конвертор

baaba ★★★
() автор топика
Ответ на: комментарий от manntes

Сделал так:

#!/bin/bash
export LC_ALL=ru_RU.KOI8-R
export LANG=ru_RU.KOI8-R

antiword $* | iconv -f KOI8-R -t UTF-8 | vi -

Но много мусора вижу , может cut и dump пробовать? Люди наверное эти грабли уже прошли..

baaba ★★★
() автор топика
Ответ на: комментарий от baaba

Вот, спасибо, сделал так:

#!/bin/bash
export LC_ALL=ru_RU.KOI8-R
export LANG=ru_RU.KOI8-R

antiword $* | iconv -f KOI8-R -t UTF-8 > `echo "$*" | cut -d . -f1`.txt

Читать можно через vim , через less мусор есть, не знаю как побарывать..

baaba ★★★
() автор топика
Ответ на: комментарий от baaba

То есть, крякозябры заменились осмысленными кусками + мусором промеж?

manntes ★★
()

поставил, потестил: в консоль с утф8 всё нормально выдаётся, в виме - каша. может, проблема таки в виме?

manntes ★★
()
Ответ на: комментарий от manntes

У меня в виме каша когда я делаю vi - а когда заливаю в текст, каши нет. Ещё есть каша в less, вернее ненужные символы, но нет её в cat, может быть надо писать vim - не знаю.. пока вроде меня устраивает то что получилось, я привёл скрипт, спасибо! А вообще нет ясности. Мне конвертер в HTML я понял, нужен, из doc и из rtf, есть что то такое на Перле? Питоне?

baaba ★★★
() автор топика
Ответ на: комментарий от baaba

Скажем так, antiword умеет выплёвывать DocBook (antiword -x db <file.doc>) а его уже можно много во что преобразовать ;)

manntes ★★
()

а если попробовать catdoc Виктора Вагнера? Я очень давно им пользовался -- все работало. Только экспорт в латех был не очень качественный. А так, "на почитать" работало неплохо. Даже таблицы дампились.

mrdeath ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.