LINUX.ORG.RU

Вышла новая статья из серии статей о использовании Perl


0

0

Преположим Вы владеете сайтом, на который сваливается информация в формате *.doc. Необходимо эту информацию перевести в "божеский" вид, т.е. необходима программа, которая вытаскивает из *.doc текст.

>>> Подробности

☆☆

Проверено:

о, еще один сайт для настоящих "линуксоидов". хорошо, что charset просто нет, и на том спасибо.

Maxcom, ты хоть ссылки иногда проверяешь?

anonymous
()

По мне так antiword проще в установке и использовании чем этот "пакет".

Korwin ★★★
()
Ответ на: комментарий от anonymous

дык смысл в другом. Самому написать и юзать готовое. Там если покопаться в этих модулях, можно вообще даже спецификацию *.doc найти, была там где-то ссылка, не смотря на то, что для майкрософта описание ворда как ноухау.

vilfred ☆☆
() автор топика

2vilfred. Не говорите так, а то злобный ГолубойЧел прийдет и скажет ищите на MSDN. Там действительно есть оспецификация только для старых версий и то, не включает в себя различные экстеншены. Но есть.

Korwin ★★★
()

Два замечания:
1. Формат rtf (если точнее, -- MS rtf) в различных версиях Word разительно отличается, а потому не надо его использовать, если не хотите неприятностей. Лучшие свободные фильтры импорта сейчас для MSOffice97/2000, фильтры для ранних версий хуже и ими почти никто не занимается. Если Вас заботят проблемы пользователей старых Word, то лучше приложите plain text.
2. Если Вы работаете под root, то это Ваши проблемы, но, пожалуйста, не учите этому начинающих...

aen ★★★
()

Самый лучший конвертатор для word97-2000 из тех, что я видел - это wvWare.
Конвертирует в текст, очень опрятный html-4.1 со стилями, Latex, PS, DVI, PDF.
То поделие на перле и рядом не стояло по качеству и возможностям.

anonymous
()
Ответ на: комментарий от aen

> 2. Если Вы работаете под root, то это Ваши проблемы,

А по каким признакам сделано заключение, что работа велась под root?
В командной строке явно просматривается ``ne-root'' - не рут ;)
Старина aen опять на мелочи попался ;)

anonymous
()

Re: StarOffice 6 выйдет в первом квартале 2002
Старина aen чего-то часто стал на мелочи попадаться. Пора на пенсию ;))

anonymous
()
Ответ на: комментарий от anonymous

То anonymous (*) (2002-02-01 06:16:32.0) - руки чешутся - почешите в другом месте (С) В.С.Черномырдин. Не можете сказать чего-нибудь умное - лучше молчите. АЕН лучше вас знает, когда выйдет StarOffice. Сходите на страницу OpenOffice.org и почитайте список разработчиков.

МеРВ

anonymous
()
Ответ на: комментарий от anonymous

Команда ALT добавила туда модуль, который позволяет использовать базы переносов из TeX-а, т.е. автоматом появились русские переносы, украинские и т.д. Они-же прикручивают нормальную проверку орфографии (с буквой "Ё", к примеру). Вам этого мало? А теперь поделитесь, пожалуйста, что вы сами сделали для хипхопа в свои годы?

МеРВ

anonymous
()
Ответ на: комментарий от anonymous

to МеРВ:
Ты чего наехал? Я имел в виду, что AEN с сабжектом тоже прокололся.
Наверное мозилу пользует. Сабжект из другой ветки подцепил.
Ничего не имею против копаний в старофисе, хотя сам пользовать его никогда не буду.

anonymous
()
Ответ на: комментарий от anonymous

> Наверное АЕН там разрабатывает диалог About ? Не трогайте разработчиков. Они дело делают. А наезжать я не собирался.

МеРВ

anonymous
()

не, братцы, вы наверное из другого исходтие. Я единственный чел в лабе на 15 человек, у котого стоит XWindow... А у нас некоторый народ вообще на 15 минут включает машины, т.к. они нагреваются. Дедам по 60 лет, они хоть и рюхливы в своем деле, но компьютера совсем не знают.

Помню, года полтора назад, была конференция, ну по науке вобщем, дык собирали тезисы, народ из Костромы откуданнить присылал вовсе не то, что вы тут говорите про староффисы. А вообще 95 ворд. И все это перелопачивать. Тем боле с объектами Microsoft Equation.

А так ваще я мог бы написать, храните тексты в формате TEX, plain text, все супер. А много его, тех то, под винду поставить сумеет?

Будьте реалистами в конце концов... хотя я нарно тоже постарел, уж сколько всего нового появилось.

Относительно рута, дык да, там стоял рут, я подправил. Чел востроглаз.

vilfred ☆☆
() автор топика

Та в строчке 1099 должно быть I<$pat> = I<$S> -> log_openpat ([I<$pat>])

anonymous
()
Ответ на: комментарий от vilfred

> Относительно рута, дык да, там стоял рут, я подправил. Чел востроглаз.

Дык это же тривиально, там же "]#" стоит :-)

CyberDem0n
()

2 Знатокам формата Ворда и офиса Голубых
2 vilfred (*) (2002-01-31 21:52:52.0)
2 Korwin (*) (2002-01-31 22:59:06.0) и иже с ними

Мож, помогу...

На сайте http://www.microsoft.com/technet/ в статье Q290958 указан адрес электронной почты по которому Вы можете направить запрос для получения необходимой Вам информации по спецификации Ворда. В настоящий момент данная информация доступна только для программных продуктов версии 2002.

Виндузятник

anonymous
()

To All:

Мужики, собираюсь послать запрос в MS для получения binary формата Word., как написано в статья любезно указанной предыдущим анонимусом. Вот только смущает одна надпись:

"A brief statement that explains how having the Word BFF will help you; for example, why you want it or how you intend to use it."

Кто что посоветует? Ведб если сказать, что хочу написать конвертер, например, в формат OpenOffice, то хрен дадут!

alexros
()
Ответ на: комментарий от anonymous


> А по каким признакам сделано заключение, что работа велась под root?
> В командной строке явно просматривается ``ne-root'' - не рут ;)
> Старина aen опять на мелочи попался ;)

Спасибо автору -- быстро исправил. Так что здесь я не попался :-)
А вот за старый заголовок -- извините. Star Office в первом квартале
точно не выйдет :-)

aen ★★★
()

Уж уесли на то пошло, то не кинете в меня линком где почитать (модуль какой что-ли) как из RTF выдащить OLE-объекты и записать в gif или хотя бы в wmf??? Просто надо кучу перелопатить, а там формул больше чем текста. Плс не предлагать конвертилку от ворда в HTML - на выходе такое уродство получается от формул :-(

Korwin ★★★
()

не знаю чего это такое, но http://www.cpan.org/modules/01modules.index.html

OLE         GSAR      libwin32-0.18.tar.gz            647k  13 Nov 2001
OLE         KWITKNR   OLE-Storage_Lite-0.10.tar.gz     16k  24 Jan 2002  +
OLE         MSCHWARTZ OLE-Storage-0.386.tar.gz         81k  28 Apr 1998

этих конвертеров док2тхт больше чем собак нерезанных оказывается :)))

а в яндекс войти, так вообще америка :)))

вобщем ничего конкретного не скажу одним словом...

vilfred ☆☆
() автор топика

Вам же сказали, самый точный конвертор ворда - wvWare. Он и картинки вытаскивает
и конвертит. Не зря же его использует abiword. wvWare создает такую копию вордового
документа, которая смотрится лучше оригинала! Сами убедитесь.

anonymous
()

Посмотрел на wvWare - кульная штучка. Вот только при конвертации в HTML зачем-то делает сглаживание на всех даже мелких буквах - смотрится ужастно. Но, по всей видимости, это мои кривые ручки. По крайней мере при конвертации в PS (eps) ничего подобного нет :-)))

Спасибо за линк. Потом обязательно добавлю возможность через патчик конвертить doc в XML.

Korwin ★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.