История изменений
Исправление hobbit, (текущая версия) :
MS Word DOC
ведь это хорошо задокументированный, давно известный формат файла
Спасибо, сделал мой день.
Почитай статью Спольски (есть и русский перевод), там хорошо объясняется, откуда эти форматы пошли. В основном, про XLS, но идеология у них одна.
Учти, что Джоэл вообще-то очень лояльно относится к Microsoft, особенно Microsoft времён Гейтса, поэтому на «хейтерство» эту статью точно не спишешь.
Сказанное относится к DOC и XLS. Современные версии форматов, такие как DOCX, несколько проще, ибо построены на XML (хотя бреда хватает и там). Возможно, в твоём случае будет проще конвертнуть все эти файлы в DOCX и поискать парсер уже для него. Шансов больше.
(В своё время скакал по граблям с похожей задачей применительно к XLS. Для этого есть несколько независимых библиотек, но при работе с реальными файлами у них возникают проблемы. Задача отдебажить эти библиотеки до нормального уровня в моей голове до сих пор висит, но руки пока не дошли, и не уверен, что дойдут.)
P.S. Сайт Джоэла долгое время был в дауне, я уж думал, пропал окончательно. Нет, жив, курилка. :)
Исправление hobbit, :
MS Word DOC
ведь это хорошо задокументированный, давно известный формат файла
Спасибо, сделал мой день.
Почитай статью Спольски (есть и русский перевод), там хорошо объясняется, откуда эти форматы пошли. В основном, про XLS, но идеология у них одна.
Учти, что Джоэл вообще-то очень лояльно относится к Microsoft, особенно Microsoft времён Гейтса, поэтому на «хейтерство» эту статью точно не спишешь.
Сказанное относится к DOC и XLS. Современные версии форматов, такие как DOCX, несколько проще, ибо построены на XML (хотя бреда хватает и там). Возможно, в твоём случае будет проще конвертнуть все эти файлы в DOCX и поискать парсер уже для него. Шансов больше.
(В своё время скакал по граблям с похожей задачей применительно к XLS. Для этого есть несколько независимых библиотек, но при работе с реальными файлами у них возникают проблемы. Задача отдебажить эти библиотеки до нормального уровня в моей голове до сих пор висит, но руки пока не дошли.)
P.S. Сайт Джоэла долгое время был в дауне, я уж думал, пропал окончательно. Нет, жив, курилка. :)
Исходная версия hobbit, :
MS Word DOC
ведь это хорошо задокументированный, давно известный формат файла
Спасибо, сделал мой день.
Почитай статью Спольски (есть и русский перевод), там хорошо объясняется, откуда эти форматы пошли. В основном, про XLS, но идеология у них одна.
Учти, что Джоэл вообще-то очень лояльно относится к Microsoft, особенно Microsoft времён Гейтса, поэтому на «хейтерство» эту статью точно не спишешь.
Сказанное относится к DOC и XLS. Современные версии форматов, такие как DOCX, несколько проще, ибо построены на XML (хотя бреда хватает и там). Возможно, в твоём случае будет проще конвертнуть все эти файлы в DOCX и поискать парсер уже для него. Шансов больше.
(В своё время скакал по граблям с похожей задачей применительно к XLS. Для этого есть несколько независимых библиотек, но при работе с реальными файлами у них возникают проблемы. Задача отдебажить эти библиотеки до нормального уровня в моей голове до сих пор висит, но руки пока не дошли.)