Возникла задача для локальных нужд написать некий аналог google translate toolkit, который позволяет импортировать docx, odt и т.д., выполнять перевод, а дальше делать экспорт в тот же формат файла с сохранением форматирования.
Зачем? GTT коверкает разметку - как минимум, портит шрифт и игнорирует комментарии.
Есть всякие традосы с memoq, которые грамотно заменяют теги и восстанавливают форматирование, но они под w~ и стоят денег.
Изначально я попробовал скопипастить принцип с omegat, конвертить всю структуру ooxml в текст вида:
<t1/>text <t2/>lol
вместо <b>some bold</b> сделать <b>som</b><b>e</b> <b>bold</b>
что после преобразования приобретает вид
<t1/>som<t2/>e <t3/>bold
Если конвертить параграфы в html, то гарантированно возникают проблемы с обратным преобразованием. Вдобавок придется писать пачку парсеров под каждый формат.
Задача состоит в том, что нужно заменить xml-теги на какие-то линейные сабсты без вложенностей, которые можно скормить переводчику/корректору, а далее восстановить по этим сабстам оригинальное форматирование. Хотел бы поинтересоваться у знакомых с этой темой, как эта задача вообще решается, потому что у меня закончились идеи, как это сделать без написания «честного» парсера под каждый формат.