LINUX.ORG.RU

Разная статистика в разных редакторах


0

1

Почему разные текстовые процессоры (MSO 2007, LibreOffice 3.5.4.2 и 4.0.0.3) указывают различное число символов в документах?

См. мою таблицу, которая это иллюстрирует. См. также архив с документами. Зеркало.

test.odt - оригинальный документ

test.doc - test.odt, пересохраненный в DOC посредством LO 3.5.4.2

test_blank.odt - фрагмент оригинального документа, из которого удалены титульная страница, колонтитулы и сноски

test_blank.doc - test_blank.odt, пересохраненный в DOC посредством LO 3.5.4.2

Можно видеть, что разные процессоры указывают совершенно разное количество символов, причем это также зависит от формата. Если во фрагменте без титульной страницы, колонтитулов и сносок количество символов еще более-менее схоже, то в полном документе оно совершенно разное. Естественно, я не мог выложить рабочий документ, поэтому в архиве - то же самое, но только все символы заменены на «а». В реальных документах количество символов разное даже в разных версиях LO. Еще я заметил, что количество символов может измениться, если, например, удалить автора из свойств документа. В старых версиях LO если в тексте присутствовали комментарии, то в статистику прибавлялось еще около 2 символов (вне зависимости от длины комментариев), в новых LO комментарии не учитываются. Из этого всего у меня 2 вопроса.

1) Что за ерунда, дорогая редакция? Я думал, что учитывается только число символов основного текста, без всяких его внутренних свойств и комментариев. Почему разное число символов в разных форматах? Вопрос для переводчиков критичный, потому что они кормятся именно за счет количества символов, который им показывает процессор. Представьте, какой будет конфуз, если заказчик решит проверить статистику (и сделает это, скорее всего, в word). Я как-то в качестве эксперимента сам писал программу на Python для определения числа символов из plain text, и она показывала не то, что в word/LO. Я решил, что где-то закрался баг, и забил. Может, все дело, что текст хранится в юникоде?

2) Почему титульная страница влезает в LO (экспорт doc'а из LO 3.5 - test_lo.pdf), а в word'е 2007 разорвана (экспорт doc'а из word 2007 - test_word.pdf)? У меня в LO используется Liberation Serif вместо Times New Roman, но он с ним совместим. Если у вас компоновка файла doc в LO тоже слетает, дайте мне знать.

Deleted

Последнее исправление: Deleted (всего исправлений: 1)

См. мою таблицу, которая это иллюстрирует.

Фигасе ты исследования провёл.

Представьте, какой будет конфуз, если заказчик решит проверить статистику

Сразу обговаривать надо, на чью статистику опираться.

ziemin ★★
()

По подсчёту символов -пиши баг-репорт, поправят

selivan ★★★
()

Сенсация! MsOffice крадет символы!

sdio ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.