LINUX.ORG.RU

Хочется нормального


0

1

Вот принесли файлик в HTML что-то преобразованное из вордового документа. Править это чудо невозможно. 100500 одинаковых тегов чуть не на каждую букву. Текста на десяток страниц, а весит как ... на DVD только и поместится.

Вот вопрос к знатокам:
Есть ли какая тулза для того чтобы эту хрень оптимизировать? В стили убрать всякую ненужность, всяческие SPAN упростить, бесконечные вложенные FONT FONT FONT....
Ведь работать с тем что мне сунули просто невозможно.

★★★★★

принесли файлик в HTML что-то преобразованное из вордового документа

Топор или паяльник, на твоё усмотрение. Теоретически можно даже топор и паяльник.

anonymous
()
Ответ на: комментарий от anonymous

Это все немного не то. Могу и в вижуал студии файл портить. Там вполне вменяемый редактор, но хотелось бы документ сначала оптимизировать.

vada ★★★★★
() автор топика
Ответ на: комментарий от vada

Могу и в вижуал студии файл портить.

Не надо файл портить. Надо портить жизнь автору этого файла, пока не научится нормально делать.

anonymous
()
Ответ на: комментарий от anonymous

Очуметь, какое изящное решение

Есть 150% вариант - нанять секретаршу-блондинку с тремя сиськами и поручить эту работу ей.

init_6 ★★★★★
()
Ответ на: комментарий от vada

ну тут я не друг тебе, верстал очень давно. Даже какие-то оптимизаторы щупал. В каком они нынче состоянии, понятия не имею.

anonymous
()
Ответ на: комментарий от init_6

лови плюсик. но мой сарказм о ходе мыслей.

anonymous
()
Ответ на: комментарий от anonymous

чёта поиск по оптимизаторам ничего вменяемого не дал. :(
Неужели это только у меня такие проблемы? Хрень какая-то. Может психануть и написать свой оптимизатор?
Не верю что велосипед еще никто не изобрел.

vada ★★★★★
() автор топика
Ответ на: комментарий от monk

рассыпаюсь в благодарностях, теперь главное не забыть, если вдруг понадобится

anonymous
()
Ответ на: комментарий от vada

Они все с двумя, изредка с одной.

Ну оно конечно может сойти и с двумя и даже с одной… Но вот с тремя просто самое то! С тремя у неё производительность преобразования упоротого-html в отличный-html будет просто потрясающая.

init_6 ★★★★★
()

Этот лишний мусор убирается двумя-тремя регулярками в «Search->Replace» твоего редактора.

Дольше будешь искать изкоробочное решение.

// В качестве извращения можешь этот HTML отфильтровать web-editor'ом, типа CKEditor, TinyMCE и т.д. Там есть функционал «вставка из m$-word'а» благодаря которому вся эта шелуха удаляется.

shrub ★★★★★
()
Ответ на: комментарий от shrub

Это уже пробовалось. :( К сожалению, есть открывающие тэги и закрывающие. И пару эту контекстная замена не умеет распознавать.
ЗЫ. Там еще и ошибок миллион верификатор выдал :(

vada ★★★★★
() автор топика
Ответ на: комментарий от monk

Будите смеяться, но M$ видимо считает что в мире кодировки кроме ихней не бывает, поэтому при конвертации тег с описанием кодировки не добавляет. :(
Тида с таким фалом не справляется. Конвертор еще и миллион ошибок внес :(
Брррррррр.............

vada ★★★★★
() автор топика
Ответ на: комментарий от vada

Тида с таким фалом не справляется.

Я перед tidy делал

$ iconv -f cp1251 -t utf-8 < ms.html > out.html

monk ★★★★★
()
Ответ на: комментарий от vada

Зайди на http://ckeditor.com/demo вставь туда свой текст из ворда через кнопку «вставить из ворда», можно еще жмакнуть «убрать форматирование» затем нажми «исходный код» и скопируй все что сгенерилось.

deep-purple ★★★★★
()
Ответ на: комментарий от anonymous

Не, можно сначал провести пару дней играясь с конвертерами, каждый из которых делает «немного не то, что нужно». Потом устать, выгрузить всё в текст и сделать как надо.

alpha ★★★★★
()
Ответ на: комментарий от alpha

Html to text, а потом нормально сверстать

Вот я за этот вариант - сам бы именно так и делал.

I-Love-Microsoft ★★★★★
()
Ответ на: комментарий от proud_anon

Что написрано Вордом, не вырубишь топором

Таки цэка-идитор вполне себе справляется. Я потому ТСу такой вариант решения и посоветовал. Да, костыльный вариант, но мне оно пару раз помогало.

deep-purple ★★★★★
()

Когда-то давным-давно велосипедил нечто на регекспах, сжимало в пару раз, но с тех пор, скорей всего, и ворд не тот, и хтмл не тот.

amomymous ★★★
()

htmltidy

еще вариант: попробуй преобразовать в пдф, а потом в нормальный вид

anonymous
()
Ответ на: А ссылку можно от DonkeyHot

Ну, типа, все понятно. Вменяемого решения нет. :( Посмотрю, может на досуге что напишу....

vada ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.