LINUX.ORG.RU

История изменений

Исправление praseodim, (текущая версия) :

Тот же приснопамятный ragel позволяет писать структурированно, типа, условно

Тут не ragel, а c# (на линуксе тоже работает, чтоб споров не было)

Есть правда, кейс когда нужно парсить откровенный мусор (и скорее всего это кейс парсинга HTML, когда есть и незакрытые тэги и забытые кавычки и прочая, хотя я не верю что тэги можно разбивать по середине), и там скорее нужен особый подход, но в основе всё равно будут регулярки, а как из них собрать что-то осмысленное в плане структуры документа наверняка есть какие-нибудь paper’ы от гугла или мозиллы.

Это чистка результата конвертации из других форматов другими системами. В теории там вообще чистить ничего не надо, на практике откуда-то проникают html-теги, причем таки с разрывами. Что хуже - не только теги, но и entity и тоже с разрывами.

Исходная версия praseodim, :

Тот же приснопамятный ragel позволяет писать структурированно, типа, условно

Тут не ragel, а c#

Есть правда, кейс когда нужно парсить откровенный мусор (и скорее всего это кейс парсинга HTML, когда есть и незакрытые тэги и забытые кавычки и прочая, хотя я не верю что тэги можно разбивать по середине), и там скорее нужен особый подход, но в основе всё равно будут регулярки, а как из них собрать что-то осмысленное в плане структуры документа наверняка есть какие-нибудь paper’ы от гугла или мозиллы.

Это чистка результата конвертации из других форматов другими системами. В теории там вообще чистить ничего не надо, на практике откуда-то проникают html-теги, причем таки с разрывами. Что хуже - не только теги, но и entity и тоже с разрывами.