История изменений
Исправление praseodim, (текущая версия) :
Тот же приснопамятный ragel позволяет писать структурированно, типа, условно
Тут не ragel, а c# (на линуксе тоже работает, чтоб споров не было)
Есть правда, кейс когда нужно парсить откровенный мусор (и скорее всего это кейс парсинга HTML, когда есть и незакрытые тэги и забытые кавычки и прочая, хотя я не верю что тэги можно разбивать по середине), и там скорее нужен особый подход, но в основе всё равно будут регулярки, а как из них собрать что-то осмысленное в плане структуры документа наверняка есть какие-нибудь paper’ы от гугла или мозиллы.
Это чистка результата конвертации из других форматов другими системами. В теории там вообще чистить ничего не надо, на практике откуда-то проникают html-теги, причем таки с разрывами. Что хуже - не только теги, но и entity и тоже с разрывами.
Исходная версия praseodim, :
Тот же приснопамятный ragel позволяет писать структурированно, типа, условно
Тут не ragel, а c#
Есть правда, кейс когда нужно парсить откровенный мусор (и скорее всего это кейс парсинга HTML, когда есть и незакрытые тэги и забытые кавычки и прочая, хотя я не верю что тэги можно разбивать по середине), и там скорее нужен особый подход, но в основе всё равно будут регулярки, а как из них собрать что-то осмысленное в плане структуры документа наверняка есть какие-нибудь paper’ы от гугла или мозиллы.
Это чистка результата конвертации из других форматов другими системами. В теории там вообще чистить ничего не надо, на практике откуда-то проникают html-теги, причем таки с разрывами. Что хуже - не только теги, но и entity и тоже с разрывами.