Продолжаю изучать Python. На этот раз практиковался в обработке регулярных выражений. Попутно изготовил программу для для очистки текста. Например, книги с lib.ru часто приходят в эээ... непотребном виде. Например, в таком: http://sunspire.euro.ru/book.txt Мой скрипт позволяет за секунды превратить эту гадость вот в такую конфетку: http://sunspire.euro.ru/book-cleaned.txt Я видел похожие программы (платные, в гуях и до кучи под винду онли), но результат их работы меня всякий раз не устраивал. Собственно, документировать тут нечего; если посмотреть на вывод скрипта, все очевидно: $ BookCleaner.py --encoding cp1251 book.txt Processing file: book.txt Performing basic operations: Delete multiple spaces ... 4 time(s) Delete spaces at end ... 6 time(s) Clear empty lines ... 1 time(s) Delete multiple lines ... 3 time(s) Normalize identation ... 9 time(s) The following variations of broken hyphens found: Broken hyphenation pattern N1 ... 1 time(s): >> Аргей- ской Operations: 1. Assume as broken hyphens 2. Assume as broken dashes 3. Leave it as is Please, enter your choice: 1 Broken hyphenation pattern N2 ... 6 time(s): >> ле- систых >> до- роге, >> пли- та >> гре- ческой >> неприкосновен- ными, Operations: 1. Assume as broken hyphens 2. Assume as broken dashes 3. Leave it as is Please, enter your choice: 1 Broken hyphenation pattern N3 ... 1 time(s): >> святых --Косьмы Operations: 1. Assume as broken hyphens 2. Assume as broken dashes 3. Leave it as is Please, enter your choice: 2 File written: book-cleaned.txt: 975 chars: 37 cleaned Пользуйтесь http://sunspire.euro.ru/BookCleaner.py BTW... Говорят, что Python - сам по себе тормоз. Говорят, что движок регекспов тормозной. Это не так. Этот скрипт даже отдельные операции выполняет гораздо быстрее регексп-aware текстовых редакторов. Например, тот же ворд успевает сделать прогон только по одному паттерну, а мой скрипт уже сделал всю работу. PS LORNewsClient также обновлен. http://www.linux.org.ru/profile/Sunspire/view-message.jsp?msgid=1117294
Ответ на:
комментарий
от Obidos
Ответ на:
комментарий
от Obidos
Ответ на:
комментарий
от Sunspire
Ответ на:
комментарий
от Sunspire
Ответ на:
комментарий
от Eldhenn
Ответ на:
комментарий
от anonymous
Ответ на:
комментарий
от Sunspire
Ответ на:
комментарий
от Eldhenn
Ответ на:
комментарий
от Eldhenn
Ответ на:
комментарий
от Sunspire
Ответ на:
комментарий
от Eldhenn
Ответ на:
комментарий
от linux_newbe
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.
Похожие темы
- Форум обработка текста (2004)
- Форум Обработка обработка отсканированного текста (2016)
- Форум Автоматическая обработка текстов (2014)
- Форум Обработка русских текстов (2023)
- Форум Обработка блоков текста (2007)
- Новости Библиотека обработки HTML-текста из PHP-скриптов. (2002)
- Форум обработка .profile скрипта (2010)
- Форум обработка текста в файле (2016)
- Форум Эксперименты с обработкой текста (2017)
- Форум обработка текста на PERLе (2006)