Есть небольшая проблема, вернее даже не столько проблема сколько желание что-то сделать, но оно не настолько важно, чтобы посвятить ему огромное количество времени.
Конкретно есть ряд страниц:
osloskop.net
emulek.com.pl
emulek.com
sharereactor.com
И им подобных. Во всех в левой части меню видим категории. Во всех кликая по этим категориям где-то в описании фильма можно найти его жанр, такой как экшн, драма и им подобные. И это и есть проблема.
Хотелось бы тул который бы все это дело высосал, пропарсил и добавил к тем кактегориям в меню слева категории найденные ним в описании фильмов и раскидал туда фильмы. Ну и гуйню к этому всему.
Я попробовал подступиться к задаче исходя из установки "до понедельника неплохо бы наклепать".
Взял первый попавшийся питоновский html парсер из стандартной библиотеки и сразу же встретился с двумя проблемами:
1. Он парсер SAX'оватый. Это очень неудобно. DOM удобней
2. Как только он натыкается на ошибку в HTML он вылетает с Exception'ом. Это липа. А что если нужная мне информация была перед вылетом?
Решил попробовать с регекспами. После нескольких написанных регекспов и обнаружению что еще надо выкликать в ABCD... и воспоминаниям о распарсивании когда-то давно другого сайта HTML регексами желание всякое пропало.
Стало понятно что задача требует несколько более осмысленного подхода. Отсюда пришло в голову:
1. html parser DOM который не вылетает на ошибках а пытается как движок браузера как-то их игнорировать
2. Итерация в нем же по выражениям XPATH
Ну и собственно что это может сделать? Например в том же питоне? Или можно еще что-то комбинировать? Может прикрутить сюда KHTML?

Ответ на:
комментарий
от dissident

Ответ на:
комментарий
от ero-sennin

Ответ на:
комментарий
от dissident

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.
Похожие темы
- Форум HTML parsing (2004)
- Форум c++, html parsing (2015)
- Форум html href parsing (2016)
- Форум [Gentoo] Наступил на грабли при апгрейде (2010)
- Форум Наступил на грабли при установке Arch (2013)
- Форум atoll, грабли, не пойму где наступил. (2008)
- Форум parsing (2002)
- Форум XML parsing (2005)
- Форум ....text parsing (2006)
- Форум Будущее наступило. (2016)