История изменений
Исправление
Stack77,
(текущая версия)
:
Критикуешь - предлагай! Если сайт в открытом доступе и ТС не нарушает ничьих авторских прав, то какие проблемы? (Это насчет законности).
Далее… Бывают случаи, когда нужно автоматизировать процесс, но разработчики сервиса/сайта из-за одного тебя заморачиваться не хотят (делать отдельный API). И если тебе требуется парсить не 100500 сайтов, а скажем - дюжину, то никакого труда раз в полгода уделить 5 минут чтобы указать другие селекторы выборки не составляет (если верстка поменялась или т.п.).
Я бы еще добавил в скрипт обработку ошибок и отправку сообщений в телегу об оных (если скрипт предполагает запуск в автоматическом режиме).
не удивлюсь если верстка специально написано околовалидной чтобы затруднить подобный парсинг со страницы…
Это нужно быть полным психом, чтобы специально не закрывать теги или писать их настолько криво, что даже tidy не справляется. Это хорошо, если современный браузер смог корректно отобразить DOM (и то не факт на самом деле, чисто мое предположение).
Адекватные люди просто настраивать iptables (fail2ban), etc. Например, ограничивают множество одновременных запросов с одного IP. Просто, с вероятность в 99,999% сайт писала криворукая макака.
Исправление
Stack77,
:
Критикуешь - предлагай! Если сайт в открытом доступе и ТС не нарушает ничьих авторских прав, то какие проблемы? (Это насчет законности).
Далее… Бывают случаи, когда нужно автоматизировать процесс, но разработчики сервиса/сайта из-за одного тебя заморачиваться не хотят (делать отдельный API). И если тебе требуется парсить не 100500 сайтов, а скажем - дюжину, то никакого труда раз в полгода уделить 5 минут чтобы указать другие селекторы выборки не составляет (если верстка поменялась или т.п.).
Я бы еще добавил в скрипт обработку ошибок и отправку сообщений в телегу об оных (если скрипт предполагает запуск в автоматическом режиме).
не удивлюсь если верстка специально написано околовалидной чтобы затруднить подобный парсинг со страницы…
Это нужно быть полным психом, чтобы специально не закрывать теги или писать их настолько криво, что даже tidy не справляется. Это хорошо, если современный браузер смог корректно отобразить DOM (и то не факт на самом деле, чисто мое предположение).
Адекватные люди просто настраивать iptables (fail2ban), etc. Например, ограничивают множество одновременных запросов с одного IP.
Исходная версия
Stack77,
:
Критикуешь - предлагай! Если сайт в открытом доступе и ТС не нарушает ничьих авторских прав, то какие проблемы? (Это насчет законности).
Далее… Бывают случаи, когда нужно автоматизировать процесс, но разработчики сервиса/сайта из-за одного тебя мзаморачиваться не хотят (делать отдельный API). И если тебе требуется парсить не 100500 сайтов, а скажем - дюжину, то никакого труда раз в полгода уделить 5 минут чтобы указать другие селекторы выборки не составляет (если верстка поменялась или т.п.).
Я бы еще добавил в скрипт обработку ошибок и отправку сообщений в телегу об оных (если скрипт предполагает запуск в автоматическом режиме).
не удивлюсь если верстка специально написано околовалидной чтобы затруднить подобный парсинг со страницы…
Это нужно быть полным психом, чтобы специально не закрывать теги или писать их настолько криво, что даже tidy не справляется. Это хорошо, если современный браузер смог корректно отобразить DOM (и то не факт на самом деле, чисто мое предположение).
Адекватные люди просто настраивать iptables (fail2ban), etc. Например, ограничивают множество одновременных запросов с одного IP.