Посоветуйте, пожалуйста, утилиту для кравлинга сайтов, которая
1) Может параллельно выполнять запросы к различным сайтам
и страницам в своей очереди
2) Умеет работать с машины, имеющей несколько IP-адресов,
выполняя разные запросы с разных адресов
3) Умеет выполнять java-script на страницах
для получения большего количества анализируемых ссылок
4) При сохранении результатов умеет локализовать ссылки
(т.е. модифицировать скачанные файлы таким образом, чтобы
можно было проводить навигацию по файлам, сохраненным локально)
5) умеет пользоваться списками прокси при выполнении запросов
6) умеет использовать tor
7) умеет соблюдать политики доступа
(например не давать на один сервер более чем N запросов за T секунд,
настройки по учету/неучету robots.txt,
опции по поиску URL-адресов, написанных без гиперлинков)
8) имеет возможности по заданию области обхода
(корневые сайты, на сколько уровней можно уходить в бок,
насколько вглубь, какой объем можно скачивать)
9) умеет пользоваться поисковыми системами, ведя поиск сайтов
по набору ключевых слов
10) имеет графический интерфейс с индикацией состояния,
возможностью просмотра истории и логов
Возможно, вот прямо такой утилиты нет, а есть утилиты,
которые умеют часть функций - как они называются и на чем написаны?
Ответ на:
комментарий
от gkrellm
Ответ на:
комментарий
от Deleted
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.
Похожие темы
- Форум Грабить корованы (2015)
- Форум Грабить корованы? (2007)
- Форум [баян]Грабим Корованы (2008)
- Форум Аналог Teleport Pro в Linux (2001)
- Форум Есть-ли аналог Teleport Pro ? (2003)
- Форум Как правильно грабить корованы? (2022)
- Форум Дарт Вейдер грабит корованы (2010)
- Форум Смартофон чтобы грабить корованы (2015)
- Форум Squid & Teleport Pro - ???!!!! (2002)
- Форум Демо игры (нельзя грабить корованы) (2019)