Решил заюзать wget в качестве offline-browser для закачки доски объявлений целиком (с обновлением по крону). Особенность тут в том, что почти все URL-ы выглядят как tralivali.php?post=3477453 (т.е. один пост на одну страницу). Естественно, ограничил макс. размер файлов до 500 КБ (с помощью quota), чтобы не тянулись всякие прикреплённые файлики. При этом аватарки и прочая мелочь пусть тянется.
Столкнулся со следующим:
- quota не работает на HTTP. Совсем. В сырцах нашёл упоминание квоты только для FTP.
- При включенном no-clobber (что естественно в данном случае) тип файла проверяется тупым сравнением его расширения с «htm*». Следовательно, ничего рекурсивно не качается (ибо все файлы PHP, а не HTML).
Оба несправедливых момента исправил самостоятельно. Первый - дописыванием условия quota в http.c, второй - указанием флага TEXTHTML для всех уже скачанных файлов. Вопрос: почему штатно так не сделано и можно ли отправить патч?