LINUX.ORG.RU
ФорумTalks

getlor.sh


0

0

Помнится было обсуждение, с какими лимитами можно скачивать лор, когда и при каких условиях.

Мы (по крайней мере я) же всё таки из мира linux, где любую мысль можно оформить в виде ебилда:

так вот - подскажите строчку для wget (для петросянов - не для perl) для скачивания форума lor.

Для форума как я понял - правило - скачивать group.jps и view-message.jsp - этого будет достаточно. как скачать новости? ну и как это записывается для wget? и какие лимиты, ссылку потерял. короче нужен официальный ебилд (хочешь скачать лор - запусти этот скрипт)


Ответ на: комментарий от kapsh

а смысл. написать на сокетах такое я и сам смогу, вот только wget уже написан, и одна строчка будет работать на любой системе, где есть нормальный wget (нормальный - в смысле не собранный со всеми N в busybox)

ARHL
() автор топика
Ответ на: комментарий от alexmaru

если будет работать wget getlor.sh -O - | sh - это будет релевантненько

ARHL
() автор топика
Ответ на: комментарий от EmStudio

> wget - это костыль. В нормальных ОС, таких как Plan9, wget не нужен.

сделай мне запрос "скачать толкс" для plan9, а я таки попробую сделать для wget. померяемся, у кого короче костыль

ARHL
() автор топика
Ответ на: комментарий от NekoExMachina

сурововато, но идея интересная. правда нужного как-раз меньше, чем ненужного, нужно дёргать нужное, а не делать список из 10000 исключений ненужного... попробовал

wget -mirror -k -E -A view-message.jsp,group.jsp http://www.linux.org.ru/group.jsp?group=1340


на -A он забивает, всё равно в корень лезет

ARHL
() автор топика

ну не совсем забивает, зато теперь у меня куча неотреплейсеных групп, и ни одного view-message.jsp

план действия таков:

- нагенерировать (хоть seq) ссылок на несколько, сколько нужно, ссылок group.jsp?group=needforum&shift=от-скольки-нужно-до-скольки-нужно
- из них надёргать с глубиной 1 все view-messages.jsp
- сделать замены (как сделать замену http://......view-message.jsp?msgid=lalala&page=tralala на message[lalala]p[tralala]?)

ну и всё это, собственно свести в один скрипт


ну и остальные замены можно сделать для получения компактного такого lorbook, потом можно приделать и извлечение контента для экономии места, но это уже не так важно, главное - создать скрипт для вышеуказанного

ARHL
() автор топика
Ответ на: комментарий от overmind88

я уже написал выше - стандартных опций wget для этого не хватит. а вот для загрузки n страниц домена - wget file -O - + sed - самое то, теперь нужно правильно написать скрипт и регекспы - и чтобы грузить только нужное (сначала 100 страниц скачал, потом ещё 100, и т.д.) и без дублирования

ARHL
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.