LINUX.ORG.RU

ЕМНИП у них можно скачать БД.

ShTH
()

Википедии не нравятся роботы.

x3al ★★★★★
()

# Sorry, wget in its recursive mode is a frequent problem.
# Please read the man page and use it properly; there is a
# --wait option you can use to set the delay between hits,
# for instance.
#
User-agent: wget
Disallow: /

Breton
()

Укажи опцию «не читать robots.txt», можешь ещё User-Agent выдать ему браузерный.

Deleted
()
Ответ на: комментарий от sniper21

Медиавику ставь и читай. Только имей ввиду что БД занимает ТБ при распаковке, а это ещё нужно импортнуть..

tia
()

-U Firefox/3.5 не поможет?

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от Deleted

>А догадается она через астрал, да?

Ну я думаю какие-то деньги Джимбо всё-же платит специалистам по безопасности и они наверняка придумали способ защиты от примитивного задрачивания их серверов. Вообще непонятно, зачем это нужно ТС.

Gary ★★★★★
()
Ответ на: комментарий от Gary

С таймаутом, игнорированием и UA ты никак не отличишь от браузера. Просто из-за таймаута будет медленнее и всего делов.

Deleted
()

О-хо-хо-хо-хо!!!!!

wget рекурсивно скачивает _только_ файлы. Файлов у mediawiki немного, и они вовсе не веб-странички, а скрипты. То есть такой трюк прокатит только в том случае, если странички сделаны в виде HTML-файлов. Плюс скрипты тебе скачать никто не даст - при обращении к скриптам с определёнными праметрами выдаётся результат выполнения.

Качай дамп википедии, и водружай у себя mediawiki.

Quasar ★★★★★
()
Ответ на: комментарий от Kosyak

а что не понятно, есть база, а читать её как мне сказали можно и нужно тем же движком.

sniper21 ★★★★★
()
Ответ на: комментарий от Quasar

> wget рекурсивно скачивает _только_ файлы. Файлов у mediawiki немного, и они вовсе не веб-странички, а скрипты.

Wget скачает все страницы, генерируемые этими скриптами. По разу для каждой комбинации параметров. Если пользователь попробует ставить ограничения на скачивание, будет качать и сразу удалять (известный баг). В общем, правильно запрещают.

Качай дамп википедии

Именно.

question4 ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.