LINUX.ORG.RU
ФорумTalks

Times выложила в интернет весь свой архив


0

0

Издание Times выложило в интернет цифровые копии всех своих выпусков, начиная с 1785 года. В настоящий момент архив бесплатен, затем за контент придется платить.

Архив доступен по адресу http://archive.timesonline.co.uk/tol/archive/ и предлагает невероятную возможность познакомиться с развитием мировой истории глазами очевидцев. Корреспонденты Times описывали события от гильотинирования Марии Антуанетты, битвы при Ватерлоо, убийства президента Линкольна, зверства Джека-потрошителя до убийства Эрцгерцога Фердинанда, Великой депрессии, самоубийства Гитлера и многих, многих других.

качаем? правда там небольшой ЛОР-эффект

★☆

надеюсь, кто-то сможет утянуть весь этот архив :) чтобы когда «за контент придется платить» можно было получить альтернативную копию.

хотя, зависит конечно от того, сколько платить и от их лицензии.

vden ★★
()
Ответ на: комментарий от vden

кстати, какой программкой можно утащить сайт целиком? в смысле скопировать вместе со структурой? я бы счас поставил закачку...

delilen ★☆
() автор топика
Ответ на: комментарий от Relan

а спутал с kget.. кстати он не подойдет?

delilen ★☆
() автор топика
Ответ на: комментарий от vden

wget -m -np http://archive.timesonline.co.uk/tol/archive/ --21:03:51-- http://archive.timesonline.co.uk/tol/archive/ => `archive.timesonline.co.uk/tol/archive/index.html' Распознаётся archive.timesonline.co.uk... 143.252.148.206 Устанавливается соединение с archive.timesonline.co.uk|143.252.148.206|:80... соединение установлено. Запрос HTTP послан, ожидается ответ... 200 OK Длина: 133 945 (131K) [text/html]

100%[====================================>] 133 945 22.00K/s ETA 00:00

21:03:58 (21.97 KB/s) - `archive.timesonline.co.uk/tol/archive/index.html' сохранён [133945/133945]

Загружается robots.txt; не обращайте внимание на ошибки. --21:03:58-- http://archive.timesonline.co.uk/robots.txt => `archive.timesonline.co.uk/robots.txt' Повторное использование соединения с archive.timesonline.co.uk:80. Запрос HTTP послан, ожидается ответ... 200 OK Длина: 12 427 (12K) [text/plain]

100%[====================================>] 12 427 38.35K/s

21:03:58 (38.32 KB/s) - `archive.timesonline.co.uk/robots.txt' сохранён [12427/12427]

ЗАВЕРШЕНО --21:03:58-- Загружено: 146 372 байт в 2 файлах

delilen ★☆
() автор топика
Ответ на: комментарий от delilen

ммм… не разрешено это их лицензией :)

«#Please note our terms and conditions http://www.timesonline.co.uk/section/0,,497,00.html
#Spidering is not allowed by our terms and conditions »

а проверку wget-ом robots.txt можно отключить опцией -e robots=off
т.е. wget -m -np -e robots=off site

vden ★★
()
Ответ на: комментарий от vden

>т.е. wget -m -np -e robots=off site

скачали 1 метр - 8 файлов...

delilen ★☆
() автор топика
Ответ на: комментарий от vden

>не разрешено это их лицензией :)

ну раз уж запрещено:)

delilen ★☆
() автор топика
Ответ на: комментарий от overmind88

не вышло... может сольет ктонибудь?

delilen ★☆
() автор топика

А за индекс поисковый - зачет хотя не все распознается

SI ★★☆☆
()
Ответ на: комментарий от anonymousI

>Вы просмотрели передачу "Играй Гармонь".

да... там такие бояны, аж с семпнадцатого века...

пруф на лор?

delilen ★☆
() автор топика
Ответ на: комментарий от Lockywolf

>Да он там зарегаться требует.

где спокойно счас читаю про жизню амереанских лидеров... без регистрации

delilen ★☆
() автор топика

урлы вида view_article.arc намекают на поделие Грэма? о_О

volh ★★
()
Ответ на: комментарий от anonymousI

ну вот и иди читай новости... не все ЛОРовцы, лазят по тем же новостным сайтам

delilen ★☆
() автор топика

я несколько сомневаюсь, что корреспонденты Times были очевидцами самоубийства Гитлера. Если только Ева Браун не была английской шпионкой.

amoralyrr ★☆
()

Эта же Таймс напишет и о минизо, и о минлюбе, и о Старшем Брате, вот увидите...

anonymous
()

Блин, надо регаться. Зато после регистрации вполне можно дергать странички по подобным адресам:
http://archive.timesonline.co.uk/archiveimg/paid/1970/04/11/01/0FFO-1970-APR11-001-50.jpg

после слова paid там соответственно год, месяц, дата, номер страницы.
файл вроде всегда начинается на 0FFO , циферка 50 в конце - это вроде как масштаб (50 - крупно, 19 - мелко, других пока не встречал)

Есть желающие накатать скрипт? ;)

ЗЫ
Кстати, каптча в регистрации у них слабая до ужаса.

mad_soft
()
Ответ на: комментарий от anonymous

Мне, например. С интересом почитаю новости лохматых годов.

vlIlich
()

Так что же, господа, кто-нибудь добился успеха?

Может Scrapbook попробовать?

GreyDoom ★★★★
()

>В настоящий момент архив бесплатен, затем за контент придется платить.

Наивные чукотские копирасты. Что один раз утекло, то из интернетов выковырять уже не получится.

anonymous
()

Кстати очень интересно. 
Например про 17 год почитать..

Russia Under The Bolshevists
Russia in revolution.

:-)

tugrik ★★
()
Ответ на: комментарий от ddevil

На всякий случай, наверное, стоит добавить чонить типа:
--user-agent="Mozilla/4.0 (compatible; MSIE 5.5; Windows 98)"

anonymous
()

ну что? кто-нибудь добился успеха?

у меня не получилось...

ЗЫ: с офтопика вообще не качается...

с линукса... удалось скачать несколько страниц... значит шансы есть

delilen ★☆
() автор топика

The registration symbol indicates which articles you can access only if you are registered

Капец. Пусть подавяццо.

anonymous
()
Ответ на: комментарий от anonymous

а что login\pass anonymous\anonymous поставить не дано?

delilen ★☆
() автор топика
Ответ на: комментарий от anonymous

>но опасаюсь что меня через пару суток забанят

У меня канал очень быстрый... успею, наверное..

delilen ★☆
() автор топика
Ответ на: комментарий от delilen

ок, ждём торрент в пиратской бухте :D

anonymous
()

Хо-хо, уж не знаю, то ли они поняли всю бесполезность регистрации,
то ли у них просто что-то сломалось (ЛОР-эффект?), 
но теперь картинки можно тупо лить wget-ом.

У кого там канал быстрый и места на диске много?
Ловите наваянный на коленке скриптик :)
Вместо YEAR подставьте любой по желанию.

#!/bin/sh

YEAR=1966
for MONTH in `seq 1 12` ; do 
 for DAY in `seq 1 31` ; do 
  MONTH2=`printf %02d $MONTH`
  DAY2=`printf %02d $DAY`
  if date --date="$YEAR$MONTH2$DAY2" >/dev/null 2>/dev/null ; then
   for PAGE in `seq 1 50` ; do # ordinary issue have 26 pages, 50 here just to be safe
    MONTHNAME=`LANG=C date --date="$YEAR$MONTH2$DAY2" +%b | tr [:lower:] [:upper:]`
    PAGE2=`printf %02d $PAGE`
    URL=http://archive.timesonline.co.uk/archiveimg/paid/$YEAR/$MONTH2/$DAY2/$PAGE2
/0FFO-$YEAR-$MONTHNAME$DAY2-0$PAGE2-50.jpg 
    wget -c $URL
   done
  fi
 done
done 

mad_soft
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.