LINUX.ORG.RU

Список памятных дат


0

0

Я не веб-программист, поэтому спрошу помоши. Кто-нибудь может написать простенькую прогу, чтобы обошла все страницы вида http://ru.wikipedia.org/wiki/10_июня, и собрала из них список праздников, дни рождений знаменитых людей (дни смерти не надо) и др. памятных дат. Мне нужен не сам скрипт, а выходной его файл с датами. Кто-нибудь может это написать? Думаю, скрипт простой должен быть...

Заранее спасибо. С коммерческими предложениями не беспокоить.


Ответ на: комментарий от MrHouse

Я знаю. Просто там этот вопрос был задан в ходе другой темы. Многие, кто мог бы помочь, прочитали начало темы и ушли. Поэтому я и выделил вопрос отдельно.

paxac
() автор топика

>С коммерческими предложениями не беспокоить.

Так а какого черта-то кто-то что-то писать-то будет-то?

BSD
()
Ответ на: комментарий от BSD

Ну есть люди, которые могут писать программы для развлечения. И более того, есть люди, которе безвозмездно помогают другим людям. Вам этого не понять, видимо.

Ладно, я похоже не туда обратился. Быстрее будет выучить основы какого-нибудь пхп и написать эти чертовы 5 строчек (не думаю, что эта программулина будет больше).

paxac
() автор топика
Ответ на: комментарий от alg0rythm

Об этом я писал в другой теме, на которую MrHouse уже давал ссылку.

paxac
() автор топика

Строчек будет все-таки не 5.

Кроме того, Википедия в каком-то месте настоятельно просила не обходить страницы ботами (ну, кроме собственно редактирующих Википедию), а скачать дамп БД (http://meta.wikimedia.org/wiki/Dump) и парсить его.

proud_anon ★★★★★
()
Ответ на: комментарий от proud_anon

> Строчек будет все-таки не 5.

Да. Вы правы. Получилось 7.

Еще раз утвердился в мнении, что на ЛОРе приемущественно обитают тролли, графоманы, коммерческие виндвовозники и красноглазые школьники с татуировкой убунту на заднице. За 20 минут даже я (не программист и вообще туповатый паренек) написал на bash'e (php не стал зря учить) скрипт в 7 строк, который через date+sed+wget сделал всё, что мне нужно. Позор «программистам».

Википедия в каком-то месте настоятельно просила не обходить страницы ботами (ну, кроме собственно редактирующих Википедию


Ой, да какой там бот. Всего то зайти однократно на странички и скачать их. Вики этого и не заметился даже.

а скачать дамп БД (http://meta.wikimedia.org/wiki/Dump) и парсить его.


Нет, спасибо. Я ещё в своём уме пока. Терабайтные файлы качать, а потом их парсить целый день на моём древнем 800мгц селероне — увольте.

paxac
() автор топика
Ответ на: комментарий от paxac

Еще раз утвердился в мнении, что на ЛОРе приемущественно обитают тролли...

я (не программист и вообще туповатый паренек) написал на bash'e

Они просто вас кинули в воду чтобы научить плавать, сурово, но действенно.

anonymous
()
Ответ на: комментарий от paxac

>Ну есть люди, которые могут писать программы для развлечения. И более того, есть люди, которе безвозмездно помогают другим людям. Вам этого не понять, видимо.

Понять. Я сам во многом альтруист, но считаю что лучше бы вы выучили как это делается и получили бесценный опыт. Я если не могу настроить какие-то правила в файрволле/маршрутизацию/etc обращаюсь к людям за СОВЕТОМ в последнюю очередь, пытаюсь все сделать сам и получить этот пресловутый опыт. Я не прошу людей написать мне конфиг. Я прошу дать совет. А вы, судя по всему, эгоист, и не понимаете что у людей есть гораздо более важные дела.

Ладно, я похоже не туда обратился. Быстрее будет выучить основы какого-нибудь пхп и написать эти чертовы 5 строчек (не думаю, что эта программулина будет больше).

Вот так надо сразу же, прежде чем обращаться к людям с просьбой. Вы даже не пробовали.

Могу посоветовать calendar из FreeBSD. Содержит все праздники и великие события.

BSD
()
Ответ на: комментарий от paxac

>Да. Вы правы. Получилось 7.

Серьезно, хватило 7? Я бы так не смог. Нет, честно.

Не могли бы запостить этот скрипт? Я ни в коем случае не хочу вас унизить или что, я действительно не смог бы вот так сразу написать скрипт в 7 строк, чтобы это сделать, и потому хотел бы посмотреть, как это делается.

proud_anon ★★★★★
()
Ответ на: комментарий от proud_anon
#!/bin/sh
for m in `seq 1 12`; do
  for d in `seq 1 31`; do
    page=$(date '+%d_%B' -d "$m/$d" | sed 's/^0//;s/[йь]$/я/;s/т$/та/;y/ЯФМАИСОНД/яфмаисонд/')
    echo wget -O "$m$d" "http://ru.wikipedia.org/wiki/$page"
  done
done
paxac
() автор топика
Ответ на: комментарий от paxac

пардон, там echo в 4-й строчке лишнее. Это от тестирования осталось.

paxac
() автор топика
Ответ на: комментарий от proud_anon

Это уже дело десятое. Мне нужны были самы файлы, в которых лежат даты. А выдирание из них дат и сохранение в мою базу в нужном формате — это уже другое дело, думаю там тоже легко будет. Может даже sed'а хватит.

Кстати, не знаете случайно, чем можно перевести html -> txt?

paxac
() автор топика
Ответ на: комментарий от paxac

Кстати, не знаете случайно, чем можно перевести html -> txt?

Внезапно, html2text. Ещё можно попробовать xml2 — но тут немного другой стиль работы — теги сохраняются в формате, пригодном для обработки классическими утилитами-фильтрами.

GotF ★★★★★
()
Ответ на: комментарий от paxac

>Это уже дело десятое.
А, так вы бы тогда так и написали, вашу проблему бы решили. Выдирать списки какбэ труднее, чем скачать несколько страниц, потому посетители ресурса и не были готовы вам с этим помочь.

Кстати, не знаете случайно, чем можно перевести html -> txt?


Например, html2text. А если не подходит, поищите в репозитории по слову «html», там много утилит для разных преобразований.

proud_anon ★★★★★
()
Ответ на: комментарий от GotF

О, спс. Только lynx чего-то лишнее вставляет в [] скобках. Поэтому я на w3m -dump заменил. Работает.

paxac
() автор топика
Ответ на: комментарий от proud_anon

> А, так вы бы тогда так и написали

Я думал это подразумевалось, раз я не сказал в первом посте формат выходного файла. Т. е. нужны были только «сорцы», из которых я бы взял то, что нужно.

вашу проблему бы решили.


Ага, конечно. Так и ринулись бы все.

paxac
() автор топика
Ответ на: комментарий от paxac

Ага, конечно. Так и ринулись бы все.

Запросто. Если парсер не писать, а просто скачать страницы. Вот на это я угробил часа три-четыре, ЕМНИП — там совсем другое дело.

GotF ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.