LINUX.ORG.RU
ФорумTalks

Реквестирую список интересных и полезных сайтов для индексации с помощью YaCy

 ,


0

1

В общем, после допиливания YaCy я могу выделить несколько сотен Гб для индекса и несколько Гб RAM для самого клиента, в будущем будет ещё больше клиентов YaCy в разных точках страны и в других странах, и ещё больше места под индекс.

Реквестирую список сайтов, которые вы хотели бы видеть проиндексированными в YaCy.

Я уже начал индексацию

24tv.ua
linux.org.ru
pornolab.net
free-torrents.org
rutracker.org
wikipedia.org
habrahabr.ru
stackoverflow.com

// и несколько личных и местных сайтов

★★★★★

Последнее исправление: Chaser_Andrey (всего исправлений: 1)

Проиндексировать antizapret.info уже предлагали?

Sadler ★★★
()
Ответ на: комментарий от Chaser_Andrey

Я думал ты сам наваял..., тогда не интересно.

xwicked ★★☆
()

http://www.urbandictionary.com и/или другие подобные, чтобы можно было забить в строку поиска «some_slang_word meaning» и найти подробную информацию по нему.

exabikakad
()
Ответ на: комментарий от Satou

С индексацией глубокого интернета с помощью YaCy сейчас проблемно, потому что он не умеет прокси. Но в теории, его можно запустить в LXC-контейнере, и сделать прозрачное проксирование (потому что я не хочу прозрачное проксирование в на целом десктопе).

Chaser_Andrey ★★★★★
() автор топика

список сайтов, которые вы хотели бы видеть проиндексированными в YaCy.

Законодательства стран мира (для каждой страны)
Учебники по всем предметам школьной и вузовской программы на русском, английском и китайском языках
Форумы по робототехнике, нанотехнологиям, биотехнологиям.
Сайты по ИИ

StrongDollar
()

Википедию зря начал, ты её год будешь индексировать в одиночку.

Проиндексируй лор. Я пока только вики DF поставил, и то уже несколько часов идёт.

vurdalak ★★★★★
()
Ответ на: комментарий от StrongDollar

Ссылки, сслылки, пожалуйста. Если ещё офф.сайты стран можно нагуглить и глянуть в вики, то я не могу судить, какие есть нормальные форумы по вышеуказанным технологиям.

Chaser_Andrey ★★★★★
() автор топика
Ответ на: комментарий от vurdalak

Википедию зря начал, ты её год будешь индексировать в одиночку.

Зато ресурсы не будут простаивать. Хотя, наверное, стоит отменить индексацию, и начать заново, но с remote indexing, чтобы можно было запрашивать помощь у других пиров.

Chaser_Andrey ★★★★★
() автор топика
Ответ на: комментарий от Chaser_Andrey

Зато ресурсы не будут простаивать.

Чем это хорошо? Ты же за электричество платишь. Ладно я индексирую свой сайт, это лично мне нужно. Но индексить педивикию, которая заведомо никогда не проиндексируется (ибо за время построения полного индекса много статей уже поменяются)...

vurdalak ★★★★★
()
Ответ на: комментарий от vurdalak

У меня комп работает 24/7, все свободные ресурсы утилизируются с помощью BOINC. Здесь же шанс ещё и задействовать винчестеры и оперативную память.

Chaser_Andrey ★★★★★
() автор топика
Ответ на: комментарий от trex6

Реквестирую список интересных и полезных сайтов для индексации с помощью YaCy (комментарий)

Более того, лично я не в курсе, что котируется из русскоязычных учебников, так как я не учился по ним. Поэтому прошу ссылок.

Chaser_Andrey ★★★★★
() автор топика
Последнее исправление: Chaser_Andrey (всего исправлений: 1)

Ещё предлагаю опеннет индексить, я уже начал.

Алсо, как раздавать запросы на crawl? Я нашёл где включается remote crawl извне ко мне, но не от меня вовне.

vurdalak ★★★★★
()
Ответ на: комментарий от vurdalak

опеннет

Осторожно. Я уже вырубил, а то меня временно там забанили за частые соединения. Надо возобновить, но уменьшив частоту, наверное, до нескольких запросов в минуту.

Алсо, как раздавать запросы на crawl?

Заходишь в http://localhost:8090/CrawlStartSite_p.html (Crawler / Harvester), там есть вкладка http://localhost:8090/CrawlStartExpert_p.html (Crawl Start (Expert)). Ищешь «Do Remote Indexing» и включаешь галочку, по желанию можешь оставить там описание. Попробуй, а я посмотрю, появится ли у меня задания)

Только я пока не разобрался, как ограничивать PPM (page per minute) для отдельной задачи (job) или для отдельного домена.

Chaser_Andrey ★★★★★
() автор топика
Последнее исправление: Chaser_Andrey (всего исправлений: 1)
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.