LINUX.ORG.RU

как поискать в интернете?

 ,


0

1

хочется замутить свой маленький и костыльный поиск очень узкоспециализированной инфы.

т.е. как: я говорю «начни отсюда и по графу вниз, найди чтоб было похоже вот на это и ответь мне на пару простых вопросов».

проиндексировать pdf, doc --- маст хев, всякие tiff конечно сложнее, но тоже было бы очень мило, хотя бы простые.

и собсно вопрос: как? :)

пока вот нашелся nutch, есть с ним история успеха?

что еще сейчас в моде?

пишешь краулер, выкачанное краулером парсишь по необходимости соответствующими либами (если это PDF например - нужна жабная либа для работы с PDF), кладешь в какой-нибудь Splunk или Elasticsearch (считая каждый файл отдельным евентом?), ищешь, всё.

stevejobs ★★★★☆
()
Последнее исправление: stevejobs (всего исправлений: 1)
Ответ на: комментарий от stevejobs

пишешь краулер

ну так я и говорю: их и так должно быть чуть больше чем дофига, например этот nutch :)

пока его и теребонькаю, но вдруг это аццкий оверхед и есть попроще?

Rastafarra ★★★★
() автор топика

есть API от гугла, например.

bvn13 ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.