LINUX.ORG.RU
ФорумTalks

Десктопные поисковики не нужны.


0

0

У них у всех наблюдается пренеприятная антифича: они подолгу молотят твой жесткий диск, кушая ценные ресурсы системы, так, что нормально работать на ней не представляется возможным, с целью «обновить индексы».

Но при этом, мля, у меня столько информации, что «обновление» (которое впору бы назвать полной перезаливкой) занимает по полдня.

Вот и нафиг упало такое счастье? Добавим ко всему, что некоторые примочки работают только с Beagle, другие только со Strigi, третьи только со Swish++.

Короче говоря, без единого API на полнотекстовый поиск, который обеспечит возможность прикрутить любой поддерживающий его движок для всей системы, десктопные поисковики суть непомерный расход времени без большой пользы именно на тех системах, где они нужнее всего (читай, где многогигабайтный срач в /home, как у меня).

Dixi.

★★★★★

>многогигабайтный срач в /home

К гастро-энтерологу, быдло!

anonymous
()

>У них у всех наблюдается пренеприятная антифича: они подолгу молотят твой жесткий диск, кушая ценные ресурсы системы, так, что нормально работать на ней не представляется возможным, с целью «обновить индексы».

у меня не молотят. Что я делаю не так?

geek ★★★
()

Ни Spotlight ни Google не доставляют мне никаких неприятностей.

Shaman007 ★★★★★
()
Ответ на: комментарий от saahriktu

>Для поиска нужной инфы на винте юзаю grep.

+1

find /|grep полностью хватает

amoralyrr ★☆
()

>>только с Beagle, другие только со Strigi, третьи только со Swish++.

Хорошая тема для флейма (или опроса).

Мне лично нравится Namazu. Обновление баз происходит по запросу (надо ли новорить, что этот запрос выдается по cron-ом). Обновление происходит по заданному набору директорий, причем переиндексируются только вновь добавленные файлы.

В качестве интерфейса использую tknamazu. Помимо своей хардкорности, свойственной всем tk-приложениям, из недостатков вижу только неумение рыться внутри файлы и выбирать подходящие запросу цитаты (насколько я понимаю, этим занимается фронтенд, а не движок ?). Вместо этого он показывает только 1000 символов из начала файла.
Проблем с русскими/английскими текстами у него нет, если xpdf настроен правильно. Ищет в pdf/ps/html/dvi/txt.
Когда я выбирал поисковик, то Swish мне сразу очень сильно не понравился (отсутствовал хоть какой-то контекст поиска). Beagle со своим демоном - полный абсурд. Strigi - это, насколько я понимаю, движок Xapian. Но у него мне не понравилось отсутствие устраивающего меня интерфейса.

mk
()
Ответ на: комментарий от Shaman007

Надо не помойку создавать, которую потом мужественно разгребать с помощью экскаваторов, а тренировать память. Для писем помнить хотя ба автора и примерную дату, для музыки опять же исполнителя и ещё какой-нибудь параметр.

А если запросы выглядят как "Ну как его ... этого ... ну на "к", поэт такой... наше всё который... Пушкин, точно!" - ни один бигль не поможет, только лоботомия.

Xellos ★★★★★
()
Ответ на: комментарий от Shaman007

>saahriktu, отгрепай мне письма и PDFки. А еще музло и изображения по метаданным.

Да лехко:

find . -name *.pdf -exec pdftotext '{}' - \; | grep [Чаго тебе надо]

По аналогии можно сделать и музло с доками.

А нормальный почтовый клиент он и так поиск имеет, либо вы, господа, почту храните в виде .eml файлов? :-)))

ЗЫ. По сабжу "Десктопные поисковики не нужны!"

sabonez ★☆☆☆
()
Ответ на: комментарий от Xellos

+1, я уже высказывался в теме со скриншотом про трекер, меня почему-то дурачком посчитали. Элементарно не разводить срач, и все отлично ищется grep/find, а поиск по pdf, мне кажется это лишним, все что у меня есть я приблизительно знаю, так что с поиском нужной информации, втч и по книгам/статьям, проблем не возникает.

defmacro
()

По моему, десктопный поисковик должен не молотить диск, а оправшивать запущенные приложения. Браузер должен быстро и правильно искать по своей истории/кэшу (Опера 9.5, например), а музыкальный плеер уже умеет искать музыкальные композиции. Так что каждое приложение должно предоставлять системе свой узкоспециализированный движок поиска. Тогда заодно в результатах поиска будут только пользовательские файлы, а не ненужные системные. Как-то это неправильно, когда поисковый движок парсит каждый файл самостоятельно или с помощью костыля-плугина.

anonymfus ★★★★
()
Ответ на: комментарий от mk

>pdftotext *.pdf - | grep something

для примера:

$ls -l *.pdf | wc -l
89


$ time for i in *.pdf; do pdftotext $i | grep -i linux; done
[куча говна поскипана]

real 1m19.909s
user 1m3.904s
sys 0m2.712s


тебе время девать некуда?



geek ★★★
()
Ответ на: комментарий от mk

> А бардак в /usr/share/doc?

А можно поподробней на счет бардака? У меня почему-то там бардака нет. Если мне надо документация к пакету, то я точно знаю что она лежит в /usr/share/doc/mazafakapackage/, примеры конфигов/программ /usr/share/doc/mazafakapackage/examples/. Причем это в 99.9% случаев.

defmacro
()
Ответ на: комментарий от anonymfus

>>Так что каждое приложение должно предоставлять системе свой узкоспециализированный движок поиска.

Нехилые у вас запросы. Когда каждое приложение вместо файловой системы будет хранить данные в каталоге/базе данных, тогда появится предмет для разговора.

mk
()
Ответ на: комментарий от sabonez

>Да лехко:

посмотри, сколько времени это занимает. Если для тебя это нормально - значит ты безработный неудачник, которому не на что тратить своё время

geek ★★★
()
Ответ на: комментарий от mk

> А бардак в /usr/share/doc?

У тебя там может и бардак, а у меня всё что там есть прекрасно по названию ищется ... ибо полный порядок.

r_asian ★☆☆
()
Ответ на: комментарий от geek

Ты блин, долбаный занятой директор, у тебя основное время тратица на вывод в консоль, загони вывод поскипаной кучи говна в файл и удивись, ламо.

sabonez ★☆☆☆
()

Работает, не напрягает. Говорят, при обновлении системы до Леопарда минут десять переиндексирует. Сам пока не проверял.

Miguel ★★★★★
()
Ответ на: комментарий от defmacro

Наберите ls /usr/share/doc/gtk и дополните табом. Нет, говорите, бардака?

mk
()

Немного не так:
Распределенные поисковые системы, основанные на определенной политике доверия - это будущее Интернета (c) imho

pacify ★★★★★
()

Единый API (очевидно, dbus-based) было бы круто иметь. Но в реальности это проблема не самого высокого приоритета - все-таки у каждого человека ОДИН поисковик на десктопе. Намного более противная проблема - то, что есть куча приложений со своим, нигде не документированным способом хранения данных. Например, Ево в этом смысле не очень дружественна (разработчики поисковиков на гвадеке ругались).

find/grep даже обсуждать не стоит - коль скоро мир не пошел по униховому пути и не стал сохранять все в виде текста.

svu ★★★★★
()
Ответ на: комментарий от Xellos

Внутри каталога отвечающего нужной вам программе/библиотеке. Даже если вам название известно.
Да и мало ли, что я могу искать. Мне вдруг захотелось узнать про Postscript и про всё что у меня есть в системе, что имеет к нему отношение.

mk
()
Ответ на: комментарий от sabonez

>Ты блин, долбаный занятой директор, у тебя основное время тратица на вывод в консоль, загони вывод поскипаной кучи говна в файл и удивись, ламо.

а, так тебе нравится, когда тебя мордой в твоё же дерьмо тыкают?

$ time for i in *.pdf; do pdftotext $i | grep -i linux; done 2>/dev/null

real 1m15.003s
user 1m5.568s
sys 0m2.688s


приятного аппетита, ламерок

geek ★★★
()
Ответ на: комментарий от mk

>Мне вдруг захотелось узнать про Postscript и про всё что у меня есть в системе, что имеет к нему отношение

То есть "тот самый, на букву "к". У вас в системе ДОХРЕНА всего имеет отношение к postscript. Даже LPT-порт имеет к нему некоторое отношение.

Xellos ★★★★★
()
Ответ на: комментарий от geek

У тебя пропатченный pdftotext, умеющий делать OCR и понимающий юникод?

pacify ★★★★★
()
Ответ на: комментарий от Xellos

> Надо не помойку создавать, которую потом мужественно разгребать с помощью экскаваторов, а тренировать память. Для писем помнить хотя ба автора и примерную дату, для музыки опять же исполнителя и ещё какой-нибудь параметр.

При чем тут помойка? Какая память? У меня есть 200Гб идеально отсортированных MP3, но в поиске 1го файлика их просматривать какой-то программой - идиотизм. Гораздо проще по хоткею вызвать Beagle/Google/Spotlight и мгновенно его найти. То же самое с почтой - у меня почти сто тысяч важных сообщений в ящике (тоже все отсортировано, иначе никакой поиск не спасет) - пара слов из того, что мне надо найти и все готово. Просто grep не удобен, когда большой масштаб поля поиска - все равно что google пойдет по твоему запросу лопатить сайты вместо того, чтобы обратиться к собственной базе.

Shaman007 ★★★★★
()
Ответ на: комментарий от mk

Какая разница, в чём хранит? Офис уже умеет парсить документы — вот пусть и делает это для поиска. Ведь код для поиска как перебора файлов значительно проще, чем их парсинг. Следовательно, парсинг ни в коем случае не должен дублироваться в разных компонентах системы. Следовательно, каждое приложение, если уж оно не осуществляет индексацию само, должно по крайней мере предоставлять возможность для поиска внутри файла понимаемого им формата и построения списка слов на его основе. А сам поисковик пусть перебирает файлы и обращается для каждого из них к соответствующему приложению.

anonymfus ★★★★
()
Ответ на: комментарий от Xellos

Я не говорю, что это панацея от всех бед. Это просто костыль, но при этом удобный костыль, коль скоро файловая система предоставляет простой доступ к метаданным, но не самим данным.
Учить пользователя жизни - задача интересная, но не плодотворная.

mk
()
Ответ на: комментарий от geek

Да ты, баклан, еще и трепло:

do pdftotext $i | grep -i linux

Никуя не будет ето работать, догадайся почему. Иди раскладку настраивай.

sabonez ★☆☆☆
()
Ответ на: комментарий от Shaman007

>в поиске 1го файлика их просматривать какой-то программой - идиотизм

Почему это? Почему идиотизм пользоваться каталогом, раз уж он есть? Давайте отменим иерархическую ФС, поисковики рулят! пара слов и всё готово!

>у меня почти сто тысяч важных сообщений в ящик

И как ведётся поиск по "паре слов"? Среди всех ста тысяч? Или среди двух-трёх десятков в одной категории?

Xellos ★★★★★
()
Ответ на: комментарий от Shaman007

А что, уже Леопарднулсо? Мне чоль скачать (правда, тащить 10 гигов ломает, чтобы только посмотреть и перегрузиться обратно в убунту)...

svu ★★★★★
()
Ответ на: комментарий от mk

>Это просто костыль, но при этом удобный костыль

Костыль - он и есть КОСТЫЛЬ, независимо от его удобства. Повторяю - что вам надо искать? Если "всё что имеет отношение к postscript" - то надо не искать, а либо сделать лоботомию, либо читать статью про постскрипт и узнавать из неё действительно полезную информацию и действительно полезные ссылки.

Xellos ★★★★★
()
Ответ на: комментарий от Shaman007

Да что ж за народ:

sabonez@sabonez:~/Documents/Интернет_отчеты> ls -l *.pdf | wc -l

10

sabonez@sabonez:~/Documents/Интернет_отчеты> time for i in *.pdf; do pdftotext ${i} - | grep 2007 > out.txt; done

real 0m1.975s user 0m1.820s sys 0m0.064s

Ну пускай линейно время увеличится с количеством в 9 раз.

sabonez ★☆☆☆
()
Ответ на: комментарий от Xellos

> Почему это? Почему идиотизм пользоваться каталогом, раз уж он есть? Давайте отменим иерархическую ФС, поисковики рулят! пара слов и всё готово!

Ну-ка, расскажи мне про иерархическую ос, которая позволит найти грепом музыку Atari Teenage Riot в ситле GrindCorePunk, которую я пометил 3 звездами и слушал более 2 раз?

> И как ведётся поиск по "паре слов"? Среди всех ста тысяч? Или среди двух-трёх десятков в одной категории?

Среди всех 100к. Пример из реальной жизни, когда надо было найти все письма связанные с тем, передавался ли нужной компании определенный файлик (название его не помню): "Имя_компании+Имя_автора_файла+Временной_промежуток" - результат 20 писем из которых 15 искомых, в одном из них сразу виден файл (скрепкой). Да, я знаю как это делать из командной строки, но я не упражняюсь в баше, а письмо ищу.

Shaman007 ★★★★★
()
Ответ на: комментарий от sabonez

> долбаный занятой директор

Вы что-то путаете, он Official Gnome Foundation Troll

zodiac ★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.