LINUX.ORG.RU
ФорумTalks

Десктопные поисковики не нужны.


0

0

У них у всех наблюдается пренеприятная антифича: они подолгу молотят твой жесткий диск, кушая ценные ресурсы системы, так, что нормально работать на ней не представляется возможным, с целью «обновить индексы».

Но при этом, мля, у меня столько информации, что «обновление» (которое впору бы назвать полной перезаливкой) занимает по полдня.

Вот и нафиг упало такое счастье? Добавим ко всему, что некоторые примочки работают только с Beagle, другие только со Strigi, третьи только со Swish++.

Короче говоря, без единого API на полнотекстовый поиск, который обеспечит возможность прикрутить любой поддерживающий его движок для всей системы, десктопные поисковики суть непомерный расход времени без большой пользы именно на тех системах, где они нужнее всего (читай, где многогигабайтный срач в /home, как у меня).

Dixi.

★★★★★
Ответ на: комментарий от sabonez

>Да ты, баклан, еще и трепло:

стоп-стоп. Это не мой рецепт. И почему трепло, если даже на холостом ходу pdftotext и grep сосут причмокивая?

>Никуя не будет ето работать, догадайся почему. Иди раскладку настраивай.

Давай рабочий вариант, который будет быстрее. У меня получилось вот что:

$time for i in *.pdf; do pdftotext $i && cat `echo $i | sed -e 's!pdf!txt!'` | grep -i linux; done 2>/dev/null > /dev/null

real 1m18.647s
user 1m8.744s
sys 0m2.832s

приятного аппетита ещё раз. Не подавись ;)

geek ★★★
()
Ответ на: комментарий от Xellos

Что ты прицепился к плохому примеру? Локальный поисковик нужен, потому, что КАЖДЫЙ раз сканировать все файлы на предмет наличия в них нужной инфы не продуктивно, а вот спросить об этом кэш, который пополняется в моменты бездействия компа совсем наоборот вне зависимости от того бардак или нет. Мне по ФС дольше идти, чем найти файл поиском. Понимаешь, дольше!

Shaman007 ★★★★★
()
Ответ на: комментарий от Xellos

Ксилос - не сканадальте.
Потсковики - нормальный способ получения информации, пусть даже в начальной стадии, от которой уже можно начинать рыть в нужном направлении. Если я не могу сделать нормальный поиск по маске в данных, которые находятся в моей файловой системе, то я использую поисковики. Мне пофиг, что кто-то считает этот способ некошерным.

mk
()
Ответ на: комментарий от sabonez

>Хде? Гик 90 файлов показал, я 10. И чего ето доказывает?

кде, да? :)

geek ★★★
()
Ответ на: комментарий от Xellos

И что? Типа кто не помнит имя каждого файла на своем компе дурак? Наверное, закладок в браузере у тебя тоже нет, автокомплит отключен и все кеши тоже? Вообще, сделай следующий шаг, откажись от компьютера вообще, помни все наизусть.

Shaman007 ★★★★★
()
Ответ на: комментарий от geek

Епт:

pdftotext $i - !!!

На холостом ходу не будет работать grep. Хотя,истины ради надо заметить, что так получится даже быстрее.

Но, ИМХО, тащить поисковик в систему ради таких задач - ЗЛО.

sabonez ★☆☆☆
()
Ответ на: комментарий от Shaman007

> Локальный поисковик нужен, потому, что КАЖДЫЙ раз сканировать все файлы на предмет наличия в них нужной инфы не продуктивно, а вот спросить об этом кэш, который пополняется в моменты бездействия компа совсем наоборот вне зависимости от того бардак или нет.

Я вот например не использую локальный поисковик, т.к. одна только тех. документация весит почти 4 гига. А там и pdf и html и чего только нет. Индекс будет огромен.

Igron ★★★★★
()
Ответ на: комментарий от sabonez

>Но, ИМХО, тащить поисковик в систему ради таких задач - ЗЛО.

чудик, ты вообще знаешь, то комп - это средство автоматизации труда? Зачем вручную делать то, что можно поручить компу?

geek ★★★
()
Ответ на: комментарий от sabonez

>А ты покажь время индексирования?

индексирование выполняется в фоне по факту появления файла в системе/или изменения. Всё

geek ★★★
()

Как-то поставил QEMU, сделал виртуальный диск в ~, и... Половина процессорного времени отдавалась биглу, только вторая - QEMU.

anonymous
()
Ответ на: комментарий от geek

> чудик, ты вообще знаешь, то комп - это средство автоматизации труда?
> Зачем вручную делать то, что можно поручить компу?

Громатей, комп - не автоматическая система, а автоматизированная.
И не тебе решать, что пользователь хочет поручить компу.

pacify ★★★★★
()
Ответ на: комментарий от anonymous

В OS Linux (да и в других), есть такая чудесная функция, называется "изменение приоритета процесса".

Shaman007 ★★★★★
()
Ответ на: комментарий от pacify

> И не тебе решать, что пользователь хочет поручить компу.

Эээээ... Даже если сам гик - пользователь? Он же наверняка иногда таковым бывает, правда?;)

svu ★★★★★
()
Ответ на: комментарий от pacify

>Громатей, комп - не автоматическая система, а автоматизированная.

ты дурак, или тоже кдешник? Покажи пальчиком, где я написал, что комп - это "автоматическая система". Ну и заодно объясни разницу между "автоматической системой" и "автоматизированной системой".

geek ★★★
()
Ответ на: комментарий от geek

> мегабайт 20

Уговорил, я врубил trackerd, посмотрим через какое время можно будет пользоваться и сколько оно будет жрать.

Igron ★★★★★
()
Ответ на: комментарий от defmacro

У меня уже около 2х сотен IT статей. Срача нет. Через 2-3 месяца будет еще около 2х сотен. Плюс дойдут книги, сканы книжек и журналов.

Как мне в них _эффективно_ искать ключевые фразы?

anonymousI
()
Ответ на: комментарий от anonymousI

>Как мне в них _эффективно_ искать ключевые фразы?

тренируй память. Вон, ксилос прекрасно помнит, где лежат все его пять файлов. И сабонез тоже прекрасно ориентируется в десяти. Значит и ты сможешь запомнить содержание жалкой пары сотен статей. Это же очевидно! (ц) Коминтерн

geek ★★★
()
Ответ на: комментарий от geek

> ты дурак, или тоже кдешник?

Это философский вопрос.

> Покажи пальчиком, где я написал, что комп - это "автоматическая система".

Ты этого не писал, так как не знаешь, что такое автоматическая информационная система.

> Ну и заодно объясни разницу между "автоматической системой" и "автоматизированной системой".

Смотри ГОСТ на АИС и подобную литературу.
Автоматическая система работает без участия человека.
Точнее сказать не могу, так как занимался этим лет пять назад, уже подзабыл.

pacify ★★★★★
()
Ответ на: комментарий от mk

Можешь дать пример RFC с описанием какого-нибудь API?.

И разве в RFC не оформляют только что-нибудь, имеющее хотя бы отдалённое отношение к связи?

anonymfus ★★★★
()
Ответ на: комментарий от anonymousI

На правах рекламы:

Для проведения тестирования быстродействия локальных поисковых систем быстро, качественно и недорого разведу срач в /home, /usr/share/home и в любом другом месте на HDD за отдельную плату (с предоставлением соотв уровня доступа). Оплата за вонючую кучу целиком или помегабайтно.

:-)

r_asian ★☆☆
()
Ответ на: комментарий от geek

Определение автоматизированной информационной системы разжевано на Википедии:
http://ru.wikipedia.org/wiki/%D0%90%D0%B2%D1%82%D0%BE%D0%BC%D0%B0%D1%82%D0%B8...
Там же есть ссылки на официальное толкование этого термина:
Правовые акты РФ

* ГОСТ 34.003—90 Информационная технология. Комплекс стандартов на автоматизированные системы. Автоматизированные системы. Термины и определения

pacify ★★★★★
()
Ответ на: комментарий от pacify

>Ты этого не писал, так как не знаешь, что такое автоматическая информационная система.

ты телепат, да?

>Автоматическая система работает без участия человека.

у меня пара десятков компов работают без участия человека вообще.

в общем, я понял - тебе просто вякнуть что-нибудь хотелось

geek ★★★
()
Ответ на: комментарий от anonymfus

Связь - понятие растяжимое. Вы пытаетесь наложить стандарт на _протокол_ обмена данными. Пусть стандарт и невормальный, но вы должны быть уверены, что против него нет хотябы неформальных возражений.

mk
()
Ответ на: комментарий от pacify

>Ты этого не писал

я вот к чему клоню:

>Громатей, комп - не автоматическая система, а автоматизированная.

так писал, или не писал? Или у тебя просто полушария моска между собой договориться не могут?

geek ★★★
()
Ответ на: комментарий от geek

>>Ты этого не писал, так как не знаешь, что такое автоматическая информационная система.
> ты телепат, да?

Нет, просто беру с тебя пример.

> у меня пара десятков компов работают без участия человека вообще.

Уже смешно. Ты хоть программировать-то умеешь?

pacify ★★★★★
()
Ответ на: комментарий от pacify

>Нет, просто беру с тебя пример.

плохо берешь. Бери лучше. Начнем с малого.Скажи "кде - говно!"

>Уже смешно. Ты хоть программировать-то умеешь?

опять сказать нечего?

geek ★★★
()
Ответ на: комментарий от geek

>>Нет, просто беру с тебя пример.
> плохо берешь. Бери лучше. Начнем с малого.Скажи "кде - говно!"

Одно дело - сказать, другое - сделать.

>>Уже смешно. Ты хоть программировать-то умеешь?
> опять сказать нечего?

Я сказал уже достаточно для твоего дальнейшего саморазвития.
Начни хотя бы с малого - научись программировать.

pacify ★★★★★
()

DBFS решат эту проблему.

...

Пока - потенциально проблему могли бы решить приложения уровня rlocate. Только не с мгновенной индексацией модифицированного файла, а с отложенной, в ближайший момент простоя машины. И без тормозов бы было, и без лишних переиндексаций.

KRoN73 ★★★★★
()
Ответ на: комментарий от anonymfus

> Следовательно, каждое приложение, если уж оно не осуществляет
> индексацию само, должно по крайней мере предоставлять возможность для
> поиска внутри файла понимаемого им формата и построения списка слов
> на его основе. А сам поисковик пусть перебирает файлы и обращается
> для каждого из них к соответствующему приложению.

Очень здравая мысль.
Где можно почитать про эти твои предложения поподробнее?
Может распишешь на своем сайте?

pacify ★★★★★
()
Ответ на: комментарий от pacify

>Одно дело - сказать, другое - сделать.

уже сделали =)

ты про полушария вопрос сознательно игнорируешь?

>Я сказал уже достаточно для твоего дальнейшего саморазвития. Начни хотя бы с малого - научись программировать.

начни с малого - объясни каким боком различие между терминами "автоматическая" и "автоматизированная" свидетельствует в пользу ненужности индексаторов. А то я твой поток сознания ниасиливаю

geek ★★★
()
Ответ на: комментарий от geek

> тренируй память. Вон, ксилос прекрасно помнит, где лежат все его пять файлов. И сабонез тоже прекрасно ориентируется в десяти. Значит и ты сможешь запомнить содержание жалкой пары сотен статей.

Я вот не понимаю каким образом поисковик поможет при поиске в отсканеных книгах, коих у меня большинство (из книг).

defmacro@sandbox ~ $ find pub0/doc/ -type f | grep -E "pdf|djvu|html|htm|txt" | wc -l
19725

defmacro
()
Ответ на: комментарий от defmacro

>Я вот не понимаю каким образом поисковик поможет при поиске в отсканеных книгах, коих у меня большинство (из книг).

tracker поможет хотя бы тем, что умеет теги. Уж лучше так, чем никак, верно? А индексировать их он сможет, когда появится вменяемая ocr

geek ★★★
()
Ответ на: комментарий от defmacro

>grep -E "pdf|djvu|html|htm|txt"

pdf (с подложкой из распознаного текста), html, txt - индексируются.

geek ★★★
()
Ответ на: комментарий от geek

> А индексировать их он сможет, когда появится вменяемая ocr

И какой процессор для этого нужен будет?

> tracker поможет хотя бы тем, что умеет теги.

Так и быть, как будет свободное время поробую трекер, посмотрим что он из себя представляет.

defmacro
()
Ответ на: комментарий от pacify

Пока никаких письменно оформленных предложений нет, кроме высказанных здесь:)

Начал писать пародию на RFC... Раз уж здесь так к этому относятся...

anonymfus ★★★★
()
Ответ на: комментарий от defmacro

>И какой процессор для этого нужен будет?

один раз проиндексировать? Любой, только индексация затянется

>Так и быть, как будет свободное время поробую трекер, посмотрим что он из себя представляет.

для нормальной работы с тегами нужен nautilus и расширение tacker-tabs (или как-то так)

geek ★★★
()
Ответ на: комментарий от sabonez

>А на серв-файлопомойку будешь ставить?

только в комплекте с веб-мордой, иначе смысла нет

>ЗЫ. Очень обидно видеть, что на UNIX-way все стали класть.

осталось только аргументированно показать, что индексатор - не юникс-вей

ну и заодно попинать базы данных, lastlog, flow-tools и прочие инструменты, который - о ужас! хранят данные в бинарном виде, и требуют специальных утилит для извлечения

geek ★★★
()
Ответ на: комментарий от geek

> начни с малого - объясни каким боком различие между терминами
> "автоматическая" и "автоматизированная" свидетельствует
> в пользу ненужности индексаторов.

Объясняю. Различие между автоматизированной и автоматической системой зависит от контекста, в которой эти термины употребляются. Например, в некоторых случаях Вы можете выделить автоматическую подсистему из автоматизированной. В Вашем случае десяти компов, на каком-то участке времени Вы можете считать свою систему автоматической (функционирующей без участия человека). Всё зависит от задачи, для которой Вы используете этот термин.
Аналогично, перед тем, как определять нужность индексаторов и подталкивать пользователя к отказу от find, grep, следует уточнить его задачи. Например, мне для индексации своих 50 Гбайт мусора не подходят ни существующие индексаторы, ни grep.
Вы как обычно не определили ни проблемы, ни терминов - и понеслись флеймить на тему того, как хороши индексаторы и как плох find/grep.

P.S. За грубости в этом треде извиняюсь. Я пытался выяснить - собираетесь ли Вы помогать сообществу в создании более совершенных программ ... тут anonymofous высказывал дельную идею про внешние интерфейсы программ. DBFS - это средство централизации управления, а мне больше нравятся распределенные системы.

pacify ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.