Десктопные поисковики не нужны.

0

0

У них у всех наблюдается пренеприятная антифича: они подолгу молотят твой жесткий диск, кушая ценные ресурсы системы, так, что нормально работать на ней не представляется возможным, с целью «обновить индексы».

Но при этом, мля, у меня столько информации, что «обновление» (которое впору бы назвать полной перезаливкой) занимает по полдня.

Вот и нафиг упало такое счастье? Добавим ко всему, что некоторые примочки работают только с Beagle, другие только со Strigi, третьи только со Swish++.

Короче говоря, без единого API на полнотекстовый поиск, который обеспечит возможность прикрутить любой поддерживающий его движок для всей системы, десктопные поисковики суть непомерный расход времени без большой пользы именно на тех системах, где они нужнее всего (читай, где многогигабайтный срач в /home, как у меня).

Dixi.

Ссылка

←	KDE4 на стероидах

Новая фича на ЛОРе?

→

← 1 2 3 4 →

Ответ на: комментарий от sabonez 31.10.07 12:46:29 MSK

> sabonez@sabonez:~/Documents/Интернет_отчеты> ls -l *.pdf | wc -l

> 10

LOL!!!

Shaman007 ★★★★★
(31.10.07 12:47:53 MSK)

Ответ на: комментарий от Shaman007 31.10.07 12:47:53 MSK

Хде? Гик 90 файлов показал, я 10. И чего ето доказывает?

~~sabonez~~ ★☆☆☆
(31.10.07 12:50:43 MSK)

Ответ на: комментарий от sabonez 31.10.07 12:39:51 MSK

>Да ты, баклан, еще и трепло:

стоп-стоп. Это не мой рецепт. И почему трепло, если даже на холостом ходу pdftotext и grep сосут причмокивая?

>Никуя не будет ето работать, догадайся почему. Иди раскладку настраивай.

Давай рабочий вариант, который будет быстрее. У меня получилось вот что:

$time for i in *.pdf; do pdftotext $i && cat `echo $i | sed -e 's!pdf!txt!'` | grep -i linux; done 2>/dev/null > /dev/null

real 1m18.647s
user 1m8.744s
sys 0m2.832s

приятного аппетита ещё раз. Не подавись ;)

geek ★★★
(31.10.07 12:51:01 MSK)

Ответ на: комментарий от Xellos 31.10.07 12:46:26 MSK

Что ты прицепился к плохому примеру? Локальный поисковик нужен, потому, что КАЖДЫЙ раз сканировать все файлы на предмет наличия в них нужной инфы не продуктивно, а вот спросить об этом кэш, который пополняется в моменты бездействия компа совсем наоборот вне зависимости от того бардак или нет. Мне по ФС дольше идти, чем найти файл поиском. Понимаешь, дольше!

Shaman007 ★★★★★
(31.10.07 12:51:18 MSK)

Ответ на: комментарий от Shaman007 31.10.07 12:46:59 MSK

>которую я пометил 3 звездами и слушал более 2 раз

А вот это и есть "тот самый на букву к".

Xellos ★★★★★
(31.10.07 12:51:33 MSK)

Ответ на: комментарий от Xellos 31.10.07 12:46:26 MSK

Ксилос - не сканадальте.
Потсковики - нормальный способ получения информации, пусть даже в начальной стадии, от которой уже можно начинать рыть в нужном направлении. Если я не могу сделать нормальный поиск по маске в данных, которые находятся в моей файловой системе, то я использую поисковики. Мне пофиг, что кто-то считает этот способ некошерным.

mk ☆
(31.10.07 12:54:01 MSK)

Ссылка

Ответ на: комментарий от geek 31.10.07 12:51:01 MSK

ну и до кучи

$time tracker-search linux | wc -l 29

real 0m1.100s user 0m0.008s sys 0m0.004s

geek ★★★
(31.10.07 12:54:08 MSK)

Ответ на: комментарий от sabonez 31.10.07 12:50:43 MSK

>Хде? Гик 90 файлов показал, я 10. И чего ето доказывает?

кде, да? :)

geek ★★★
(31.10.07 12:54:40 MSK)

Ссылка

Ответ на: комментарий от Xellos 31.10.07 12:51:33 MSK

И что? Типа кто не помнит имя каждого файла на своем компе дурак? Наверное, закладок в браузере у тебя тоже нет, автокомплит отключен и все кеши тоже? Вообще, сделай следующий шаг, откажись от компьютера вообще, помни все наизусть.

Shaman007 ★★★★★
(31.10.07 12:56:02 MSK)

Ссылка

Ответ на: комментарий от geek 31.10.07 12:51:01 MSK

Епт:

pdftotext $i - !!!

На холостом ходу не будет работать grep. Хотя,истины ради надо заметить, что так получится даже быстрее.

Но, ИМХО, тащить поисковик в систему ради таких задач - ЗЛО.

~~sabonez~~ ★☆☆☆
(31.10.07 12:56:08 MSK)

Ответ на: комментарий от Shaman007 31.10.07 12:51:18 MSK

> Локальный поисковик нужен, потому, что КАЖДЫЙ раз сканировать все файлы на предмет наличия в них нужной инфы не продуктивно, а вот спросить об этом кэш, который пополняется в моменты бездействия компа совсем наоборот вне зависимости от того бардак или нет.

Я вот например не использую локальный поисковик, т.к. одна только тех. документация весит почти 4 гига. А там и pdf и html и чего только нет. Индекс будет огромен.

Igron ★★★★★
(31.10.07 12:56:24 MSK)

Ответ на: комментарий от sabonez 31.10.07 12:56:08 MSK

>Но, ИМХО, тащить поисковик в систему ради таких задач - ЗЛО.

чудик, ты вообще знаешь, то комп - это средство автоматизации труда? Зачем вручную делать то, что можно поручить компу?

geek ★★★
(31.10.07 12:56:58 MSK)

Ответ на: комментарий от geek 31.10.07 12:54:08 MSK

>ну и до кучи

А ты покажь время индексирования?

~~sabonez~~ ★☆☆☆
(31.10.07 12:58:17 MSK)

Ответ на: комментарий от sabonez 31.10.07 12:58:17 MSK

>А ты покажь время индексирования?

индексирование выполняется в фоне по факту появления файла в системе/или изменения. Всё

geek ★★★
(31.10.07 12:59:01 MSK)

Ссылка

Ответ на: комментарий от Igron 31.10.07 12:56:24 MSK

>Индекс будет огромен.

мегабайт 20

geek ★★★
(31.10.07 12:59:44 MSK)

Как-то поставил QEMU, сделал виртуальный диск в ~, и... Половина процессорного времени отдавалась биглу, только вторая - QEMU.

anonymous
(31.10.07 13:03:06 MSK)

Ответ на: комментарий от geek 31.10.07 12:56:58 MSK

> чудик, ты вообще знаешь, то комп - это средство автоматизации труда?
> Зачем вручную делать то, что можно поручить компу?

Громатей, комп - не автоматическая система, а автоматизированная.
И не тебе решать, что пользователь хочет поручить компу.

pacify ★★★★★
(31.10.07 13:03:48 MSK)

Ответ на: комментарий от anonymous 31.10.07 13:03:06 MSK

В OS Linux (да и в других), есть такая чудесная функция, называется "изменение приоритета процесса".

Shaman007 ★★★★★
(31.10.07 13:04:45 MSK)

Ссылка

Ответ на: комментарий от pacify 31.10.07 13:03:48 MSK

> И не тебе решать, что пользователь хочет поручить компу.

Эээээ... Даже если сам гик - пользователь? Он же наверняка иногда таковым бывает, правда?;)

svu ★★★★★
(31.10.07 13:05:06 MSK)

Ссылка

Ответ на: комментарий от pacify 31.10.07 13:03:48 MSK

>Громатей, комп - не автоматическая система, а автоматизированная.

ты дурак, или тоже кдешник? Покажи пальчиком, где я написал, что комп - это "автоматическая система". Ну и заодно объясни разницу между "автоматической системой" и "автоматизированной системой".

geek ★★★
(31.10.07 13:06:03 MSK)

Ответ на: комментарий от geek 31.10.07 12:59:44 MSK

> мегабайт 20

Уговорил, я врубил trackerd, посмотрим через какое время можно будет пользоваться и сколько оно будет жрать.

Igron ★★★★★
(31.10.07 13:07:07 MSK)

Ссылка

Ответ на: комментарий от defmacro 31.10.07 12:16:27 MSK

У меня уже около 2х сотен IT статей. Срача нет. Через 2-3 месяца будет еще около 2х сотен. Плюс дойдут книги, сканы книжек и журналов.

Как мне в них _эффективно_ искать ключевые фразы?

anonymousI ★
(31.10.07 13:11:55 MSK)

Ответ на: комментарий от anonymousI 31.10.07 13:11:55 MSK

>Как мне в них _эффективно_ искать ключевые фразы?

тренируй память. Вон, ксилос прекрасно помнит, где лежат все его пять файлов. И сабонез тоже прекрасно ориентируется в десяти. Значит и ты сможешь запомнить содержание жалкой пары сотен статей. Это же очевидно! (ц) Коминтерн

geek ★★★
(31.10.07 13:18:48 MSK)

Ответ на: комментарий от geek 31.10.07 13:06:03 MSK

> ты дурак, или тоже кдешник?

Это философский вопрос.

> Покажи пальчиком, где я написал, что комп - это "автоматическая система".

Ты этого не писал, так как не знаешь, что такое автоматическая информационная система.

> Ну и заодно объясни разницу между "автоматической системой" и "автоматизированной системой".

Смотри ГОСТ на АИС и подобную литературу.
Автоматическая система работает без участия человека.
Точнее сказать не могу, так как занимался этим лет пять назад, уже подзабыл.

pacify ★★★★★
(31.10.07 13:19:33 MSK)

Ответ на: комментарий от mk 31.10.07 12:41:10 MSK

Можешь дать пример RFC с описанием какого-нибудь API?.

И разве в RFC не оформляют только что-нибудь, имеющее хотя бы отдалённое отношение к связи?

anonymfus ★★★★
(31.10.07 13:19:52 MSK)

Ответ на: комментарий от geek 31.10.07 13:18:48 MSK

Либастрал мине поможет!

anonymousI ★
(31.10.07 13:20:02 MSK)

Ссылка

Ответ на: комментарий от anonymousI 31.10.07 13:11:55 MSK

На правах рекламы:

Для проведения тестирования быстродействия локальных поисковых систем быстро, качественно и недорого разведу срач в /home, /usr/share/home и в любом другом месте на HDD за отдельную плату (с предоставлением соотв уровня доступа). Оплата за вонючую кучу целиком или помегабайтно.

:-)

r_asian ★☆☆
(31.10.07 13:21:53 MSK)

Ответ на: комментарий от geek 31.10.07 13:06:03 MSK

Определение автоматизированной информационной системы разжевано на Википедии:
http://ru.wikipedia.org/wiki/%D0%90%D0%B2%D1%82%D0%BE%D0%BC%D0%B0%D1%82%D0%B8...
Там же есть ссылки на официальное толкование этого термина:
Правовые акты РФ

* ГОСТ 34.003—90 Информационная технология. Комплекс стандартов на автоматизированные системы. Автоматизированные системы. Термины и определения

pacify ★★★★★
(31.10.07 13:21:57 MSK)

Ссылка

Ответ на: комментарий от r_asian 31.10.07 13:21:53 MSK

Опечатка.

/usr/share/docs/

r_asian ★☆☆
(31.10.07 13:23:15 MSK)

Ссылка

Ответ на: комментарий от pacify 31.10.07 13:19:33 MSK

>Ты этого не писал, так как не знаешь, что такое автоматическая информационная система.

ты телепат, да?

>Автоматическая система работает без участия человека.

у меня пара десятков компов работают без участия человека вообще.

в общем, я понял - тебе просто вякнуть что-нибудь хотелось

geek ★★★
(31.10.07 13:23:44 MSK)

Ответ на: комментарий от anonymfus 31.10.07 13:19:52 MSK

Связь - понятие растяжимое. Вы пытаетесь наложить стандарт на _протокол_ обмена данными. Пусть стандарт и невормальный, но вы должны быть уверены, что против него нет хотябы неформальных возражений.

mk ☆
(31.10.07 13:23:50 MSK)

Ссылка

Ответ на: комментарий от pacify 31.10.07 13:19:33 MSK

>Ты этого не писал

я вот к чему клоню:

>Громатей, комп - не автоматическая система, а автоматизированная.

так писал, или не писал? Или у тебя просто полушария моска между собой договориться не могут?

geek ★★★
(31.10.07 13:25:32 MSK)

Ссылка

Ответ на: комментарий от geek 31.10.07 13:23:44 MSK

>>Ты этого не писал, так как не знаешь, что такое автоматическая информационная система.
> ты телепат, да?

Нет, просто беру с тебя пример.

> у меня пара десятков компов работают без участия человека вообще.

Уже смешно. Ты хоть программировать-то умеешь?

pacify ★★★★★
(31.10.07 13:30:47 MSK)

Ответ на: комментарий от pacify 31.10.07 13:30:47 MSK

>Нет, просто беру с тебя пример.

плохо берешь. Бери лучше. Начнем с малого.Скажи "кде - говно!"

>Уже смешно. Ты хоть программировать-то умеешь?

опять сказать нечего?

geek ★★★
(31.10.07 13:34:24 MSK)

Ответ на: комментарий от geek 31.10.07 13:34:24 MSK

>>Нет, просто беру с тебя пример.
> плохо берешь. Бери лучше. Начнем с малого.Скажи "кде - говно!"

Одно дело - сказать, другое - сделать.

>>Уже смешно. Ты хоть программировать-то умеешь?
> опять сказать нечего?

Я сказал уже достаточно для твоего дальнейшего саморазвития.
Начни хотя бы с малого - научись программировать.

pacify ★★★★★
(31.10.07 13:42:07 MSK)

Ответ на: комментарий от pacify 31.10.07 13:30:47 MSK

Сритесь лично, господа.

Shaman007 ★★★★★
(31.10.07 13:42:48 MSK)

Ссылка

DBFS решат эту проблему.

...

Пока - потенциально проблему могли бы решить приложения уровня rlocate. Только не с мгновенной индексацией модифицированного файла, а с отложенной, в ближайший момент простоя машины. И без тормозов бы было, и без лишних переиндексаций.

~~KRoN73~~ ★★★★★
(31.10.07 13:46:44 MSK)

Ссылка

Ответ на: комментарий от anonymfus 31.10.07 12:37:56 MSK

> Следовательно, каждое приложение, если уж оно не осуществляет
> индексацию само, должно по крайней мере предоставлять возможность для
> поиска внутри файла понимаемого им формата и построения списка слов
> на его основе. А сам поисковик пусть перебирает файлы и обращается
> для каждого из них к соответствующему приложению.

Очень здравая мысль.
Где можно почитать про эти твои предложения поподробнее?
Может распишешь на своем сайте?

pacify ★★★★★
(31.10.07 13:47:02 MSK)

Ответ на: комментарий от pacify 31.10.07 13:42:07 MSK

>Одно дело - сказать, другое - сделать.

уже сделали =)

ты про полушария вопрос сознательно игнорируешь?

>Я сказал уже достаточно для твоего дальнейшего саморазвития. Начни хотя бы с малого - научись программировать.

начни с малого - объясни каким боком различие между терминами "автоматическая" и "автоматизированная" свидетельствует в пользу ненужности индексаторов. А то я твой поток сознания ниасиливаю

geek ★★★
(31.10.07 13:48:52 MSK)

Ответ на: комментарий от geek 31.10.07 13:18:48 MSK

> тренируй память. Вон, ксилос прекрасно помнит, где лежат все его пять файлов. И сабонез тоже прекрасно ориентируется в десяти. Значит и ты сможешь запомнить содержание жалкой пары сотен статей.

Я вот не понимаю каким образом поисковик поможет при поиске в отсканеных книгах, коих у меня большинство (из книг).

defmacro@sandbox ~ $ find pub0/doc/ -type f | grep -E "pdf|djvu|html|htm|txt" | wc -l
19725

defmacro
(31.10.07 13:49:06 MSK)

Ответ на: комментарий от defmacro 31.10.07 13:49:06 MSK

>Я вот не понимаю каким образом поисковик поможет при поиске в отсканеных книгах, коих у меня большинство (из книг).

tracker поможет хотя бы тем, что умеет теги. Уж лучше так, чем никак, верно? А индексировать их он сможет, когда появится вменяемая ocr

geek ★★★
(31.10.07 13:51:23 MSK)

Ответ на: комментарий от defmacro 31.10.07 13:49:06 MSK

>grep -E "pdf|djvu|html|htm|txt"

pdf (с подложкой из распознаного текста), html, txt - индексируются.

geek ★★★
(31.10.07 13:52:18 MSK)

Ссылка

Ответ на: комментарий от geek 31.10.07 13:51:23 MSK

> А индексировать их он сможет, когда появится вменяемая ocr

И какой процессор для этого нужен будет?

> tracker поможет хотя бы тем, что умеет теги.

Так и быть, как будет свободное время поробую трекер, посмотрим что он из себя представляет.

defmacro
(31.10.07 13:56:30 MSK)

Ответ на: комментарий от pacify 31.10.07 13:47:02 MSK

Пока никаких письменно оформленных предложений нет, кроме высказанных здесь:)

Начал писать пародию на RFC... Раз уж здесь так к этому относятся...

anonymfus ★★★★
(31.10.07 13:57:48 MSK)

Ответ на: комментарий от geek 31.10.07 13:23:44 MSK

>>у меня пара десятков компов работают без участия человека вообще.

И на них на всех стоит трекер? :-)))

~~sabonez~~ ★☆☆☆
(31.10.07 13:59:02 MSK)

Ответ на: комментарий от defmacro 31.10.07 13:56:30 MSK

>И какой процессор для этого нужен будет?

один раз проиндексировать? Любой, только индексация затянется

>Так и быть, как будет свободное время поробую трекер, посмотрим что он из себя представляет.

для нормальной работы с тегами нужен nautilus и расширение tacker-tabs (или как-то так)

geek ★★★
(31.10.07 14:00:20 MSK)

Ссылка

Ответ на: комментарий от sabonez 31.10.07 13:59:02 MSK

>И на них на всех стоит трекер? :-)))

не, это не файлопомойки. Зачем там трекер?

geek ★★★
(31.10.07 14:00:54 MSK)

Ответ на: комментарий от geek 31.10.07 14:00:54 MSK

А на серв-файлопомойку будешь ставить?

ЗЫ. Очень обидно видеть, что на UNIX-way все стали класть.

~~sabonez~~ ★☆☆☆
(31.10.07 14:03:59 MSK)

Ответ на: комментарий от sabonez 31.10.07 14:03:59 MSK

>А на серв-файлопомойку будешь ставить?

только в комплекте с веб-мордой, иначе смысла нет

>ЗЫ. Очень обидно видеть, что на UNIX-way все стали класть.

осталось только аргументированно показать, что индексатор - не юникс-вей

ну и заодно попинать базы данных, lastlog, flow-tools и прочие инструменты, который - о ужас! хранят данные в бинарном виде, и требуют специальных утилит для извлечения

geek ★★★
(31.10.07 14:08:25 MSK)

Ответ на: комментарий от geek 31.10.07 13:48:52 MSK

> начни с малого - объясни каким боком различие между терминами
> "автоматическая" и "автоматизированная" свидетельствует
> в пользу ненужности индексаторов.

Объясняю. Различие между автоматизированной и автоматической системой зависит от контекста, в которой эти термины употребляются. Например, в некоторых случаях Вы можете выделить автоматическую подсистему из автоматизированной. В Вашем случае десяти компов, на каком-то участке времени Вы можете считать свою систему автоматической (функционирующей без участия человека). Всё зависит от задачи, для которой Вы используете этот термин.
Аналогично, перед тем, как определять нужность индексаторов и подталкивать пользователя к отказу от find, grep, следует уточнить его задачи. Например, мне для индексации своих 50 Гбайт мусора не подходят ни существующие индексаторы, ни grep.
Вы как обычно не определили ни проблемы, ни терминов - и понеслись флеймить на тему того, как хороши индексаторы и как плох find/grep.

P.S. За грубости в этом треде извиняюсь. Я пытался выяснить - собираетесь ли Вы помогать сообществу в создании более совершенных программ ... тут anonymofous высказывал дельную идею про внешние интерфейсы программ. DBFS - это средство централизации управления, а мне больше нравятся распределенные системы.

pacify ★★★★★
(31.10.07 14:12:30 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 4 →

←	KDE4 на стероидах

Talks

Новая фича на ЛОРе?

→

Похожие темы