Large scale grep

0

1

Есть порядка ~100к текстовых файликов, на ~20gb total. Есть список query строк (50к, 10m total)

Какой наименее геморойный, но при этом достаточно быстрый способ выполнить поиск подстрок из query?

Ссылка

←	textbearbeitung

Pulseaudio. Connection refused. Нет звука из скрипта.

→

Загнать тексты в какой-нибудь elasticsearch. А так если нужен именно grep то кроме грепа в for-do-done по списку query (можно с parallel) вариантов особо и нет.

micronekodesu ★★★
(12.03.18 02:49:38 MSK)

Ссылка

поиск подстрок из query

grep

fulltext search

Ты что-то недоговариваешь. Причём здесь fulltext search в тегах?

Pravorskyi ★★★
(12.03.18 03:49:24 MSK)

Ссылка

Наименее геморройный:
grep -F query *.txt

zolden ★★★★★
(12.03.18 08:12:41 MSK)

Ссылка

ripgrep

Virtuos86 ★★★★★
(12.03.18 08:23:12 MSK)

Ссылка

fulltext search действительно ни к чему, нужен обычный поиск подстроки.

Grep один запрос за 3 минуты обрабатывает, ripgrep за 12 минут. Это не геморно, но не проходит по критерию «достаточно быстро»

Anvill
(12.03.18 09:54:55 MSK) автор топика

fgrep

anonymous
(12.03.18 11:07:18 MSK)

Ссылка

Ответ на: комментарий от Anvill 12.03.18 09:54:55 MSK

На перле будет побыстрее.

Deleted
(12.03.18 16:36:52 MSK)

Ссылка

я бы посмотрел на find -type f | xargs -P X fgrep -f ...

vel ★★★★★
(12.03.18 19:09:38 MSK)

Ссылка

Ответ на: комментарий от Anvill 12.03.18 09:54:55 MSK

fulltext search действительно ни к чему, нужен обычный поиск подстроки

а подстроку ты как будешь искать? 3 минуты это норм. вот когда пару сотен терабайт грепать надо...

upcFrost ★★★★★
(12.03.18 20:45:53 MSK)

Ссылка

Ответ на: комментарий от Anvill 12.03.18 09:54:55 MSK

Grep один запрос за 3 минуты обрабатывает

А если все паттерны сразу загрузить?

grep -Ff patterns.txt wheretosearch.txt

legolegs ★★★★★
(12.03.18 20:56:48 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	textbearbeitung

General

Pulseaudio. Connection refused. Нет звука из скрипта.

→

Похожие темы