grep кушает всю память на большом файле

Для iconv такое поведение норма https://sourceware.org/bugzilla/show_bug.cgi?id=6050 что напрямую, что из пайпа он пытается прочитать весь файл, чтобы проще было. Я так и не понял из обсуждения бага, действительно ли iconv может работать без буферезации всего файла/потока или нет и насколько рабочие патчи предложены.

А с grep непонятно. Что за файл, там нет очень длинных строк? И насколько сложное регулярное выражение?

mky ★★★★★
(09.01.24 18:04:23 MSK)

LC_ALL=C

anonymous
(09.01.24 18:11:04 MSK)

Ответ на: комментарий от urxvt 09.01.24 17:38:53 MSK

htop столбец RES

sergej ★★★★★
(09.01.24 18:27:07 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 09.01.24 18:11:04 MSK

не, всё равно уже 20Г отожрал

sergej ★★★★★
(09.01.24 18:27:27 MSK) автор топика

Ответ на: комментарий от mky 09.01.24 18:04:23 MSK

Про строки думал, наверное стоит проверить.

Но вобще не должно быть, там дамп базы в формате csv гигабайт на 100.

sergej ★★★★★
(09.01.24 18:28:51 MSK) автор топика

Ссылка

Ответ на: комментарий от sergej 09.01.24 18:27:27 MSK

А условие позволяет использовать fgrep?

anonymous
(09.01.24 18:30:51 MSK)

Ответ на: комментарий от anonymous 09.01.24 18:30:51 MSK

Я пробовал grep -F, не помогает.

sergej ★★★★★
(09.01.24 18:55:30 MSK) автор топика

Ссылка

Попробуй powershell.

anonymous
(09.01.24 19:41:37 MSK)

Ссылка

   Known Bugs
       Large repetition counts in the {n,m} construct may cause grep to use lots of memory.  In addition, certain other obscure regular expressions require exponential time and space, and may cause grep to run out of memory.

slowpony ★★★★★
(09.01.24 19:55:38 MSK)

Ссылка

Присоединяюсь к части выше отписавшихся. Покажите само условие которое используете в грепе.

anc ★★★★★
(09.01.24 20:55:53 MSK)

Ответ на: комментарий от anc 09.01.24 20:55:53 MSK

условие примерно такое

cat file | grep 12345678

файл около 100Гб, никаких регекспов искать не надо.

В таком варианте через пайп память растёт, но медленно. В варианте

grep 12345678 file

он явно всё пытается всосать наверное через mmap и быстро прибивается earlyoom.

sergej ★★★★★
(09.01.24 21:12:41 MSK) автор топика

Ответ на: комментарий от sergej 09.01.24 21:12:41 MSK

Вот wc -L - хорошая команда, занял 2Мб res и спокойно считает.

sergej ★★★★★
(09.01.24 21:17:36 MSK) автор топика

Ссылка

Ответ на: комментарий от sergej 09.01.24 21:12:41 MSK

файл около 100Гб

Что он из себя представляет?

никаких регекспов искать не надо grep 12345678

man grep

anonymous
(09.01.24 21:32:57 MSK)

Ответ на: комментарий от anonymous 09.01.24 21:32:57 MSK

А, уже вижу, что дамп базы. Кто бы сомневался. Надо его загрузить и пользоваться нормальными инструментами СУБД, а не утилитами для небольших файлов.

anonymous
(09.01.24 21:34:54 MSK)

Ответ на: комментарий от anonymous 09.01.24 21:32:57 MSK

man grep

-F я пробовал, если ты про это

sergej ★★★★★
(09.01.24 21:50:40 MSK) автор топика

Ответ на: комментарий от anonymous 09.01.24 21:34:54 MSK

не утилитами для небольших файлов.

Это всё понятно, непонятно что заставляет разработчиков grep и iconv всасывать всё в память. Я как-то думал, что эти утилиты про потоки, чтоб можно было удобно сделать кучу пайпов и нормально обработать гигабайты данных.

sergej ★★★★★
(09.01.24 21:52:43 MSK) автор топика