Как вычесть из одного списка другой

0

3

Подскажите пожалуйста - как вычесть из одного текстового списка другой на bash

Нашел вот такой вариант:

{ cat text1.txt | sort -u; cat text2.txt text2.txt; } | sort | uniq -u > resultat.txt

Но такое вычитание при работе со списками 5-10 млн строк отнимает по несколько часов. Есть ли более быстрые варианты сравнения списков.

Попробовал diff, но при выполнении «diff: memory exhausted» , вроде памяти не хватает…

попробовал comm -13 <(sort text1.txt) <(sort text2.txt) > resultat.txt

тоже очень медленный вариант, а больше ничего не нашел

Ссылка

←	За время моего отсутствия в ядерной консоли малость разломали nouveaudrmfb

не взлетает утм 4.2.0 на 18.04 убунте

→

Есть ли более быстрые варианты сравнения списков.

Есть. Без башика. СУБД, хотя 5-10М строк должны в память влезть.

crutch_master ★★★★★
(11.05.21 06:12:37 MSK)

Ссылка

Просто используй более подходящий инструмент чем bash. Кроме того, у тебя там sort неясно зачем вызывается, да еще дважды. uniq и не сортировынный список должен уметь обрабатывать.

ptah_alexs ★★★★★
(11.05.21 07:25:09 MSK)

Ответ на: комментарий от ptah_alexs 11.05.21 07:25:09 MSK

uniq и не сортировынный список должен уметь обрабатывать.

Нет, не должен.

anonymous
(11.05.21 08:45:13 MSK)

Ссылка

А просто grep -wvf не пойдет?

YAR ★★★★★
(11.05.21 10:34:10 MSK)

Ответ на: комментарий от YAR 11.05.21 10:34:10 MSK

пойдёт, конечно

fgrep -xvf exclude_this.txt from_this.txt > resultat.txt

— быстро и порядок строк не меняется.

comm, кстати, не совсем правильный результат даёт. я не разбирался в чём именно косяк, но размер файла отличается.

anonymous
(11.05.21 11:04:03 MSK)

5-10 млн строк

на bash

да что, чёрт побери, ты такое несёшь

~~jenodin~~
(11.05.21 11:22:49 MSK)

Ссылка

Ответ на: комментарий от anonymous 11.05.21 11:04:03 MSK

Благодарю за ответ!! Вы мне очень помогли! Работает превосходно, только текст перед этим нужно привести в единый формат(конец строк CRLF или LF, короче одинаковый в обоих файлах).

alexross
(12.05.21 03:36:02 MSK) автор топика