Как максимально быстро проверить txt на дубли

1

2

Всем доброго времени суток! Есть 2 txt файла, нужно проверить строки на дубли первого файла во втором и сохранить результат в отдельном txt без дублей.

Интересует утилита которая бы максимально быстро справлялась с такой задачей так как размеры файлов по 20-50 гб

Сортировка результата не важна

Пример файлов:

1.txt:

qwerty
12345
asdfgh
zxcvbn

2.txt:

asdfgh
zxcvbn

должен выйти результат: result.txt:

qwerty
12345

Ссылка

←	Fortran Python

При вызове «vfprintf(stderr, format, ap)» дважды на экран выводится мусор. Можно ли обойтись без va_copy?

→

http://stackoverflow.com/questions/4717250/extracting-unique-values-between-2...

Сделай бенчи awk и grep. Их постоянно оптимизируют с каждой версией.

Deleted
(26.01.17 04:58:15 MSK)

Ссылка

sort file1 file2 | uniq -c или запуск в два этапа через промежуточный файл.

Насколько я помню, GNU sort умеет сортировать параллельно на нескольких процессорах и потом делать external mergesort в конце. Возможно, нужно будет с размером буфера поиграться, чтобы в /tmp часто IO не делать и побольше делать в RAM.

Либо руками M*N закодить. Сколько ОЗУ на машине?

~~CaptainFarrell~~
(26.01.17 06:48:35 MSK)