Сравнить два больших текстовых файла
Всем привет. Есть достаточно простая задача для знающих людей. И поскольку я сам программировать не умею, то прошу помощи.
Есть текстовые файлы 1.log (100KB) и a.log b.log c.log (по 600МБ каждый) итд
1.log это столбец из цифр (пример http://78.47.220.147/kea/work/1.log)
a.log это логи в формате:
foo rlist <29092 28550 23112 22112 12717 2581 32229 32377 32846 10771 17850 19984 33370 28010 27560 16476 16478 19134 >bar
(пример http://78.47.220.147/kea/work/a.log)
Мне нужно две вещи:
1) Найти все значения из 1.log, которых нет внутри rlist в a.log b.log c.log итд
2) Посчитать сколько повторений во всех файлах по каждому значению в rlist
Для первой части я написал строчку на баше с sed, sort, uniq и diff, но она работает только для малого количества данных (мои файлы обрабатываются невыносимо долго)
За помощь буду готов отблагодарить.