И снова сравнение файлов

0

1

Есть один очень большой файл, назовем его all.txt, и есть файл new.txt.

Раньше при появлении файла new.txt он прогонялся через grep по файлу all.txt и я получал только уникальные строки которых еще не было в all.txt. В дальнейшем файл all.txt дописывался новыми строками и так до следующего new.txt

grep -F -v -f all.txt new.txt > new_wo_dub.txt

Но время шло и файлы росли. И в итоге все закончилось на том, что банально не хватает памяти прогнать один файл через другой. all=700M, new=200M.

Может ли кто-нибудь подсказать как же теперь решать эту задачу? Думал над тем что бы через split делить файлы на all_000xx и new_000xx и дальше поочередно прогонять, но тогда непонятно как заставить grep перебирать все файлы.

Подскажите уж, что почитать, где посмотреть и вообще как лучше решить эту задачу.

Ссылка

←	C++. Предсказуемость поведения менеджера памяти.

Библиотеки для инерциальной навигации - какие есть?

→

diff?

MikeDM ★★★★★
(27.08.13 06:06:10 MSK)

Ответ на: комментарий от MikeDM 27.08.13 06:06:10 MSK

Сравнивать просто два каталога? И будет ли он брать первый файл из каталога new и сравнивать со всеми из каталога all, далее второй и т.д.? И при сохранении результата в файл можно ли убрать все (включая коментарии) и оставить только новые не повторяющиеся строчки из new?

ps. Извините за столько вопросов)

Sma11erM1nd
(27.08.13 06:09:38 MSK) автор топика

Базу данных использовать.

Сплитовать только new.

ansky ★★★★★
(27.08.13 06:11:19 MSK)

Ссылка

Ответ на: комментарий от Sma11erM1nd 27.08.13 06:09:38 MSK

ps. Извините за столько вопросов)

Вопросы то странные, если честно. Может подробнее расскажешь? Чую я, что тут мы имеем наглядно то, что ты неверно в самом начале к реализации задачи подошел. Первоначальная задача то какая?

MikeDM ★★★★★
(27.08.13 06:17:13 MSK)
Последнее исправление: MikeDM 27.08.13 06:17:33 MSK (всего исправлений: 1)

# готовим данные
sort all > all.sorted
sort new > new.sorted

# берем строки, которые есть только в new
comm -13 all.sorted new.sorted > difference

Это экономичнее grep, но всё равно требования по памяти будут расти с увеличением файлов.

uuwaan ★★
(27.08.13 06:26:25 MSK)

Ссылка

Ответ на: комментарий от MikeDM 27.08.13 06:17:13 MSK

Да, вопросы более чем странные. Первоначальная задача сранивать два файла и разницу сохранять. Пока все работало через grep я даже не думал как это улучшить. Но вот сейчас из-за больших размеров - надо думать. И вот сейчас я только и начал думать. А сильное отсутсвие опыта тоже дает о себе знать. Ну хотя бы я умею пользоваться гуглом, читать, понимать прочитанное и объяснять по 10 раз мне не приходится, так что может даже хватит просто пинка в правильном направлении.

Sma11erM1nd
(27.08.13 06:28:18 MSK) автор топика

Ответ на: комментарий от Sma11erM1nd 27.08.13 06:28:18 MSK

Для чего тебе делать понадобилось такие действия?

MikeDM ★★★★★
(27.08.13 06:29:34 MSK)

Ссылка

Только БД

~~geekless~~ ★★
(27.08.13 06:43:39 MSK)

Ссылка

grep -F -v -f all.txt new.txt
all=700M, new=200M

Это разве большие? Переписываешь файл в котором ищешь (new.txt) в tmpfs, чтобы лишний раз диск не дергать и не надеяться на файловый кеш.

Затем читаешь all.txt построчно и на каждую строку вызываешь grep -F «$string» new.txt Работать будет медленно, но по памяти не вылетит.

~~sdio~~ ★★★★★
(27.08.13 09:24:18 MSK)

Ссылка

Еще как вариант (чтобы не сортировать) — вогнать оба файла в оперативку и построчно сравнивать strstr. Или mmap'ом их отображать, тогда не нужно будет париться, что файлы в оперативку целиком не влезут.

~~Anon~~
(27.08.13 09:32:22 MSK)

Ссылка

Ответ на: комментарий от Sma11erM1nd 27.08.13 06:28:18 MSK

Ну хотя бы я умею пользоваться гуглом, читать, понимать прочитанное
тогда непонятно как заставить grep перебирать все файлы

anonymous
(27.08.13 09:48:48 MSK)

Ссылка

Если порядок не важен то попробуй вот так:

cat all.txt new.txt | sort | uniq > newall.txt

maxcom ★★★★★
(27.08.13 10:13:06 MSK)

Ответ на: комментарий от maxcom 27.08.13 10:13:06 MSK

Кстати, sort умеет делать uniq и merge(предварительно отсортированных файлов), как-то вот так

sort -u -m all.txt new.txt > newall.txt

codeogre
(27.08.13 10:58:23 MSK)

Ссылка

Думал над тем что бы через split делить файлы на all_000xx и new_000xx и дальше поочередно прогонять, но тогда непонятно как заставить grep перебирать все файлы.

как только all.txt превышает лимит в 100MB, например, переименовываешь его в all0001.txt

потом для каждого new.txt делаешь в цикле проход как-то так:

for i in all????.txt; do
   grep -F -v -f $i new.txt > new_wo_dub.txt
   mv new_wo_dub.txt new.txt
done

~~dikiy~~ ★★☆☆☆
(27.08.13 11:32:36 MSK)

Ссылка

Ответ на: комментарий от Sma11erM1nd 27.08.13 06:09:38 MSK

И будет ли он брать первый файл из каталога new и сравнивать со всеми из каталога all

если я правильно понял, то простой bash скрипт с diff тебе поможет.

dada ★★★★★
(27.08.13 13:40:36 MSK)

Ссылка

Медленно, но память почти не должно потреблять

while read -r line
  do grep --quiet -F ${line} all_data || echo ${line} >> new_uniques
done < new_data
echo new_uniques >> all_data
rm new_uniques

urquan ★
(27.08.13 16:06:49 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	C++. Предсказуемость поведения менеджера памяти.

Development

Библиотеки для инерциальной навигации - какие есть?

→

Медленно, но память почти не должно потреблять

Похожие темы