Скрипт на Bash

Смотри на checksum.

Ответь честно. Ты же это не для себя, да? Это у вас в вузе такая задачка? А сам ты линуксы наверняка и терпеть не можешь ведь?

~~matrixd~~ ★
(02.03.16 01:06:26 MSK)

http://www.howtogeek.com/201140/how-to-find-and-remove-duplicate-files-on-linux/

anonymous
(02.03.16 01:07:01 MSK)

Ответ на: комментарий от matrixd 02.03.16 01:06:26 MSK

Нет, почему. Я хочу научиться этому. Я вроде понимаю, что это можно сделать через diff, но там описание под опции довольно не обширное. Поэтому пока не понятно как это делать. Рекурсивно можно 2 разных каталога просмотреть, но чтобы подкаталоги это-то как-то глупо через рекурсию...

Nov
(02.03.16 01:10:35 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 02.03.16 01:07:01 MSK

Fdupes не подойдет.

Nov
(02.03.16 01:17:30 MSK) автор топика

Ответ на: комментарий от Nov 02.03.16 01:17:30 MSK

Чем не подойдёт? Тебе шашечки или ехать?

Если шашечки — то смотри в сторону md5sum. Если ехать — то fdupes.

beastie ★★★★★
(02.03.16 01:24:26 MSK)

Ответ на: комментарий от matrixd 02.03.16 01:06:26 MSK

Да, checksum хорошая идея вместо обхода самих файлов. Но осталась проблема в обходе каталогов и подкаталогов для сравнения... Как два разных каталога сделать это понятно, а вот работать в одном каталоге что-то не очень.

Nov
(02.03.16 01:25:45 MSK) автор топика

Ответ на: комментарий от beastie 02.03.16 01:24:26 MSK

Checksum соглашусь хорошая идея. Не находил до этого инфу про него. Проблема в обходе каталога и его подкаталогов.

Nov
(02.03.16 01:26:44 MSK) автор топика

Ответ на: комментарий от Nov 02.03.16 01:25:45 MSK

Я бы на пыхтоне писал. Запилил бы dict и пихал бы в него ключом - контрольную сумму, а значением - массив имен файлов. Детектить директория или файл так же можно.

https://docs.python.org/3/library/os.path.html#os.path.isdir

~~matrixd~~ ★
(02.03.16 01:30:59 MSK)

Ответ на: комментарий от matrixd 02.03.16 01:30:59 MSK

Идея супер, но я на bash это пишу как скрипт.

Nov
(02.03.16 01:34:37 MSK) автор топика

Ответ на: комментарий от Nov 02.03.16 01:26:44 MSK

Вот это прочти

http://www.tldp.org/LDP/abs/html/fto.html

и это

http://www.cyberciti.biz/faq/bash-loop-over-file/

Две первых ссылки в гугле.

В баше много подводных камней. Кажется «о, за 2 минуты напишу», а потом начинается...

~~matrixd~~ ★
(02.03.16 01:35:05 MSK)

Ответ на: комментарий от Nov 02.03.16 01:34:37 MSK

Там емнип тоже есть пародия на словари

~~matrixd~~ ★
(02.03.16 01:35:49 MSK)

Ссылка

Ответ на: комментарий от matrixd 02.03.16 01:35:05 MSK

В этом то и проблема. Я уже долго сижу и в опциях разбираться начал. Но проблему составляет сам обход каталога, ибо если бы было 2 каталога разных их сравнил рекурсивно и все, а если просмотреть 1 каталог и его файлы с подкаталогами это проблема пока.. По первой ссылке там просто про файлы прописано (для себя ничего не нашел), по второй вроде интереснее пока, но толкового тоже не вижу пока ничего для реализации данной идеи.

Nov
(02.03.16 01:40:45 MSK) автор топика

Ссылка

Ответ на: комментарий от matrixd 02.03.16 01:30:59 MSK

Я бы на пыхтоне писал

Там вроде готовый модуль есть, типа 'findfile' или 'filecmp' не помню точно, но помню что он мог искать с учётом содержимого.

anonymous
(02.03.16 01:40:46 MSK)

Ответ на: комментарий от anonymous 02.03.16 01:40:46 MSK

Остался вопрос обхода по каталогу и его подкаталогах.

Nov
(02.03.16 01:43:11 MSK) автор топика

Ответ на: комментарий от Nov 02.03.16 01:43:11 MSK

os.walk, не?

anonymous
(02.03.16 01:46:27 MSK)

Ответ на: комментарий от anonymous 02.03.16 01:46:27 MSK

Суть написания не на питоне, а как скрипт bash

Nov
(02.03.16 01:47:49 MSK) автор топика

Ответ на: комментарий от Nov 02.03.16 01:47:49 MSK

Как люди не изощраются, лишь бы питон не юзать.

~~FIL~~ ★★★★
(02.03.16 01:49:32 MSK)

Ссылка

Ответ на: комментарий от beastie 02.03.16 01:24:26 MSK

Quick'n'dirty, но не bash: http://play.golang.org/p/AYzo29mPVl ;)

beastie ★★★★★
(02.03.16 01:55:32 MSK)

Ответ на: комментарий от Nov 02.03.16 01:47:49 MSK

import os
from filecpm import cmp

dir1 = '/home/user1'
dir2 = '/home/user2'

for root1, dirs1, files1 in os.walk(dir1):
    for name1 in files1:
        fullname1 = os.path.join(root1, name1)
        print('Files similar to', fullname1)

        for root2, dirs2, files2 in os.walk(dir2):
            for name2 in files2:
                fullname2 = os.path.join(root2, name2)
                if cmp(fullname1, fullname2, shallow=False):
                    print('\t', fullname2)

Не проверял.

anonymous
(02.03.16 01:56:11 MSK)

Ответ на: комментарий от anonymous 02.03.16 01:56:11 MSK

Я это и на C могу написать. Но тут сам факт на bash написать. На ЧИСТОМ bash.

Nov
(02.03.16 01:58:25 MSK) автор топика

Ответ на: комментарий от Nov 02.03.16 01:43:11 MSK

Не вижу проблем. По первому линку написано как сделать обход по директории, во второй как определить файл это, симлинк, или директория. Пишешь функцию на баше. Вызываешь рекурсивно(я не знаю как это на баше отработает).

~~matrixd~~ ★
(02.03.16 01:59:59 MSK)

Ответ на: комментарий от beastie 02.03.16 01:55:32 MSK

Товарищ программист, скажите, а зачем вам md5 понадобился? Ведь гораздо проще побайтово сравнить файлы, чем читать весь файл, даже если он не совпадает начиная с первого байта, и вычислять не самую простую функцию.

Спасибо.

anonymous
(02.03.16 02:02:34 MSK)

Ответ на: комментарий от Nov 02.03.16 01:58:25 MSK

На ЧИСТОМ bash

chmod +x myscript.py && ./myscript.py

anonymous
(02.03.16 02:04:30 MSK)

Ответ на: комментарий от matrixd 02.03.16 01:59:59 MSK

Я до сих пор понять не могу как мне взять файл в директории и сравнить его с другими файлами и поддиректориями в этой директории. И так далее.

Nov
(02.03.16 02:09:51 MSK) автор топика

Ответ на: комментарий от anonymous 02.03.16 02:04:30 MSK

Ты не понял.. Нужен просто bash без питонов, регистрации и смс.

Nov
(02.03.16 02:11:22 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 02.03.16 02:02:34 MSK

Отвечу за него. А как ты собрался сравнивать _все_ файлы. Ну допустим 300 файлов по 1гб? Каждый из них побайтово сравнивать друг с другом?

~~matrixd~~ ★
(02.03.16 02:18:38 MSK)

Ответ на: комментарий от matrixd 02.03.16 02:18:38 MSK

А, понятно. Действительно, проще сравнить суммы.

anonymous
(02.03.16 02:22:09 MSK)

Ссылка

Ответ на: комментарий от Nov 02.03.16 02:09:51 MSK

Если тебе файлы между собой сравнить - выше тебе уже описали. Хоть в ста поддиректориях они лежать будут, плевать. Если тебе надо сравнивать директории... Да все точно так же. Если для каждого из файла в директории контрольная сумма уже имеется в словаре/мапе или что у тебя там, и эта мапа относится к какой-то директории - бинго, они совпадают.

~~matrixd~~ ★
(02.03.16 02:22:17 MSK)

Ответ на: комментарий от matrixd 02.03.16 02:22:17 MSK

#!/bin/bash FILES=/path/to/* for f in $FILES do echo «Processing $f file...» # take action on each file. $f store current file name cat $f done

Ты это имеешь в виду?

Nov
(02.03.16 02:28:22 MSK) автор топика

Ссылка

Ответ на: комментарий от matrixd 02.03.16 02:22:17 MSK

Тогда типа такого что-то:

find . -type f | xargs md5sum | sort -n

anonymous
(02.03.16 02:29:26 MSK)

Ссылка

Ответ на: комментарий от anonymous 02.03.16 02:02:34 MSK

Свернуть терабайты в 16 байт, не? ;)

beastie ★★★★★
(02.03.16 02:30:21 MSK)

Ответ на: комментарий от beastie 02.03.16 02:30:21 MSK

Да чо уж там, петабайты-эксабайты.

Я почти решил :)

find . -type f | xargs md5sum > sums.txt && \
sort -n sums.txt | colrm 33 > all.txt && \
sort -n sums.txt | colrm 33 | uniq | diff all.txt -

anonymous
(02.03.16 02:48:48 MSK)

Ответ на: комментарий от anonymous 02.03.16 02:48:48 MSK

Я уже решил. Спасибо большое за помощь anonymous.

Nov
(02.03.16 02:54:15 MSK) автор топика

Ответ на: комментарий от Nov 02.03.16 02:54:15 MSK

Обращайся.

;)

anonymous
(02.03.16 02:59:07 MSK)

Ссылка

Ответ на: комментарий от anonymous 02.03.16 02:48:48 MSK

То неловкое чувство, когда твой двадцатистрочный скрипт можно свернуть в 3 строки. :(
Запощу и свое решение, с эмуляцией словаря в виде каталога с файлами, лол:

#!/bin/bash

TMP_DIR=$(mktemp -d)


for f in $(find . -type f); do
	FN="$TMP_DIR/$(md5sum <$f | cut -d' ' -f1)"
	# echo "Writing <<$f>> to <<$FN>>"
	echo $f >> $FN
done

for f in $(find $TMP_DIR -type f); do
	if [[ $(wc -l <$f) -ge 2 ]]; then
		echo "==== Group $(basename $f) ===="
		cat $f
		echo
	fi
done

echo Done.


rm -rf $TMP_DIR

----------------------------------------

$ ~/find_similar_files.sh 
find: ‘./systemd-private-c289146175f34a47b31fd18a90ada037-systemd-timesyncd.service-QbBMTv’: Permission denied
==== Group 81ae9570a62999be4e8e84ebd3e2533a ====
./tmpl0y8rq
./tmpn7lee3

==== Group 2639e39571fcff02fb55b34edc1b07a6 ====
./mutt-HP250-1000-9193-5902778741208076488
./mutt-HP250-1000-12112-18875756131902173470

==== Group b1946ac92492d2347c6235b4d2611184 ====
./mutt-HP250-1000-11019-7421024681195044009
./mutt-HP250-1000-8290-4752602091921567559

==== Group d41d8cd98f00b204e9800998ecf8427e ====
./tmp.tK40gcR6NR
./lu144049w5vox.tmp/lu144049w5vp0.tmp
./qipc_sharedmemory_homesmolaconfigcopyqcopyqm88728f9f32d36783aab39d4a08476ba8d9e7ee7b
./qipc_systemsem_homesmolaconfigcopyqcopyqm88728f9f32d36783aab39d4a08476ba8d9e7ee7b
./mutt-HP250-1000-8651-1276900788649823015
./mutt-HP250-1000-8651-1414078471996757224
./mutt-HP250-1000-8651-50842814637327189
./dir2/9.txt
./dir2/3.txt
./dir2/2.txt
./dir1/9.txt
./dir1/2.txt
./dir1/1.txt

Done.

Smola ★
(02.03.16 03:12:32 MSK)

md5sum, ня?

slamd64 ★★★★★
(02.03.16 03:50:20 MSK)

Ссылка

Например, соберем чексуммы всех файлов от текущего каталога и ниже и отсортируем по полю с чексуммами, тогда файлики с одинаковыми чексуммами у нас встанут рядом:

for file in `find ./`; do
echo -n «$file» " "; md5sum -c «$file»
done | sort -k 2 | tee ~/result

slowpony ★★★★★
(02.03.16 04:19:13 MSK)

Ссылка

Ответ на: комментарий от Smola 02.03.16 03:12:32 MSK

Ну а что, отличный скрипт. Вон как всё красиво выводит.

Я тут чутка по манам упоролся и доделал таки:

find . -type f | xargs md5sum > sums.txt && \
sort -n sums.txt | colrm 33 > all.txt && \
sort -n sums.txt | colrm 33 | uniq | diff all.txt - | \
uniq | egrep -o '[0-9a-f]{32}' | \
xargs -I{} grep {} sums.txt
[/bash]

Ерунда, конечно и наверняка где-то ещё срезать можно.

anonymous
(02.03.16 04:20:12 MSK)

микроскоп в качестве молотка
hardlink -ncvv /dir 2>&1 | awk '/Would link/ {print $4,$6 }'

bl ★★★
(02.03.16 13:25:04 MSK)

Ответ на: комментарий от anonymous 02.03.16 04:20:12 MSK

Э? А где здесь bash?

anonymous
(02.03.16 13:45:22 MSK)

Ответ на: комментарий от bl 02.03.16 13:25:04 MSK

Что вы используется для поиска дубликатов файлов? (комментарий)

таких микроскопов масса

anonymous
(02.03.16 13:47:22 MSK)

Ссылка

там куча всего, на многие случаи — http://www.tecmint.com/

amorpher ★★★★★
(02.03.16 13:51:25 MSK)

Ссылка

Если хочешь оптимизировать по скорости, то я тебе скажу так. Делай два прохода.

Первый проход — пройди по всем файлам и составь таблицу их размеров. Из таблицы ты узнаешь, есть ли группы файлов с одинаковыми размерами.
Второй проход — внутри этих групп проводишь проверки каждого файла с каждым.
- Первый этап — сравниваешь первый мегабайт каждого файла в группе + сравниваешь последний мегабайт каждого файла в группе, пропуская всё что в середине.
- Второй этап — вычисляешь checksum и сравниваешь по ним для тех файлов, которые показали равенство на первом этапе.

justAmoment ★★★★★
(02.03.16 20:28:25 MSK)