Как «причесать» вывод fdupes?

0

2

Есть выхлоп fdupes, где группы одинаковых файлов разделены двойным переводом строки. В группе может быть больше 2 строк. http://pastebin.com/1VFTaFAd

Никак не могу придумать, как очистить этот выхлоп от групп, где все строки содержат «_big» или не содержат «_».

awk знаю чуть лучше, чем никак. С pcregrep как-то не срастается. sed тут вроде не проканает.

Ссылка

←	Обьясните как в archlinux обстоят дела с пакетами разных версий

Падение системы при исчерпании оперативной памяти

→

python

anonymous
(17.06.16 22:30:50 MSK)

Ссылка

У тебя хотя бы одно подчёркивание есть в каждой группе, не понятно, чего ты хочешь.

d ★★★★
(17.06.16 22:32:51 MSK)

Ответ на: комментарий от d 17.06.16 22:32:51 MSK

Убрать из вывода примерно такие куски:

./44928727_big_p0.png
./44928727_big_p2.png

./44928727_big_p0.png
./44928727_big_p2.png
./44928727_big_p4.png
./44928727_big_p6.png

./44928727.png
./44928728.png

Radjah ★★★★★
(17.06.16 22:39:29 MSK) автор топика

Ответ на: комментарий от Radjah 17.06.16 22:39:29 MSK

$ wget -qO- http://pastebin.com/raw/1VFTaFAd | perl -lne 'print if length > 1 and not /_/'

Deleted
(17.06.16 22:43:17 MSK)

Ответ на: комментарий от Deleted 17.06.16 22:43:17 MSK

grep -v _ проще

Radjah ★★★★★
(17.06.16 22:46:29 MSK) автор топика

Ответ на: комментарий от Radjah 17.06.16 22:46:29 MSK

еще пустые строки убери и перевод строки.

Deleted
(17.06.16 22:51:08 MSK)

Ссылка

Так, нашел более другой способ поиска и удаление дублей.

Radjah ★★★★★
(17.06.16 23:08:43 MSK) автор топика

Ссылка

Ответ на: комментарий от Radjah 17.06.16 22:39:29 MSK

#!/usr/bin/env python

import sys
import re

with open(sys.argv[1], 'r') as infile:
    groups = infile.read().split('\n\n')

for group in groups:
    if len(re.findall('_big', group)) == len(re.findall('\.\/', group)):
        continue
    if not re.search('_', group):
        continue
    print(group, '\n')

d ★★★★
(17.06.16 23:21:24 MSK)