LINUX.ORG.RU

[bash] удаление повторяющихся строк

 


0

0

Доброй ночи.

Имеется два файла с содержимым

file1

4
5
1
12

file2

5
12

Из file1 надо удалить все строки, совпадающие со строками в file2. Строки могут содержать абсолютно любые символы.

Родил только что-то вроде:

cat file2 | while read a; do sed  '/"$a"/d' file1 ; done

но оно, разумеется, не работает, т.к. в строках могут попасться символы, которые не дают сработать регекспу.

И как эту задачу решить красиво?

PS Файлы по размеру небольшие, так что, вполне бы сгодилось решение вида

cat file1 file2 | $(COMMAND) 

где $(COMMAND) — какая-нибудь команда, навроде uniq, только не оставляющая ни одной строки, повторяющейся более одного раза.

и результат должен получиться для file1:

4
1


Ответ на: комментарий от HolyBoy

есть еще такая беда: если в file1 будет 123, а в file2 23 - 123 в результате ты не увидишь.
и даже ключ -F у grep не спасет.

рекомендую:
cat file1 file2 file2 | sort | uniq -c | grep -E '^ *1 ' | sed -e 's/^ *1 //'.
единственный минус - порядок следования нарушится

xydo ★★
()
Ответ на: комментарий от xydo

grep -E '^ *1 ' | sed -e 's/^ *1 //'
вообще можно заменить на
sed -e 's/^ *1 //;t;d'

xydo ★★
()

А я вот такой велосипед сделал, чтобы удалять или, наоборот, отображать одинаковые строки в двух файлах (скрипт на баше находил разницу в двух маленьких файликах на пару десятков тысяч строк очень долго):

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <unistd.h>
#include <err.h>

void help(char* name){
	printf("\nUsage:\n\t%s <file1> <file2>\n\t\tprint lines of <file1>, that not present in <file2>\n", name);
	printf("\t%s -v <file1> < file2>\n\t\tshows lines of <file1>, that present in <file2>\n", name);
	exit(0);
}

int main(int argc, char** argv){
	char *buf, *F1, *F2, *ptr, *ptr1;
	int file1, file2, n = 0, Vflag = 0;
	long size1, size2;
	struct stat St;
	if(argc < 3 || strcmp(argv[1], "-h") == 0 || strcmp(argv[1], "--help")  == 0) help(argv[0]);
	if(strcmp(argv[1], "-v") == 0){ Vflag = 1; n = 1;}
	if( stat(argv[n+1], &St) < 0) err(1, "\n\tCan't stat %s", argv[n+1]);
	size1 = St.st_size;
	if( stat(argv[n+2], &St) < 0) err(2, "\n\tCan't stat %s", argv[n+2]);
	size2 = St.st_size;
	file1 = open(argv[n+1], O_RDONLY);
	if(file1 < 0) err(3, "\n\tCan't open %s", argv[n+1]);
	file2 = open(argv[n+2], O_RDONLY);
	if(file2 < 0) err(4, "\n\tCan't open %s", argv[n+2]);
	buf = malloc(16385); // буфер для строки
	F1 = malloc(size1 + 1); // содержимое файла 1
	ptr1 = F1;
	F2 = malloc(size2 + 1); // содержимое файла 2
	if(read(file1, F1, size1) != size1) err(5, "\n\tCan't read %s", argv[n+1]);
	F1[size1] = 0;
	close(file1);
	if(read(file2, F2, size2) != size2) err(6, "\n\tCan't read %s", argv[n+2]);
	F2[size2] = 0;
	close(file2);
	while(ptr1){
		ptr = strchr(ptr1, '\n');
		if(ptr) *ptr = 0;
		strncpy(buf, ptr1, 16384);
		if(strstr(F2, buf) == NULL){ if (Vflag == 0) printf("%s\n", buf);}
		else if(Vflag == 1) printf("%s\n", buf);
		if(ptr) ptr1 = ptr + 1;
		else ptr1 = NULL; // конец строки
	}
	free(buf); free(F1); free(F2);
	exit(0);
}

Да, т.к. файлы помещаются в оперативку целиком, лучше не сравнивать файлы длиной более сотни-другой мегабайт.

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от xydo

xydo> есть еще такая беда: если в file1 будет 123, а в file2 23 - 123 в результате ты не увидишь.
и даже ключ -F у grep не спасет.

и даже ключ -F у grep не спасет.

a -w спасет?

sdio ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.