[bash] удаление повторяющихся строк

0

0

Доброй ночи.

Имеется два файла с содержимым

file1

file2

5
12

Из file1 надо удалить все строки, совпадающие со строками в file2. Строки могут содержать абсолютно любые символы.

Родил только что-то вроде:

cat file2 | while read a; do sed  '/"$a"/d' file1 ; done

но оно, разумеется, не работает, т.к. в строках могут попасться символы, которые не дают сработать регекспу.

И как эту задачу решить красиво?

PS Файлы по размеру небольшие, так что, вполне бы сгодилось решение вида

cat file1 file2 | $(COMMAND)

где $(COMMAND) — какая-нибудь команда, навроде uniq, только не оставляющая ни одной строки, повторяющейся более одного раза.

и результат должен получиться для file1:

4
1

Ссылка

←	Qt как расширение C++

[Qt] Сымитировать нажатие

→

man grep
-v
-f

man comm

~~sdio~~ ★★★★★
(13.03.10 02:13:02 MSK)

Ответ на: комментарий от sdio 13.03.10 02:13:02 MSK

Спасибо. Оно.

HolyBoy ★
(13.03.10 11:54:08 MSK) автор топика

Ответ на: комментарий от HolyBoy 13.03.10 11:54:08 MSK

есть еще такая беда: если в file1 будет 123, а в file2 23 - 123 в результате ты не увидишь.
и даже ключ -F у grep не спасет.

рекомендую:
cat file1 file2 file2 | sort | uniq -c | grep -E '^ *1 ' | sed -e 's/^ *1 //'.
единственный минус - порядок следования нарушится

xydo ★★
(15.03.10 20:24:18 MSK)

Ответ на: комментарий от xydo 15.03.10 20:24:18 MSK

grep -E '^ *1 ' | sed -e 's/^ *1 //'
вообще можно заменить на
sed -e 's/^ *1 //;t;d'

xydo ★★
(15.03.10 20:31:53 MSK)

Ссылка

sort -u ????

megabaks ★★★★
(15.03.10 20:32:20 MSK)

Ссылка

А я вот такой велосипед сделал, чтобы удалять или, наоборот, отображать одинаковые строки в двух файлах (скрипт на баше находил разницу в двух маленьких файликах на пару десятков тысяч строк очень долго):

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <unistd.h>
#include <err.h>

void help(char* name){
	printf("\nUsage:\n\t%s <file1> <file2>\n\t\tprint lines of <file1>, that not present in <file2>\n", name);
	printf("\t%s -v <file1> < file2>\n\t\tshows lines of <file1>, that present in <file2>\n", name);
	exit(0);
}

int main(int argc, char** argv){
	char *buf, *F1, *F2, *ptr, *ptr1;
	int file1, file2, n = 0, Vflag = 0;
	long size1, size2;
	struct stat St;
	if(argc < 3 || strcmp(argv[1], "-h") == 0 || strcmp(argv[1], "--help")  == 0) help(argv[0]);
	if(strcmp(argv[1], "-v") == 0){ Vflag = 1; n = 1;}
	if( stat(argv[n+1], &St) < 0) err(1, "\n\tCan't stat %s", argv[n+1]);
	size1 = St.st_size;
	if( stat(argv[n+2], &St) < 0) err(2, "\n\tCan't stat %s", argv[n+2]);
	size2 = St.st_size;
	file1 = open(argv[n+1], O_RDONLY);
	if(file1 < 0) err(3, "\n\tCan't open %s", argv[n+1]);
	file2 = open(argv[n+2], O_RDONLY);
	if(file2 < 0) err(4, "\n\tCan't open %s", argv[n+2]);
	buf = malloc(16385); // буфер для строки
	F1 = malloc(size1 + 1); // содержимое файла 1
	ptr1 = F1;
	F2 = malloc(size2 + 1); // содержимое файла 2
	if(read(file1, F1, size1) != size1) err(5, "\n\tCan't read %s", argv[n+1]);
	F1[size1] = 0;
	close(file1);
	if(read(file2, F2, size2) != size2) err(6, "\n\tCan't read %s", argv[n+2]);
	F2[size2] = 0;
	close(file2);
	while(ptr1){
		ptr = strchr(ptr1, '\n');
		if(ptr) *ptr = 0;
		strncpy(buf, ptr1, 16384);
		if(strstr(F2, buf) == NULL){ if (Vflag == 0) printf("%s\n", buf);}
		else if(Vflag == 1) printf("%s\n", buf);
		if(ptr) ptr1 = ptr + 1;
		else ptr1 = NULL; // конец строки
	}
	free(buf); free(F1); free(F2);
	exit(0);
}

Да, т.к. файлы помещаются в оперативку целиком, лучше не сравнивать файлы длиной более сотни-другой мегабайт.

~~Eddy_Em~~ ☆☆☆☆☆
(15.03.10 20:34:29 MSK)

Ссылка

Ответ на: комментарий от xydo 15.03.10 20:24:18 MSK

xydo> есть еще такая беда: если в file1 будет 123, а в file2 23 - 123 в результате ты не увидишь.
и даже ключ -F у grep не спасет.

и даже ключ -F у grep не спасет.

a -w спасет?

~~sdio~~ ★★★★★
(15.03.10 20:36:11 MSK)

Ответ на: комментарий от sdio 15.03.10 20:36:11 MSK

Вернее -х

~~sdio~~ ★★★★★
(15.03.10 20:37:26 MSK)

Ответ на: комментарий от sdio 15.03.10 20:37:26 MSK

да, это спасёт :)

xydo ★★
(23.03.10 22:20:47 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Qt как расширение C++

Development

[Qt] Сымитировать нажатие

→

Похожие темы