LINUX.ORG.RU

SED-обработка большого текстового файла.

 ,


0

1

Имеем файл исписаный строками «*|*|*|*|*|URL». Во всём тексте не последовательно имеется не мало совершенно разных по содержанию строк, но с одним URL. Нужно всего-то как у Микелианжело «отсечь всё лишнее» - оставить только уникальные URL. В наличии bash, скромные познания sed. Гугл помог вот таким примером:

Удалить дублирующиеся непоследовательные строки файла. Острожнее с переполнением размера буфера, занятой памяти, лучше используйте GNU sed!

sed -n 'G; s/n/&&/; /^([ -~]*n).*n1/d; s/n//; h; P'
Но мне эта последовательность как-то не нравится...

★★

Ответ на: комментарий от drBatty

Спасибо большое за помощь, буду реализовывать. Попробую оба предложеных варианта и отпишусь что работало лучше.

zzdnx ★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.