Имеем файл исписаный строками «*|*|*|*|*|URL». Во всём тексте не последовательно имеется не мало совершенно разных по содержанию строк, но с одним URL. Нужно всего-то как у Микелианжело «отсечь всё лишнее» - оставить только уникальные URL. В наличии bash, скромные познания sed. Гугл помог вот таким примером:
Удалить дублирующиеся непоследовательные строки файла. Острожнее с переполнением размера буфера, занятой памяти, лучше используйте GNU sed!
sed -n 'G; s/n/&&/; /^([ -~]*n).*n1/d; s/n//; h; P'