LINUX.ORG.RU

Проблема с sort

 


0

1

Есть файл over 20Gb, который мне нужно отсортировать и попутно удалить дубликаты.

sort --parallel=4 -u in.txt -o out.txt
Проблема в том, что out.txt выглядит как будто сырой пакет, вместо отсортированного списка, который я ожидаю.

https://vgy.me/gTXVaT.png

Что я сделал не так?


Ответ на: комментарий от anonymous

т.е. что и где сортируешь?
* укажи дистрибутив
* разрядность утилит (32/64)
* кодировка системного терминала
* структура исходного файла
* максимальная длина строки исходного файла
* кириллица/латиница
* кодировка исходного файла
* пример, несколько строк

не думаешь же ты, что мы это всё угадаем?

anonymous
()
Ответ на: комментарий от anonymous
  • debian 6.3
  • 64
  • utf-8
  • структура?
  • хрен его знает
  • кириллица, латиница и прочие языки
  • utf-8
E2-E4
() автор топика
Ответ на: комментарий от anonymous

Это список реальных паролей из баз, попавших в публичный доступ. Собираю для коллекции.

E2-E4
() автор топика
Ответ на: комментарий от E2-E4

В исходном файле 1 «слово» = 1 строка или все идет подряд (через пробел/таб)? Если построчно, то можно через tr заменить каретку на перевод \n, а затем уже сортировать.

Niroday
()

Хуита! Оказывается, в этом файле есть действительно такие строки с таким набором символов. Какая-то билиберда. Я смотрю на самый верх, и думал, что он сломался. А вон оно как. Надо было посмотреть чуть-чуть ниже.

E2-E4
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.