RockYou2024 анализ
Короче, по следам новости RockYou2024 -- крупнейшая утечка данных: опубликованы почти 10 миллиардов паролей качнул файл. Распаковал, там соответственно txt файл на 145 Гб.
yr@E525:/mnt/expdrive$ ls -lh rockyou2024.*
-rw-rw-r-- 1 yr yr 146G июн 25 19:20 rockyou2024.txt
-rw-r--r-- 1 yr yr 46G июл 22 01:59 rockyou2024.zip
Проверил контрольную сумму с той что указана на гитхабе - сходится.
Но файл бинарный. grep отказывается в нем что-либо искать, т.к. он бинарный!
yr@E525:/mnt/expdrive$ grep fakepass rockyou2024.txt
Двоичный файл rockyou2024.txt совпадает
При этом в каментах к новости народ радостно пишет что погрепали там разные пароли и все у них хорошо. Это что значит - люди лукавят, или у меня руки кривые??? У grep конечно есть еще -a опция…
файл определяется как БД dbase (!!!) но единственной тулзой по этой теме из репозитариев убунты посмотреть не получается:
yr@E525:/mnt/expdrive$ file rockyou2024.txt
rockyou2024.txt: dBase III DBT, version number 0, next free block index 10
yr@E525:/mnt/expdrive$ dbview -i rockyou2024.txt
Version 10 not supported
может есть еще какие?
утилита strings извлекает из этого бинарника строки, но очень много строк с лидирующими пробелами и много одинаковых строк (возможно отличающихся не отображаемыми символами), хотя в новости написано что все пароли там уникальные… Хотя даже на (том самом) гитхабе написано что какие-то молодцы из казахстана уже убрали дубли и почистили от бинарной хрени и оставили пароли с длинной от 8 до 40 символов и в таком виде раздают через телеграмм и итоговый файл весит всего 25 Гб… Т.е. текст новости полностью некорректный?
кстати strings извлекает
yr@E525:/mnt/expdrive$ strings rockyou2024.txt | wc -l
9946381679
т.е. на 2 194 060 меньше чем в новости указано… куда 2 миллиона паролей делось?
Как правильней извлечь пароли для дальнейшего использования? Есть что-то лучшее чем strings? или есть что-то чем можно открыть этот файл как БД dbase (и является ли этот файл базой на самом деле)?
если я хочу побрутфорсить пароли стандартного современного линукса стоит ли удалить все начальные и конечные не читаемые символы в этом файле?
ЗЫ К сожалению свободного места маловато и пока экспериментирую на ноутбучном HHD подключенном через USB2 - и это боль, любые манипуляции с файлом занимают по 20+ минут времени…