Как разобраться в формате файла? (было: Как заинструментировать код на Си)

3

2

Пост обновлен, предыдущее название: «Как заинструментировать код на Си и понять что он делает? Реверсинг формата файла»

Вступление

Есть какой-то файл и я хочу понять его внутреннее устройство. В качестве примера, возмем файл формата PNG, так как он достаточно простой и хорошо документирован. Но далеко не все форматы хорошо документированы, поэтому полагаться только на документацию - нельзя.

Итак, у нас есть какой-то файл формата PNG - что с ним дальше можно сделать? Можно было бы взять готовую библиотеку для чтения данного формата (libpng), но она содержит более 100 000 строк кода, что крайне сложно для понимания.

Я предполагаю, что более наглядным для изучения будет разглядывать такие картинки:

https://i.imgur.com/eLd44xQ.png - 010 hex editor + png.bt
https://i.imgur.com/AwpmSxV.png - minimal png file
https://i.stack.imgur.com/hcIIO.png - найдено в интернетах
https://parsiya.net/images/2018/png1/03-ihdr.png - найдено в интернетах
https://i.stack.imgur.com/aZUz1.png - найдено в интернетах

Здесь сразу видны байтики и их значение. По крайней мере, лично мне, такое изучение было бы наиболее близким и понятным. В этом месте можно назвать меня гуманитарием и посоветовать биореактор^Wчтение исходников, но это не так наглядно.

К сожалению, не все форматы файлов так хорошо описаны, как описан формат PNG. Далеко не для всех форматов файлов есть такие картинки и тем более шаблоны для hex-редакторов. И я бы хотел делать такие картинки самостоятельно.

Идея

Я предполагаю, что если для этого формата есть открытая библиотека (libpng), то для него можно написать свою читалку (my_png_reader). В свою очередь, у нашей библиотеки (libpng) могут быть свои зависимости (zlib) и я предполагаю, что нужно будет разобраться и с устройством этой библиотеки тоже.

Само собой, для тестирования, нужно будет собрать некий тестовый датасет (набор png-файлов с разными разрешениями, режимами компрессии, битые файлы). Для этого было бы неплохо использовать утилиты из набора AFL для уменьшения датасета и уменьшения самих исходных данных: https://youtu.be/0dqL6vfPCek (фаззинг файла вместе с ffmpeg)

Вопрос: как бы заинструментировать имеющийся софт (программу, библиотеки), чтобы понять, что такое оно делает с файлом, что внутри и как его вообще читать? Да и вообще, что можно вытащить из подобной затеи?

Например, очень бы хотелось узнать:

Сигнатуру файла (\x89PNG в начале файла)
Структуру «чанков», что она представляет собой 4 поля: длинна, тип, данные, CRC32
Алгоритм расчета CRC32: какая часть данных считается, с заголовком или без, какой полином
Какая часть файла пожата zlib, какие части файла просто являются несжатыми массивами
Нарисовать какую-то диаграмму, где какой байт чему соответстует, вроде https://i.imgur.com/eLd44xQ.png или https://i.imgur.com/AwpmSxV.png

Я себе это представляю как-то так:

Читаем кусочек файла и помечаем, что это наш файл (перехватываем read/fread, «отравляем» эти участки памяти)
Ставим брейтпоинт на чтение памяти, логгируем, смотрим по map-файлу где мы это читали, желательно размотать стек
По коду уже можно представить, читаем мы float или int16, находимся ли в структурке или еще где. Если мы внутри функции check_file_signature(), то это вообще очевидно. Можно пометить как ручками, так и чем-то вроде IDA.

Зачем? Это поможет в написании файлов-шаблонов для таких программ как https://ide.kaitai.io/ или 010 Editor. Конечно, в идеале запустить на входе PNG-файл, а на выходе получить KSY (формат описания файлов kaitai) или BT (формат для 010 Editor), но понятно, что идеальной документации не будет. Но я стремлюсь именно к этому.

Однако я понятия не имею как это реализовать, да и наверняка я не первый до этого додумался. Может кто-то встречал нечто подобное?

Буду благодарен на статьи просто по инструментации сишного кода. Или не только сишного.

Референсы и идеи

https://github.com/AFLplusplus/AFLplusplus - отличное средство для фаззинга (пример фаззинга libpng: https://youtu.be/LsdDRat4S0U), но я не очень понимаю как это применить именно к описанию файла. А вот тулзы вроде afl-cmin - чистое золото
https://www.intel.com/content/www/us/en/developer/articles/tool/pin-a-dynamic-binary-instrumentation-tool.html - Intel PIN
Address Sanitizer or ASAN - можно попробовать поиграться с ним и залоггировать доступ к памяти
valgrind + lackey - очень многообещающе, но боюсь не осилить
Попробовать сделать доступ к страничке PROT_NONE, получить сегфолт, но непонятно как возвращать управление (сделал, но споткнулся на последнем пункте)

←	Си, Чтение из разнотипных архивов

Одновременный поиск одного из двух элементов на странице

→

← 1 2 →

Ответ на: комментарий от ruzisufaka 25.02.24 21:49:09 MSK

смущает факт, что чел не может найти в многомегабайтных исходниках, ту небольшую часть, что ему необходима.

alysnix ★★★
(25.02.24 23:03:24 MSK)

Ответ на: комментарий от alysnix 25.02.24 23:03:24 MSK

Я не хочу находить небольшую часть, я хочу ПОНИМАТЬ устройство файла в целом

ruzisufaka ★
(26.02.24 02:28:14 MSK) автор топика

Ответ на: комментарий от ruzisufaka 26.02.24 02:28:14 MSK

за устройство файла в целом должна отвечать компонента, что реализует формат этого файла. чтение и запись данных в таком формате и проч. с ним штучки.

такая компонента находится, и глазками изучается.

alysnix ★★★
(26.02.24 02:40:18 MSK)

Ответ на: комментарий от alysnix 26.02.24 02:40:18 MSK

libpng1.6-1.6.37# cat *c | wc -l
cat: powerpc: Is a directory
35764
libpng1.6-1.6.37#

Да, всего-то надо прочитать 35к строк и понять их. Плевое дело!

Поправка:

libpng1.6-1.6.37# find -iname "*.c" | xargs -n1 cat | wc -l
106351
libpng1.6-1.6.37#

Если считать со всеми платформами и ассемблерными оптимизациями, то всего-то 106к строк!

ruzisufaka ★
(26.02.24 03:34:06 MSK) автор топика
Последнее исправление: ruzisufaka 26.02.24 03:37:47 MSK (всего исправлений: 1)

Ответ на: комментарий от ruzisufaka 25.02.24 21:49:09 MSK

Нет, выкидывай оттуда лишнее блок за блоком, строчка за строчкой, собирай и постоянной проверяй сохранение-открытие твоего файла. В итоге останется только код сохранения/открытия, который тебе и нужен: он всяко понятнее дизасма или реверс-инжениринга файла. Ну приведи в порядок, добавь комментов

pihter ★★★★★
(26.02.24 04:10:51 MSK)

Ответ на: комментарий от pihter 26.02.24 04:10:51 MSK

выкидывай оттуда лишнее блок за блоком

Да, пожалуй это проще:

 find -iname "*.c" | xargs -n1 cat  | grep { | wc -l
8203

Всего 8203 блоков! До обеда разберусь!

ruzisufaka ★
(26.02.24 06:08:57 MSK) автор топика

Ответ на: комментарий от Forum0888 22.02.24 09:10:52 MSK

В 90-х была програмка для реверсинга игр, которая работала так. Меняем значение опции в игре, а программа в памяти производит поиск изменённых байт.

Artmoney?

pihter ★★★★★
(26.02.24 06:20:42 MSK)

Ответ на: комментарий от ruzisufaka 26.02.24 06:08:57 MSK

Всего 8203 блоков! До обеда разберусь!

Можно выкидывать более крупными блоками :)

До обеда не разберёшься, но за несколько дней я так программу на 50 тыс строк припорировал. Потому что если просто тащить из неё нужный мне кусок кода - он не работал и, чтобы выяснить что же там скрыто влияет - пришлось вот так разобрать. Не быстро да, но зато результат гарантирован

pihter ★★★★★
(26.02.24 06:24:09 MSK)

Ответ на: комментарий от ruzisufaka 26.02.24 02:28:14 MSK

Я не хочу находить небольшую часть, я хочу ПОНИМАТЬ устройство файла в целом

Смело. Даже при наличии официальных доков такое не всегда очевидно. И reverse-engineering конкретного парсера (даже при наличии исходников) Вам мало что даст - то что делает конкретная версия абсолютно ничего не имеет общего с заложенным в формат. И я даже больше скажу - «понимание формата» Вам мало что даст без понимания что циферки означают, и откуда их взять.

bugfixer ★★★★★
(26.02.24 06:47:41 MSK)

Ответ на: комментарий от bugfixer 26.02.24 06:47:41 MSK

Ну, надо же с чего-то начинать.

ruzisufaka ★
(26.02.24 09:20:11 MSK) автор топика

Переписал первый пост

ruzisufaka ★
(26.02.24 09:20:23 MSK) автор топика

Ответ на: комментарий от ruzisufaka 23.02.24 10:49:15 MSK

Можно и без перекомпиляции отключать ASLR через setarch -R. Без:

$ cat /proc/self/maps  | sha1sum
061811ab4aaf61afefb150e10cd39aa7911806f3  -
$ cat /proc/self/maps  | sha1sum
307ac5769750e791a28003f45af31d34651c8d29  -
$ cat /proc/self/maps  | sha1sum
29caaacbff80daf22627ebd3dca3e5463822505a  -

С:

$ setarch -R cat /proc/self/maps  | sha1sum
7806dcdf8de1e5ed91dca6f508b985c8ccabc4e4  -
$ setarch -R cat /proc/self/maps  | sha1sum
7806dcdf8de1e5ed91dca6f508b985c8ccabc4e4  -
$ setarch -R cat /proc/self/maps  | sha1sum
7806dcdf8de1e5ed91dca6f508b985c8ccabc4e4  -

anonymous
(26.02.24 17:58:36 MSK)

C, asm - хороши если есть толпа ~~бездельников~~ разработчиков. А в одну харю - ну наверное действительно Ruby (если подзубрить нативные библиотеки, вместо Си-алгоритмов) стоит подучить. У ‘‘‘Добби’’’ ловко получилось!

anonymous
(26.02.24 18:03:36 MSK)

У тебя есть текстовый файл.
Вместо того чтобы найти в нём нужное ключевое слово грепом (этасложна!), ты скармливаешь его в text2speak и садишься слушать с секундомером, чтоб примерно определить в каком месте текстового файла находится искомое.
Получается долго и плохо, зато сколько удовольствия.

frob ★★★★★
(27.02.24 04:06:11 MSK)

binwalk не смотрел? Сам не использовал, но он вроде-бы для чего-то подобного предназначен.

snizovtsev ★★★★★
(27.02.24 15:34:18 MSK)

Ну так ты в 2024 живёшь, йоу. GPT как для тебя придумали. Лень/не можешь думать — GPT подумает за тебя. Загружай туда сырцы и hex-дамп файла и спрашивай.

https://gpt.h2o.ai/

https://huggingface.co/spaces/Qwen/Qwen1.5-72B-Chat

anonymous
(24.03.24 07:02:12 MSK)

Я бы покопал в сторону WireShark: https://www.wireshark.org/

Это анализатор сетевого трафика, но он имеет похожее HEX представление и интерпритацию. Возможно есть способ приспособить его для парсинга обычных файлов, а не перехваченных данных из сети.

asashnov
(04.04.24 11:26:55 MSK)

С реверсом такое дело. Это в png хорошо что всё просто и очевидно, а в реверсе тебе сначала надо базу файлов набрать большую, чтоб фичи стандарта которым с тобой не поделились узнать. Ну и для обработки этого добра рекомендую не сразу на сях код писать, а на том же питоне быстро чтоб все фичи найти, а потом на си свои или расты переписывай.

peregrine ★★★★★
(04.04.24 12:52:33 MSK)

Ответ на: комментарий от Stanson 22.02.24 05:21:45 MSK

Плюсую, но бывает так что программу которая с файлом работает не получить. Например у тебя выгрузка данных с какого-то томографа или сервера.

peregrine ★★★★★
(04.04.24 12:54:16 MSK)
Последнее исправление: peregrine 04.04.24 13:05:29 MSK (всего исправлений: 1)

Ответ на: комментарий от ruzisufaka 26.02.24 03:34:06 MSK

35к строк

Код в дипломе студента (если он реально код писал для решения какой-то простой задачи, скажем уровня определения авторства текста) будет где-то 10к строк на питоне. Так что я не вижу сложности в прочтении 35к строк на сишке, которая куда более многословная

peregrine ★★★★★
(04.04.24 13:00:18 MSK)

← 1 2 →

←	Си, Чтение из разнотипных архивов

Development

Одновременный поиск одного из двух элементов на странице

→

Вступление

Идея

Референсы и идеи

Похожие темы