LINUX.ORG.RU
ФорумTalks

[пятница] Энтропия

 


0

2

Возник вопрос: что такое информационная энтропия? Определения в словарях читал. Статью в википедии тоже.

Правильно ли я понимаю, что теоретический предел сжатия файла равен энтропии этого файла?

Существует ли простой способ посчитать энтропию файла?

Можно ли по отношению размера файла к его энтропии определять тип содержащихся данных? Например отличить текст на японском от картинки-битмапа в highcolour. Или это будет столь же информативно, надёжно и быстро, как степень сжатия zip-ом?

★★★★★

>Правильно ли я понимаю, что теоретический предел сжатия файла равен энтропии этого файла?

Да.

Существует ли простой способ посчитать энтропию файла?


Нет.

Можно ли по отношению размера файла к его энтропии определять тип содержащихся данных?


Нет.

redgremlin ★★★★★
()

>Можно ли по отношению размера файла к его энтропии определять тип содержащихся данных? Например отличить текст на японском от картинки-битмапа в highcolour. Или это будет столь же информативно, надёжно и быстро, как степень сжатия zip-ом?

можно только определять энтропию файла.

aiqu6Ait ★★★★
()
Ответ на: комментарий от aiqu6Ait

>>> Существует ли простой способ посчитать энтропию файла?

Нет.

4.2

4.2, с отправкой читать определения. Для Ъ: энтропия - это свойство не конкретного сообщения/файла, а пространства этих сообщений. Для файла можно только посчитать только его информативность. В этом вопросе полезны архиваторы - с помощью них можно получить верхнюю оценку данной величины.

segfault ★★★★★
()

>Например отличить текст на японском от картинки-битмапа в highcolour

это сравнение шила с мылом. или имеется в виду, что текст и картинка несут один и тот же смысл, и хочется сравнить эффективность представления информации?

registrant ★★★★★
()

>> Существует ли простой способ посчитать энтропию файла?

Вроде бы можно, даже есть несложная формула для этого. Вот только я её, хоть убейте, не помню.

CARS ★★★★
()
Ответ на: комментарий от post-factum

> Энтропия — мера хаотичности.

Самое бесполезное из её определений :) Разве что дать заодно определение «хаотичности» и методику измерения :)

question4 ★★★★★
() автор топика
Ответ на: комментарий от segfault

> энтропия - это свойство не конкретного сообщения/файла, а пространства этих сообщений.

То есть можно выбирать пространство — какой-то набор вероятностей для байтов и их комбинаций, и для каждого набора будет своя?

архиваторы - с помощью них можно получить верхнюю оценку данной величины.

То есть для случая, когда все байты равновероятны?

question4 ★★★★★
() автор топика
Ответ на: комментарий от registrant

> это сравнение шила с мылом.

Можно ли отличить чёрный ящик с шилом от чёрного ящика с мылом, измеряя силу притяжения магнита к ящику? Да, если ящик не ферромагнитный.

Пример. Требуется понять, является ли файл ресурсов из игры картинкой, текстом в неизвестной кодировке, речью в PCM или ещё чем-то. 7-zip для этой цели иногда подходит. Но хочется иметь более математически обоснованный метод.

или имеется в виду, что текст и картинка несут один и тот же смысл, и хочется сравнить эффективность представления информации?

Нет.

question4 ★★★★★
() автор топика
Ответ на: комментарий от question4

>Пример. Требуется понять, является ли файл ресурсов из игры картинкой, текстом в неизвестной кодировке, речью в PCM или ещё чем-то. 7-zip для этой цели иногда подходит. Но хочется иметь более математически обоснованный метод.

в общем случае ты этого сделать не сможешь. можешь сделать шумовую картинку, и хрен ты ее сожмешь или отличишь от чего-то хорошо пожатого. но можно выявить характерные паттерны, посчитав энтропию для каждого вида сообщений. проблема в том, что даже для текста она будет сильно меняться.

registrant ★★★★★
()
Ответ на: комментарий от registrant

> можешь сделать шумовую картинку, и хрен ты ее сожмешь или отличишь от чего-то хорошо пожатого

Само собой :)

но можно выявить характерные паттерны, посчитав энтропию для каждого вида сообщений. проблема в том, что даже для текста она будет сильно меняться.

Как раз об этом и спрашиваю. Занимался ли кто-либо установлением таких закономерностей? Например, для художественных текстов. И каким образом там считалась энтропия?

question4 ★★★★★
() автор топика
Ответ на: комментарий от question4

>И каким образом там считалась энтропия?

чем тебе определения не хватает?

registrant ★★★★★
()
Ответ на: комментарий от question4

> То есть можно выбирать пространство — какой-то набор вероятностей для байтов и их комбинаций, и для каждого набора будет своя?

Ну да, если учитывать, что любой файл - это комбинация байт. Но учтите, что распределение байт даст вам не больше информации об энтропии, чем архивация.

архиваторы - с помощью них можно получить верхнюю оценку данной величины.

То есть для случая, когда все байты равновероятны?

Еще скажите, независимо распределены - тогда информативность будет тупо равняться длине. Нет, архиватор даст хорошую оценку.

segfault ★★★★★
()
Ответ на: комментарий от CARS

> Вроде бы можно, даже есть несложная формула для этого. Вот только я её, хоть убейте, не помню.

Формула-то элементарная - это мат. ожидание информативности сообщения. А вот последнюю объективно посчитать нереально.

segfault ★★★★★
()

> Правильно ли я понимаю, что теоретический предел сжатия файла равен энтропии этого файла? Существует ли простой способ посчитать энтропию файла?

Прочитай еще про Колмогоровскую сложность.

Manhunt ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.