LINUX.ORG.RU

Эталонные наборы данных для оценки сжатия

 , , датасет, палата мер и весов, сжатие данных


1

1

Есть ли такие? Краткий поиск через поиск ничего не показал или я не знаю как искать. Суть проста, очередной дурак (я) играется с очередным своим (а на деле велосипедным наверное) «алгоритмом» сжатия, без цели, а просто за интерес. Ну, понятно что вся суть итоговая с какими данными то или иное работает лучше, универсальных алгоритмов сжатия не существует. Но чисто для своего удобства хотелось бы иметь некий набор, например данные состоящие только из уникальных значений, данные с последовательным повторением, оно же но с разной частотой повторений или размерами этих самых повторений, смешанные данные в разных пропорциях и так далее и так далее, как набор искусственных данных для синтетической оценки коэффициентов сжатия так и реальных наборов и их комбинаций так сказать типичных в повседневной практике.

Ну типа взять разные архиваторы плюс свой вариант и просто глядеть на разницу оценивая где и в каких случаях выигрыш, проигрыш. Да, можно всё рассчитать просто на бумаге, вообще без запуска и реализации, но так скучно, я же играюсь просто, а когда играешь веселее когда есть таблица лидеров кто фрагов больше набил =)

Можно самому напридумывать конечно, но лень и возможно будет некорректно, может есть что? А то просто совать что под руку попадётся в целом прикидывая что внутри такое себе.

Да и даже в отрыве от личных экспериментов можно будет например выбирать тот или иной архиватор зная какой на каких данных лучше себя проявляет и использовать именно его для своих нужд в конкретных случаях когда твои файлики по составу наиболее приближены к одному или группе наилучших результатов одного из архиваторов. Даааа… это всё можно просто взять и на живых данных проверить, но да ладно.

В целом не критично, но просто если такое есть было бы удобно.
Как-то так. Может кто знает? Где и куда копать.
Если такого не существует, то надо будет заняться.

Перемещено hobbit из general

★★★★★

Последнее исправление: LINUX-ORG-RU (всего исправлений: 3)
Ответ на: комментарий от alysnix

Да уже сжимают, в сетях где используется свёрточная модель это обычная практика, когда создаётся отдельный слой цель которого очень проста, принять в себя блок данных, сохранить во внутреннем представлении, а затем выдать точную копию. Сжатие данных там чудовищное, сосут любые алгоритмы, но, это сжатие конкретных данных. На любых отличных сосёт уже сетка, даже если 1 бит поменять. Если очень грубо сеть внутри себя создаёт хеш, но может в отличии от обычных хешей восстановить из него данные. Это всё есть, весь вопрос в том насколько универсале подход, у нейросетей он локален. Сжать нормально они могут только что уже было, если очень грубо (и вообще не так) они имеют в себе словарь просто во внутреннем оптимальном для себя и определённого набора данных виде.

LINUX-ORG-RU ★★★★★
() автор топика