Эталонные наборы данных для оценки сжатия

compression, алгоритмы, датасет, палата мер и весов, сжатие данных

1

1

Есть ли такие? Краткий поиск через поиск ничего не показал или я не знаю как искать. Суть проста, очередной дурак (я) играется с очередным своим (а на деле велосипедным наверное) «алгоритмом» сжатия, без цели, а просто за интерес. Ну, понятно что вся суть итоговая с какими данными то или иное работает лучше, универсальных алгоритмов сжатия не существует. Но чисто для своего удобства хотелось бы иметь некий набор, например данные состоящие только из уникальных значений, данные с последовательным повторением, оно же но с разной частотой повторений или размерами этих самых повторений, смешанные данные в разных пропорциях и так далее и так далее, как набор искусственных данных для синтетической оценки коэффициентов сжатия так и реальных наборов и их комбинаций так сказать типичных в повседневной практике.

Ну типа взять разные архиваторы плюс свой вариант и просто глядеть на разницу оценивая где и в каких случаях выигрыш, проигрыш. Да, можно всё рассчитать просто на бумаге, вообще без запуска и реализации, но так скучно, я же играюсь просто, а когда играешь веселее когда есть таблица лидеров ~~кто фрагов больше набил~~ =)

Можно самому напридумывать конечно, но лень и возможно будет некорректно, может есть что? А то просто совать что под руку попадётся в целом прикидывая что внутри такое себе.

Да и даже в отрыве от личных экспериментов можно будет например выбирать тот или иной архиватор зная какой на каких данных лучше себя проявляет и использовать именно его для своих нужд в конкретных случаях когда твои файлики по составу наиболее приближены к одному или группе наилучших результатов одного из архиваторов. Даааа… это всё можно просто взять и на живых данных проверить, но да ладно.

В целом не критично, но просто если такое есть было бы удобно.
Как-то так. Может кто знает? Где и куда копать.
Если такого не существует, то надо будет заняться.

Перемещено hobbit из general

←	Нужны ваши мысли по code review

На чем написать простой rest API?

→

Показаны ответы на комментарий. Показать все комментарии.

Ответ на: комментарий от LINUX-ORG-RU 02.12.23 16:15:27 UTC

скоро сжатием данных будут заниматься нейросети. только им под силу копнуть глубоко в скрытые закономерности.

alysnix ★★★
(02.12.23 16:31:07 UTC)

Ответ на: комментарий от alysnix 02.12.23 16:31:07 UTC

Шутка

Зачем их сжимать?
Скоро у каждого будет свой квантовый компьютер.

~~Forum0888~~
(02.12.23 16:34:09 UTC)

Ответ на: комментарий от alysnix 02.12.23 16:31:07 UTC

Да уже сжимают, в сетях где используется свёрточная модель это обычная практика, когда создаётся отдельный слой цель которого очень проста, принять в себя блок данных, сохранить во внутреннем представлении, а затем выдать точную копию. Сжатие данных там чудовищное, сосут любые алгоритмы, но, это сжатие конкретных данных. На любых отличных сосёт уже сетка, даже если 1 бит поменять. Если очень грубо сеть внутри себя создаёт хеш, но может в отличии от обычных хешей восстановить из него данные. Это всё есть, весь вопрос в том насколько универсале подход, у нейросетей он локален. Сжать нормально они могут только что уже было, если очень грубо (и вообще не так) они имеют в себе словарь просто во внутреннем оптимальном для себя и определённого набора данных виде.

LINUX-ORG-RU ★★★★★
(02.12.23 16:43:05 UTC) автор топика

←	Нужны ваши мысли по code review

Development

На чем написать простой rest API?

→

Похожие темы