LINUX.ORG.RU

История изменений

Исправление CrX, (текущая версия) :

Теперь вопрос: третья нейросеть-зритель должна эти тонкости знать или нет?

Не должна. Она должна смотреть на две картинки и говорить «отличающиеся» или «одинаковые» точно так же, как сейчас говорит человек. Тренировать её надо именно так. Никаких знаний о предметах, полах людей и прочем ей знать не надо для этого.

Не слишком ли накладно содержать такое количество нейросетей (в т.ч. и с точки зрения вычислений)?

Слишком. Хотя для холодного хранения большого количества инфы может быть оправдано. Даже сейчас.

Мне кажется, что традиционные алгоритмы сжатия будут и быстрее, и размер в итоге будет такой же.

Быстрее-то они будут, причём быстрее на несколько порядков (именно для сжатия, а не разжатия). А вот размер как раз удастся сильно сократить.

Вот тут я вообще очень сомневаюсь, потому что не всегда даже человек может с первого раза из изображения извлечь всю информацию.

даже

Человек тут очень плохое мерило. Человек в этом очень плох. Это делается алгоритмически. Был бы человек в этом хорош, вы бы не смогли не морщась смотреть кино на блюреях, в ютубах, и прочем — только оригинальный мастер на несколько терабайт лосслесс-видео. Но их нигде как раз нет, даже в продаже задорого для эстетов. Потому что человеку это не надо — он прекрасно переносит «незначительные» потери информации.

Сделать такую сетку с лосслесс-кодированием нет никаких проблем, здесь не в чем сомневаться. Вопрос здесь лишь в том, насколько удастся выиграть по сравнению с имеющимися лосслесс-кодеками. А также с лосси-кодеками.

Мне просто кажется, что нейросети прочно заняли нишу генерации малоценной информации, и повысить её ценность без изменения самых фундаментальных принципов (т.е. это должна быть вовсе не нейросеть) не выйдет.

Это не так. Нейросети, например, гораздо лучше справляются с тем же апскейлом картинок из низкого разрешения в высокое. Значительно лучше обычных не-нейросеточных алгоритмов. Причём и очень значительно лучше по субъективному взгляду человека, и значительно лучше по объективному сравнению результата с оригиналом высокого разрешения.

Можно, кстати, реализовать тупую и упрощённую схему с использованием нейросетей, которая тоже даст некоторую экономию места за счёт вычислительных ресурсов. Не продвинутый вариант, который мы обсуждали выше, а тупой из существующих инструментов: даунскейлим оригинальное видео… Или давай для простоты картинку даже. Даунскейлим оригинальную лосслесс-картинку. Результат апскейлим нейросеткой. Затем вычитаем из оригинала апскеил. Получаем разницу. Разницу кодируем и жмём. В итоге у нас есть картинка маленького разрешения и малого размера + пожатая разница малого размера — из этой инфы в совокупности можно восстановить оригинал. В итоге мы экономим место на хранение картинки. Да, за счёт значительного увеличения необходимых вычислительных мощностей.

Исправление CrX, :

Теперь вопрос: третья нейросеть-зритель должна эти тонкости знать или нет?

Не должна. Она должна смотреть на две картинки и говорить «отличающиеся» или «одинаковые» точно так же, как сейчас говорит человек. Тренировать её надо именно так. Никаких знаний о предметах, полах людей и прочем ей знать не надо для этого.

Не слишком ли накладно содержать такое количество нейросетей (в т.ч. и с точки зрения вычислений)?

Слишком. Хотя для холодного хранения большого количества инфы может быть оправдано. Даже сейчас.

Мне кажется, что традиционные алгоритмы сжатия будут и быстрее, и размер в итоге будет такой же.

Быстрее-то они будут, причём быстрее на несколько порядков (именно для сжатия, а не разжатия). А вот размер как раз удастся сильно сократить.

Вот тут я вообще очень сомневаюсь, потому что не всегда даже человек может с первого раза из изображения извлечь всю информацию.

даже

Человек тут очень плохое мерило. Человек в этом очень плох. Это делается алгоритмически. Был бы человек в этом хорош, вы бы не смогли не морщась смотреть кино на блюреях, в ютубах, и прочем — только оригинальный мастер на несколько терабайт лосслесс-видео. Но их нигде как раз нет, даже в продаже задорого для эстетов. Потому что человеку это не надо — он прекрасно переносит «незначительные» потери информации.

Сделать такую сетку с лосслесс-кодированием нет никаких проблем, здесь не в чем сомневаться. Вопрос здесь лишь в том, насколько удастся выиграть по сравнению с имеющимися лосслесс-кодеками. А также с лосси-кодеками.

Мне просто кажется, что нейросети прочно заняли нишу генерации малоценной информации, и повысить её ценность без изменения самых фундаментальных принципов (т.е. это должна быть вовсе не нейросеть) не выйдет.

Это не так. Нейросети, например, гораздо лучше справляются с тем же апскейлом картинок из низкого разрешения в высокое. Значительно лучше обычных не-нейросеточных алгоритмов. Причём и очень значительно лучше по субъективному взгляду человека, и значительно лучше по объективному сравнению результата с оригиналом высокого разрешения.

Можно, кстати, реализовать тупую и упрощённую схему с использованием нейросетей, которая тоже даст некоторую экономию места за счёт вычислительных ресурсов. Не продвинутый вариант, который мы обсуждали выше, а тупой из существующих инструментов: даунскейлим оригинальное видео… Или давай для простоты картинку даже. Даунскейлим оригинальную лосслесс-картинку. Результат апскейлим нейросеткой. Затем вычитаем из оригинала апскеил. Получаем разницу. Разницу кодируем и жмём. В итоге у нас есть картинка маленького разрешения и малого размера + пожатая разница малого размера — из этой инфы в совокупности можно восстановить оригинал.

Исправление CrX, :

Теперь вопрос: третья нейросеть-зритель должна эти тонкости знать или нет?

Не должна. Она должна смотреть на две картинки и говорить «отличающиеся» или «одинаковые» точно так же, как сейчас говорит человек. Тренировать её надо именно так. Никаких знаний о предметах, полах людей и прочем ей знать не надо для этого.

Не слишком ли накладно содержать такое количество нейросетей (в т.ч. и с точки зрения вычислений)?

Слишком. Хотя для холодного хранения большого количества инфы может быть оправдано. Даже сейчас.

Мне кажется, что традиционные алгоритмы сжатия будут и быстрее, и размер в итоге будет такой же.

Быстрее-то они будут, причём быстрее на несколько порядков (именно для сжатия, а не разжатия). А вот размер как раз удастся сильно сократить.

Вот тут я вообще очень сомневаюсь, потому что не всегда даже человек может с первого раза из изображения извлечь всю информацию.

даже

Человек тут очень плохое мерило. Человек в этом очень плох. Это делается алгоритмически. Был бы человек в этом хорош, вы бы не смогли не морщась смотреть кино на блюреях, в ютубах, и прочем — только оригинальный мастер на несколько терабайт лосслесс-видео. Но их нигде как раз нет, даже в продаже задорого для эстетов. Потому что человеку это не надо — он прекрасно переносит «незначительные» потери информации.

Сделать такую сетку с лосслесс-кодированием нет никаких проблем, здесь не в чем сомневаться. Вопрос здесь лишь в том, насколько удастся выиграть по сравнению с имеющимися лосслесс-кодеками. А также с лосси-кодеками.

Мне просто кажется, что нейросети прочно заняли нишу генерации малоценной информации, и повысить её ценность без изменения самых фундаментальных принципов (т.е. это должна быть вовсе не нейросеть) не выйдет.

Это не так. Нейросети, например, гораздо лучше справляются с тем же апскейлом картинок из низкого разрешения в высокое. Значительно лучше обычных не-нейросеточных алгоритмов. Причём и очень значительно лучше по субъективному взгляду человека, и значительно лучше по объективному сравнению результата с оригиналом высокого разрешения.

Исходная версия CrX, :

Теперь вопрос: третья нейросеть-зритель должна эти тонкости знать или нет?

Не должна. Она должна смотреть на две картинки и говорить «отличающиеся» или «одинаковые» точно так же, как сейчас говорит человек. Тренировать её надо именно так. Никаких знаний о предметах, полах людей и прочем ей знать не надо для этого.

Не слишком ли накладно содержать такое количество нейросетей (в т.ч. и с точки зрения вычислений)?

Слишком. Хотя для холодного хранения большого количества инфы может быть оправдано. Даже сейчас.

Мне кажется, что традиционные алгоритмы сжатия будут и быстрее, и размер в итоге будет такой же.

Быстрее-то они будут, причём быстрее на несколько порядков (именно для сжатия, а не разжатия). А вот размер как раз удастся сильно сократить.

Вот тут я вообще очень сомневаюсь, потому что не всегда даже человек может с первого раза из изображения извлечь всю информацию.

даже

Человек тут очень плохое мерило. Человек в этом очень плох. Это делается алгоритмически. Был бы человек в этом хорош, вы бы не смогли не морщась смотреть кино на блюреях, в ютубах, и прочем — только оригинальный мастер на несколько терабайт лосслесс-видео. Но их нигде как раз нет, даже в продаже задорого для эстетов. Потому что человеку это не надо — он прекрасно переносит «незначительные» потери информации.

Сделать такую сетку с лосслесс-кодированием нет никаких проблем, здесь не в чем сомневаться. Вопрос здесь лишь в том, насколько удастся выиграть по сравнению с имеющимися лосслесс-кодеками. А также с лосси-кодеками.