История изменений

изображает из себя зрителя и сравнивает результат с оригиналом видео

У меня вот в этом месте возникает возражение. Если вернуться к моей фотографии выше, то там видны вот такие лыжи. Это российская имитация австрийской модели, которая в пять раз дороже. Отличия, конечно, видны — можно научить нашу нейросеть читать надписи и объяснить, что это очень важно. Но что, если вместо первой (российской) была вот такая модель? Разница — только в дырке на носке и цвете логотипа, но из этого все, кто сведущ, сделают вывод, что первая пара коньковая, а вторая классическая. Причём только потому, что фирма Fischer в последние годы (определяем год по шрифту надписи) выпускает профессиональные коньковые модели (определяем по цвету) только с дыркой. Итого из такой детали можно извлечь, что гонка была тем или иным стилем.

Теперь вопрос: третья нейросеть-зритель должна эти тонкости знать или нет? Если да, то нужно держать множество нейросетей, одна сведуща в лыжах, другая по форме зада может определить пол и возраст человека (я вот не всегда могу, а кому-то это может быть важно), третья разбирается в шмотках, четвёртая по мешкам под глазами определяет, что данный человек в тот день не выспался, но не является алкоголиком (потому что — что?)

Не слишком ли накладно содержать такое количество нейросетей (в т.ч. и с точки зрения вычислений)? Мне кажется, что традиционные алгоритмы сжатия будут и быстрее, и размер в итоге будет такой же.

Так, чтобы в итоге восстанавливалось оригинальное видео пиксель в пиксель.

Вот тут я вообще очень сомневаюсь, потому что не всегда даже человек может с первого раза из изображения извлечь всю информацию.

Чёрт знает, конечно, может, я слишком скептически настроен. Мне просто кажется, что нейросети прочно заняли нишу генерации малоценной информации, и повысить её ценность без изменения самых фундаментальных принципов (т.е. это должна быть вовсе не нейросеть) не выйдет. По-моему, искусственные нейросети не умеют «делать выводы» (что бы это ни значило). А естественные это делают потому, что очень большие, и аналитическое мышление в каком-то смысле является следствием гигантского размера.

изображает из себя зрителя и сравнивает результат с оригиналом видео

У меня вот в этом месте возникает возражение. Если вернуться к моей фотографии выше, то там видны вот такие лыжи. Это российская имитация австрийской модели, которая в пять раз дороже. Отличия, конечно, видны — можно научить нашу нейросеть читать надписи и объяснить, что это очень важно. Но что, если вместо первой (российской) была вот такая модель? Разница — только в дырке на носке и цвете логотипа, но из этого все, кто сведущ, сделают вывод, что первая пара коньковая, а вторая классическая. Причём только потому, что фирма Fischer в последние годы (определяем год по шрифту надписи) выпускает профессиональные коньковые модели (определяем по цвету) только с дыркой. Итого из такой детали можно извлечь, что гонка была тем или иным стилем.

Теперь вопрос: третья нейросеть-зритель должна эти тонкости знать или нет? Если да, то нужно держать множество нейросетей, одна сведуща в лыжах, другая по форме зада может определить пол и возраст человека (я вот не всегда могу, а кому-то это может быть важно), третья разбирается в шмотках, четвёртая по мешкам под глазами определяет, что данный человек в тот день не выспался, но не является алкоголиком (потому что — что?)

Не слишком ли накладно содержать такое количество нейросетей (в т.ч. и с точки зрения вычислений)? Мне кажется, что традиционные алгоритмы сжатия будут и быстрее, и размер в итоге будет такой же.

Так, чтобы в итоге восстанавливалось оригинальное видео пиксель в пиксель.

Вот тут я вообще очень сомневаюсь, потому что не всегда даже человек может с первого раза из изображения извлечь всю информацию.

Чёрт знает, конечно, может, я слишком скептически настроен. Мне просто кажется, что нейросети прочно заняли нишу генерации малоценной информации, и повысить её ценность без изменения самых фундаментальных принципов (т.е. это должна быть вовсе не нейросеть) не выйдет.

изображает из себя зрителя и сравнивает результат с оригиналом видео

У меня вот в этом месте возникает возражение. Если вернуться к моей фотографии выше, то там видны вот такие лыжи. Это российская имитация австрийской модели, которая в пять раз дороже. Отличия, конечно, видны — можно научить нашу нейросеть читать надписи и объяснить, что это очень важно. Но что, если я приведу вот такую модель? Разница — только в дырке на носке и цвете логотипа, но из этого все, кто сведущ, сделают вывод, что первая пара коньковая, а вторая классическая. Причём только потому, что фирма Fischer в последние годы (определяем год по шрифту надписи) выпускает профессиональные коньковые модели (определяем по цвету) только с дыркой. Итого из такой детали можно извлечь, что гонка была тем или иным стилем.

Теперь вопрос: третья нейросеть-зритель должна эти тонкости знать или нет? Если да, то нужно держать множество нейросетей, одна сведуща в лыжах, другая по форме зада может определить пол и возраст человека (я вот не всегда могу, а кому-то это может быть важно), третья разбирается в шмотках, четвёртая по мешкам под глазами определяет, что данный человек в тот день не выспался, но не является алкоголиком (потому что — что?)

Не слишком ли накладно содержать такое количество нейросетей (в т.ч. и с точки зрения вычислений)? Мне кажется, что традиционные алгоритмы сжатия будут и быстрее, и размер в итоге будет такой же.

Так, чтобы в итоге восстанавливалось оригинальное видео пиксель в пиксель.

Вот тут я вообще очень сомневаюсь, потому что не всегда даже человек может с первого раза из изображения извлечь всю информацию.

Чёрт знает, конечно, может, я слишком скептически настроен. Мне просто кажется, что нейросети прочно заняли нишу генерации малоценной информации, и повысить её ценность без изменения самых фундаментальных принципов (т.е. это должна быть вовсе не нейросеть) не выйдет.