У CNN есть фиксированное число входов, обычно на него подают фиксированный кусочек картинки скажем 64x64, сеть первым слоем делает свёртку (сумма взвешенных входов перцептрона - это в точности вот такая операция https://en.wikipedia.org/wiki/Kernel_(image_processing) ), ну т.е. нейросеть можно научить делать первым слоем много чего, например блюрить картинку.
В общих чертах я понимаю так.
Вопрос не в этом. Лицо на картинке может влезать в эти 64x64 точки, а может занимать весь кадр 1920x1080 например.
Как физически происходит «скармливание» большой картинки нейросети, которая должна найти там лицо на любой позиции в любом масштабе?
Что, делать перебор всех возможных местонахождений лица скармливая все возможные 64x64 куски картинки, потом уменьшаем картинку в 2 раза и всё по новой?
Как это физически устроено?