История изменений
Исправление Obezyan, (текущая версия) :
Добавление вентилей и новых типов взаимодействий вероятно будут требовать других вычислений (как например та же KAN-архитектура),
Они будут требовать больше операций, но при текущей плоской структуре часть сети будет замораживаться слоями/областями пока все необходимые сигналы не пройдут к нужной области. Т.е. это будет уже не линейное исполнение. Поэтому энергетические затраты не будут сильно расти, как минимум это точно будет не линейная зависимость.
Кроме того у нас сейчас (если верно понимаю) два этапа работы с сетью: тренировка и собственно работа. И тренировка жрёт энергию как известно (нес па?).
Именно так, причем оба этапа раздельно. Есть еще этап finetuning (доучивания) когда берут небольшой кусочек данных и дообучают готовую сеть за 10-20 эпох. Получается LoRA, эдакая пост-сеть которая получает данные с выхода основной сети и меняет результат исходя из того чем ее дообучили. Это маленький шаг к тому самому изменению структуры при выполнении.
Пока мне кажется не похоже чтобы сегодняшние подходы позволяли о чём то таком хотя бы помышлять (даже без оглядки на энергозатраты).
Да, я об этом же пишу, пока новые вентили изобретают и слои наращивают - это эволюция, революция и появление сильного ИИ будет только когда получится менять структуру в процессе выполнения (и как следствие, процессы обучения и выполнения сольются).
Но может я не верно вижу ситуацию..
Вы видите ее также как и я, просто описываете немного иначе. Что не отменяет того факта что мы оба можем заблуждаться.
Исходная версия Obezyan, :
Добавление вентилей и новых типов взаимодействий вероятно будут требовать других вычислений (как например та же KAN-архитектура),
Они будут требовать больше операций, но при текущей плоской структуре часть сети будет замораживаться слоями/областями пока все необходимые сигналы не пройдут к нужной области. Т.е. это будет уже не линейное исполнение. Поэтому энергетические затраты не будут сильно расти, как минимум это точно будет не линейная зависимость.
Кроме того у нас сейчас (если верно понимаю) два этапа работы с сетью: тренировка и собственно работа. И тренировка жрёт энергию как известно (нес па?).
Именно так, причем оба этапа раздельно. Есть еще этап finetuning (доучивания) когда берут небольшой кусочек данных и дообучают готовую сеть за 10-20 эпох. Получается LoRA, эдакая пост-сеть которая получает данные с выхода основной сети и меняет результат исходя из того чем ее дообучили. Это маленький шаг к тому самому изменению структуры при выполнении.
Пока мне кажется не похоже чтобы сегодняшние подходы позволяли о чём то таком хотя бы помышлять (даже без оглядки на энергозатраты).
Да, я об этом же пишу, пока новые вентили изобретают и слои наращивают - это эволюция, революция и появление сильного ИИ будет только когда получится менять структуру в процессе выполнения (и как следовательно процессы обучения и выполнения сольются).
Но может я не верно вижу ситуацию..
Вы видите ее также как и я, просто описываете немного иначе. Что не отменяет того факта что мы оба можем заблуждаться.