LINUX.ORG.RU

История изменений

Исправление Obezyan, (текущая версия) :

Добавление вентилей и новых типов взаимодействий вероятно будут требовать других вычислений (как например та же KAN-архитектура),

Они будут требовать больше операций, но при текущей плоской структуре часть сети будет замораживаться слоями/областями пока все необходимые сигналы не пройдут к нужной области. Т.е. это будет уже не линейное исполнение. Поэтому энергетические затраты не будут сильно расти, как минимум это точно будет не линейная зависимость.

Кроме того у нас сейчас (если верно понимаю) два этапа работы с сетью: тренировка и собственно работа. И тренировка жрёт энергию как известно (нес па?).

Именно так, причем оба этапа раздельно. Есть еще этап finetuning (доучивания) когда берут небольшой кусочек данных и дообучают готовую сеть за 10-20 эпох. Получается LoRA, эдакая пост-сеть которая получает данные с выхода основной сети и меняет результат исходя из того чем ее дообучили. Это маленький шаг к тому самому изменению структуры при выполнении.

Пока мне кажется не похоже чтобы сегодняшние подходы позволяли о чём то таком хотя бы помышлять (даже без оглядки на энергозатраты).

Да, я об этом же пишу, пока новые вентили изобретают и слои наращивают - это эволюция, революция и появление сильного ИИ будет только когда получится менять структуру в процессе выполнения (и как следствие, процессы обучения и выполнения сольются).

Но может я не верно вижу ситуацию..

Вы видите ее также как и я, просто описываете немного иначе. Что не отменяет того факта что мы оба можем заблуждаться.

Исходная версия Obezyan, :

Добавление вентилей и новых типов взаимодействий вероятно будут требовать других вычислений (как например та же KAN-архитектура),

Они будут требовать больше операций, но при текущей плоской структуре часть сети будет замораживаться слоями/областями пока все необходимые сигналы не пройдут к нужной области. Т.е. это будет уже не линейное исполнение. Поэтому энергетические затраты не будут сильно расти, как минимум это точно будет не линейная зависимость.

Кроме того у нас сейчас (если верно понимаю) два этапа работы с сетью: тренировка и собственно работа. И тренировка жрёт энергию как известно (нес па?).

Именно так, причем оба этапа раздельно. Есть еще этап finetuning (доучивания) когда берут небольшой кусочек данных и дообучают готовую сеть за 10-20 эпох. Получается LoRA, эдакая пост-сеть которая получает данные с выхода основной сети и меняет результат исходя из того чем ее дообучили. Это маленький шаг к тому самому изменению структуры при выполнении.

Пока мне кажется не похоже чтобы сегодняшние подходы позволяли о чём то таком хотя бы помышлять (даже без оглядки на энергозатраты).

Да, я об этом же пишу, пока новые вентили изобретают и слои наращивают - это эволюция, революция и появление сильного ИИ будет только когда получится менять структуру в процессе выполнения (и как следовательно процессы обучения и выполнения сольются).

Но может я не верно вижу ситуацию..

Вы видите ее также как и я, просто описываете немного иначе. Что не отменяет того факта что мы оба можем заблуждаться.