История изменений
Исправление rk-d, (текущая версия) :
По ссылке просто написано, что дольше думает над ответом)
По сути да, только лично я пока не понимаю, как оно работает под капотом. Если я все правильно понял, то они просто в каком-то усиленном режиме включили CoT в процесс тренировки. При этом не понятно, как они могли включить его на этапе pretraining, учитывая что тогда параллелизовать в рамках одной последовательности его можно примерно никак. Они упоминают некий large-scale reinforcement learning, возможно что они просто сделали fine tuning с этой самой CoT в большем объеме и с rl
Исправление rk-d, :
По ссылке просто написано, что дольше думает над ответом)
По сути да, только я лично я пока не понимаю, как оно работает под капотом. Если я все правильно понял, то они просто в каком-то усиленном режиме включили CoT в процесс тренировки. При этом не понятно, как они могли включить его на этапе pretraining, учитывая что тогда параллелизовать в рамках одной последовательности его можно примерно никак. Они упоминают некий large-scale reinforcement learning, возможно что они просто сделали fine tuning с этой самой CoT в большем объеме и с rl
Исходная версия rk-d, :
По ссылке просто написано, что дольше думает над ответом)
По сути да, только я лично я пока не понимаю, как оно работает под капотом. Если я все правильно понял, то они просто в каком-то усиленном режиме включили CoT в процесс тренировки. При этом не понятно, как они могли включить его на этапе pretraining, учитывая что тогда параллелизовать в рамках одной последовательности его можно примерно никак. Они упоминают некий large-scale reinforcement learning, возможно что они просто сделали fine tuning с этой самой CoT в большем объеме