История изменений

По ссылке просто написано, что дольше думает над ответом)

По сути да, только лично я пока не понимаю, как оно работает под капотом. Если я все правильно понял, то они просто в каком-то усиленном режиме включили CoT в процесс тренировки. При этом не понятно, как они могли включить его на этапе pretraining, учитывая что тогда параллелизовать в рамках одной последовательности его можно примерно никак. Они упоминают некий large-scale reinforcement learning, возможно что они просто сделали fine tuning с этой самой CoT в большем объеме и с rl

По ссылке просто написано, что дольше думает над ответом)

По сути да, только я лично я пока не понимаю, как оно работает под капотом. Если я все правильно понял, то они просто в каком-то усиленном режиме включили CoT в процесс тренировки. При этом не понятно, как они могли включить его на этапе pretraining, учитывая что тогда параллелизовать в рамках одной последовательности его можно примерно никак. Они упоминают некий large-scale reinforcement learning, возможно что они просто сделали fine tuning с этой самой CoT в большем объеме и с rl

По ссылке просто написано, что дольше думает над ответом)

По сути да, только я лично я пока не понимаю, как оно работает под капотом. Если я все правильно понял, то они просто в каком-то усиленном режиме включили CoT в процесс тренировки. При этом не понятно, как они могли включить его на этапе pretraining, учитывая что тогда параллелизовать в рамках одной последовательности его можно примерно никак. Они упоминают некий large-scale reinforcement learning, возможно что они просто сделали fine tuning с этой самой CoT в большем объеме