История изменений
Исправление red75prim, (текущая версия) :
Там сидит несколько тысяч кенийцев, которые бьют по нейросети больно палками за неправильные тексты
На самом деле не так (см. например https://huggingface.co/blog/rlhf ). На основе оценок кенийцев строится модель человеческих предпочтений. И потом уже эта модель используется чтобы «бить палками» по выходному слою замороженной языковой модели (файнтюнить, в общем).
Исходная версия red75prim, :
Там сидит несколько тысяч кенийцев, которые бьют по нейросети больно палками за неправильные тексты
На самом деле не так (см. например https://huggingface.co/blog/rlhf ). На основе оценок кенийцев строится модель человеческих предпочтений. И потом уже эта модель используется чтобы «бить палками» по выходному слою замороженной языковой модели.