LINUX.ORG.RU

История изменений

Исправление red75prim, (текущая версия) :

Там сидит несколько тысяч кенийцев, которые бьют по нейросети больно палками за неправильные тексты

На самом деле не так (см. например https://huggingface.co/blog/rlhf ). На основе оценок кенийцев строится модель человеческих предпочтений. И потом уже эта модель используется чтобы «бить палками» по выходному слою замороженной языковой модели (файнтюнить, в общем).

Исходная версия red75prim, :

Там сидит несколько тысяч кенийцев, которые бьют по нейросети больно палками за неправильные тексты

На самом деле не так (см. например https://huggingface.co/blog/rlhf ). На основе оценок кенийцев строится модель человеческих предпочтений. И потом уже эта модель используется чтобы «бить палками» по выходному слою замороженной языковой модели.