История изменений
Исправление ox55ff, (текущая версия) :
Тебе нужен https://github.com/LostRuins/koboldcpp. Это форк твоей ламы, но с web ui. Собирается одним вызовом make.
Модели брать здесь https://rentry.org/nur779. Выбирай формат ggml. Например из раздела Alpaca quantized 4-bit weights (ggml q4_0). Я пробовал 13b и 30b.
Исходная версия ox55ff, :
Тебе нужен https://github.com/LostRuins/koboldcpp. Это форк твоей ламы, но с web ui. Собирается одним вызовом make.
Модели брать здесь https://rentry.org/nur779. Выбирай формат ggml.