LINUX.ORG.RU

История изменений

Исправление One, (текущая версия) :

Во, появились цифры с M4 Max на 546 GB/s

https://www.reddit.com/r/LocalLLaMA/comments/1i7b3r1/i_did_a_quick_test_of_macbook_m4_max_128_gb/

quick test of MacBook M4 Max 128 GB

  • LLaMA 3.2 3B 4bit – 181
  • LLaMA 3 8B 8bit – 55
  • LLaMA 3.3 70B 4bit – 11.8
  • Mistral Large 123B 4bit – 6.6
  • Mistral Nemo 12B 4bit – 63
  • Mistral Nemo 12B 8bit – 36
  • Mistral Small 22B 4bit – 34.5
  • Mistral Small 22B 8bit – 19.6
  • Qwen2.5 32B 4bit – 24
  • Qwen2.5 32B 8bit – 13.5
  • Qwen2.5 72B 4bit – 10.9
  • Qwen2.5 72B 8bit – 6.2
  • WizardLM-2 8x22B 4bit – 19.4!!

For comparison, here are some numbers obtained in the same setting on my other MacBook, M1 Pro with 32 GB:

  • Mistral Nemo 12B 4bit – 22.8
  • Mistral Small 22B 4bit – 12.9
  • Qwen2.5 32B 4bit – 8.8

Только что-то потыкав у себя пусть и медленно, но тот же Qwen2.5 32B на Q5_K_M, удивляешься насколько же он хуже онлайн Gemimi 2.0 Flash и Thinking (по крайней мере для моих нужд и кодинга и аналитика / структурирования мыслей)

Потратить 7к или 3к или даже 1к на устройство для модели, что хуже и медленнее бесплатной онлайновой, что-то в этом мире не так.

Исходная версия One, :

Во, появились цифры с M4 Max на 546 GB/s

https://www.reddit.com/r/LocalLLaMA/comments/1i7b3r1/i_did_a_quick_test_of_macbook_m4_max_128_gb/

quick test of MacBook M4 Max 128 GB

  • LLaMA 3.2 3B 4bit – 181
  • LLaMA 3 8B 8bit – 55
  • LLaMA 3.3 70B 4bit – 11.8
  • Mistral Large 123B 4bit – 6.6
  • Mistral Nemo 12B 4bit – 63
  • Mistral Nemo 12B 8bit – 36
  • Mistral Small 22B 4bit – 34.5
  • Mistral Small 22B 8bit – 19.6
  • Qwen2.5 32B 4bit – 24
  • Qwen2.5 32B 8bit – 13.5
  • Qwen2.5 72B 4bit – 10.9
  • Qwen2.5 72B 8bit – 6.2
  • WizardLM-2 8x22B 4bit – 19.4!!

For comparison, here are some numbers obtained in the same setting on my other MacBook, M1 Pro with 32 GB:

  • Mistral Nemo 12B 4bit – 22.8
  • Mistral Small 22B 4bit – 12.9
  • Qwen2.5 32B 4bit – 8.8

Только что-то потыкав у себя пусть и медленно, но тот же Qwen2.5 32B на Q5_K_M, удивляешься насколько же он хуже онлайн Gemimi 2.0 Flash и Thinking (по крайней мере для моих нужд и кодинга и аналитика / структурирования мыслей)

Потратить 7к или 3к или даже 1к на модель, что хуже бесплатной онлайновой, что-то в этом мире не так.