История изменений
Исправление One, (текущая версия) :
Во, появились цифры с M4 Max на 546 GB/s
https://www.reddit.com/r/LocalLLaMA/comments/1i7b3r1/i_did_a_quick_test_of_macbook_m4_max_128_gb/
quick test of MacBook M4 Max 128 GB
- LLaMA 3.2 3B 4bit – 181
- LLaMA 3 8B 8bit – 55
- LLaMA 3.3 70B 4bit – 11.8
- Mistral Large 123B 4bit – 6.6
- Mistral Nemo 12B 4bit – 63
- Mistral Nemo 12B 8bit – 36
- Mistral Small 22B 4bit – 34.5
- Mistral Small 22B 8bit – 19.6
- Qwen2.5 32B 4bit – 24
- Qwen2.5 32B 8bit – 13.5
- Qwen2.5 72B 4bit – 10.9
- Qwen2.5 72B 8bit – 6.2
- WizardLM-2 8x22B 4bit – 19.4!!
For comparison, here are some numbers obtained in the same setting on my other MacBook, M1 Pro with 32 GB:
- Mistral Nemo 12B 4bit – 22.8
- Mistral Small 22B 4bit – 12.9
- Qwen2.5 32B 4bit – 8.8
Только что-то потыкав у себя пусть и медленно, но тот же Qwen2.5 32B на Q5_K_M, удивляешься насколько же он хуже онлайн Gemimi 2.0 Flash и Thinking (по крайней мере для моих нужд и кодинга и аналитика / структурирования мыслей)
Потратить 7к или 3к или даже 1к на устройство для модели, что хуже и медленнее бесплатной онлайновой, что-то в этом мире не так.
Исходная версия One, :
Во, появились цифры с M4 Max на 546 GB/s
https://www.reddit.com/r/LocalLLaMA/comments/1i7b3r1/i_did_a_quick_test_of_macbook_m4_max_128_gb/
quick test of MacBook M4 Max 128 GB
- LLaMA 3.2 3B 4bit – 181
- LLaMA 3 8B 8bit – 55
- LLaMA 3.3 70B 4bit – 11.8
- Mistral Large 123B 4bit – 6.6
- Mistral Nemo 12B 4bit – 63
- Mistral Nemo 12B 8bit – 36
- Mistral Small 22B 4bit – 34.5
- Mistral Small 22B 8bit – 19.6
- Qwen2.5 32B 4bit – 24
- Qwen2.5 32B 8bit – 13.5
- Qwen2.5 72B 4bit – 10.9
- Qwen2.5 72B 8bit – 6.2
- WizardLM-2 8x22B 4bit – 19.4!!
For comparison, here are some numbers obtained in the same setting on my other MacBook, M1 Pro with 32 GB:
- Mistral Nemo 12B 4bit – 22.8
- Mistral Small 22B 4bit – 12.9
- Qwen2.5 32B 4bit – 8.8
Только что-то потыкав у себя пусть и медленно, но тот же Qwen2.5 32B на Q5_K_M, удивляешься насколько же он хуже онлайн Gemimi 2.0 Flash и Thinking (по крайней мере для моих нужд и кодинга и аналитика / структурирования мыслей)
Потратить 7к или 3к или даже 1к на модель, что хуже бесплатной онлайновой, что-то в этом мире не так.