LMStudio + MCP - пока что лучший опыт работы с моделями за последнее время.
M4 Max 128gb
В основном использую последний gpt-oss 20b или последний mistral с thinking/vision/tools в формате MLX, так как он немного быстрее (в этом вся суть MLX, я думаю, так как у нас до сих пор нет нормальных LLM в CoreML для apple neural engine...).
Подключил около 10 MCP для разных целей, работает просто потрясающе.
Не открывал ChatGPT или Claude пару дней.
Довольно доволен.
следующий шаг - это иметь нормальный агентский разговор/поток под капотом, чтобы можно было оставить его на автономные рабочие сессии, например, чистить и связывать вещи в моем Obsidian Vault ночью, пока я сплю, да?..
EDIT 1:
— Разве 128GB не может легко запустить 120B?
— Да, даже 235b qwen на 4bit. Не уверен, почему OP запускает 20b лол
быстрый ответ, чтобы прояснить, братья!
Так как оригинальный 120b в mlx весит 124gb и не генерирует ни одного токена, помимо 20b MLX я использую 120b, но в формате GGUF, практически та же версия, которая поставляется в экосистеме Ollama.
Изначально опубликовано на r/LocalLLaMA, где набрало 67K+ просмотров.