Llm On Mac

На этой странице Это руководство поможет вам запустить локальный LLM-сервер на macOS с OpenAI-совместимым API. Вы получаете полную приватность, нулевую стоимость API и удивительно хорошую производительность на Apple Silicon.

Мы рассмотрим два бэкенда: | Бэкенд | Установка | Лучше всего в | Формат | |---|---|---|---| | llama.cpp | brew install llama.cpp | Быстрейшее время до первого токена, квантованный KV-кэш для экономии памяти | GGUF | | omlx | omlx.ai | Быстрейшая генерация токенов, нативная оптимизация Metal | MLX (safetensors) |

Оба предоставляют OpenAI-совместимый эндпоинт /v1/chat/completions. Hermes работает с любым из них — просто укажите http://localhost:8080 или http://localhost:8000.

Только Apple Silicon Это руководство предназначено для Mac с Apple Silicon (M1 и новее). Intel Mac будут работать с llama.cpp, но без GPU-ускорения — ожидайте значительно более низкой производительности.

Выбор модели¶

Для начала мы рекомендуем Qwen3.5-9B — это сильная модель рассуждений, которая комфортно помещается в 8 ГБ+ унифицированной памяти с квантизацией.

Вариант	Размер на диске	Требуется RAM (контекст 128K)	Бэкенд
Qwen3.5-9B-Q4_K_M (GGUF)	5.3 ГБ	~10 ГБ с квантованным KV-кэшем	llama.cpp
Qwen3.5-9B-mlx-lm-mxfp4 (MLX)	~5 ГБ	~12 ГБ	omlx

Эмпирическое правило по памяти: размер модели + KV-кэш. Модель 9B в Q4 — это ~5 ГБ. KV-кэш при контексте 128K с Q4-квантизацией добавляет ~4-5 ГБ. Со стандартным (f16) KV-кэшем это раздувается до ~16 ГБ. Флаги квантованного KV-кэша в llama.cpp — ключевой трюк для систем с ограниченной памятью.

Для более крупных моделей (27B, 35B) потребуется 32+ ГБ унифицированной памяти. 9B — оптимальный вариант для машин с 8-16 ГБ.

Вариант A: llama.cpp¶

llama.cpp — это наиболее портируемая среда выполнения локальных LLM. На macOS она использует Metal для GPU-ускорения «из коробки».

Установка¶

[code] brew install llama.cpp

[/code]

Это даст вам команду llama-server глобально.

Загрузка модели¶

Вам нужна модель в формате GGUF. Проще всего взять её с Hugging Face через huggingface-cli:

[code] brew install huggingface-cli

[/code]

Затем скачайте:

[code] huggingface-cli download unsloth/Qwen3.5-9B-GGUF Qwen3.5-9B-Q4_K_M.gguf --local-dir ~/models

[/code]

Модели с ограниченным доступом Некоторые модели на Hugging Face требуют аутентификации. Запустите huggingface-cli login сначала, если получите ошибку 401 или 404.

Запуск сервера¶

[code] llama-server -m ~/models/Qwen3.5-9B-Q4_K_M.gguf \ -ngl 99 \ -c 131072 \ -np 1 \ -fa on \ --cache-type-k q4_0 \ --cache-type-v q4_0 \ --host 0.0.0.0

[/code]

Вот что означает каждый флаг:

Флаг	Назначение
`-ngl 99`	Выгрузить все слои на GPU (Metal). Используйте большое число, чтобы ничего не осталось на CPU.
`-c 131072`	Размер окна контекста (128K токенов). Уменьшите, если мало памяти.
`-np 1`	Количество параллельных слотов. Оставьте 1 для одного пользователя — больше слотов уменьшает бюджет памяти.
`-fa on`	Flash attention. Уменьшает использование памяти и ускоряет инференс с длинным контекстом.
`--cache-type-k q4_0`	Квантизация кэша ключей до 4 бит. Это главный экономитель памяти.
`--cache-type-v q4_0`	Квантизация кэша значений до 4 бит. Вместе с предыдущим сокращает память KV-кэша на ~75% по сравнению с f16.
`--host 0.0.0.0`	Слушать на всех интерфейсах. Используйте `127.0.0.1`, если не нужен сетевой доступ.

Сервер готов, когда вы видите:

[code] main: server is listening on http://0.0.0.0:8080 srv update_slots: all slots are idle

[/code]

Оптимизация памяти для систем с ограничениями¶

Флаги --cache-type-k q4_0 --cache-type-v q4_0 — самая важная оптимизация для систем с ограниченной памятью. Вот влияние при контексте 128K:

Тип KV-кэша	Память KV-кэша (контекст 128K, модель 9B)
f16 (по умолчанию)	~16 ГБ
q8_0	~8 ГБ
q4_0	~4 ГБ

На Mac с 8 ГБ используйте KV-кэш q4_0 и уменьшите контекст до -c 32768 (32K). На 16 ГБ можно комфортно работать с контекстом 128K. На 32+ ГБ можно запускать модели побольше или несколько параллельных слотов.

Если памяти всё ещё не хватает, сначала уменьшите размер контекста (-c), затем попробуйте меньшую квантизацию (Q3_K_M вместо Q4_K_M).

Проверка¶

[code] curl -s http://localhost:8080/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "Qwen3.5-9B-Q4_K_M.gguf", "messages": [{"role": "user", "content": "Hello!"}], "max_tokens": 50 }' | jq .choices[0].message.content

[/code]

Получение имени модели¶

Если вы забыли имя модели, запросите эндпоинт моделей:

[code] curl -s http://localhost:8080/v1/models | jq '.data[].id'

[/code]

Вариант B: MLX через omlx¶

omlx — это нативное macOS-приложение для управления и обслуживания MLX-моделей. MLX — собственный фреймворк машинного обучения от Apple, оптимизированный специально для архитектуры унифицированной памяти Apple Silicon.

Установка¶

Скачайте и установите с omlx.ai. Он предоставляет графический интерфейс для управления моделями и встроенный сервер.

Загрузка модели¶

Используйте приложение omlx для просмотра и загрузки моделей. Найдите Qwen3.5-9B-mlx-lm-mxfp4 и скачайте её. Модели хранятся локально (обычно в ~/.omlx/models/).

Запуск сервера¶

По умолчанию omlx обслуживает модели на http://127.0.0.1:8000. Запустите обслуживание из интерфейса приложения или используйте CLI, если доступно.

Проверка¶

[code] curl -s http://127.0.0.1:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "Qwen3.5-9B-mlx-lm-mxfp4", "messages": [{"role": "user", "content": "Hello!"}], "max_tokens": 50 }' | jq .choices[0].message.content

[/code]

Список доступных моделей¶

omlx может одновременно обслуживать несколько моделей:

[code] curl -s http://127.0.0.1:8000/v1/models | jq '.data[].id'

[/code]

Бенчмарки: llama.cpp vs MLX¶

Оба бэкенда протестированы на одной машине (Apple M5 Max, 128 ГБ унифицированной памяти) с одной моделью (Qwen3.5-9B) на сопоставимых уровнях квантизации (Q4_K_M для GGUF, mxfp4 для MLX). Пять разнообразных промптов, по три запуска каждого, бэкенды тестировались последовательно во избежание конкуренции за ресурсы.

Результаты¶

Метрика	llama.cpp (Q4_K_M)	MLX (mxfp4)	Победитель
TTFT (среднее)	67 мс	289 мс	llama.cpp (в 4.3 раза быстрее)
TTFT (p50)	66 мс	286 мс	llama.cpp (в 4.3 раза быстрее)
Генерация (среднее)	70 ток/с	96 ток/с	MLX (на 37% быстрее)
Генерация (p50)	70 ток/с	96 ток/с	MLX (на 37% быстрее)
Общее время (512 токенов)	7.3 с	5.5 с	MLX (на 25% быстрее)

Что это значит¶

llama.cpp превосходен в обработке промптов — его конвейер flash attention + квантованный KV-кэш выдаёт первый токен за ~66 мс. Если вы создаёте интерактивные приложения, где важна отзывчивость (чат-боты, автодополнение), это значимое преимущество.
MLX генерирует токены на ~37% быстрее после разгона. Для пакетных нагрузок, длительной генерации или любых задач, где важнее общее время завершения, а не начальная задержка, MLX финиширует раньше.
Оба бэкенда чрезвычайно стабильны — разброс между запусками был незначительным. На эти цифры можно полагаться.

Какой выбрать?¶

Сценарий	Рекомендация
Интерактивный чат, инструменты с низкой задержкой	llama.cpp
Длительная генерация, пакетная обработка	MLX (omlx)
Ограниченная память (8-16 ГБ)	llama.cpp (квантованный KV-кэш непревзойдён)
Одновременное обслуживание нескольких моделей	omlx (встроенная поддержка нескольких моделей)
Максимальная совместимость (включая Linux)	llama.cpp

Подключение к Hermes¶

Когда ваш локальный сервер запущен:

[code] hermes model

[/code]

Выберите Custom endpoint и следуйте инструкциям. Будет запрошен базовый URL и имя модели — используйте значения из того бэкенда, который вы настроили выше.

Тайм-ауты¶

Hermes автоматически определяет локальные эндпоинты (localhost, LAN IP) и ослабляет тайм-ауты стриминга. Для большинства конфигураций настройка не требуется.

Если вы всё ещё получаете ошибки тайм-аута (например, из-за очень больших контекстов на медленном оборудовании), вы можете переопределить тайм-аут чтения стрима:

[code] # В вашем .env — увеличить со 120 с по умолчанию до 30 минут HERMES_STREAM_READ_TIMEOUT=1800

[/code]

Тайм-аут	По умолчанию	Локальная автонастройка	Переопределение через env-переменную
Чтение стрима (уровень сокета)	120 с	Увеличен до 1800 с	`HERMES_STREAM_READ_TIMEOUT`
Обнаружение устаревшего стрима	180 с	Полностью отключён	`HERMES_STREAM_STALE_TIMEOUT`
API-вызов (нестриминг)	1800 с	Не требуется изменений	`HERMES_API_TIMEOUT`

Тайм-аут чтения стрима — тот, что чаще всего вызывает проблемы. Это дедлайн на уровне сокета для получения следующего фрагмента данных. Во время префилла на больших контекстах локальные модели могут не выдавать вывод в течение нескольких минут, обрабатывая промпт. Автоопределение обрабатывает это прозрачно.

Выбор модели
Вариант A: llama.cpp
Установка
Загрузка модели
Запуск сервера
Оптимизация памяти для систем с ограничениями
Проверка
Получение имени модели
Вариант B: MLX через omlx
Установка
Загрузка модели
Запуск сервера
Проверка
Список доступных моделей
Бенчмарки: llama.cpp vs MLX
Результаты
Что это значит
Какой выбрать?
Подключение к Hermes
Тайм-ауты

Llm On Mac

Выбор модели​¶

Вариант A: llama.cpp​¶

Установка​¶

Загрузка модели​¶

Запуск сервера​¶

Оптимизация памяти для систем с ограничениями​¶

Проверка​¶

Получение имени модели​¶

Вариант B: MLX через omlx​¶

Установка​¶

Загрузка модели​¶

Запуск сервера​¶

Проверка​¶

Список доступных моделей​¶

Бенчмарки: llama.cpp vs MLX​¶

Результаты​¶

Что это значит​¶

Какой выбрать?​¶

Подключение к Hermes​¶

Тайм-ауты​¶

Выбор модели¶

Вариант A: llama.cpp¶

Установка¶

Загрузка модели¶

Запуск сервера¶

Оптимизация памяти для систем с ограничениями¶

Проверка¶

Получение имени модели¶

Вариант B: MLX через omlx¶

Установка¶

Загрузка модели¶

Запуск сервера¶

Проверка¶

Список доступных моделей¶

Бенчмарки: llama.cpp vs MLX¶

Результаты¶

Что это значит¶

Какой выбрать?¶

Подключение к Hermes¶

Тайм-ауты¶