Lemonade

помогает запускать локальные LLM с максимальной производительностью на GPU и NPU

Python

⭐ 1290 stars

Описание

Lemonade — это сервер для локального запуска больших языковых моделей (LLM) с ускорением на CPU, GPU (Vulkan, ROCm, Metal) и NPU (AMD Ryzen AI). Поддерживает GGUF и ONNX модели, интеграцию с OpenAI-совместимыми клиентами (Python, C++, Java и др.). Включает CLI для запуска, скачивания и тестирования моделей, Model Manager для импорта из Hugging Face. Идеально для стартапов, исследований и приложений AMD. Работает на Windows, Ubuntu 24.04/25.04, macOS 14+ с Python 3.10-3.13.

Возможности

✓

Ускорение на аппаратном обеспечении

Поддержка CPU, GPU (Vulkan/ROCm/Metal) и NPU (AMD Ryzen AI 300 series) для высокой производительности LLM.

✓

Управление моделями

CLI команды для списка, скачивания (pull) и запуска (run) GGUF/ONNX моделей; Model Manager для импорта из Hugging Face.

✓

Интеграция с приложениями

Совместимость с OpenAI API для клиентов на Python, C++, Java и др.; встроенный чат-интерфейс и поддержка apps вроде Open WebUI, Continue.

✓

Кросс-платформенность

Работа на Windows 11, Ubuntu 24.04/25.04, macOS 14+ с Apple Silicon; переключение бэкендов в runtime.

✓

Дополнительные инструменты

Lemonade SDK с API для Python-интеграции, CLI для бенчмаркинга, тестирования и профилирования моделей.

Установка

Установка возможна через GUI-установщик (только для Windows: https://github.com/lemonade-sdk/lemonade/releases/latest/download/Lemonade_Server_Installer.exe), pip или из исходного кода. Подробные инструкции: https://lemonade-server.ai/install_options.html. После установки используйте CLI: lemonade-server pull для скачивания, lemonade-server run для запуска.

Информация

Язык

Python

Лицензия

Apache License 2.0

GitHub Stars

1290

Ссылки

GitHub