Lemonade
помогает запускать локальные LLM с максимальной производительностью на GPU и NPU
Описание
Lemonade — это сервер для локального запуска больших языковых моделей (LLM) с ускорением на CPU, GPU (Vulkan, ROCm, Metal) и NPU (AMD Ryzen AI). Поддерживает GGUF и ONNX модели, интеграцию с OpenAI-совместимыми клиентами (Python, C++, Java и др.). Включает CLI для запуска, скачивания и тестирования моделей, Model Manager для импорта из Hugging Face. Идеально для стартапов, исследований и приложений AMD. Работает на Windows, Ubuntu 24.04/25.04, macOS 14+ с Python 3.10-3.13.
Возможности
Ускорение на аппаратном обеспечении
Поддержка CPU, GPU (Vulkan/ROCm/Metal) и NPU (AMD Ryzen AI 300 series) для высокой производительности LLM.
Управление моделями
CLI команды для списка, скачивания (pull) и запуска (run) GGUF/ONNX моделей; Model Manager для импорта из Hugging Face.
Интеграция с приложениями
Совместимость с OpenAI API для клиентов на Python, C++, Java и др.; встроенный чат-интерфейс и поддержка apps вроде Open WebUI, Continue.
Кросс-платформенность
Работа на Windows 11, Ubuntu 24.04/25.04, macOS 14+ с Apple Silicon; переключение бэкендов в runtime.
Дополнительные инструменты
Lemonade SDK с API для Python-интеграции, CLI для бенчмаркинга, тестирования и профилирования моделей.