ScreenPilot
Сервер для полного контроля LLM над устройством через автоматизацию экрана, мыши и клавиатуры.
Описание
ScreenPilot — это MCP-сервер на Python, позволяющий большим языковым моделям (LLM) управлять графическим интерфейсом устройства. Ключевые особенности: захват экрана, контроль мыши (клики, перемещения), ввод с клавиатуры (текст, горячие клавиши), прокрутка, обнаружение элементов и последовательные действия. Технологии: Python 3.12 с библиотеками для автоматизации (pyautogui и т.д.). Применения: автоматизация задач, образовательные цели, развлечения и тестирование GUI.
Возможности
Захват экрана
Съемка скриншотов и анализ содержимого экрана для получения информации.
Контроль мыши
Перемещение курсора и выполнение кликов в указанных позициях.
Действия с клавиатурой
Ввод текста, нажатия клавиш и комбинации горячих клавиш.
Прокрутка
Прокрутка контента в различных направлениях и на конкретные позиции.
Обнаружение элементов
Проверка наличия элементов на экране и ожидание их появления.
Последовательные действия
Выполнение цепочек нескольких действий в автоматизированной последовательности.
Установка
- Установите Python 3.12.
- Клонируйте репозиторий:
git clone https://github.com/Mtehabsim/ScreenPilot.git. - Создайте виртуальное окружение:
python -m venv venv. - Активируйте:
venv\Scripts\activate(на Windows). - Установите зависимости:
pip install -r requirements.txt. - Откройте Claude AI Desktop, перейдите в File → Settings → Developer → Edit config.
- Вставьте в config.json:
{
"mcpServers": {
"device-controll": {
"command": "pathToEnv\\venv\\Scripts\\python.exe",
"args": [
"pathToProject\\ScreenPilot\\main.py"
]
}
}
}
- Замените пути на реальные.
- Сохраните, выйдите из Claude AI и перезапустите.