omniparser-autogui-mcp
Автоматизирует управление GUI через анализ экрана с помощью OmniParser.
Описание
Это сервер MCP, использующий OmniParser для анализа экрана и автоматического выполнения операций с графическим интерфейсом. Поддерживает Windows, OCR на английском (и других языках), конфигурацию целевого окна или всего экрана. Идеален для автоматизации задач, таких как поиск элементов в браузере или взаимодействие с приложениями. Технологии: Python, uv, модели OmniParser для сегментации и распознавания. Применения: автоматизация рутинных GUI-операций без ручного ввода.
Возможности
Анализ экрана
Использует OmniParser для сегментации и распознавания GUI-элементов на экране.
Автоматическое управление GUI
Выполняет операции, такие как поиск и взаимодействие с элементами интерфейса (например, поиск в браузере).
Конфигурация OCR
Поддержка языков через OCR_LANG, скачивание моделей для распознавания текста.
Указание целевого окна
Работает с конкретным окном по TARGET_WINDOW_NAME или всем экраном.
Удаленная обработка
Возможность запуска OmniParser на другом устройстве через OMNI_PARSER_SERVER.
Установка
- Клонируйте репозиторий и установите зависимости:
git clone --recursive https://github.com/NON906/omniparser-autogui-mcp.git
cd omniparser-autogui-mcp
uv sync
set OCR_LANG=en # На non-Windows: export OCR_LANG=en
uv run download_models.py
(Для langchain_example.py: uv sync –extra langchain)
- Добавьте в claude_desktop_config.json:
{
"mcpServers": {
"omniparser_autogui_mcp": {
"command": "uv",
"args": [
"--directory",
"D:\\CLONED_PATH\\omniparser-autogui-mcp",
"run",
"omniparser-autogui-mcp"
],
"env": {
"PYTHONIOENCODING": "utf-8",
"OCR_LANG": "en"
}
}
}
}
(Замените путь на ваш. Дополнительные env: OMNI_PARSER_BACKEND_LOAD=1 для других клиентов, TARGET_WINDOW_NAME для целевого окна, OMNI_PARSER_SERVER для удаленного сервера и т.д.)