Перейти к содержимому

omniparser-autogui-mcp

Автоматизирует управление GUI через анализ экрана с помощью OmniParser.

Python
54 stars

Описание

Это сервер MCP, использующий OmniParser для анализа экрана и автоматического выполнения операций с графическим интерфейсом. Поддерживает Windows, OCR на английском (и других языках), конфигурацию целевого окна или всего экрана. Идеален для автоматизации задач, таких как поиск элементов в браузере или взаимодействие с приложениями. Технологии: Python, uv, модели OmniParser для сегментации и распознавания. Применения: автоматизация рутинных GUI-операций без ручного ввода.

Возможности

Анализ экрана

Использует OmniParser для сегментации и распознавания GUI-элементов на экране.

Автоматическое управление GUI

Выполняет операции, такие как поиск и взаимодействие с элементами интерфейса (например, поиск в браузере).

Конфигурация OCR

Поддержка языков через OCR_LANG, скачивание моделей для распознавания текста.

Указание целевого окна

Работает с конкретным окном по TARGET_WINDOW_NAME или всем экраном.

Удаленная обработка

Возможность запуска OmniParser на другом устройстве через OMNI_PARSER_SERVER.

Установка

  1. Клонируйте репозиторий и установите зависимости:
git clone --recursive https://github.com/NON906/omniparser-autogui-mcp.git
cd omniparser-autogui-mcp
uv sync
set OCR_LANG=en  # На non-Windows: export OCR_LANG=en
uv run download_models.py

(Для langchain_example.py: uv sync –extra langchain)

  1. Добавьте в claude_desktop_config.json:
{
  "mcpServers": {
    "omniparser_autogui_mcp": {
      "command": "uv",
      "args": [
        "--directory",
        "D:\\CLONED_PATH\\omniparser-autogui-mcp",
        "run",
        "omniparser-autogui-mcp"
      ],
      "env": {
        "PYTHONIOENCODING": "utf-8",
        "OCR_LANG": "en"
      }
    }
  }
}

(Замените путь на ваш. Дополнительные env: OMNI_PARSER_BACKEND_LOAD=1 для других клиентов, TARGET_WINDOW_NAME для целевого окна, OMNI_PARSER_SERVER для удаленного сервера и т.д.)

Информация

Язык
Python
Лицензия
MIT License
GitHub Stars
54

Ссылки