Агент для автономной автоматизации браузера: получает задачу в тексте, управляет браузером через OpenAI и выполняет действия на страницах (переходы, клики, ввод в формы и т.д.).
- Node.js 18+
- Ключ OpenAI API
npm installПри установке автоматически ставится Chromium для Playwright (postinstall).
- Скопируйте пример конфигурации:
cp .env.example .env
- В
.envукажите ключ OpenAI:OPENAI_API_KEY=sk-your-openai-api-key-here
npm startПрограмма запросит задачу в консоли. Введите текст задачи (например: «Открой google.com и найди погоду в Москве») и нажмите Enter. Откроется браузер, агент начнёт выполнять задачу.
npm run start:interactiveПеред стартом агента появится подсказка: разместите консоль слева, браузер откроется справа в половину экрана. Удобно, когда нужно следить за действиями агента.
npm run browserЗапускается только браузер с постоянным контекстом. API-ключ не нужен. Закройте окно браузера или нажмите Ctrl+C для выхода.
Для потенциально опасных действий (например, отправка формы, переход по ссылке) агент запрашивает подтверждение в консоли: «Allow? (yes/no)». Ответьте yes или no.
- Навигация: открытие URL, новая вкладка, переключение вкладок
- Страница: клик по элементу (по id из снимка страницы), ввод текста, выбор в выпадающем списке, чекбоксы/радио, прокрутка, ожидание
- Завершение: по окончании задачи агент вызывает
task_doneи выводит результат в консоль - Вопрос пользователю: если нужны данные от вас (пароль, выбор), агент вызовет
request_user_input— ответ вводится в консоль
Задача классифицируется (навигация, форма, чтение), для каждого типа используется свой системный промпт.
- «Открой https://example.com и нажми на ссылку "More information"»
- «Зайди на google.com, введи в поиск "погода Москва" и нажми Поиск»
- «Открой страницу логина example.com, введи логин user и пароль (запроси у пользователя), нажми Войти»
Браузер остаётся открытым. Можно закрыть его вручную или запустить приложение снова и ввести новую задачу.