### [agent-browser](https://dkwy.com/)

**Published:** 2026-05-06T10:27:19

**Author:** 蛋壳

**Excerpt:** agent-browser是一个专为AI Agent和运行其中的编程助手（包括Claude Code、Cursor、GitHub Copilot、OpenAI Codex和Google Gemini）构建的浏览器自动化命令行工具。它输出紧凑的无障碍树而不是原始HTML或JSON，大幅减少token消耗，同时通过基于引用的元素选择系统为Agent提供对网页的确定性控制。该工具基于客户端-守护进程架构构建：原生Rust CLI以近乎瞬时的速度处理命令解析，而持久化的Node.js守护进程管理底层的Playwright浏览器实例。拥有50多个命令，涵盖导航、表单交互、截图、网络检查和存储，agent-browser为跨macOS、Linux和Windows的自动化Agent工作流提供全周期浏览器控制优化。

## 产品概述

agent-browser是一个专为AI Agent和运行其中的编程助手（包括Claude Code、Cursor、GitHub Copilot、OpenAI Codex和Google Gemini）构建的浏览器自动化命令行工具。它输出紧凑的无障碍树而不是原始HTML或JSON，大幅减少token消耗，同时通过基于引用的元素选择系统为Agent提供对网页的确定性控制。该工具基于客户端-守护进程架构构建：原生Rust CLI以近乎瞬时的速度处理命令解析，而持久化的Node.js守护进程管理底层的Playwright浏览器实例。拥有50多个命令，涵盖导航、表单交互、截图、网络检查和存储，agent-browser为跨macOS、Linux和Windows的自动化Agent工作流提供全周期浏览器控制优化。

## 主要功能

|     |     |
| --- | --- |
| **基于引用的元素选择** | 快照命令返回紧凑的无障碍树，其中每个元素都带有唯一的引用（例如 @e1），实现确定性、无需重新查询的交互，避免歧义。 |
| **Token高效输出** | 基于文本的无障碍树输出每个快照大约使用200-400个token，相比完整DOM输出的3000-5000个token，保持Agent上下文窗口精简。 |
| **原生Rust CLI性能** | 命令解析由原生Rust二进制文件处理，启动瞬间完成，持久化的Node.js守护进程在后台管理Playwright浏览器实例。 |
| **50+浏览器命令** | 全面的命令集涵盖页面导航、表单填写、点击、截图、网络监控和存储管理，实现端到端浏览器控制。 |
| **多会话支持** | 同时运行多个隔离的浏览器实例，每个实例都有独立的认证状态，支持并行Agent任务或多账户工作流。 |
| **跨平台兼容性** | 提供macOS（ARM64和x64）、Linux（ARM64和x64）和Windows（x64）的原生二进制文件，npm回退确保广泛的环境覆盖。 |

## 使用场景

-   **AI编程助手：**Claude Code、Cursor或GitHub Copilot内的Agent可以浏览文档、测试Web UI并填写表单，作为自动化编程和调试工作流的一部分。
-   **网页抓取和数据提取：**AI Agent可以导航页面、捕获快照并从网站提取结构化信息，每次操作的token开销最小。
-   **自动化UI测试：**QA Agent可以编写完整的浏览器交互序列——点击、表单提交、截图比较——使用确定性引用而不是脆弱的CSS选择器。
-   **多步骤Web自动化：**复杂的工作流，如登录服务、填写多页表单或监控网络请求，可以通过任何Agent都能发出的shell命令序列进行编排。


---