产品概述
Polarity 是专为生产环境中运行的 AI Agent 设计的评估基础设施平台。其核心引擎 Keystone 在隔离的 Docker 沙箱中启动每个 Agent 任务,预装了真实的后端服务——Postgres、Redis、S3 和内部 API——而非模拟依赖项。这种真实服务方法使 Polarity 能够准确检测有状态的多步骤故障模式,这些模式通常被 Braintrust、LangSmith 或 Langfuse 等轻量级提示级评估工具所忽略。每个检测到的故障都附带一个种子复现器,只需一条命令即可在本地重建完全相同的沙箱,大幅缩短调试周期。
主要功能
| 真实服务沙箱隔离 | 每个 Agent 任务都在专用的 Docker 沙箱中运行,预装了实时的 Postgres、Redis、S3 和内部 API 实例,确保评估反映实际生产环境条件,而非模拟环境。 |
| 行为不变量评分 | Keystone 根据可配置的行为不变量和禁止操作规则对每次 Agent 运行进行评分,为团队提供结构化信号,判断 Agent 是否在预期边界内运行。 |
| 非确定性测量 | 自动复制运行以量化 Agent 在相同输入下的输出变化程度,在问题出现在生产环境之前暴露可靠性问题。 |
| 一键故障复现 | 每次失败的运行都附带一个种子复现器,可以在本地重建完全相同的沙箱环境,让开发者无需手动重建环境即可调试复杂的 Agent 故障。 |
| 自动化代码审查与测试 | 内置通过 @paragon-review 进行拉取请求审查和端到端测试基础设施,在代码到达生产环境之前捕获回归和错误。 |
| 实时监控与 CLI 助手 | 应用程序监控配备实时告警,辅以基于终端的助手(Paragon CLI),可直接从命令行编写、审查和管理代码。 |
使用场景
- 生产环境 Agent 评估:在生产环境中运行 AI Agent 的工程团队使用 Polarity 持续评估 Agent 在真实有状态服务中的行为,捕获仅在真实条件下出现的故障模式。
- 复杂多步骤 Agent 测试:构建长时间运行、多步骤 Agent 工作流的团队依赖 Polarity 验证整个执行链中的正确排序、状态持久化和服务交互。
- Agent 可靠性基准测试:组织可以测量和比较不同 Agent 版本或配置之间的非确定性,帮助在更广泛推出之前优先改进稳定性。
- 快速故障调试:开发者使用种子复现器即时在本地重建确切的故障条件,缩短难以复现的有状态错误的调查时间。
- CI/CD 流水线集成:开发团队将 Polarity 的代码审查和测试工具嵌入到拉取请求工作流中,在每次代码更改时自动执行质量门控。

