### [Polarity](https://dkwy.com/)

**Published:** 2026-05-21T19:28:33

**Author:** 蛋壳

**Excerpt:** Polarity 是专为生产环境中运行的 AI Agent 设计的评估基础设施平台。其核心引擎 Keystone 在隔离的 Docker 沙箱中启动每个 Agent 任务，预装了真实的后端服务——Postgres、Redis、S3 和内部 API——而非模拟依赖项。这种真实服务方法使 Polarity 能够准确检测有状态的多步骤故障模式，这些模式通常被 Braintrust、LangSmith 或 Langfuse 等轻量级提示级评估工具所忽略。每个检测到的故障都附带一个种子复现器，只需一条命令即可在本地重建完全相同的沙箱，大幅缩短调试周期。

## 产品概述

Polarity 是专为生产环境中运行的 AI Agent 设计的评估基础设施平台。其核心引擎 Keystone 在隔离的 Docker 沙箱中启动每个 Agent 任务，预装了真实的后端服务——Postgres、Redis、S3 和内部 API——而非模拟依赖项。这种真实服务方法使 Polarity 能够准确检测有状态的多步骤故障模式，这些模式通常被 Braintrust、LangSmith 或 Langfuse 等轻量级提示级评估工具所忽略。每个检测到的故障都附带一个种子复现器，只需一条命令即可在本地重建完全相同的沙箱，大幅缩短调试周期。

## 主要功能

|     |     |
| --- | --- |
| **真实服务沙箱隔离** | 每个 Agent 任务都在专用的 Docker 沙箱中运行，预装了实时的 Postgres、Redis、S3 和内部 API 实例，确保评估反映实际生产环境条件，而非模拟环境。 |
| **行为不变量评分** | Keystone 根据可配置的行为不变量和禁止操作规则对每次 Agent 运行进行评分，为团队提供结构化信号，判断 Agent 是否在预期边界内运行。 |
| **非确定性测量** | 自动复制运行以量化 Agent 在相同输入下的输出变化程度，在问题出现在生产环境之前暴露可靠性问题。 |
| **一键故障复现** | 每次失败的运行都附带一个种子复现器，可以在本地重建完全相同的沙箱环境，让开发者无需手动重建环境即可调试复杂的 Agent 故障。 |
| **自动化代码审查与测试** | 内置通过 @paragon-review 进行拉取请求审查和端到端测试基础设施，在代码到达生产环境之前捕获回归和错误。 |
| **实时监控与 CLI 助手** | 应用程序监控配备实时告警，辅以基于终端的助手（Paragon CLI），可直接从命令行编写、审查和管理代码。 |

## 使用场景

-   **生产环境 Agent 评估：**在生产环境中运行 AI Agent 的工程团队使用 Polarity 持续评估 Agent 在真实有状态服务中的行为，捕获仅在真实条件下出现的故障模式。
-   **复杂多步骤 Agent 测试：**构建长时间运行、多步骤 Agent 工作流的团队依赖 Polarity 验证整个执行链中的正确排序、状态持久化和服务交互。
-   **Agent 可靠性基准测试：**组织可以测量和比较不同 Agent 版本或配置之间的非确定性，帮助在更广泛推出之前优先改进稳定性。
-   **快速故障调试：**开发者使用种子复现器即时在本地重建确切的故障条件，缩短难以复现的有状态错误的调查时间。
-   **CI/CD 流水线集成：**开发团队将 Polarity 的代码审查和测试工具嵌入到拉取请求工作流中，在每次代码更改时自动执行质量门控。


---