### [Polarity](https://dkwy.com/) **Published:** 2026-05-21T19:28:33 **Author:** 蛋壳 **Excerpt:** Polarity 是专为生产环境中运行的 AI Agent 设计的评估基础设施平台。其核心引擎 Keystone 在隔离的 Docker 沙箱中启动每个 Agent 任务,预装了真实的后端服务——Postgres、Redis、S3 和内部 API——而非模拟依赖项。这种真实服务方法使 Polarity 能够准确检测有状态的多步骤故障模式,这些模式通常被 Braintrust、LangSmith 或 Langfuse 等轻量级提示级评估工具所忽略。每个检测到的故障都附带一个种子复现器,只需一条命令即可在本地重建完全相同的沙箱,大幅缩短调试周期。 ## 产品概述 Polarity 是专为生产环境中运行的 AI Agent 设计的评估基础设施平台。其核心引擎 Keystone 在隔离的 Docker 沙箱中启动每个 Agent 任务,预装了真实的后端服务——Postgres、Redis、S3 和内部 API——而非模拟依赖项。这种真实服务方法使 Polarity 能够准确检测有状态的多步骤故障模式,这些模式通常被 Braintrust、LangSmith 或 Langfuse 等轻量级提示级评估工具所忽略。每个检测到的故障都附带一个种子复现器,只需一条命令即可在本地重建完全相同的沙箱,大幅缩短调试周期。 ## 主要功能 | | | | --- | --- | | **真实服务沙箱隔离** | 每个 Agent 任务都在专用的 Docker 沙箱中运行,预装了实时的 Postgres、Redis、S3 和内部 API 实例,确保评估反映实际生产环境条件,而非模拟环境。 | | **行为不变量评分** | Keystone 根据可配置的行为不变量和禁止操作规则对每次 Agent 运行进行评分,为团队提供结构化信号,判断 Agent 是否在预期边界内运行。 | | **非确定性测量** | 自动复制运行以量化 Agent 在相同输入下的输出变化程度,在问题出现在生产环境之前暴露可靠性问题。 | | **一键故障复现** | 每次失败的运行都附带一个种子复现器,可以在本地重建完全相同的沙箱环境,让开发者无需手动重建环境即可调试复杂的 Agent 故障。 | | **自动化代码审查与测试** | 内置通过 @paragon-review 进行拉取请求审查和端到端测试基础设施,在代码到达生产环境之前捕获回归和错误。 | | **实时监控与 CLI 助手** | 应用程序监控配备实时告警,辅以基于终端的助手(Paragon CLI),可直接从命令行编写、审查和管理代码。 | ## 使用场景 - **生产环境 Agent 评估:**在生产环境中运行 AI Agent 的工程团队使用 Polarity 持续评估 Agent 在真实有状态服务中的行为,捕获仅在真实条件下出现的故障模式。 - **复杂多步骤 Agent 测试:**构建长时间运行、多步骤 Agent 工作流的团队依赖 Polarity 验证整个执行链中的正确排序、状态持久化和服务交互。 - **Agent 可靠性基准测试:**组织可以测量和比较不同 Agent 版本或配置之间的非确定性,帮助在更广泛推出之前优先改进稳定性。 - **快速故障调试:**开发者使用种子复现器即时在本地重建确切的故障条件,缩短难以复现的有状态错误的调查时间。 - **CI/CD 流水线集成:**开发团队将 Polarity 的代码审查和测试工具嵌入到拉取请求工作流中,在每次代码更改时自动执行质量门控。 ---