Polarity

产品概述

Polarity 是专为生产环境中运行的 AI Agent 设计的评估基础设施平台。其核心引擎 Keystone 在隔离的 Docker 沙箱中启动每个 Agent 任务，预装了真实的后端服务——Postgres、Redis、S3 和内部 API——而非模拟依赖项。这种真实服务方法使 Polarity 能够准确检测有状态的多步骤故障模式，这些模式通常被 Braintrust、LangSmith 或 Langfuse 等轻量级提示级评估工具所忽略。每个检测到的故障都附带一个种子复现器，只需一条命令即可在本地重建完全相同的沙箱，大幅缩短调试周期。

主要功能

真实服务沙箱隔离	每个 Agent 任务都在专用的 Docker 沙箱中运行，预装了实时的 Postgres、Redis、S3 和内部 API 实例，确保评估反映实际生产环境条件，而非模拟环境。
行为不变量评分	Keystone 根据可配置的行为不变量和禁止操作规则对每次 Agent 运行进行评分，为团队提供结构化信号，判断 Agent 是否在预期边界内运行。
非确定性测量	自动复制运行以量化 Agent 在相同输入下的输出变化程度，在问题出现在生产环境之前暴露可靠性问题。
一键故障复现	每次失败的运行都附带一个种子复现器，可以在本地重建完全相同的沙箱环境，让开发者无需手动重建环境即可调试复杂的 Agent 故障。
自动化代码审查与测试	内置通过 @paragon-review 进行拉取请求审查和端到端测试基础设施，在代码到达生产环境之前捕获回归和错误。
实时监控与 CLI 助手	应用程序监控配备实时告警，辅以基于终端的助手（Paragon CLI），可直接从命令行编写、审查和管理代码。

使用场景

生产环境 Agent 评估：在生产环境中运行 AI Agent 的工程团队使用 Polarity 持续评估 Agent 在真实有状态服务中的行为，捕获仅在真实条件下出现的故障模式。
复杂多步骤 Agent 测试：构建长时间运行、多步骤 Agent 工作流的团队依赖 Polarity 验证整个执行链中的正确排序、状态持久化和服务交互。
Agent 可靠性基准测试：组织可以测量和比较不同 Agent 版本或配置之间的非确定性，帮助在更广泛推出之前优先改进稳定性。
快速故障调试：开发者使用种子复现器即时在本地重建确切的故障条件，缩短难以复现的有状态错误的调查时间。
CI/CD 流水线集成：开发团队将 Polarity 的代码审查和测试工具嵌入到拉取请求工作流中，在每次代码更改时自动执行质量门控。

常见问题（FAQ）

Polarity 与 Braintrust、LangSmith 或 Langfuse 有何不同？

这些工具最适合简单的单次调用提示评估。Polarity 专为长时间运行、有状态、多步骤的 Agent 构建，其中真实的服务依赖项——Postgres、Redis、S3——是故障的来源。

什么是 Keystone？

Keystone 是 Polarity 的核心评估引擎。它启动隔离的沙箱，根据行为不变量和禁止规则对运行进行评分，并测量副本之间的非确定性。

种子复现器有什么作用？

它通过一条命令重建失败运行的确切沙箱环境，使开发者无需手动设置即可在本地复现和调试复杂的 Agent 故障。

Polarity 在沙箱中支持哪些后端服务？

每个沙箱都预装了 Postgres、Redis、S3 和内部 API——与真实的生产服务配置相匹配。

Polarity 能集成到我现有的开发工作流中吗？

可以。Polarity 包含用于自动化拉取请求审查的 GitHub App、端到端测试流水线、实时监控和用于基于终端的代码管理的 CLI 助手（Paragon CLI）。

什么时候不应该使用 Polarity？