产品概述
Arena(前身为LMArena)是一个基准测试平台,使用户能够通过真实世界使用评估和比较前沿AI模型。该平台提供匿名的头对头模型对战,用户同时与两个模型聊天并为更好的回应投票,创建基于人类偏好的众包排行榜。Arena提供来自各种提供商的领先模型访问,无需多个订阅,并配备’Max’智能路由器,自动将查询导向最合适的模型。该平台的Bradley-Terry评级系统汇总社区投票,在文本、图像、视频、搜索和代码能力方面生成可靠的排名。
主要功能
| 匿名模型对战 | 对战模式同时提供两个匿名AI模型,允许在投票前进行无偏见评估,投票后再揭示模型身份以消除品牌偏见。 |
| 智能模型路由器 | Max路由器自动分析查询并将其导向最合适的AI模型,无需用户手动为不同任务选择模型。 |
| 社区驱动的排行榜 | 基于人类投票的实时排名,使用Bradley-Terry评级系统,在文本、图像、视频、搜索和代码等多个类别中提供透明的基准测试。 |
| 多提供商访问 | 通过单一平台访问主要AI实验室的前沿模型,无需单独订阅,提供比单个服务订阅更具成本效益的替代方案。 |
| 持续模型评估 | 通过真实用户交互持续评估AI模型性能,将反馈分享给模型开发者以推动改进。 |
使用场景
- 模型性能研究:AI研究人员和爱好者可以在真实世界条件下比较前沿模型,了解不同任务类型的相对优势和劣势。
- 经济实惠的AI访问:用户可以通过单一订阅以低于ChatGPT Plus的成本访问多个高级AI模型,同时避免管理多个账户的复杂性。
- 无偏见的模型选择:评估AI解决方案的组织可以基于盲测结果而非营销宣传或品牌认知做出数据驱动的决策。
- AI模型开发:AI实验室可以收集真实的用户反馈和性能数据,基于真实世界的使用模式和偏好来完善其模型。
- 任务优化查询:用户利用Max路由器自动将其特定提示与该特定任务的最佳性能模型匹配,无需手动选择。

