Arena

产品概述

Arena（前身为LMArena）是一个基准测试平台，使用户能够通过真实世界使用评估和比较前沿AI模型。该平台提供匿名的头对头模型对战，用户同时与两个模型聊天并为更好的回应投票，创建基于人类偏好的众包排行榜。Arena提供来自各种提供商的领先模型访问，无需多个订阅，并配备’Max’智能路由器，自动将查询导向最合适的模型。该平台的Bradley-Terry评级系统汇总社区投票，在文本、图像、视频、搜索和代码能力方面生成可靠的排名。

主要功能

匿名模型对战	对战模式同时提供两个匿名AI模型，允许在投票前进行无偏见评估，投票后再揭示模型身份以消除品牌偏见。
智能模型路由器	Max路由器自动分析查询并将其导向最合适的AI模型，无需用户手动为不同任务选择模型。
社区驱动的排行榜	基于人类投票的实时排名，使用Bradley-Terry评级系统，在文本、图像、视频、搜索和代码等多个类别中提供透明的基准测试。
多提供商访问	通过单一平台访问主要AI实验室的前沿模型，无需单独订阅，提供比单个服务订阅更具成本效益的替代方案。
持续模型评估	通过真实用户交互持续评估AI模型性能，将反馈分享给模型开发者以推动改进。

使用场景

模型性能研究：AI研究人员和爱好者可以在真实世界条件下比较前沿模型，了解不同任务类型的相对优势和劣势。
经济实惠的AI访问：用户可以通过单一订阅以低于ChatGPT Plus的成本访问多个高级AI模型，同时避免管理多个账户的复杂性。
无偏见的模型选择：评估AI解决方案的组织可以基于盲测结果而非营销宣传或品牌认知做出数据驱动的决策。
AI模型开发：AI实验室可以收集真实的用户反馈和性能数据，基于真实世界的使用模式和偏好来完善其模型。
任务优化查询：用户利用Max路由器自动将其特定提示与该特定任务的最佳性能模型匹配，无需手动选择。

常见问题（FAQ）

什么是Arena，它是如何工作的？

Arena是一个平台，您可以与两个匿名AI模型并排聊天，为更好的回应投票，并帮助创建社区驱动的排行榜。投票后，模型身份会被揭示，您的反馈会影响排名。

什么是Max路由器，我应该何时使用它？

Max是一个智能路由系统，自动为您的查询选择最佳AI模型。当您想要获得最佳结果而不想手动在模型之间选择时使用它。

Arena的投票系统如何影响模型排名？

Arena使用Bradley-Terry评级系统汇总所有用户的投票。每次投票都直接影响模型排名，使排行榜反映真实的社区偏好而非合成基准。

我需要多个AI订阅才能使用Arena吗？

不需要。Arena通过单一平台提供来自不同提供商的多个前沿AI模型访问，无需为每个服务单独订阅。

我可以在Arena上比较哪些类型的AI模型？

Arena支持来自领先AI实验室的文本生成、图像创建、视频制作、搜索和代码生成模型的比较。

我的对话数据会被公开分享吗？

是的。您的对话和反馈可能会向AI提供商披露并公开分享，以支持社区排名和推进AI研究。请避免提交敏感的个人信息。

在对战中投票后我可以继续聊天吗？

是的。在模型身份揭示后，您可以继续与相同模型对话，或开始与不同匿名模型的新对战。

发现好站？

Arena

产品概述

主要功能

使用场景

常见问题（FAQ）