### [LM Arena (Chatbot Arena)](https://dkwy.com/) **Published:** 2026-05-06T07:38:06 **Author:** 蛋壳 **Excerpt:** LM Arena(又称Chatbot Arena)是由LMSYS与UC Berkeley SkyLab联合开发的开源平台,旨在通过实时、透明、社区驱动的评测推动大语言模型的发展与理解。用户可匿名与多款LLM进行对比互动,通过投票使用Elo评分系统对模型进行排名。平台支持多种公开发布的模型,包括开源权重和商业API,并根据真实用户反馈持续更新排行榜。LM Arena强调透明、开放科学与协作,所有数据集、评测工具和基础设施均在GitHub上公开。 ## 产品概述 LM Arena(又称Chatbot Arena)是由LMSYS与UC Berkeley SkyLab联合开发的开源平台,旨在通过实时、透明、社区驱动的评测推动大语言模型的发展与理解。用户可匿名与多款LLM进行对比互动,通过投票使用Elo评分系统对模型进行排名。平台支持多种公开发布的模型,包括开源权重和商业API,并根据真实用户反馈持续更新排行榜。LM Arena强调透明、开放科学与协作,所有数据集、评测工具和基础设施均在GitHub上公开。 ## 主要功能 | | | | --- | --- | | **众包式成对模型对比** | 用户以匿名、随机的方式参与两款大模型(LLM)的对战,通过投票选出更优回答,从而生成可靠的对比数据。 | | **基于Elo评分的模型排名体系** | 采用广泛认可的Elo评分系统,为大模型性能提供动态、统计可靠的排名。 | | **开源基础设施** | 平台所有组件,包括前端、后端、评测流程和排名算法,均为开源并公开可用。 | | **实时与持续评测** | 通过实时收集用户输入和投票,确保基准测试能够反映当前模型能力与真实应用场景。 | | **支持公开发布模型** | 涵盖开源权重、可通过API访问或以服务形式提供的模型,确保透明性与可复现性。 | | **社区参与与透明化** | 鼓励广泛参与,公开用户偏好数据和提示词,促进协作式AI研究。 | ## 使用场景 - **大模型性能基准测试:**研究人员和开发者可在真实场景下评估和对比各类大语言模型的效果。 - **部署模型选择:**机构可通过查看社区驱动的实时排名,甄选最适合自身应用的大模型。 - **开放科学与研究:**学者与AI从业者可访问共享数据集和工具,进行可复现研究并推动模型优化。 - **基于社区反馈的模型优化:**模型提供方可收集匿名用户反馈和投票数据,在正式发布前优化自身AI系统。 ---