Chatbot Arena

6个月前发布 446 00

基于人类偏好评估AI聊天机器人性能的开放平台

收录时间：

2025-12-28

Chatbot Arena是什么

Chatbot Arena（前身为LMSYS）是一个基于人类偏好来评估AI聊天机器人性能的开放平台。它由加州大学伯克利分校SkyLab和LMSYS组织共同开发，通过众包方式收集用户投票与反馈，并利用Elo评分系统对各类大型语言模型进行实时、动态的排名。

访问官网：在浏览器中打开Chatbot Arena的官方网站：https://lmarena.ai/。
选择测试模式：
- Arena（对战模式）：随机让两个匿名模型回答问题，由用户判断哪个更好。
- 侧边对比模式：并排比较指定模型的回答，进行详细分析。
提出问题：在输入框中键入你想测试的问题，或从预设的测试用例库中进行选择。
选择或等待分配模型：在侧边对比模式下，可手动选择要对比的模型；在对战模式下，模型由系统随机分配以保证公平。
查看结果并投票：仔细比较不同模型生成的回答，为你认为更优的答案投票。
浏览排行榜：在平台的排行榜页面，查看基于海量用户投票实时更新的模型Elo评分与排名情况。

Chatbot Arena是一个完全免费的公益项目，用户无需支付任何费用即可使用其全部核心功能，包括AI模型对比测试、投票以及查看排行榜。

问：Chatbot Arena是否支持多语言评估？
- 答：平台主要处理英文交互，但用户可以使用其他语言提问。其评估排名目前主要反映模型在英文语境下的表现。
问：Chatbot Arena的使用是否方便？
- 答：非常方便。平台提供简洁直观的用户界面，无需注册或复杂配置即可开始对比测试与投票。
问：Chatbot Arena是否支持多模态交互？
- 答：目前Chatbot Arena主要专注于文本对话模型的评估，暂不支持图像、音频等多模态输入的测试。
问：Chatbot Arena目前是否免费使用？
- 答：是的，该平台完全免费，由研究机构维护，旨在促进AI社区的透明发展与评估。
问：Chatbot Arena的响应速度如何？
- 答：响应速度取决于所选模型本身的API延迟以及当前网络流量。平台本身仅提供评测框架，不托管模型，因此速度由模型提供商决定。