AI模型评测

共 14 篇网址

Open LLM Leaderboard

Hugging Face提供的开源大语言模型（LLMs）和聊天机器人性能评测平台

1,5020

MMLU

用于评估语言模型在多任务、多领域知识推理和理解能力的基准测试工具

1,2791

AGI-Eval

一个AI大模型评测社区

7620

FlagEval

学术圈公认的模型擂台，FlagEval一站式搞定AI模型的多语言盲测与可信认证

7600

SuperCLUE

中文通用大模型综合性测评基准

7580

Chatbot Arena

基于人类偏好评估AI聊天机器人性能的开放平台

4430

AI Ping

大模型服务性能评测与统一 API 调用平台

4320

FlagEval

北京智源人工智能研究院推出的大模型评测体系及开放平台

3890

CMMLU

专为评估语言模型在中文语境下的知识和推理能力而设计的综合性评估基准

3840

Helm Lite

斯坦福大学CRFM团队开发的轻量级语言模型评估基准

3810

PubMedQA

用于生物医学研究问题回答的数据集

3780

H2O Eval Studio

H2O.ai开发的一款企业级AI模型评估平台

3710

C-Eval

上海交通大学、清华大学和爱丁堡大学联合推出的中文基础模型评估套件

3530

MMBench

OpenCompass社区开发的多模态基准测试工具

3510