AI模型评测

共 14 篇网址

FlagEval

学术圈公认的模型擂台，FlagEval一站式搞定AI模型的多语言盲测与可信认证

7610

AI Ping

大模型服务性能评测与统一 API 调用平台

4330

H2O Eval Studio

H2O.ai开发的一款企业级AI模型评估平台

3740

PubMedQA

用于生物医学研究问题回答的数据集

3810

Chatbot Arena

基于人类偏好评估AI聊天机器人性能的开放平台

4460

MMBench

OpenCompass社区开发的多模态基准测试工具

3530

Helm Lite

斯坦福大学CRFM团队开发的轻量级语言模型评估基准

3820

CMMLU

专为评估语言模型在中文语境下的知识和推理能力而设计的综合性评估基准

3870

SuperCLUE

中文通用大模型综合性测评基准

7610

AGI-Eval

一个AI大模型评测社区

7650

C-Eval

上海交通大学、清华大学和爱丁堡大学联合推出的中文基础模型评估套件

3560

FlagEval

北京智源人工智能研究院推出的大模型评测体系及开放平台

3930

Open LLM Leaderboard

Hugging Face提供的开源大语言模型（LLMs）和聊天机器人性能评测平台

1,5040

MMLU

用于评估语言模型在多任务、多领域知识推理和理解能力的基准测试工具

1,2811