C-Eval

2个月前发布 65 00

上海交通大学、清华大学和爱丁堡大学联合推出的中文基础模型评估套件

收录时间：

2025-12-28

打开网站

AI模型评测

C-Eval

打开网站

C-Eval是什么

C-Eval是一个由上海交通大学、清华大学和爱丁堡大学联合推出的中文基础模型评估套件。它旨在全面评估大语言模型在中文环境下的高级知识和推理能力。C-Eval包含13948个多选题，覆盖52个不同学科和四个难度级别，适用于从中学到大学的多层级评估。该工具通过标准化的评测基准，帮助研究人员和开发者衡量模型的中文理解和生成能力。

C-Eval的主要功能

多学科覆盖：涵盖STEM、社会科学和人文科学等广泛领域，全面评估模型在不同学科的表现。
多层次评估：分为中学、高中、大学及高级推理子集C-Eval Hard，深入了解模型在不同难度下的能力。
标准化评测：采用客观题评测，避免主观判断，确保结果客观可靠。支持零样本和少样本两种评估模式。
防止过拟合：题目构造尽可能选用非公开来源试题，避免使用真题，有效降低模型过拟合风险。
社区互动：提供公开透明的排行榜，用户可提交模型预测结果，系统自动计算分数并更新排名，促进模型迭代优化。

C-Eval的使用步骤

注册账户：访问C-Eval官网，注册用户账户。
获取数据集：通过Hugging Face平台或lm-evaluation-harness框架下载数据集。
准备模型：准备好待评估的模型，确保其能处理C-Eval的测试题目。

运行评估：使用lm-evaluation-harness框架运行评估。示例命令行操作如下：

lm_eval --model vllm 
    --model_args pretrained=/path/to/model,dtype=float16,max_model_len=2048 
    --tasks ceval-valid 
    --batch_size 1 
    --output_path c-eval-result 
    --log_samples

提交结果：将评估结果整理成指定JSON格式，通过C-Eval官网提交。
查看结果：系统自动计算分数后，用户可在排行榜查看模型的性能表现。

C-Eval的产品价格

C-Eval是一个开源项目，其评估题目和排行榜均可免费使用，不涉及任何费用。它非常适合研究人员、开发者和学术机构等广泛用户群体。

C-Eval的使用场景

学术研究：评估不同语言模型性能，推动自然语言处理领域研究进展。
企业开发：为智能客服、内容生成等应用选择最合适的语言模型，提升产品质量。
教育培训：评估学生在语言理解和生成方面的能力，辅助制定个性化学习计划。
技术评测：帮助技术公司评测其开发的语言模型，确保市场竞争力。
社区互动：用户可参与模型提交与评估，分享经验并获得反馈。

C-Eval的常见问题和回答

C-Eval支持哪些评估模式？
- 零样本：模型在无额外上下文下直接回答问题。
- 少样本：模型在少量示例辅助下回答问题。
如何提交评估结果？
- 需将模型预测结果整理成指定JSON格式，通过C-Eval官网提交。
C-Eval的评测结果如何呈现？
- 根据模型答题正确率进行排名打分，并在排行榜中实时更新。
C-Eval是否支持多种语言模型？
- 是的，支持包括GPT-4、ChatGLM、MiniMax等多种主流语言模型。
C-Eval的题目来源是什么？
- 题目主要来源于非公开试题库，避免使用真题，以减少模型过拟合风险。
C-Eval的评估结果是否公开透明？
- 是的，通过公开透明的排行榜，用户可以随时查看各模型的性能表现。
C-Eval是否支持本地运行评估？
- 是的，用户可以通过lm-evaluation-harness框架在本地运行评估。

数据统计

暂无评论

暂无评论...

C-Eval

C-Eval是什么

C-Eval的主要功能

C-Eval的使用步骤

C-Eval的产品价格

C-Eval的使用场景

C-Eval的常见问题和回答

数据统计

相关导航

H2O Eval Studio

SuperCLUE

MMBench

Chatbot Arena

Open LLM Leaderboard

MMLU

FlagEval

AI Ping

暂无评论