C-Eval

3小时前发布 3 0 0

上海交通大学、清华大学和爱丁堡大学联合推出的中文基础模型评估套件

收录时间:
2025-12-28

C-Eval是什么

C-Eval是一个由上海交通大学、清华大学和爱丁堡大学联合推出的中文基础模型评估套件。它旨在全面评估大语言模型在中文环境下的高级知识和推理能力。C-Eval包含13948个多选题,覆盖52个不同学科四个难度级别,适用于从中学到大学的多层级评估。该工具通过标准化的评测基准,帮助研究人员和开发者衡量模型的中文理解和生成能力。

C-Eval的主要功能

  • 多学科覆盖:涵盖STEM、社会科学和人文科学等广泛领域,全面评估模型在不同学科的表现。
  • 多层次评估:分为中学、高中、大学及高级推理子集C-Eval Hard,深入了解模型在不同难度下的能力。
  • 标准化评测:采用客观题评测,避免主观判断,确保结果客观可靠。支持零样本和少样本两种评估模式。
  • 防止过拟合:题目构造尽可能选用非公开来源试题,避免使用真题,有效降低模型过拟合风险。
  • 社区互动:提供公开透明的排行榜,用户可提交模型预测结果,系统自动计算分数并更新排名,促进模型迭代优化。

C-Eval的使用步骤

  1. 注册账户:访问C-Eval官网,注册用户账户。
  2. 获取数据集:通过Hugging Face平台或lm-evaluation-harness框架下载数据集。
  3. 准备模型:准备好待评估的模型,确保其能处理C-Eval的测试题目。
  4. 运行评估:使用lm-evaluation-harness框架运行评估。示例命令行操作如下:
    lm_eval --model vllm 
        --model_args pretrained=/path/to/model,dtype=float16,max_model_len=2048 
        --tasks ceval-valid 
        --batch_size 1 
        --output_path c-eval-result 
        --log_samples
  5. 提交结果:将评估结果整理成指定JSON格式,通过C-Eval官网提交。
  6. 查看结果:系统自动计算分数后,用户可在排行榜查看模型的性能表现。

C-Eval的产品价格

C-Eval是一个开源项目,其评估题目和排行榜均可免费使用,不涉及任何费用。它非常适合研究人员、开发者和学术机构等广泛用户群体。

C-Eval的使用场景

  • 学术研究:评估不同语言模型性能,推动自然语言处理领域研究进展。
  • 企业开发:为智能客服、内容生成等应用选择最合适的语言模型,提升产品质量。
  • 教育培训:评估学生在语言理解和生成方面的能力,辅助制定个性化学习计划。
  • 技术评测:帮助技术公司评测其开发的语言模型,确保市场竞争力。
  • 社区互动:用户可参与模型提交与评估,分享经验并获得反馈。

C-Eval的常见问题和回答

  • C-Eval支持哪些评估模式?
    • 零样本:模型在无额外上下文下直接回答问题。
    • 少样本:模型在少量示例辅助下回答问题。
  • 如何提交评估结果?
    • 需将模型预测结果整理成指定JSON格式,通过C-Eval官网提交。
  • C-Eval的评测结果如何呈现?
    • 根据模型答题正确率进行排名打分,并在排行榜中实时更新。
  • C-Eval是否支持多种语言模型?
    • 是的,支持包括GPT-4、ChatGLM、MiniMax等多种主流语言模型。
  • C-Eval的题目来源是什么?
    • 题目主要来源于非公开试题库,避免使用真题,以减少模型过拟合风险。
  • C-Eval的评估结果是否公开透明?
    • 是的,通过公开透明的排行榜,用户可以随时查看各模型的性能表现。
  • C-Eval是否支持本地运行评估?
    • 是的,用户可以通过lm-evaluation-harness框架在本地运行评估。

数据统计

相关导航

暂无评论

none
暂无评论...