Open LLM Leaderboard
Hugging Face提供的开源大语言模型(LLMs)和聊天机器人性能评测平台
MMLU,全称为Massive Multitask Language Understanding,是一个用于评估语言模型在多任务、多领域知识推理和理解能力的权威基准测试。它由华盛顿大学和斯坦福大学的研究人员共同提出,旨在全面衡量模型在多样化场景下的综合性能。
MMLU包含了57个不同学科的任务,覆盖范围极广,从基础的常识推理到复杂的学术问题,横跨数学、历史、计算机科学、法律、医学等多个专业领域,是目前评估大语言模型通用知识水平的重要标尺。
conda create --name mmlu python=3.10
conda activate mmlu
pip install transformers datasets
transformers 库加载预训练模型和分词器。from datasets import load_dataset
mmlu_dataset = load_dataset("json", data_files={"eval": "path/to/mmlu_eval.json"})
from transformers import pipeline
model_name = "your-model-name" # 替换为实际模型
evaluator = pipeline("text-classification", model=model_name)
results = evaluator(mmlu_dataset["eval"]["text"])
python run.py --datasets mmlu_gen --hf-path /path/to/model --batch-size 2
MMLU本身是一个完全开源免费的评测基准,其数据集和评估脚本均可免费获取和使用。需要注意的是,如果评估过程中调用商业API(如GPT-4)或使用付费云计算资源,则会产生相应的费用。