Loading...

热门

FlagEval

2个月前发布 74 00

北京智源人工智能研究院推出的大模型评测体系及开放平台

收录时间：

2025-12-28

FlagEval

FlagEval

FlagEval是什么

FlagEval是由北京智源人工智能研究院推出的大模型评测体系及开放平台。它旨在建立科学、公正、开放的评测基准、方法和工具集，协助研究人员全方位评估基础模型及训练算法的性能。

FlagEval采用“能力-任务-指标”三维评测框架，从多个维度全面评估大模型的认知能力。目前，该平台已覆盖自然语言处理（NLP）、计算机视觉（CV）、音频和多模态领域，支持多种任务和指标。

FlagEval的主要功能

多维度评测：能够对AI大模型从性能、准确性、效率等多个维度进行全面评估。其评测范围涵盖30多种能力、5种任务和4大类指标，包含超过600个评测维度。
支持多种模型和框架：平台支持PyTorch、MindSpore等主流AI框架，并兼容NVIDIA、昇腾、寒武纪、昆仑芯等多种硬件架构。
开放性和标准化：提供标准化的评测服务，确保不同模型在同一标准下公平比较。同时，它也是一个开源的评测工具包，支持用户定制。
可视化结果呈现：评测结果通过可视化方式呈现，帮助用户直观了解模型性能。
多模态支持：其多模态评测框架FlagEvalMM，能够全面评估处理文本、图像、视频等多种模态的模型。

FlagEval的使用步骤

准备模型和代码：根据FlagEval要求，准备模型文件、代码及相关配置文件。
安装FlagEval-Serving工具：通过该工具上传模型、代码和数据等待评测的文件。
上传模型与代码：在平台获取上传token后，使用命令行工具完成上传。
创建评测任务：填写评测领域、模型名称、任务类型、硬件配置等参数。
提交评测：提交任务后，平台将自动运行评测流程。
查看结果：评测完成后，在平台查看详细的性能指标和可视化图表。

FlagEval的产品价格

FlagEval作为一个开源的评测平台，目前主要面向研究人员、开发者和企业，提供免费的评测服务。对于高级功能或定制化服务，可能需要根据具体需求与智源研究院进一步沟通。

FlagEval的使用场景

学术研究：评估不同模型性能，优化研究方向。
模型开发：通过评测结果选择适合的模型架构和技术路径。
企业应用：评估内部或第三方模型性能，支持业务决策。
多模态应用：评估模型在处理文本、图像、视频等跨模态任务上的表现。
国际模型比较：平台覆盖全球800多个开闭源模型，支持跨国模型的性能对比。

FlagEval的常见问题和回答

如何上传模型？
- 在平台点击“上传模型 & 代码”获取token，使用命令行工具上传。需注意不同领域模型的目录结构和接口规范。
FlagEval支持哪些硬件架构？
- 支持NVIDIA（A100, V100等）、寒武纪MLU370-X8、昆仑芯R300、昇腾910A等多种硬件。
评测结果如何呈现？
- 结果以可视化方式呈现，包括详细的性能指标、图表和分析报告。
是否支持多模态模型评测？
- 是的，其多模态评测框架FlagEvalMM专门用于评估处理文本、图像、视频的模型。
FlagEval是否开源？
- 是的，FlagEval是一个开源的评测工具包，代码已在GitHub上开放。
是否支持自定义评测任务？
- 主要提供标准化评测任务，特殊需求可与智源研究院沟通定制方案。

数据统计

相关导航

MMLU

用于评估语言模型在多任务、多领域知识推理和理解能力的基准测试工具

CMMLU

专为评估语言模型在中文语境下的知识和推理能力而设计的综合性评估基准

SuperCLUE

中文通用大模型综合性测评基准

AI Ping

大模型服务性能评测与统一 API 调用平台

Chatbot Arena

基于人类偏好评估AI聊天机器人性能的开放平台

PubMedQA

用于生物医学研究问题回答的数据集

C-Eval

上海交通大学、清华大学和爱丁堡大学联合推出的中文基础模型评估套件

H2O Eval Studio

H2O.ai开发的一款企业级AI模型评估平台

暂无评论

none

暂无评论...