FlagEval

2个月前发布 28 0 0

FlagEval是北京智源人工智能研究院推出的一个大模型评测体系及开放平台,FlagEval覆盖自然语言处理（NLP）、计算机视觉（CV）、语音（Audio）和多模态（Multimodal）四大领域，提供多维度评测。

收录时间：

2025-02-27

打开网站手机查看

AI数据模型评测 # FlagEval # 大模型评测体系

FlagEval

FlagEval

FlagEval是北京智源人工智能研究院推出的一个大模型评测体系及开放平台，旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能。以下是关于FlagEval的详细介绍：

FlagEval

一、核心特点

全面性：
- FlagEval覆盖自然语言处理（NLP）、计算机视觉（CV）、语音（Audio）和多模态（Multimodal）四大领域，提供多维度评测。
- 当前包含6大评测任务，近30个评测数据集，超10万道评测题目。
易用性：
- 提供清晰的文档和便捷的安装流程，即便是新手也能快速上手。
- 支持用户灵活定制评测场景，便于从多源数据集中加载数据。
开放性：
- 支持社区参与，不断迭代以满足更多研究需求。
- 评测过程和结果公开透明，所有原始模型提示和完成均公开发布。
深度与广度：
- 提供细粒度的评测工具，从微观的特定技能到宏观的多任务适应能力均有涉及。
- 细化了40+子能力维度，如推理能力、数学能力、任务解决等，构建了“能力-任务-指标”三维评测框架。
兼容性：
- 与主流框架和数据集无缝衔接，支持多种预训练模型。
- 对接了多个顶级预训练模型，如AltCLIP、EVA-CLIP等。

二、明星子项目

mCLIPEval：实现了跨语言的CLIP评测能力，支持12种语言的评测数据。

三、评测体系升级

FlagEval不断根据大模型技术的发展趋势，升级迭代评测体系、评测维度和方法。
例如，在2023年9月的评测中，FlagEval进行了评测框架升级，细化“安全与价值观”与“推理能力”等维度，并同步更新了智源自建的Chinese Linguistics & Cognition Challenge（CLCC）主观评测数据集题库v2.0，题目数量扩充3倍。

四、应用场景

FlagEval不仅适用于学术研究，还广泛应用于工业应用，是快速验证模型效能的强大工具。
例如，在开发新的文本到图像生成模型时，FlagEval中的ImageEval-prompt能帮助开发者深入洞察模型在不同细节层面的表现，从而优化生成逻辑。

五、影响力与成果

FlagEval自推出以来，已评测国内外300余个开源和商业闭源的语言及多模态大模型。
其评测结果得到了业界的广泛认可，成为评估大模型性能的重要参考。
例如，在FlagEval的评测中，百度文心大模型4.0以89.72的综合评分在闭源对话模型中排名第一，显示出中文大模型在技术和应用上的不断进步。

六、社区与合作

FlagEval积极与社区互动，欢迎研究者共同探讨更为科学的评测方法。
与国内各大模型厂商均具备友好合作关系，共同推动大模型技术的发展和应用。

七、未来展望

随着大模型技术的不断发展，FlagEval将继续更新和完善其评测方法和指标。
致力于成为连接理论与实践的桥梁，帮助每一位AI开发者基于可靠的数据反馈持续改进他们的模型。

概括来说，FlagEval是一个功能强大、全面开放的大模型评测平台，为研究人员和开发者提供了科学、公正、便捷的评测工具和方法。

相关导航

PubMedQA

PubMedQA 是一个专门设计用于支持开发和评估能够在生物医学文献中找到答案的问答系统的高质量数据集。它由PubMed文献库中的数据构建而成，这些文献库是全球最大的生物医学文献数据库之一。

MMLU Dataset（大规模多任务语言理解数据集）

MMLU Dataset（大规模多任务语言理解数据集）

MMLU Dataset旨在通过仅在零样本和少样本设置中评估模型来衡量预训练期间获得的知识。这使得基准测试更具挑战性，并且更类似于人类评估知识的方式。该基准涵盖了STEM（科学、技术、工程和数学）、人文、社会科学等领域的57个学科，难度从初级到高级专业水平不等，既考验世界知识，也考验解决问题的能力。

CMMLU

CMMLU（Chinese Multi-task Language Understanding）是一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从小学到大学或专业水平的67个主题，包括自然科学（如物理、化学）、人文科学（如历史、哲学）、社会科学（如经济学、政治学）等领域。

MMBench

MMBench是由OpenCompass社区开发的一款AI工具，旨在评估大规模视觉语言模型（LVLMs）的多模态理解能力。

Chatbot Arena

Chatbot Arena 由非营利组织 LMSYS Org 开发，该组织由多家高校和研究机构合作成立，旨在推动大型模型技术的普及和应用。Chatbot Arena 是一个大模型评测排行榜和竞技场，旨在通过众包和用户投票的方式，评估大型语言模型（LLMs）在实际对话任务中的性能。

SuperCLUE

SuperCLUE是中文通用大模型综合性评测基准，由CLUE团队推出，是中文语言理解测评基准（CLUE）在通用人工智能时代的进一步发展。SuperCLUE通过多层次、多维度的测评基准，覆盖语言理解与生成、知识理解与应用、专业能力、环境适应与安全性等多个方面。

C-EVAL

C-Eval是一个全面的中文基础模型评估套件，C-Eval评估套件包含了13,948个多项选择题，这些题目广泛覆盖了52个不同的学科领域，如科学、技术、工程、数学、社会科学、人文科学等。题目难度分为四个级别：初中、高中、大学和专业，以全面评估模型在不同难度任务上的表现。

LLMeval/llmeval-3

LLMeval/llmeval-3

LLMEval3 是由复旦大学自然语言处理（NLP）实验室推出的大模型评测基准。LLMEval3 涵盖了教育部划定的 13 个学科门类，包括哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学和艺术学。这些学科门类下进一步细分为 50 余个二级学科，确保评测的全面性和深度。