LLMeval/llmeval-3

2个月前发布 28 0 0

LLMEval3 是由复旦大学自然语言处理（NLP）实验室推出的大模型评测基准。LLMEval3 涵盖了教育部划定的 13 个学科门类，包括哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学和艺术学。这些学科门类下进一步细分为 50 余个二级学科，确保评测的全面性和深度。

收录时间：

2025-02-27

打开网站手机查看

AI数据模型评测 # LLMeval # llmeval-3

LLMeval/llmeval-3

打开网站

LLMEval3 是由复旦大学自然语言处理（NLP）实验室推出的大模型评测基准。该评测基准专注于评估大模型在专业知识领域的能力，为研究人员和开发者提供了一个全面、系统的评估平台。以下是关于 LLMEval3 的详细介绍：

一、评测范围

LLMEval3 涵盖了教育部划定的 13 个学科门类，包括哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学和艺术学。这些学科门类下进一步细分为 50 余个二级学科，确保评测的全面性和深度。

二、评测题目

LLMEval3 共包含约 20 万道标准生成式问答题目。这些题目旨在测试大模型在不同学科领域的专业知识掌握程度，以及生成自然、流畅文本的能力。

三、评测特点

专业性强：LLMEval3 聚焦于专业知识能力的评测，确保评测结果能够真实反映大模型在特定领域的应用能力。
覆盖广泛：涵盖 13 个学科门类和 50 余个二级学科，确保评测的全面性和系统性。
题目丰富：包含约 20 万道标准生成式问答题目，为评测提供了充足的数据支持。
标准生成式：题目采用生成式问答形式，要求大模型生成自然、流畅的文本，以评估其语言生成能力。

四、应用场景

LLMEval3 可广泛应用于大模型的研发、评测和优化。通过该评测基准，研究人员和开发者可以全面了解大模型在专业知识领域的应用能力，发现模型的不足之处，并针对性地进行优化和改进。

五、意义与价值

LLMEval3 的推出，为大模型的评测提供了更为全面、系统的标准。这不仅有助于推动大模型技术的进一步发展，还有助于提升大模型在实际应用中的效果和可靠性。同时，LLMEval3 也为学术界和工业界提供了一个交流和合作的平台，促进了大模型技术的普及和应用。

六、总结

LLMEval3 是由复旦大学 NLP 实验室推出的一款专注于评估大模型专业知识能力的大模型评测基准。该评测基准涵盖广泛、题目丰富、专业性强，具有极高的应用价值。通过 LLMEval3 的评测，研究人员和开发者可以全面了解大模型在专业知识领域的应用能力，为模型的优化和改进提供有力支持。

LLMeval/llmeval-3

相关导航

MMLU Dataset（大规模多任务语言理解数据集）

MMBench

C-EVAL

OpenCompass司南

Chatbot Arena

FlagEval

SuperCLUE

HEML Holistic Evaluation of Language Models