评估大模型

共 1 篇网址

排序

发布更新浏览点赞

CMMLU

CMMLU（Chinese Multi-task Language Understanding）是一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从小学到大学或专业水平的67个主题，包括自然科学（如物理、化学）、人文科学（如历史、哲学）、社会科学（如经济学、政治学）等领域。

10

AI数据模型评测 # Chinese Multi-task Language Understanding # CMMLU # 中文评估基准