MMLU Dataset(大规模多任务语言理解数据集) MMLU Dataset旨在通过仅在零样本和少样本设置中评估模型来衡量预训练期间获得的知识。这使得基准测试更具挑战性,并且更类似于人类评估知识的方式。该基准涵盖了STEM(科学、技术、工程和数学)、人文、社会科学等领域的57个学科,难度从初级到高级专业水平不等,既考验世界知识,也考验解决问题的能力。 10 AI数据模型评测常用推荐# MMLU Dataset# 大规模多任务语言理解数据集