OpenCompass司南

OpenCompass司南

OpenCompass,也被称为“司南”,是由上海人工智能实验室推出的一款开源的大模型评测体系。评测体系从多种视角出发,量化大模型的能力。评估维度包括但不限于目标检测、文字识别、动作识别、图像理解和关系推理等基础能力,还涉及艺术与设计、商业、科学、健康与医学、人文与社会科学、技术与工程、数学推理等多个专业领域。
00
MMLU Dataset(大规模多任务语言理解数据集)

MMLU Dataset(大规模多任务语言理解数据集)

MMLU Dataset旨在通过仅在零样本和少样本设置中评估模型来衡量预训练期间获得的知识。这使得基准测试更具挑战性,并且更类似于人类评估知识的方式。该基准涵盖了STEM(科学、技术、工程和数学)、人文、社会科学等领域的57个学科,难度从初级到高级专业水平不等,既考验世界知识,也考验解决问题的能力。
10