AI数据模型评测

共 14 篇网址

OpenCompass司南

OpenCompass，也被称为“司南”，是由上海人工智能实验室推出的一款开源的大模型评测体系。评测体系从多种视角出发，量化大模型的能力。评估维度包括但不限于目标检测、文字识别、动作识别、图像理解和关系推理等基础能力，还涉及艺术与设计、商业、科学、健康与医学、人文与社会科学、技术与工程、数学推理等多个专业领域。

310

AI数据模型评测 # OpenCompass # 司南 # 大模型评测

CMMLU

CMMLU（Chinese Multi-task Language Understanding）是一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从小学到大学或专业水平的67个主题，包括自然科学（如物理、化学）、人文科学（如历史、哲学）、社会科学（如经济学、政治学）等领域。

300

AI数据模型评测 # Chinese Multi-task Language Understanding # CMMLU # 中文评估基准

Open LLM Leaderboard

Open LLM Leaderboard

Open LLM Leaderboard 是一个由 Hugging Face 发布的开源大模型排行榜，旨在跟踪、排名和评估开源的大型语言模型（LLMs）。用户可以通过访问 Hugging Face 的官方网站或相关平台，查看 Open LLM Leaderboard 的最新排名和评估结果。

290

AI数据模型评测 # Open LLM Leaderboard # 大模型排行榜 # 开源大模型

C-EVAL

C-Eval是一个全面的中文基础模型评估套件，C-Eval评估套件包含了13,948个多项选择题，这些题目广泛覆盖了52个不同的学科领域，如科学、技术、工程、数学、社会科学、人文科学等。题目难度分为四个级别：初中、高中、大学和专业，以全面评估模型在不同难度任务上的表现。

300

AI数据模型评测 # C-EVAL # CEval # 中文基础模型评估

MMBench

MMBench是由OpenCompass社区开发的一款AI工具，旨在评估大规模视觉语言模型（LVLMs）的多模态理解能力。

300

AI数据模型评测 # MMBench # OpenCompass # 多模态模型评估工具

FlagEval

FlagEval是北京智源人工智能研究院推出的一个大模型评测体系及开放平台,FlagEval覆盖自然语言处理（NLP）、计算机视觉（CV）、语音（Audio）和多模态（Multimodal）四大领域，提供多维度评测。

270

AI数据模型评测 # FlagEval # 大模型评测体系

HEML Holistic Evaluation of Language Models

HEML Holistic Evaluation of Language Models

Holistic Evaluation of Language Models（HELM）是一个由斯坦福大学提出的语言模型综合评估框架。HELM对语言模型感兴趣的潜在应用场景（即用例）进行了广泛的分类。这些场景涵盖了多个任务、领域和语言，以确保评估的全面性。

330

AI数据模型评测 # HEML # 斯坦福大学 # 语言模型整体评估

SuperCLUE

SuperCLUE是中文通用大模型综合性评测基准，由CLUE团队推出，是中文语言理解测评基准（CLUE）在通用人工智能时代的进一步发展。SuperCLUE通过多层次、多维度的测评基准，覆盖语言理解与生成、知识理解与应用、专业能力、环境适应与安全性等多个方面。

310

AI数据模型评测 # SuperCLUE # 中文通用大模型综合性评测

Chatbot Arena

Chatbot Arena 由非营利组织 LMSYS Org 开发，该组织由多家高校和研究机构合作成立，旨在推动大型模型技术的普及和应用。Chatbot Arena 是一个大模型评测排行榜和竞技场，旨在通过众包和用户投票的方式，评估大型语言模型（LLMs）在实际对话任务中的性能。

310

AI数据模型评测 # Chatbot Arena

AGI Eval评测社区

AGI-Eval评测社区是一个由上海交通大学、同济大学、华东师范大学及DataWhale等知名高校与机构联合打造的大模型评测平台。基于统一的评测标准，AGI-Eval提供业内大语言模型的全面能力得分排名，涵盖综合评测及各专项能力评测，数据透明、权威。

290

AI数据模型评测 # AGI-Eval评测社区 # AGIEval

LLMeval/llmeval-3

LLMeval/llmeval-3

LLMEval3 是由复旦大学自然语言处理（NLP）实验室推出的大模型评测基准。LLMEval3 涵盖了教育部划定的 13 个学科门类，包括哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学和艺术学。这些学科门类下进一步细分为 50 余个二级学科，确保评测的全面性和深度。

270

AI数据模型评测 # LLMeval # llmeval-3

H2oGPT

H2oGPT 是一个功能强大、灵活易用的开源项目，为用户提供了全新的文档处理和对话体验。H2oGPT 基于 Apache V2 许可，是一个完全开源的项目。这意味着用户可以免费使用、修改和分发代码，同时促进社区合作和贡献。

300

AI数据模型评测 # H2O EVAL GPT # H2oGPT # H2O评估工作室

PubMedQA

PubMedQA 是一个专门设计用于支持开发和评估能够在生物医学文献中找到答案的问答系统的高质量数据集。它由PubMed文献库中的数据构建而成，这些文献库是全球最大的生物医学文献数据库之一。

440

AI数据模型评测常用推荐 # PubMedQA # 文献库 # 生物医学文献

MMLU Dataset（大规模多任务语言理解数据集）

MMLU Dataset（大规模多任务语言理解数据集）

MMLU Dataset旨在通过仅在零样本和少样本设置中评估模型来衡量预训练期间获得的知识。这使得基准测试更具挑战性，并且更类似于人类评估知识的方式。该基准涵盖了STEM（科学、技术、工程和数学）、人文、社会科学等领域的57个学科，难度从初级到高级专业水平不等，既考验世界知识，也考验解决问题的能力。

410

AI数据模型评测常用推荐 # MMLU Dataset # 大规模多任务语言理解数据集