
PubMedQA
PubMedQA 是一个专门设计用于支持开发和评估能够在生物医学文献中找到答案的问答系统的高质量数据集。它由PubMed文献库中的数据构建而成,这些文献库是全球最大的生物医学文献数据库之一。
AGI-Eval评测社区是一个由上海交通大学、同济大学、华东师范大学及DataWhale等知名高校与机构联合打造的大模型评测平台。基于统一的评测标准,AGI-Eval提供业内大语言模型的全面能力得分排名,涵盖综合评测及各专项能力评测,数据透明、权威。
AGI-Eval评测社区是一个由上海交通大学、同济大学、华东师范大学及DataWhale等知名高校与机构联合打造的大模型评测平台。以下是对该评测社区的详细介绍:
AGI-Eval评测社区以“评测助力,让AI成为人类更好的伙伴”为使命,致力于构建一个公正、可信、科学且全面的评测生态体系。该平台专注于评估基础模型在人类认知与问题解决任务中的通用能力,通过一系列精心设计的考试,直接关联并衡量模型与人类决策、认知能力的契合度,进而揭示其在现实生活中的适用性与有效性。
评测榜单:
评测集社区:
人机比赛:
Data Studio:
AGI-Eval评测社区凭借其专业、全面的评测体系,已经成为AI模型评测领域的佼佼者。它不仅为AI技术的精准应用提供了有力支持,还促进了AI与人类社会的深度融合,共同探索智能未来的无限可能。如果您对AI模型评测感兴趣,不妨关注AGI-Eval评测社区,了解最新的评测动态和技术进展。