AGI-Eval 是由上海交通大学、同济大学、华东师范大学、DataWhale 等顶尖高校和机构联合发起的大模型评测社区,美团等企业也深度参与其中。该平台以 "评测助力,让AI成为人类更好的伙伴" 为使命,致力于构建一个公正、可信、科学、全面的大模型评测生态系统。
AGI-Eval 专注于评估基础模型在人类认知和问题解决相关任务中的通用能力,通过设计贴近真实人类决策场景的评测任务(如高考、司法考试、数学竞赛等),衡量 AI 模型在真实生活中的适用性和有效性。其核心理念是:评测不是一套固定流程,而是一套可快速插拔的系统

| 功能模块 | 详细说明 |
|---|---|
| 大模型榜单 | 提供业内大语言模型的能力得分排名,涵盖综合评测及各专项能力(理解、推理、知识、计算等),数据透明权威、定期更新 |
| 人机协同评测比赛 | 创新性的人机协作评测模式,用户与大模型共同完成任务,探索人机增益指标,构建更科学的评估体系 |
| 评测集社区 | 包含三类数据集: • 公开学术评测集:行业标准数据集,支持下载使用 • 官方评测集:覆盖多领域的自建评测集 • 用户自建评测集:支持用户上传个人评测集,共建开源社区 |
| Data Studio 数据工坊 | • 3万+众包用户,确保高质量真实数据回收 • 多维度、多领域专业数据 • 支持单条数据、扩写数据、Arena数据等多元化收集方式 • 机审+人审双重审核机制保障数据质量 |
本网站提供的「AGI-Eval 评测社区」相关内容均来源于网络搜集整理,不保证跳转外部链接的准确性和完整性。网站外部链接的内容在[2026-03-14]录入之前合规合法,后期网站的内容如出现违规或者损害了您的利益,可以直接联系网站管理员进行删除。如果涉及到金钱交易,请仔细甄别,避免上当受骗!
文本转语音(41) 声音克隆(13) ai语音生成(24) ai对话工具(55) AI音乐平台(31) AI视频创作(86) 智能体模型(13) ai音乐播放器(2) ai图片生成(129) ai虚拟试穿平台(4) AI视频(94) ai电商工具(26) ai机器人(6) ai浏览器(4) ai对话(35) 智能编码(22) ai聊天(49) ai语音转换(7) 大模型(15) ai创作(20) ai编程(45) AI视频生成(87) ai多语言翻译(29) ai写作(40) ai论文写作(12) 虚拟人像(1) 智能编程(25) 大语言模型(10) 电脑智能体(2) ai流程图(2)