AI 很好搜

AGI-Eval 评测社区AGI-Eval 是由上海交通大学、同济大学、华东师范大学、DataWhale 等顶尖高校和机构联合发起的大模型评测社区,美团等企业也深度参与其中。该平台以 "评测助力,让AI成为人类更好的伙伴" 为使命,致力于构建一个公正、可信、科学、全面的大模型
请按 Ctrl+D 收藏本页到浏览器收藏夹回家不迷路!

AGI-Eval 是由上海交通大学、同济大学、华东师范大学、DataWhale 等顶尖高校和机构联合发起的大模型评测社区,美团等企业也深度参与其中。该平台以 "评测助力,让AI成为人类更好的伙伴" 为使命,致力于构建一个公正、可信、科学、全面的大模型评测生态系统。
AGI-Eval 专注于评估基础模型在人类认知和问题解决相关任务中的通用能力,通过设计贴近真实人类决策场景的评测任务(如高考、司法考试、数学竞赛等),衡量 AI 模型在真实生活中的适用性和有效性。其核心理念是:评测不是一套固定流程,而是一套可快速插拔的系统

主要功能

功能模块 详细说明
大模型榜单 提供业内大语言模型的能力得分排名,涵盖综合评测及各专项能力(理解、推理、知识、计算等),数据透明权威、定期更新
人机协同评测比赛 创新性的人机协作评测模式,用户与大模型共同完成任务,探索人机增益指标,构建更科学的评估体系
评测集社区 包含三类数据集:
• 公开学术评测集:行业标准数据集,支持下载使用
• 官方评测集:覆盖多领域的自建评测集
• 用户自建评测集:支持用户上传个人评测集,共建开源社区
Data Studio 数据工坊 • 3万+众包用户,确保高质量真实数据回收
• 多维度、多领域专业数据
• 支持单条数据、扩写数据、Arena数据等多元化收集方式
• 机审+人审双重审核机制保障数据质量

技术亮点

  • 插件化架构:从数据处理到指标计算,每个环节都可实现为插件,随时扩展、自由组合,无需修改主框架
  • 多种运行模式:支持单机、本地调试、多进程并行等,可根据机器资源自由调整并发
  • 可视化报告:内置 Web 报告功能,支持指标统计、模型对比、错误样例查看,帮助团队理解模型问题
  • 专用打分模型:内置 AGI-Eval-OA-Judge 专用打分模型
开源地址https://github.com/AGI-Eval-Official/agi-eval
使用文档https://docs.agi-eval.cn/

重要合作与成果

  • OlympicArena 基准测试:与 GAIR Lab 合作发布最严苛 AI 基准,涵盖七大学科奥赛题,连 GPT-4o 都难以应对
  • RM-Bench 数据集托管:平台托管了知名团队的完整评测集,研究人员可直接利用这些业界认可的资源进行模型验证
  • 人机协作评测模式:创新性提出"10q"玩法,模型需在统一 system prompt 下指导真实用户学习知识点并完成 quiz,基于多轮对话数据产出高置信度评测结论

未来展望

  • 一键评测:通过框架一键发起对社区支持的数据集的评测
  • 一键托管:将本地适配好的数据集一键托管至评测社区
  • 评测结果统一管理:支持将离线评测结果上传至社区统一管理
  • Agent 数据集接入:框架将支持 Agent 数据集的评测

数据统计

特别声明&浏览提醒

本网站提供的「AGI-Eval 评测社区」相关内容均来源于网络搜集整理,不保证跳转外部链接的准确性和完整性。网站外部链接的内容在[2026-03-14]录入之前合规合法,后期网站的内容如出现违规或者损害了您的利益,可以直接联系网站管理员进行删除。如果涉及到金钱交易,请仔细甄别,避免上当受骗!

热门图文资讯

  1. 2026年国内有哪些大模型比
  2. AI六小龙旗下产品有哪些,
  3. SkyReels-V2和SkyReels-V1相比,
  4. Claude 4有什么特点,为什么