AGI-Eval 评测社区：大模型评测社区-AI很好搜

: ai大模型评测AGI-Eval 评测社区AGI-Eval 是由上海交通大学、同济大学、华东师范大学、DataWhale 等顶尖高校和机构联合发起的大模型评测社区，美团等企业也深度参与其中。该平台以 "评测助力，让AI成为人类更好的伙伴" 为使命，致力于构建一个公正、可信、科学、全面的大模型
直达官网 >手机查看

请按 Ctrl+D 收藏本页到浏览器收藏夹回家不迷路！

AGI-Eval 是由上海交通大学、同济大学、华东师范大学、DataWhale 等顶尖高校和机构联合发起的大模型评测社区，美团等企业也深度参与其中。该平台以 "评测助力，让AI成为人类更好的伙伴" 为使命，致力于构建一个公正、可信、科学、全面的大模型评测生态系统。
AGI-Eval 专注于评估基础模型在人类认知和问题解决相关任务中的通用能力，通过设计贴近真实人类决策场景的评测任务（如高考、司法考试、数学竞赛等），衡量 AI 模型在真实生活中的适用性和有效性。其核心理念是：评测不是一套固定流程，而是一套可快速插拔的系统

主要功能

功能模块	详细说明
大模型榜单	提供业内大语言模型的能力得分排名，涵盖综合评测及各专项能力（理解、推理、知识、计算等），数据透明权威、定期更新
人机协同评测比赛	创新性的人机协作评测模式，用户与大模型共同完成任务，探索人机增益指标，构建更科学的评估体系
评测集社区	包含三类数据集： • 公开学术评测集：行业标准数据集，支持下载使用 • 官方评测集：覆盖多领域的自建评测集 • 用户自建评测集：支持用户上传个人评测集，共建开源社区
Data Studio 数据工坊	• 3万+众包用户，确保高质量真实数据回收 • 多维度、多领域专业数据 • 支持单条数据、扩写数据、Arena数据等多元化收集方式 • 机审+人审双重审核机制保障数据质量

技术亮点

插件化架构：从数据处理到指标计算，每个环节都可实现为插件，随时扩展、自由组合，无需修改主框架
多种运行模式：支持单机、本地调试、多进程并行等，可根据机器资源自由调整并发
可视化报告：内置 Web 报告功能，支持指标统计、模型对比、错误样例查看，帮助团队理解模型问题
专用打分模型：内置 AGI-Eval-OA-Judge 专用打分模型

开源地址：https://github.com/AGI-Eval-Official/agi-eval
使用文档：https://docs.agi-eval.cn/

重要合作与成果

OlympicArena 基准测试：与 GAIR Lab 合作发布最严苛 AI 基准，涵盖七大学科奥赛题，连 GPT-4o 都难以应对
RM-Bench 数据集托管：平台托管了知名团队的完整评测集，研究人员可直接利用这些业界认可的资源进行模型验证
人机协作评测模式：创新性提出"10q"玩法，模型需在统一 system prompt 下指导真实用户学习知识点并完成 quiz，基于多轮对话数据产出高置信度评测结论

未来展望

一键评测：通过框架一键发起对社区支持的数据集的评测
一键托管：将本地适配好的数据集一键托管至评测社区
评测结果统一管理：支持将离线评测结果上传至社区统一管理
Agent 数据集接入：框架将支持 Agent 数据集的评测

数据统计

特别声明&浏览提醒

本网站提供的「AGI-Eval 评测社区」相关内容均来源于网络搜集整理，不保证跳转外部链接的准确性和完整性。网站外部链接的内容在[2026-03-14]录入之前合规合法，后期网站的内容如出现违规或者损害了您的利益，可以直接联系网站管理员进行删除。如果涉及到金钱交易，请仔细甄别，避免上当受骗！

AI 很好搜

主要功能

技术亮点

重要合作与成果

未来展望

数据统计

特别声明&浏览提醒

热门图文资讯

AI 很好搜

主要功能

技术亮点

重要合作与成果

未来展望

数据统计

特别声明&浏览提醒

热门图文资讯

相关工具

热门标签