MetaGPT 发布新型 AI 开发能力评估基准 RealDevWorld

MetaGPT 发布新型 AI 开发能力评估基准 RealDevWorld

据MetaGPT官方消息,他们近日发布全新 AI 开发能力评估基准RealDevWorld,通过 RealDevBench 数据集与 AppEvalPilot 框架,为 AI 代理在实际软件开发场景中的表现提供系统性评测。

该基准包含 194 项真实开发任务,覆盖显示(50.0%)、分析(18.6%)、游戏(17.0%)、数据(14.4%)四大类别,涉及金融追踪、市场分析等多领域场景,强调从需求理解到调试的端到端评估。其创新的 “代理即评委” 模式,通过自动化 GUI 测试与交互式评估,实现 92% 的评估准确率与 85% 的人类专家相关性。(品玩)

本文来自投稿,不代表DEVCN立场,如若转载,请注明出处:https://devcn.xin/5870.html

(0)
网站编辑网站编辑认证
上一篇 2025年9月4日 上午11:48
下一篇 2025年9月4日 上午11:49

相关新闻