SWE基准 AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 SWE基准

时间 详情
2026-02-27
12:10
MiniMax M2.5 超越 Opus 4.6:SWE‑Bench Verified 80.2%,速度提升3倍,每小时仅$1 的AI编码基准分析

据 X 平台用户 God of Prompt 表示,MiniMax M2.5 在 SWE‑Bench Verified 基准上取得 80.2% 成绩,执行速度约快 3 倍,并以每小时 $1 的统一价格提供,同时仅启用 100 亿参数,被定位为最小的 Tier‑1 级编码模型。该来源称,这些指标带来更低时延与更优推理成本,使 24/7 持续运行的自主编码代理与持续集成机器人在预算内可行。基于同一来源的信息,高准确率与小激活参数量的组合提升效率与性价比,可为部署代码助手、测试修复机器人与维护代理的团队带来更高投资回报。

2026-02-02
16:46
Claude Sonnet 5对比Opus 4.5:最新泄露显示价格更低、速度更快与自主编码代理

据Twitter用户@godofprompt透露,Vertex AI在错误日志中泄露了Claude Sonnet 5的最新信息。该模型据称比Opus 4.5便宜50%以上,并保持100万上下文窗口,同时运行速度更快。值得关注的是,Claude Sonnet 5支持通过终端生成并行子代理,并在SWE-bench基准测试中达到80.9%。最引人注目的功能是“开发团队模式”,用户仅需简要说明,即可由代理自主构建完整功能。尽管消息尚未证实,但若属实,将重塑AI编码代理市场,为企业自动化提供全新商机。