SWE基准 AI快讯列表

SWE基准 AI快讯列表 | Blockchain.News

AI 快讯列表

AI 快讯列表关于 SWE基准

时间	详情
2026-02-27 12:10	MiniMax M2.5 超越 Opus 4.6：SWE‑Bench Verified 80.2%，速度提升3倍，每小时仅$1 的AI编码基准分析据 X 平台用户 God of Prompt 表示，MiniMax M2.5 在 SWE‑Bench Verified 基准上取得 80.2% 成绩，执行速度约快 3 倍，并以每小时 $1 的统一价格提供，同时仅启用 100 亿参数，被定位为最小的 Tier‑1 级编码模型。该来源称，这些指标带来更低时延与更优推理成本，使 24/7 持续运行的自主编码代理与持续集成机器人在预算内可行。基于同一来源的信息，高准确率与小激活参数量的组合提升效率与性价比，可为部署代码助手、测试修复机器人与维护代理的团队带来更高投资回报。原文链接
2026-02-02 16:46	Claude Sonnet 5对比Opus 4.5：最新泄露显示价格更低、速度更快与自主编码代理据Twitter用户@godofprompt透露，Vertex AI在错误日志中泄露了Claude Sonnet 5的最新信息。该模型据称比Opus 4.5便宜50%以上，并保持100万上下文窗口，同时运行速度更快。值得关注的是，Claude Sonnet 5支持通过终端生成并行子代理，并在SWE-bench基准测试中达到80.9%。最引人注目的功能是“开发团队模式”，用户仅需简要说明，即可由代理自主构建完整功能。尽管消息尚未证实，但若属实，将重塑AI编码代理市场，为企业自动化提供全新商机。原文链接

时间

详情

2026-02-27
12:10

MiniMax M2.5 超越 Opus 4.6：SWE‑Bench Verified 80.2%，速度提升3倍，每小时仅$1 的AI编码基准分析

据 X 平台用户 God of Prompt 表示，MiniMax M2.5 在 SWE‑Bench Verified 基准上取得 80.2% 成绩，执行速度约快 3 倍，并以每小时 $1 的统一价格提供，同时仅启用 100 亿参数，被定位为最小的 Tier‑1 级编码模型。该来源称，这些指标带来更低时延与更优推理成本，使 24/7 持续运行的自主编码代理与持续集成机器人在预算内可行。基于同一来源的信息，高准确率与小激活参数量的组合提升效率与性价比，可为部署代码助手、测试修复机器人与维护代理的团队带来更高投资回报。

原文链接

2026-02-02
16:46

Claude Sonnet 5对比Opus 4.5：最新泄露显示价格更低、速度更快与自主编码代理

据Twitter用户@godofprompt透露，Vertex AI在错误日志中泄露了Claude Sonnet 5的最新信息。该模型据称比Opus 4.5便宜50%以上，并保持100万上下文窗口，同时运行速度更快。值得关注的是，Claude Sonnet 5支持通过终端生成并行子代理，并在SWE-bench基准测试中达到80.9%。最引人注目的功能是“开发团队模式”，用户仅需简要说明，即可由代理自主构建完整功能。尽管消息尚未证实，但若属实，将重塑AI编码代理市场，为企业自动化提供全新商机。

原文链接