AI编程基准 AI快讯列表

AI编程基准 AI快讯列表 | Blockchain.News

AI 快讯列表

AI 快讯列表关于 AI编程基准

时间	详情
2025-11-30 22:39	AI模型对比：Gemini 3 Pro、ChatGPT 5.1与Claude Opus 4.5在多球七边形物理编程挑战中的表现根据推特用户@godofprompt发布的信息，对Gemini 3 Pro、ChatGPT 5.1和Claude Opus 4.5进行了多球七边形物理编程任务的直接对比。该任务要求AI生成能在旋转七边形内展示20个带有独特颜色和编号标签的小球，并实现重力与碰撞检测的完整HTML、CSS和JavaScript代码。结果显示，三款AI模型在前端开发、几何物理模拟和碰撞检测算法方面展现出不同程度的能力。这类基准测试为企业评估和选择适用于复杂技术开发的AI工具提供了有价值的行业参考（来源：@godofprompt，2025年11月30日）。原文链接
2025-11-21 23:59	Gemini 3 Pro在SWE-bench编程基准测试中超越所有AI模型：已获权威验证根据Twitter用户@godofprompt（来源：2025年11月21日）发布的信息，Gemini 3 Pro在SWE-bench编程基准测试中超越了所有现有AI模型，这一成就获得了权威验证。SWE-bench作为AI软件工程领域的重要评测基准，充分展示了Gemini 3 Pro在自动代码生成、错误修复和开发效率提升等方面的突出表现。这一突破为企业应用AI驱动的软件开发工具提供了更强保障，有助于提升软件交付速度、降低开发成本，并提升代码质量。原文链接
2025-10-14 02:59	Claude Sonnet 4.5发布：支持百万级上下文与可变推理Token预算，提升AI开发与编码效率据DeepLearning.AI报道，Anthropic发布了Claude Sonnet 4.5，支持200,000至1,000,000 Token的大上下文窗口，并引入可变推理Token预算，显著提升多项编码和推理基准测试表现（来源：DeepLearning.AI, 2025-10-14）。该模型可在官网免费试用，并通过API以每百万输入Token 3美元、输出Token 15美元的价格提供。Anthropic同步推出Claude Agent SDK及升级Claude Code，新增自动上下文追踪与摘要、持久化记忆工具、安全回滚检查点，以及VS Code插件等功能，大幅提升AI开发者在企业应用、智能自动化与复杂编码场景下的生产力（来源：DeepLearning.AI, 2025-10-14）。原文链接