AI 快讯列表关于 AI编程基准
| 时间 | 详情 |
|---|---|
|
2025-11-30 22:39 |
AI模型对比:Gemini 3 Pro、ChatGPT 5.1与Claude Opus 4.5在多球七边形物理编程挑战中的表现
根据推特用户@godofprompt发布的信息,对Gemini 3 Pro、ChatGPT 5.1和Claude Opus 4.5进行了多球七边形物理编程任务的直接对比。该任务要求AI生成能在旋转七边形内展示20个带有独特颜色和编号标签的小球,并实现重力与碰撞检测的完整HTML、CSS和JavaScript代码。结果显示,三款AI模型在前端开发、几何物理模拟和碰撞检测算法方面展现出不同程度的能力。这类基准测试为企业评估和选择适用于复杂技术开发的AI工具提供了有价值的行业参考(来源:@godofprompt,2025年11月30日)。 |
|
2025-11-21 23:59 |
Gemini 3 Pro在SWE-bench编程基准测试中超越所有AI模型:已获权威验证
根据Twitter用户@godofprompt(来源:2025年11月21日)发布的信息,Gemini 3 Pro在SWE-bench编程基准测试中超越了所有现有AI模型,这一成就获得了权威验证。SWE-bench作为AI软件工程领域的重要评测基准,充分展示了Gemini 3 Pro在自动代码生成、错误修复和开发效率提升等方面的突出表现。这一突破为企业应用AI驱动的软件开发工具提供了更强保障,有助于提升软件交付速度、降低开发成本,并提升代码质量。 |
|
2025-10-14 02:59 |
Claude Sonnet 4.5发布:支持百万级上下文与可变推理Token预算,提升AI开发与编码效率
据DeepLearning.AI报道,Anthropic发布了Claude Sonnet 4.5,支持200,000至1,000,000 Token的大上下文窗口,并引入可变推理Token预算,显著提升多项编码和推理基准测试表现(来源:DeepLearning.AI, 2025-10-14)。该模型可在官网免费试用,并通过API以每百万输入Token 3美元、输出Token 15美元的价格提供。Anthropic同步推出Claude Agent SDK及升级Claude Code,新增自动上下文追踪与摘要、持久化记忆工具、安全回滚检查点,以及VS Code插件等功能,大幅提升AI开发者在企业应用、智能自动化与复杂编码场景下的生产力(来源:DeepLearning.AI, 2025-10-14)。 |