AI 快讯列表关于 长时任务
| 时间 | 详情 |
|---|---|
|
2026-01-15 22:18 |
Claude AI在3.5小时任务中成功率达50%,用户迭代优势优于METR基准
根据Anthropic (@AnthropicAI) 的数据,Claude AI 在需要3.5小时的任务中 API 成功率为50%,且在更长任务上的可靠性更高。用户可以针对Claude表现优异的任务反复迭代,提升最终成功率,这一能力在复杂流程和长期任务场景下优于METR基准,为企业在AI自动化和流程优化中带来新商机(来源:AnthropicAI,2026年1月15日)。 |
|
2025-09-15 17:20 |
GPT-5-Codex:AI长时任务处理能力大幅提升,推动企业自动化新机遇
根据Greg Brockman在X平台发布的信息,OpenAI推出的GPT-5-Codex在长周期agent任务处理方面取得重大突破,显著提升AI系统在复杂、持续性操作中的自主性和可靠性(来源:x.com/OpenAI/status/1967636903165038708)。这一进展将显著推动企业级AI代理在软件自动化、大规模代码生成和工作流编排等场景的落地应用,为企业实现流程自动化和降低人工成本带来新的业务机会。GPT-5-Codex的增强能力有望引领企业AI、开发者工具和端到端自动化的新趋势。 |
|
2025-09-02 20:10 |
斯坦福BEHAVIOR挑战赛:50项长时移动操作AI任务,涵盖1200小时高质量演示数据
根据@StanfordAI消息,斯坦福BEHAVIOR挑战赛推出了50项长时移动操作任务,专为促进AI系统在真实复杂环境下的能力提升。这些任务依托1200小时高质量演示数据,旨在推动AI模型在多样化且复杂的底层操作技能上取得突破。该挑战赛为AI企业和研究者提供了发展通用机器人、深度强化学习和模仿学习的宝贵机会,助力多步骤物理任务的自动化,推动服务机器人、智能制造及可扩展机器人解决方案的商业化落地。(来源:behavior.stanford.edu) |