长时任务 AI快讯列表 | Blockchain.News

长时任务 AI快讯列表 | Blockchain.News

AI 快讯列表

AI 快讯列表关于长时任务

时间	详情
2026-01-15 22:18	Claude AI在3.5小时任务中成功率达50%，用户迭代优势优于METR基准根据Anthropic (@AnthropicAI) 的数据，Claude AI 在需要3.5小时的任务中 API 成功率为50%，且在更长任务上的可靠性更高。用户可以针对Claude表现优异的任务反复迭代，提升最终成功率，这一能力在复杂流程和长期任务场景下优于METR基准，为企业在AI自动化和流程优化中带来新商机（来源：AnthropicAI，2026年1月15日）。原文链接
2025-09-15 17:20	GPT-5-Codex：AI长时任务处理能力大幅提升，推动企业自动化新机遇根据Greg Brockman在X平台发布的信息，OpenAI推出的GPT-5-Codex在长周期agent任务处理方面取得重大突破，显著提升AI系统在复杂、持续性操作中的自主性和可靠性（来源：x.com/OpenAI/status/1967636903165038708）。这一进展将显著推动企业级AI代理在软件自动化、大规模代码生成和工作流编排等场景的落地应用，为企业实现流程自动化和降低人工成本带来新的业务机会。GPT-5-Codex的增强能力有望引领企业AI、开发者工具和端到端自动化的新趋势。原文链接
2025-09-02 20:10	斯坦福BEHAVIOR挑战赛：50项长时移动操作AI任务，涵盖1200小时高质量演示数据根据@StanfordAI消息，斯坦福BEHAVIOR挑战赛推出了50项长时移动操作任务，专为促进AI系统在真实复杂环境下的能力提升。这些任务依托1200小时高质量演示数据，旨在推动AI模型在多样化且复杂的底层操作技能上取得突破。该挑战赛为AI企业和研究者提供了发展通用机器人、深度强化学习和模仿学习的宝贵机会，助力多步骤物理任务的自动化，推动服务机器人、智能制造及可扩展机器人解决方案的商业化落地。（来源：behavior.stanford.edu）原文链接