快讯列表

关于 推理速度 的快讯列表

时间 详情
2026-01-05
03:38
Greg Brockman 分享 AI 代理提速方法:steipete 的 agents.md 将 Codex 任务从 2-5 分钟降至 1 分钟内

据 @gdb 表示,采用 Peter Steinberger 的 agents.md 配置与相关参数,是加速 Codex 类代理工作流的简便方法。来源: https://twitter.com/gdb/status/2008020127770362188 他转引开发者 Mohamed Afifi 的实测反馈:在采纳 steipete 的 agents.md 与配置后,以往耗时 2-5 分钟的小任务现稳定在 1 分钟以内完成。来源: https://x.com/mohamede1945/status/2007844824934691260 Afifi 还提到,采用更简洁的“电报体”提示以及加入简短激励语与该加速同时出现。来源: https://x.com/mohamede1945/status/2007844824934691260 相关配置细节由 Peter Steinberger 在《Shipping at inference speed》中记录。来源: https://steipete.me/posts/2025/shipping-at-inference-speed @gdb 的帖子未提及任何加密资产或代码,且唯一量化数据为用户报告的耗时从 2-5 分钟降至 1 分钟以内。来源: https://twitter.com/gdb/status/2008020127770362188; https://x.com/mohamede1945/status/2007844824934691260

来源
2025-10-23
16:37
AI Dev 25 纽约议程发布:Google、AWS、Groq、Mistral聚焦代理式架构、语义缓存与推理速度——交易者必看要点

根据@AndrewYNg,AI Dev 25 纽约大会将由来自Google、AWS、Vercel、Groq、Mistral AI与SAP的开发者分享量产AI系统实践经验(来源:@AndrewYNg)。 议程涵盖代理式架构的取舍、面向边界案例的自主规划,以及编排框架何时助益、何时累积误差(来源:@AndrewYNg)。 还将讨论复杂推理下检索的局限、知识图谱如何连接向量搜索遗漏的信息,以及保持关系的记忆系统构建方法(来源:@AndrewYNg)。 基础设施主题包括硬件、模型与应用的扩展瓶颈、用于降本与降延迟的语义缓存策略,以及更快推理如何带来更优编排(来源:@AndrewYNg;ai-dev.deeplearning.ai)。 生产就绪与工具链将聚焦系统化智能体测试、将AI治理落地为工程实践、MCP实现、具上下文的代码审查系统及可复用的演示(来源:@AndrewYNg)。 对交易者而言,议程所强调的低延迟、降本与编排效率,体现当前企业AI落地的优先级,可用于跟踪AI基础设施板块与AI加密叙事的市场情绪与主题配置(来源:@AndrewYNg)。

来源
2025-08-20
18:32
Hyperbolic发布LLoCO在英伟达H100上的成绩:128k上下文推理提速7.62倍、微调吞吐提升11.52倍

根据Hyperbolic的披露,LLoCO在英伟达H100上对128k长度序列的推理速度最高提升至7.62倍;来源:Hyperbolic @hyperbolic_labs,2025年8月20日。根据Hyperbolic的披露,LLoCO在H100上的微调阶段吞吐量提升11.52倍;来源:Hyperbolic @hyperbolic_labs,2025年8月20日。根据Hyperbolic的披露,LLoCO实现单卡H100即可处理128k上下文;来源:Hyperbolic @hyperbolic_labs,2025年8月20日。

来源