关于 令牌压缩 的快讯列表
时间 | 详情 |
---|---|
2025-02-18 07:04 |
DeepSeek 推出NSA:优化稀疏注意力以增强训练
根据DeepSeek,NSA(本地可训练稀疏注意力)机制通过动态分层稀疏策略、粗粒度令牌压缩和细粒度令牌选择来改善超快长上下文训练和推理能力,这有可能通过提高处理效率和减少计算负荷来增强交易算法。 |