视觉Transformer AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 视觉Transformer

时间 详情
2025-12-22
10:35
Vision AI新一代训练方法:下一个Token预测实现83.8% ImageNet精度,推动自监督视觉模型商业化

据@SciTechera报道,最新AI研究将语言模型中的“下一个Token预测”理念应用于视觉AI,通过将视觉嵌入看作序列中的词,实现了无需像素重建或复杂对比损失的新型自监督训练。研究显示,ViT-Base模型微调后在ImageNet-1K上达到83.8%的Top-1准确率,与现有复杂自监督方法相当(来源:SciTechera, https://x.com/SciTechera/status/2003038741334741425)。该方法在ADE20K等语义分割任务中也表现优异,证明模型学习到真实视觉结构。此方案显著降低数据标注和训练成本,为医疗、制造、自动驾驶等行业的AI视觉系统提供更具商业潜力的解决方案。

2025-09-05
21:00
Meta发布DINOv3:6.7亿参数自监督视觉Transformer,提升图像分割与深度任务表现

据@DeepLearningAI报道,Meta正式发布DINOv3,这是一款自监督的视觉Transformer模型,拥有67亿参数,并在17亿张Instagram图片上进行训练。DINOv3在图像嵌入、分割和深度估计等任务上显著优于以往同类模型。其技术创新包括引入新的损失函数以保持patch级别多样性,有效解决无标签训练下的部分局限(来源:DeepLearning.AI,hubs.la/Q03GYwMQ0)。模型权重和训练代码允许商业用途但禁止军事应用,为需要强大自监督视觉骨干的AI企业和开发者带来新的机会。