Depth Anything 3:普通Transformer超越SOTA 3D模型,实现通用视觉几何AI突破
根据Twitter用户@godofprompt的消息,Depth Anything 3模型在3D计算机视觉领域实现重大突破。该模型采用单一普通Transformer,无需复杂架构即可从任意数量的图片(单张或多张、姿态有无均可)重建完整3D几何,并在所有几何基准测试中超越VGGT等最新SOTA模型。实际测试显示,姿态精度提升35.7%,几何精度提升23.6%,单目深度估计超越DA2。该模型通过仅使用深度和每像素射线,极大简化3D重建流程,无需多任务训练或点云映射技巧。采用教师-学生学习机制,利用强大的合成教师模型对齐真实世界噪声深度,生成高质量伪标签,让Transformer能够学习类似人类的视觉空间理解。这一进展为机器人、AR/VR、自动驾驶和数字孪生等行业带来通用3D感知模型的新商机,大幅降低工程复杂度与资源需求。(来源:@godofprompt,Twitter,2025年11月18日;论文:Depth Anything 3: Recovering the Visual Space from Any Views)
原文链接详细分析
God of Prompt
@godofpromptAn AI prompt engineering specialist sharing practical techniques for optimizing large language models and AI image generators. The content features prompt design strategies, AI tool tutorials, and creative applications of generative AI for both beginners and advanced users.