AI 快讯列表关于 视觉推理
| 时间 | 详情 |
|---|---|
|
2025-11-26 11:09 |
Chain-of-Visual-Thought(COVT):用连续视觉Token革新视觉语言模型感知能力
根据@godofprompt报道,最新论文《Chain-of-Visual-Thought(COVT)》提出了一种革命性方法,让视觉语言模型(VLMs)通过连续视觉Token进行推理,而不是传统的文本链。COVT能在推理过程中生成分割线索、深度信息、边缘和DINO特征等中间视觉信息,相当于为模型提供了“视觉便签”,极大提升了空间和几何理解能力。实验表明,COVT在深度推理上提升14%,CV-Bench提升5.5%,在HRBench和MMVP等多项基准测试中表现出色。该方法适用于Qwen2.5-VL、LLaVA等主流VLM,且生成的视觉Token可被透明解码。研究还发现,传统的文本链推理反而会损害视觉表现,而COVT则通过视觉基础提升计数、空间理解、三维感知,并减少虚假输出。这一突破为机器人、自动驾驶、智能安防等需要高精度视觉分析和空间理解的AI应用带来巨大商业机会。(来源:@godofprompt,《Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens》,2025) |
|
2025-10-07 19:45 |
谷歌DeepMind发布Gemini 2.5:AI模型革新自动化网页浏览能力
根据Google DeepMind官方信息,Gemini 2.5 Computer Use模型通过增强视觉理解和推理能力,使AI代理能够像真人一样在浏览器中点击、滚动和输入。这一突破为自动化在线客服、电商、数据录入等行业带来更高效的工作流程。新模型在多项行业基准测试中表现优异,速度和可靠性大幅提升,为企业实现复杂网页操作自动化带来全新商业机会(来源:Google DeepMind,Twitter,2025年10月7日)。 |