视觉推理 AI快讯列表

时间	详情
2026-03-13 15:00	Claude视觉思维升级：5个入门提示与Claude精通指南（2026深度解析）据God of Prompt在X平台称，Claude已具备视觉思维能力，并发布《Claude精通指南》，涵盖面向Claude的提示工程原则、10多个经过测试的巨型提示及进阶技巧，详情见godofprompt.ai（来源：God of Prompt 2026年3月13日推文）。同一来源指出，该指南聚焦多模态推理，通过视觉分解、图示优先指令与空间逐步推理，帮助团队更高效完成UI线框、图表解读与流程绘制。根据God of Prompt，企业可将这些提示标准化为可复用库，用于需求梳理、手绘到结构化输出转换、客服知识编排与设计冲刺，加速落地并提升提示一致性与复现性。原文链接
2026-01-29 16:41	Gemini 应用最新 Agentic Vision 上线：Gemini 3 Flash 加强思维模式据 Google Gemini (@GeminiApp) 报道，Agentic Vision 正在 Gemini 应用中上线，用户选择“Thinking”模型即可体验。Gemini 3 Flash 重点介绍了该功能，旨在提升应用的推理与感知能力，为需要复杂视觉和认知处理的任务带来更优体验。此举为开发者与企业利用 Gemini 平台创造了更多商业机会。原文链接
2025-11-26 11:09	Chain-of-Visual-Thought（COVT）：用连续视觉Token革新视觉语言模型感知能力根据@godofprompt报道，最新论文《Chain-of-Visual-Thought（COVT）》提出了一种革命性方法，让视觉语言模型（VLMs）通过连续视觉Token进行推理，而不是传统的文本链。COVT能在推理过程中生成分割线索、深度信息、边缘和DINO特征等中间视觉信息，相当于为模型提供了“视觉便签”，极大提升了空间和几何理解能力。实验表明，COVT在深度推理上提升14%，CV-Bench提升5.5%，在HRBench和MMVP等多项基准测试中表现出色。该方法适用于Qwen2.5-VL、LLaVA等主流VLM，且生成的视觉Token可被透明解码。研究还发现，传统的文本链推理反而会损害视觉表现，而COVT则通过视觉基础提升计数、空间理解、三维感知，并减少虚假输出。这一突破为机器人、自动驾驶、智能安防等需要高精度视觉分析和空间理解的AI应用带来巨大商业机会。（来源：@godofprompt，《Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens》，2025）原文链接
2025-10-07 19:45	谷歌DeepMind发布Gemini 2.5：AI模型革新自动化网页浏览能力根据Google DeepMind官方信息，Gemini 2.5 Computer Use模型通过增强视觉理解和推理能力，使AI代理能够像真人一样在浏览器中点击、滚动和输入。这一突破为自动化在线客服、电商、数据录入等行业带来更高效的工作流程。新模型在多项行业基准测试中表现优异，速度和可靠性大幅提升，为企业实现复杂网页操作自动化带来全新商业机会（来源：Google DeepMind，Twitter，2025年10月7日）。原文链接

2026-03-13
15:00

Claude视觉思维升级：5个入门提示与Claude精通指南（2026深度解析）

据God of Prompt在X平台称，Claude已具备视觉思维能力，并发布《Claude精通指南》，涵盖面向Claude的提示工程原则、10多个经过测试的巨型提示及进阶技巧，详情见godofprompt.ai（来源：God of Prompt 2026年3月13日推文）。同一来源指出，该指南聚焦多模态推理，通过视觉分解、图示优先指令与空间逐步推理，帮助团队更高效完成UI线框、图表解读与流程绘制。根据God of Prompt，企业可将这些提示标准化为可复用库，用于需求梳理、手绘到结构化输出转换、客服知识编排与设计冲刺，加速落地并提升提示一致性与复现性。

原文链接

2026-01-29
16:41

Gemini 应用最新 Agentic Vision 上线：Gemini 3 Flash 加强思维模式

据 Google Gemini (@GeminiApp) 报道，Agentic Vision 正在 Gemini 应用中上线，用户选择“Thinking”模型即可体验。Gemini 3 Flash 重点介绍了该功能，旨在提升应用的推理与感知能力，为需要复杂视觉和认知处理的任务带来更优体验。此举为开发者与企业利用 Gemini 平台创造了更多商业机会。

原文链接

2025-11-26
11:09

Chain-of-Visual-Thought（COVT）：用连续视觉Token革新视觉语言模型感知能力

根据@godofprompt报道，最新论文《Chain-of-Visual-Thought（COVT）》提出了一种革命性方法，让视觉语言模型（VLMs）通过连续视觉Token进行推理，而不是传统的文本链。COVT能在推理过程中生成分割线索、深度信息、边缘和DINO特征等中间视觉信息，相当于为模型提供了“视觉便签”，极大提升了空间和几何理解能力。实验表明，COVT在深度推理上提升14%，CV-Bench提升5.5%，在HRBench和MMVP等多项基准测试中表现出色。该方法适用于Qwen2.5-VL、LLaVA等主流VLM，且生成的视觉Token可被透明解码。研究还发现，传统的文本链推理反而会损害视觉表现，而COVT则通过视觉基础提升计数、空间理解、三维感知，并减少虚假输出。这一突破为机器人、自动驾驶、智能安防等需要高精度视觉分析和空间理解的AI应用带来巨大商业机会。（来源：@godofprompt，《Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens》，2025）

原文链接

2025-10-07
19:45

谷歌DeepMind发布Gemini 2.5：AI模型革新自动化网页浏览能力

根据Google DeepMind官方信息，Gemini 2.5 Computer Use模型通过增强视觉理解和推理能力，使AI代理能够像真人一样在浏览器中点击、滚动和输入。这一突破为自动化在线客服、电商、数据录入等行业带来更高效的工作流程。新模型在多项行业基准测试中表现优异，速度和可靠性大幅提升，为企业实现复杂网页操作自动化带来全新商业机会（来源：Google DeepMind，Twitter，2025年10月7日）。

原文链接

AI 快讯列表关于 视觉推理

AI 快讯列表关于视觉推理