关于 多模态大模型 的快讯列表
| 时间 | 详情 |
|---|---|
|
2025-12-23 22:26 |
SEMI少样本多模态突破:单投影+LoRA连接任意编码器,跨任务超越基线并降低标注需求
根据 @DeepLearningAI,SEMI(Sample-Efficient Modality Integration)可用一个投影器加少量配对样本生成的LoRA适配器,把任意预训练编码器(图像、音频、视频、传感器、图)接入LLM,从而在无需大规模标注的情况下构建多模态大模型(来源:DeepLearning.AI The Batch)。在数据丰富域上预训练后,SEMI能以少样本快速适配新领域,并在多项任务上优于基线方法,体现出强样本效率(来源:DeepLearning.AI The Batch)。对加密与量化团队的可操作点是降低多模态分析落地的标注与启动门槛,但来源未提供成本数据或与市场表现的直接关联(来源:DeepLearning.AI The Batch)。 |
|
2025-10-20 22:13 |
安德烈·卡帕西:DeepSeek-OCR展示像素输入优于文本分词的4大理由—更高效率、更短上下文窗口、双向注意力、取消分词器
据安德烈·卡帕西介绍,DeepSeek-OCR 论文不仅展现出强劲的 OCR 能力,更重要的是凸显将像素而非文本分词作为大模型输入在效率与信息保真上的优势,来源:Andrej Karpathy 于 X,2025年10月20日。 他表示,将纯文本渲染为图片后再输入模型可实现更高的信息压缩,从而缩短上下文窗口并提升效率,来源:Andrej Karpathy 于 X,2025年10月20日。 他补充称,像素输入能保留加粗、颜色等文本格式并同时容纳任意图像,构成更通用的信息流,来源:Andrej Karpathy 于 X,2025年10月20日。 他认为,与自回归注意力相比,输入侧采用图像可默认启用双向注意力,从而更有利于处理能力,来源:Andrej Karpathy 于 X,2025年10月20日。 他主张在输入端删除分词器,原因在于 Unicode 与字节编码的复杂性与安全或越狱风险(如续字节)以及表情符号的语义错配等问题,来源:Andrej Karpathy 于 X,2025年10月20日。 他将 OCR 视为众多“视觉转文本”任务之一,并指出许多“文本转文本”任务可重构为“视觉转文本”,但反向并不普遍成立,来源:Andrej Karpathy 于 X,2025年10月20日。 他提出实用路径为用户消息使用图像而助手回复保持文本,并指出像素级输出并不直观,同时提到想开发仅图像输入版的 nanochat 并引用 vLLM 项目,来源:Andrej Karpathy 于 X,2025年10月20日。 |