关于 Karpathy 的快讯列表
| 时间 | 详情 |
|---|---|
|
2025-11-24 17:35 |
Andrej Karpathy:作业中AI无法检测——交易者现在需要知道的要点
据@karpathy在X平台2025年11月24日发文称,作业中的AI使用无法被检测,现有AI检测器并不工作,显示学校对生成式AI的采用不可避免(来源:@karpathy,X平台,2025年11月24日)。 据@karpathy在X平台2025年11月24日发文称,他向学校董事会进行简报并分享应对要点,建议教育侧应适应AI而不是依赖检测工具(来源:@karpathy,X平台,2025年11月24日)。 据@karpathy在X平台2025年11月24日发文显示,帖子未提及加密货币或交易,因此未给出任何直接的加密市场影响(来源:@karpathy,X平台,2025年11月24日)。 |
|
2025-11-23 18:03 |
Andrej Karpathy 演示:Gemini Nano Banana Pro 图像答题实测表现强劲,交易者关注 GOOGL 与 AI 代币 RNDR、FET
据@karpathy披露,Gemini Nano Banana Pro 直接从试卷照片中解出化学题,能解析图中涂鸦与示意图;随后 ChatGPT 评估除 Se2P2 的命名应为二硒二磷化物以及 thiocyanic acid 拼写纠正外均为正确,来源:Andrej Karpathy 在 X,2025年11月23日。该演示表明其具备对密集文档版式进行图像内多模态解析与推理的能力,这与谷歌 Gemini 家族的定位及 Nano 属于其产品线相一致,来源:Andrej Karpathy 在 X,2025年11月23日;Google DeepMind Gemini 介绍,2023年12月。历史上,高关注度的 AI 能力发布常与 AI 概念加密资产(如 RNDR、FET)及相关股票出现同向表现相伴,来源:路透社关于 2023年2月 ChatGPT 热潮与 2024年5月英伟达财报后 AI 代币上涨的报道。交易层面可关注 Alphabet GOOGL 与 AI 基础设施代币在该类演示引发关注时的叙事动能,同时注意 Se2P2 命名与拼写错误所提示的准确性风险,来源:Andrej Karpathy 在 X,2025年11月23日;路透社 2023年2月与 2024年5月报道。 |
|
2025-11-22 23:54 |
Andrej Karpathy 推出 llm-council 开源多模型集成:OpenRouter 调度与交叉评审,GPT-5.1 被评最佳、Claude 垫底
据 @karpathy 称,他发布了开源的 llm-council 网页应用:每次查询通过 OpenRouter 分发至多模型,模型之间查看匿名回答并相互评审打分,最后由“主席 LLM”产出终稿,构成明确的多模型集成流程。来源:@karpathy 于 X。 据 @karpathy 称,当前评审小组包含 openai/gpt-5.1、google/gemini-3-pro-preview、anthropic/claude-sonnet-4.5、x-ai/grok-4,可对 OpenAI、Google、Anthropic、xAI 的模型进行并行对比与排名。来源:@karpathy 于 X。 据 @karpathy 称,跨模型评审经常把他模之外的答案评为更优,显示这是一种可操作的同伴评审式模型选择与排名方法。来源:@karpathy 于 X。 据 @karpathy 称,在其读书测试中,模型一致称赞 GPT-5.1 最佳且洞见最多,并一致把 Claude 评为最差,Gemini 3 Pro 与 Grok-4 居中;他个人定性认为 GPT-5.1 偏啰嗦、Gemini 3 更凝练、Claude 过于简短。来源:@karpathy 于 X。 据 @karpathy 称,项目代码已在 GitHub 公开,仓库名为 llm-council,供他人试用。来源:@karpathy 于 X 与 @karpathy 于 GitHub。 据 @karpathy 称,帖文未提及加密货币、代币或区块链,也未提供任何直接的加密市场表述。来源:@karpathy 于 X。 |
|
2025-11-22 02:11 |
安德烈·卡帕西寻求AI“slop”量化定义与可测“slop指数”,并考虑用LLM小剧集与思考代币预算评估
据@karpathy称,他正在寻求AI“slop”的量化、可测定义,并表示目前只有直觉上的“slop指数”而缺乏正式指标。来源:@karpathy 在X,2025年11月22日。据@karpathy称,他考虑用LLM小剧集与“思考”代币预算来度量输出质量与成本。来源:@karpathy 在X,2025年11月22日。对AI与加密相关市场的交易者而言,该帖强调当前缺乏标准化LLM质量指标,这与模型评估与成本控制直接相关,是AI产品定价与基准的重要输入。来源:@karpathy 在X,2025年11月22日。 |
|
2025-11-21 16:43 |
Andrej Karpathy:智能空间巨大且非动物式优化,短期对加密市场无直接交易催化
根据@karpathy,智能的空间非常大,动物智能只是其中的一个点,且由与人工系统根本不同的优化过程产生。 来源:@karpathy,X,2025年11月21日。 该帖为概念性表述,未包含产品发布、模型上线、数据集、性能指标、时间线,亦未提及任何加密资产或代币,未对加密或美股构成直接交易催化。 来源:@karpathy,X,2025年11月21日。 就加密市场语境而言,该观点仅涉及AI智能体与自主智能叙事,但来源未提供任何链上、协议或市场数据。 来源:@karpathy,X,2025年11月21日。 |
|
2025-11-18 00:29 |
Andrej Karpathy 披露 LLM 三步阅读工作流与向为 LLM 写作的转变
根据 @karpathy,他目前用三步法与 LLM 阅读博客、文章和书籍章节:第 1 步人工阅读,第 2 步让模型解释与总结,第 3 步问答,他称这种方式比直接读完就离开更能获得更深理解,来源:@karpathy 在 X,2025-11-18。 他补充称,这个习惯正在成长为他最重要的 LLM 用例之一,来源:@karpathy 在 X,2025-11-18。 他还表示,作者可能会越来越多地“为 LLM 写作”,让模型先理解观点,再面向用户进行定向、个性化与分发,来源:@karpathy 在 X,2025-11-18。 该帖未提及加密货币或交易信号,任何与加密市场的关联仅间接体现在内容消费与个性化层面的 LLM 使用模式上,来源:@karpathy 在 X,2025-11-18。 |
|
2025-11-17 18:56 |
加密交易纪律:Karpathy倡导原则胜于“银河脑”辩解,助力高波动市场的两大可执行策略
据@karpathy称,交易者应以规则化原则为先,避免事后“银河脑”式的自我辩解,并给出两条可执行策略:坚持原则,以及在财务与社交层面持有“正确的包袱”;来源:@karpathy 在 X,2025年11月17日;x.com/VitalikButerin/status/1986906940472238108。 据@karpathy称,采用简单的约束型规则优于灵活的效用计算,有助于在波动期坚持入场标准、仓位上限和明确的禁交易条件;来源:@karpathy 在 X,2025年11月17日。 据@karpathy称,将持仓与长期信念和社交资本对齐,可减少在压力下追逐陌生叙事的冲动,提升加密市场中的执行一致性;来源:@karpathy 在 X,2025年11月17日。 |
|
2025-11-16 17:56 |
AI 软件2.0与可验证性:对加密交易(BTC、ETH)的影响与策略要点,来自@karpathy 的2025洞见
据@karpathy称,AI 应被视为软件2.0,通过优化明确目标来训练程序,可验证性成为任务是否易于自动化的首要指标,来源:@karpathy 于 X,2025年11月16日。 他指出,可验证任务需具备可重置环境、高效迭代与自动化奖励,使梯度下降或强化学习能进行大规模练习,来源:@karpathy 于 X,2025年11月16日。 他补充称,这类任务进展迅速并可超越数学与编程等领域的顶级专家,而创造性与强情境任务相对滞后,来源:@karpathy 于 X,2025年11月16日。 基于该框架解读至交易层面,具有明确可检验结果的加密流程如策略回测、成交执行滑点优化、做市仿真与链上异常检测更符合“可验证”特征,因而更易实现自动化,来源:基于@karpathy 于 X 的框架解读,2025年11月16日。 相对而言,缺乏快速反馈的主观宏观叙事与多步基本面综合在短期内较难自动化,这将影响 AI 优势在 BTC 与 ETH 交易流程中的落点,来源:基于@karpathy 于 X 的框架解读,2025年11月16日。 |
|
2025-11-13 21:12 |
自动驾驶重塑城市:Andrej Karpathy 2025 观点与AI代币(FET、RNDR、AGIX、OCEAN)五大交易要点
据@karpathy称,自动驾驶将减少路边与场内停车、提升出行安全、降低噪音、回收城市空间,并带来更便宜且可编程的物流配送,意味着现实世界自动化的范式转换,这一表述可成为AI与机器人叙事的情绪催化剂,涉及加密市场风险偏好。来源:@karpathy(X,2025年11月13日)。 对交易而言,可关注FET、RNDR、AGIX、OCEAN等AI叙事代币,观察在“自动物流与边缘AI”预期升温背景下的潜在叙事轮动与资金流向变化。来源:@karpathy(X,2025年11月13日)。 |
|
2025-11-12 20:28 |
特斯拉 HW4 上的 FSD v13 表现出色,Karpathy 报告一次“无瑕驾驶”——TSLA 交易要点
根据 @karpathy,搭载 HW4 的特斯拉 Model X 在 FSD v13 下完成了顺畅且自信的高速与城市路测,涵盖居中巡航、绕过施工与临停车辆、复杂左转、四向停让、超越正在上下客的公交、在拥堵中并线以及自动泊车,最终“完美驾驶、无可挑剔”,且显著好于其此前的 HW3 体验。来源:Andrej Karpathy 在 X,2025年11月12日。 根据 @karpathy,该体验基于 FSD v13(其车辆尚未获得 v14),为交易者跟踪特斯拉自动驾驶推进提供了以 HW4 为基准的最新实车表现参考。来源:Andrej Karpathy 在 X,2025年11月12日。 根据 @karpathy,此进展归因于端到端、长时域的神经网络,处理 60Hz 环绕视频与约30秒的多模态传感器流,并引用了 Ashok Elluswamy 的 ICCV25 演讲中的技术线索。来源:Andrej Karpathy 在 X,2025年11月12日;Ashok Elluswamy 在 X(ICCV25 演讲,链接由 Karpathy 引用)。 根据 @karpathy,该一手反馈凸显 HW4 相较 HW3 在 FSD v13 上的能力差距,此为 TSLA 交易者评估车队硬件代际差异的实证数据点。来源:Andrej Karpathy 在 X,2025年11月12日。 根据 @karpathy,本次更新未涉及加密货币、区块链或数字资产,因此无直接的加密市场关联。来源:Andrej Karpathy 在 X,2025年11月12日。 |
|
2025-10-26 16:24 |
@karpathy 披露 PyTorch MPS addcmul_ 在非连续张量上的静默失败:AI 训练可靠性风险与交易关注点
根据 @karpathy 的信息,一篇技术调试长文将可疑的训练损失曲线追溯到 PyTorch MPS 后端中 addcmul_ 在 Objective-C++ 路径对非连续输出张量出现静默失败的问题,属于不抛出错误的正确性 Bug;来源:@karpathy 的 X 动态 https://twitter.com/karpathy/status/1982483540899237981 以及其引用的 @ElanaPearl 线程 https://x.com/ElanaPearl/status/1981389648695025849。 对 AI 工作流可靠性而言,这意味着基于苹果 MPS 的 Mac 端训练可能在无显式报错的情况下产生错误结果,直接影响从业者的模型训练和评估流程完整性;来源:@karpathy 的 X 动态 https://twitter.com/karpathy/status/1982483540899237981 与 @ElanaPearl 的 X 线程 https://x.com/ElanaPearl/status/1981389648695025849。 对交易者而言,应将其视为 AI 工具链的软件可靠性风险信号,并关注官方 PyTorch 或苹果 MPS 的更新与发布说明中对 addcmul_ 或非连续张量处理的修复描述,因为明确修复有助于降低 AI 负载的操作不确定性并影响市场情绪;来源:@karpathy 的 X 动态 https://twitter.com/karpathy/status/1982483540899237981 与 @ElanaPearl 的 X 线程 https://x.com/ElanaPearl/status/1981389648695025849。 |
|
2025-10-24 15:35 |
Karpathy发布 SpellingBee 教程:用 SFT 与 RL 为 nanochat d32 增强字母计数能力,或引发 AI 代币关注
据 @karpathy 介绍,他发布了完整教程,通过合成任务 SpellingBee 生成用户与助手示例,对 nanochat d32 进行中期训练与监督微调,并可选用强化学习提升鲁棒性,从而学会统计单词中某字母的次数,例如 strawberry 中的 r,来源:Karpathy 于 2025-10-24 的 X 帖子;GitHub nanochat 讨论 164。方法要点包括:多样化用户提问、严格处理分词与空白、将推理拆分为多 token 步骤(标准化引号、拼写拆分、显式计数迭代),并同时鼓励手动推理与 Python 工具两条解题路径,来源:Karpathy 于 2025-10-24 的 X 帖子;GitHub nanochat 讨论 164。Karpathy 指出,由于 nanochat d32 体量小,需要在数据集中过采样该能力以促成学习,并可通过模拟错误样例或强化学习进一步增强稳定性,来源:Karpathy 于 2025-10-24 的 X 帖子;GitHub nanochat 讨论 164。对交易者而言,开源小模型训练方法的进展曾与 AI 概念关注度提升相伴,AI 代币如 RNDR、FET、AGIX 在英伟达等重大 AI 催化附近有过阶段性联动表现,Kaiko 在 2024 年报告过 AI 代币在英伟达财报期间的上涨,来源:Kaiko Research 2024 周报;英伟达 2024 年财报资料。本文并非代币或产品发布,而是面向小模型能力注入的技术指南与数据示例,来源:Karpathy 于 2025-10-24 的 X 帖子;GitHub nanochat 讨论 164。 |
|
2025-10-21 15:59 |
Andrej Karpathy发布nanochat d32:$800合成数据定制LLM身份与脚本开源,AI智能体赛道交易关键信号
据@karpathy称,nanochat现已具备明确身份并可说明自身能力,包括其为由他构建的nanochat d32、成本约$800且在非英语方面较弱,这些均通过合成数据定制实现,来源: x.com/karpathy/status/1980508380860150038。 他发布了一个示例脚本,展示如何生成多样化合成对话并在中期训练或SFT阶段混入,强调保持数据熵以避免重复性,来源: x.com/karpathy/status/1980508380860150038。 他指出基础LLM本无固有个性或自我认知,需通过精心策划的合成数据显式“加装”,来源: x.com/karpathy/status/1980508380860150038。 对交易者而言,$800的定制成本基准与开源流程,为评估开源AI智能体开发与AI相关代币和AI概念股的采用路径提供具体参照,来源: twitter.com/karpathy/status/1980665134415802554。 |
|
2025-10-20 22:13 |
安德烈·卡帕西:DeepSeek-OCR展示像素输入优于文本分词的4大理由—更高效率、更短上下文窗口、双向注意力、取消分词器
据安德烈·卡帕西介绍,DeepSeek-OCR 论文不仅展现出强劲的 OCR 能力,更重要的是凸显将像素而非文本分词作为大模型输入在效率与信息保真上的优势,来源:Andrej Karpathy 于 X,2025年10月20日。 他表示,将纯文本渲染为图片后再输入模型可实现更高的信息压缩,从而缩短上下文窗口并提升效率,来源:Andrej Karpathy 于 X,2025年10月20日。 他补充称,像素输入能保留加粗、颜色等文本格式并同时容纳任意图像,构成更通用的信息流,来源:Andrej Karpathy 于 X,2025年10月20日。 他认为,与自回归注意力相比,输入侧采用图像可默认启用双向注意力,从而更有利于处理能力,来源:Andrej Karpathy 于 X,2025年10月20日。 他主张在输入端删除分词器,原因在于 Unicode 与字节编码的复杂性与安全或越狱风险(如续字节)以及表情符号的语义错配等问题,来源:Andrej Karpathy 于 X,2025年10月20日。 他将 OCR 视为众多“视觉转文本”任务之一,并指出许多“文本转文本”任务可重构为“视觉转文本”,但反向并不普遍成立,来源:Andrej Karpathy 于 X,2025年10月20日。 他提出实用路径为用户消息使用图像而助手回复保持文本,并指出像素级输出并不直观,同时提到想开发仅图像输入版的 nanochat 并引用 vLLM 项目,来源:Andrej Karpathy 于 X,2025年10月20日。 |
|
2025-10-20 18:58 |
Karpathy 解析 LLM 文本扩散(2025):双向注意力相较自回归显著提高训练成本
据 @karpathy 表示,文本扩散可以用带双向注意力的普通 Transformer 实现,通过按噪声日程反复重掩码并重新采样所有 token。来源:@karpathy。 他称,扩散是图像与视频生成的主流范式,而文本以自回归为主,音频两种方式并存。来源:@karpathy。 他补充,去除繁复形式化后可得到简单基线算法,离散扩散在连续情形上更接近流匹配。来源:@karpathy。 他解释,自回归是仅向后注意并追加 token,而扩散是在双向注意下刷新整块 token 画布。来源:@karpathy。 他指出,双向注意力能带来更强的语言模型,但因无法在序列维并行,使训练成本更高。来源:@karpathy。 他还提出,LLM 堆栈中可能进一步在两种范式之间进行插值或泛化。来源:@karpathy。 对交易者而言,关键在于双向文本扩散相对自回归的训练成本权衡,这直接影响对训练效率的评估。来源:@karpathy。 |
|
2025-10-18 20:23 |
Karpathy提出“代理人十年”:10年AGI时间表、质疑RL与安全优先的LLM工具,对加密市场的关键指引
据@karpathy称,AGI大约还有10年,他称之为代理人十年,并指出仍需大量集成、现实世界传感器与执行器、社会对齐以及安全工作,其时间预期比当下舆论保守5-10倍,来源:@karpathy,X,2025年10月18日。其看多代理式交互、看空强化学习,原因是RL信号与算力效率低且噪声大,同时强调系统提示学习等替代范式,并将ChatGPT的记忆等视为早期已部署的实例,来源:@karpathy,X,2025年10月18日。其主张协作型、可验证的LLM工具,而非完全自治的代码代理,并警示能力过度宣传会堆积劣质代码并增加安全漏洞与风险,来源:@karpathy,X,2025年10月18日。其倡导通过弱化记忆来强化泛化的认知核心,并预计模型先变大再变小,来源:@karpathy,X,2025年10月18日。其还对比LLM更像通过下一词预测预封装知识的幽灵,而动物由进化预装智能,并建议逐步让模型更像动物,来源:@karpathy,X,2025年10月18日。对加密构建者与交易员而言,这指向在人类在环的代理流程、代码验证、记忆增强工具与安全优先集成方面进行布局,而非追逐完全自治AGI叙事,尤其在链上系统对软件缺陷与安全漏洞高度敏感的场景,来源:@karpathy,X,2025年10月18日。 |
|
2025-10-16 00:14 |
卡帕西发布 $1000 nanochat d32:33 小时完成训练、CORE 0.31、GSM8K 20%,关注 RNDR、AKT、TAO
据 @karpathy 表示,depth-32 的 nanochat d32 以约 $1000 成本、约 33 小时完成训练,并在预训练、SFT 与 RL 各阶段均有指标提升(来源:Karpathy 在 X;Karpathy GitHub nanochat 讨论)。其称该模型 CORE 得分为 0.31,高于 GPT-2 的约 0.26,且 GSM8K 从约 8% 提升至约 20%,对微型模型而言是显著进步(来源:Karpathy 在 X;Karpathy GitHub nanochat 讨论)。他提醒 nanochat 的训练成本为 $100–$1000,且 $100 版本参数量约为 GPT-3 的 1/1000,因而更易出现幻觉与不稳定表现,用户预期需保持克制(来源:Karpathy 在 X)。他还表示已在仓库提供 run1000 sh 等脚本,当前短期托管供测试,后续将优化训练吞吐并可能继续向更大模型扩展(来源:Karpathy 在 X;Karpathy GitHub 仓库)。对于交易者而言,提供 AI 工作负载的去中心化 GPU 网络如 Render(RNDR)、Akash(AKT)与 Bittensor(TAO)是值得关注的标的,因低成本开源训练有利于开发者试验与算力需求叙事(来源:Render Network 文档;Akash Network 文档;Bittensor 文档)。 |
|
2025-10-13 15:16 |
Karpathy发布nanochat:用8x H100约4小时、约100美元训练ChatGPT式LLM,为交易者提供清晰GPU成本基准
据@karpathy表示,nanochat是一个从零构建的极简全栈管线,可通过一条脚本在云端GPU上训练并部署简单的ChatGPT式LLM,并在约4小时内通过网页端与模型对话,实现端到端训练与推理流程。来源:@karpathy。 他称该代码库约8,000行,涵盖Rust实现的分词器训练、在FineWeb上的预训练及CORE评估、基于SmolTalk与多选数据的中期训练与工具使用、SFT、基于GRPO在GSM8K上的可选强化学习,以及带KV缓存的推理引擎、Python工具、CLI与类ChatGPT网页端,并生成自动化报告卡。来源:@karpathy。 披露的成本与时长基准为:8卡H100约4小时成本约100美元、约41.6小时成本约1000美元;一个24小时、depth-30的示例可在MMLU取得40分段、ARC-Easy 70分段、GSM8K 20分段。来源:@karpathy。 据此推算,隐含的算力价格约为每H100小时约3.1美元(约100美元对应32个H100小时),较长训练下约为每H100小时约3.0美元(约1000美元对应332.8个H100小时),为交易者提供AI训练支出建模所需的GPU小时成本基准。来源:@karpathy。 他还表示约12小时即可在CORE指标上超过GPT-2,且随训练规模提升能力增强,将nanochat定位为透明的强基线方案、LLM101n的压轴项目并具备研究基座潜力。来源:@karpathy。 对于关注AI基础设施的加密市场参与者,这些成本与性能披露为评估面向开源LLM训练的中心化与去中心化GPU算力需求提供锚点。来源:@karpathy。 |
|
2025-10-09 00:10 |
安德烈·卡帕西批评RLHF:LLM畏惧异常,呼吁在RL训练中重设奖励机制
根据安德烈·卡帕西在2025年10月9日于Twitter发布的信息,他指出当前强化学习实践让LLM对异常产生过度恐惧,并强调异常是健康开发流程的正常组成部分。卡帕西号召签署其“LLM福利请愿”,以在出现异常时给予更合理的奖励设计。该帖未提及任何加密资产、代币或市场数据,来源未提供直接的市场更新。 |
|
2025-10-03 13:37 |
Karpathy称:尽管投票显示约50%“主要用代理”,LLM代理编码尚未准备好承担一半专业工作
据安德烈·卡尔帕西(Andrej Karpathy)称,他在X上引用的投票显示,约有一半受访者表示他们主要使用代理模式编码,这与他预期的50%自动补全、30%手写、20%代理不一致,来源:Andrej Karpathy 于 X,2025年10月3日,https://x.com/karpathy/status/1974106507034964111;投票链接 https://x.com/karpathy/status/1973892769359056997。他表示自己的主要工作流是自动补全,并在无益时关闭,代理主要用于样板代码或不熟悉的技术栈,并进行大量审阅和修改,来源:Andrej Karpathy 于 X,2025年10月3日,https://x.com/karpathy/status/1974106507034964111。他警示当任务深度复杂或偏离数据流形时,LLM会生成臃肿且易出隐蔽错误的代码,因此代理模式尚未准备好撰写约一半的专业代码,来源:Andrej Karpathy 于 X,2025年10月3日,https://x.com/karpathy/status/1974106507034964111。他呼吁由严肃机构重跑该投票,强调实际采纳率仍存在不确定性,来源:Andrej Karpathy 于 X,2025年10月3日,https://x.com/karpathy/status/1974106507034964111。他的发言未提及加密货币或区块链,来源:Andrej Karpathy 于 X,2025年10月3日,https://x.com/karpathy/status/1974106507034964111。 |