GSM8k AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 GSM8k

时间 详情
2026-02-04
09:35
最新分析:Phi与Mistral模型在GSM1k上准确率骤降13%,暴露记忆化问题

据Twitter用户God of Prompt报道,Phi与Mistral模型在GSM1k基准测试中的准确率相比GSM8k下降了13%,部分模型变体下降幅度高达13.4个百分点。分析指出,这些模型并未展现真正的推理能力,而是由于训练过程中见过答案导致记忆化。这一发现对模型在商业和科研领域的泛化能力与可靠性提出了严峻挑战。

2026-02-04
09:35
最新分析:AI模型GSM8k再现能力与性能差距呈0.32相关

根据推特用户God of Prompt的报道,研究人员发现AI模型在生成GSM8k测试题方面的能力与其性能差距之间存在0.32的相关性。该发现表明,能够复述测试题的模型在面对新问题时表现更差。这意味着这些模型更倾向于记忆答案而非真正解决问题,这对当前AI评测基准的有效性提出了挑战。

2025-09-13
16:08
GSM8K论文2021年:AI大语言模型评估的里程碑及其商业影响

根据Andrej Karpathy在X平台(原Twitter)的引用,GSM8K论文自2021年发表以来,成为大语言模型(LLM)数学推理能力评测的重要基准(来源:https://twitter.com/karpathy/status/1966896849929073106)。该数据集包含8,500条高质量小学数学题,被广泛用于AI模型性能评估、缺陷识别与推理优化。GSM8K的应用推动了AI教育产品和自动化解题工具的商业化发展,促进了AI行业在智能教育和逻辑推理领域的持续创新(来源:GSM8K论文,2021)。