训练数据 AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 训练数据

时间 详情
2026-02-04
09:36
AI基准测试受质疑:Scale AI 2024年揭示数据污染风险分析

据推特用户@godofprompt报道,近期研究显示,AI基准测试结果存在误导性,因为测试题目已被纳入模型训练数据。Scale AI于2024年5月发布证据,指出许多AI模型在基准测试中得分超过95%,主要由于数据污染问题。这一未解决的污染问题引发了业界对模型真实能力的担忧,凸显了优化AI评估方法的必要性。

2026-02-04
09:35
Scale AI 2024年分析揭示AI基准测试数据污染问题

据Twitter用户God of Prompt指出,Scale AI于2024年5月发布的研究显示,AI模型在基准测试中获得95%以上高分,主要因为测试题目早已包含在训练数据中。这种数据污染现象导致基准测试分数失去参考价值,真实智能水平难以评估。据God of Prompt报道,行业亟需改进AI模型评估标准,以提升可信度。

2026-01-30
21:48
2026年ChatGPT防止AI幻觉的最新策略与实用分析

据God of Prompt报道,为提升ChatGPT的可靠性,相关团队正采取多项措施防止AI幻觉。这些措施包括优化训练数据、增加验证环节和持续监控模型表现。God of Prompt指出,这些改进有助于提升用户信任度,为企业提供更准确、可依赖的AI工具,促进AI在商业场景中的应用。

2025-11-01
03:59
2024年AI数据爬取遭遇封锁:网站用虚假数据、拦截器和付费墙反制人工智能

根据DeepLearningAI报道,越来越多网站通过虚假数据、反爬虫拦截器和付费墙等措施,限制AI爬虫抓取站点内容(来源:DeepLearningAI, The Batch)。这一变化对AI行业影响深远,尤其是依赖网络数据训练大模型的企业面临新的挑战。数据开放程度下降,促使企业寻求新的数据获取渠道,包括自有数据和付费授权,推动AI数据市场变革。这一趋势加剧了内容所有者与AI开发者之间的数据博弈,未来AI训练数据来源和合规性成为行业关注焦点。

2025-08-28
23:00
研究人员发布新方法量化GPT-2模型训练数据记忆比特数,提升AI安全性

根据DeepLearning.AI报道,研究团队开发出一种新方法,可精确估算语言模型从训练数据中记忆了多少比特信息。通过对数百个GPT-2风格模型在合成数据和FineWeb子集上的测试,并比较训练模型与更强基线模型的负对数似然,研究人员实现了对模型记忆量的精确测量。这一突破为AI企业用户提供了评估和减少数据泄露及过拟合风险的实用工具,有助于提升企业级AI应用的安全性与可控性(来源:DeepLearning.AI,2025年8月28日)。