AI 一只橘猫和扫地机,逼我砍掉了 1.2 万条训练数据 喂给AI一张“橘猫与扫地机”的图,它却只盯着地板看,准确率只有62%。这篇复盘不讲大道理,就讲我们怎么亮出底牌,一刀切砍掉1.2 万条写满主观小作文的垃圾数据,并在飞书上死卡一套“空间、面积、主次”的填表规范。最后,数据量减了24%,模型准确率反而飙到了84%。如果你也天天跟AI鸡同鸭讲,进来看看怎么用这套硬办法治好它的“眼神”吧。 L.NaN AI应用案例分析训练数据
AI 大模型摘要为什么总是抓不到重点? AI摘要为何总让人读后一头雾水?大模型的均匀压缩式处理、安全摘要陷阱和注意力稀释等技术局限,正在制造一场深度信息提炼的危机。本文从训练机制到评测标准层层拆解,揭示AI为何难以抓住人类眼中的重点,并给出从数据标注到产品设计的系统性优化方案。 周周粥粥 AI摘要信息提炼大模型
AI,个人随笔 无需人工标注!AI自生成训练数据,靠「演绎-归纳-溯因」解锁推理能力 本文介绍新加坡国立大学等机构研究者提出的元能力对齐训练框架。该框架模仿人类推理心理学原理,融合演绎、归纳与溯因能力,助力模型在数学、编程任务上性能提升,展现跨领域可扩展性,且无需人工标注,能自动生成训练数据并验证结果。 新智元 AI应用行业观察训练数据
数据分析 为什么你需要改进训练数据,如何改进? 本文为雷锋字幕组编译的技术博客,原标题 Why you need to improve your training data, and how to do it,作者为 Pete Warden 。 Andrej Karpathy 在他的 Train AI ... 雷峰网 3年中级训练数据