AI,个人随笔 AI大模型的下半场:上下文学习,腾讯首席科学家姚顺雨加入后首篇论文CL-bench发布 GPT-5.1在CL-bench测试中仅获23.7%得分,却已是前沿AI模型中的最佳表现。腾讯混元与复旦团队发布的这个全新基准测试,揭示了AI在真实场景学习能力的致命短板:它们更擅长背诵而非真正学习。本文深度解析CL-bench如何颠覆行业认知,以及这对AI未来发展方向的关键启示。 歪斯Wise AI评测CL-benchGemini
AI Agent 评测新危机:Claude Skills范式让 Prompt 变成动态加载的“幽灵” Claude Skills的革命性架构正在颠覆传统Agent开发范式,它将静态的长文本Prompt转变为按需加载的动态知识库。这项创新虽然提升了Token效率和专业度,却让传统评测体系陷入困境——当约束规则分散在数百个隐形文件中,评测人员将如何应对这场‘黑箱’危机?本文将深入解析动态上下文带来的工程挑战,并探索新一代AI质量保障方法论。 托马斯.轰炸机 Agent开发AI评测Claude
AI,个人随笔 给大模型排名!两个博士一年干出17亿美金AI独角兽 当传统AI评测体系陷入刷榜困境,LMArena用匿名对战模式重构了大模型评估逻辑。这个由两位博士创立的平台通过数千万次用户投票,将模型能力评判权交还给真实使用场景。从免费竞技场到年化收入3000万美元的B端服务,其估值飙升至17亿美元的背后,是行业对动态评估体系的迫切需求。 硅基观察Pro AI评测LMArena产品策略
AI,个人随笔 如何做Agent评测 在大语言模型主导的AI时代,如何确保Agent应用层的稳定输出成为关键命题。本文系统拆解Agent评测体系的构建逻辑,从过程指标与结果指标的双重视角,揭示如何通过标准化测试收敛概率模型的不确定性。更包含评测集构建、自动化评测实施等实战方法论,为AI产品落地提供可复用的质量保障方案。 诸葛铁铁 AgentAI评测LLM