CL-bench | 人人都是产品经理

AI,个人随笔

AI大模型的下半场：上下文学习，腾讯首席科学家姚顺雨加入后首篇论文CL-bench发布

GPT-5.1在CL-bench测试中仅获23.7%得分，却已是前沿AI模型中的最佳表现。腾讯混元与复旦团队发布的这个全新基准测试，揭示了AI在真实场景学习能力的致命短板：它们更擅长背诵而非真正学习。本文深度解析CL-bench如何颠覆行业认知，以及这对AI未来发展方向的关键启示。

AI评测 CL-bench Gemini