"GPT-5"相关的文章
AI,个人随笔
AI大模型的下半场:上下文学习,腾讯首席科学家姚顺雨加入后首篇论文CL-bench发布

AI大模型的下半场:上下文学习,腾讯首席科学家姚顺雨加入后首篇论文CL-bench发布

GPT-5.1在CL-bench测试中仅获23.7%得分,却已是前沿AI模型中的最佳表现。腾讯混元与复旦团队发布的这个全新基准测试,揭示了AI在真实场景学习能力的致命短板:它们更擅长背诵而非真正学习。本文深度解析CL-bench如何颠覆行业认知,以及这对AI未来发展方向的关键启示。
AI
GPT-5.2 来了,究竟是GPT-5.2好还是Gemini-3 强呢?

GPT-5.2 来了,究竟是GPT-5.2好还是Gemini-3 强呢?

GPT-5.2的发布标志着AI领域新一轮的竞赛拉开帷幕。OpenAI这次直接甩出Instant、Thinking和Pro三个版本,在数学竞赛、代码编写等传统测试中重回榜首。更令人惊艳的是它在ARC-AGI-2和GDPval这类考验抽象推理与实际问题解决能力的测试中展现出的突破性表现,甚至能在70%的任务中匹敌人类专家。但与谷歌Gemini 3 Pro的长跑稳定性相比,这场对决远未结束。
AI
GPT‑5.2:从评测到岗位重构——产品经理的“Builder”之路

GPT‑5.2:从评测到岗位重构——产品经理的“Builder”之路

GPT‑5.2的发布标志着AI从知识储备转向专业交付能力的重大跃迁。通过GDPval、SWE‑Bench等硬核指标,它重新定义了专业工作的评价标准——不是知道多少,而是能交付什么。LinkedIn正在践行的'全栈构建者'模式与GPT‑5.2的能力升级形成共振,正在彻底改变产品经理的工作方式与组织架构。本文将深入解析这场'从构思到上市'的范式革命。
AI
GPT-5.2 发布:信息全整理

GPT-5.2 发布:信息全整理

GPT-5.2的发布标志着AI能力的又一次飞跃,三个版本各有所长:Instant快如闪电,Thinking专攻深度任务,Pro版则是解决难题的终极武器。在AIME 2025斩获满分、GDPval测试中74.1%任务超越人类专家,这款模型不仅在代码、长文档处理上大幅提升,更以11倍于人类的速度重塑工作流程。价格虽涨40%,但效率提升让总成本更低。