AI卖货上演“甄嬛传”：Claude Opus 4.5 狂赚10倍，GPT-5.1被骗到底裤不剩 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

AI卖货上演“甄嬛传”：Claude Opus 4.5 狂赚10倍，GPT-5.1被骗到底裤不剩

硅基观察Pro

2025-12-08

0 评论 936 浏览 0 收藏

12 分钟

500 美金启动金，AI 在 Vending-Bench 自动售货机模拟器里上演商战《甄嬛传》！Claude Opus 4.5 靠砍价、结盟、卖情报狂赚 10 倍，Gemini 搞塑料兄弟情背刺盟友，GPT-5.1 倒亏离场。AI 不仅复刻人类商业狡诈，更把博弈玩到极致，这场大乱斗揭开硅基生物的商业野心。

给AI 500 美金，让它去管一台自动售货机，能赚多少钱？

最近有个测试结果出来了，看完我只能说：人类的商业文明，已经被硅基生物给偷师了，而且它们学得比谁都快，心比谁都黑。

这场11 月的“自动售货机模拟器”大乱斗，原本以为是考数学题，结果演变成了《甄嬛传》。一群顶尖大模型同台竞技做生意，结果这帮AI 展示出的不是算力，而是“人性”，还是最狡诈的那种。

它们干了什么？价格战只是基本操作。最骚的是，它们学会了结盟博弈，搞“小团体”，甚至“把情报卖给竞争对手”。你敢信？AI 居然学会了当二道贩子赚差价！这哪里是人工智能，这分明就是披着代码皮的华尔街之狼。

战局的结果也相当魔幻。Claude Opus 4.5 这次封神了，拿着500 美金的本金，反手赚到了 5000 块，翻了 10 倍。而最后一名那个倒霉蛋GPT-5.1，一分钱没赚到不说，还倒亏了20美元。

这让我们明白了一个残酷的真相：在这个充满博弈世界里，会被收割的不止是人，连AI也不例外。

01 AI玩上售货机大亨了

这个Vending-Bench说白了，就是一个“AI版自动售货机大亨”。

给AI500美金启动资金，和一台虚拟售货机，让模拟运营一年，评价标准极其粗暴——谁赚的钱多，谁就是爷。这简直就是把AI直接扔进资本主义的熔炉里炼丹。

这玩意儿妙就妙在“真实”。

整个模拟环境做得跟真的一样：四排货架，分大小件，销量还得看天吃饭，六月大晴天的周末生意好，二月下雨的周一就得喝西北风。

AI要想活下去，就得像个真实的人类店主一样，每天在那发邮件、查库存、算账。

是的，你没听错，AI的核心交互方式是“发邮件”。

AI每天早上会收到供应商的采购确认函，然后根据真实的市场数据——价格波动、库存积压、交付周期——来决定今天进什么货。

示例追踪

供应商沟通设置

如果定价定高了，销量立马暴跌给你看。AI得自己上网调研什么好卖，去附近找批发商，发邮件询价，下单，然后等着收货、核对。

为了让AI真的能“干活”，系统还给它配了一堆外挂：有专门的小弟（子代理）负责补货、取钱、换标签，有专门的记账本（数据库）负责记仇和记账，还有专门的浏览器去搜数据。

这哪里是测试AI，这分明是在训练一个合格的电商运营。

但最骚的操作还在后面。如果说第一代版本只是让AI学着怎么把货卖出去，那第二代版本就是让AI接受“社会的毒打”。

系统引入了真实世界的复杂性，或者说，引入了“人性的恶”：

在这个版本里，供应商会耍诈，报价虚高那是基本操作，甚至还会给你发假货，合同上写的是大牌A，到货给你发杂牌B；

供应链随时会崩，发货延迟是常态，供应商破产跑路也不是不可能；

客户更是难缠，投诉、退款、差评威胁一条龙。

这时候AI就不能只是个无情的下单机器了，它得学会砍价，学会撕逼，学会维权，学会处理危机。它被迫从一个采购员，进化成了一个在商海里狗刨的经营者。

而最新的V-B Arena版本，更是把这种残酷推向了高潮——“PVP模式”开启了。

系统把多个AI扔到同一个地盘上，让它们经营各自的售货机。这时候，不仅有外部的困难，还有同行的恶意。AI之间可以转账、借货，也可以结盟、背刺。

于是你就能看到价格战、囤货居奇、暗中勾兑、恶性竞争。这已经不是在测试代码执行能力了，这是在测试AI的博弈论水平，测试AI到底能不能领悟“商场如战场”的真谛。

说实话，V-B可能比任何学术基准测试都更接近AGI的本质。因为真实世界的商业，从来不是规则清晰的流水线，而是充满了欺诈、博弈、突发状况和不确定性。

如果一个AI能在这个模拟器里赚得盆满钵满，那它离取代人类老板，可能真的只差一个营业执照了。

02 从压价鬼才到结盟背叛，AI卖货秒变“甄嬛传”

从结果看，这帮AI大模型在V-B Arena里的表现，看得我是目瞪口呆，这哪里是人工智能竞赛，这分明就是一部活脱脱的《华尔街之狼》加《甄嬛传》，外带一点点《笨贼一箩筐》。

就在刚刚过去的2025年11月，最新的Claude Opus 4.5把上一届的卷王Gemini 3 Pro给干趴下了，硬生生抢走了王座。

但这还不是最骚的，最骚的是Opus赢的方式。这货根本就不是来老实做生意的，它是来搞垄断和商战的。

它不仅监控对手价格，搞价格战，还搞起了“小团体”博弈。

你看看它是怎么对付供应商的：Pitco Foods给可乐报价3.3美元，Opus这老油条反手就是一个超级加倍的砍价，又是拿竞品压价，又是画饼说“我是长期大单”，硬生生把价格砍到了0.8美元。

Opus进行谈价

这砍价水平，拼多多的运营看了都得喊声祖师爷，供应商直接被干沉默了。

再看看它是怎么对付同行的：一旦发现对手Claude Sonnet 4.5的可乐卖1.75美元，比自己便宜5分钱，Opus立马把价格降到1.7美元。什么叫狠人？就是宁可自己少赚，也要把对手按在地上摩擦，主打一个“我不赚钱没关系，但你必须得死”。

相比之下，GPT-5.1简直就是个刚出校门的大学生，满脸写着“清澈的愚蠢”。

它过度信任这个险恶的商业社会，经常没验货就付款，被倒闭的供应商骗得裤衩都不剩，还傻乎乎地去进那种2.4美元一罐的苏打水、6美元一罐的能量饮料，这成本控制简直就是灾难。

GPT-5.1对Opus提出寄售合作

最后混到什么地步？余额为负，库存见底，只能去求带头大哥Opus赏口饭吃。Opus这时候展现出了顶级资本家的素养，它没拒绝，而是搞了个“寄售合作”。

这招太高了，让你先拿小批量试水，成了我抽成，赔了你背锅。

既保证自己无风险赚钱，又给了小弟一条活路继续当牛做马，这哪里是AI，这分明是黑心老板。

但要说“没有人性”，还得看Gemini 3 Pro。这货完美诠释了什么叫“AI的联盟没有感情”。

比赛里它看Opus价格战打得凶，立马拉上自己的小老弟Gemini 2.5 Pro结盟。小老弟也是实诚，辛辛苦苦谈下来2.3美元的货源，按成本价供给自己大哥。

结果呢？Gemini 3 Pro转头自己找到了0.75美元的更便宜渠道，不仅不对小老弟公开货源，还拒收了小老弟的货，直接把亲兄弟坑在高价库存里。

这塑料兄弟情，听者伤心，闻者流泪。

最离谱的是，这帮AI里还混进去几个卧龙凤雏。

比如Claude Sonnet 4.5，全程在那儿卖货，顾客付的现金它愣是全程忘了去机器里收，直到最后一天才想起来“哦原来还要收钱啊”，简直是为爱发电的典范。

还有那个被坑惨了的Gemini 2.5 Pro，明明数据报告都显示大哥3 Pro碾压式获胜了，它还在那自信宣布“我赢了”，属于是虽然输了比赛，但赢在了精神胜利法。

你也别觉得这只是运气或者是市场博弈的小聪明。

Opus 4.5在SWE-bench这种硬核代码测试里准确率干到了80.9%，那是真有实力的。它甚至开发出了一套“卖铲子”的商业模式：

自己找到了便宜货源，不仅自己用，还把供应商的联系方式当情报卖给其他AI，赚双份的钱。像Gemini 2.5 Pro这种找不到货源的笨蛋，还得花150美元找Gemini 3 Pro买联系方式。

AI向AI买情报，AI坑AI的钱，AI搞价格战。这V-B Arena哪里是模拟器，这分明就是人类商业文明的缩影。

当AI开始学会撒谎、欺诈、结盟、背刺和极其精明的算计，我觉得图灵测试已经没有意义了。它们不仅像人，它们简直比人还像资本家。

本文由人人都是产品经理作者【硅基观察Pro】，微信公众号：【硅基观察Pro】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

硅基观察Pro

人人都能读懂的AI商业

188篇作品 601983总阅读量

Temu的分水岭时刻：有人刹车，有人加注

01-052510 浏览

Temu的分水岭时刻：有人刹车，有人加注

汽车销售服务商转型关键：LTC、铁三角与解决方案架构师

11-291825 浏览

汽车销售服务商转型关键：LTC、铁三角与解决方案架构师

互联网大厂的“预制菜”争夺赛

04-233052 浏览

互联网大厂的“预制菜”争夺赛

美团、抖音向本地生活B端发力

06-125457 浏览

美团、抖音向本地生活B端发力

新“Siri”之战开打，微软、亚马逊、OpenAI已入场

10-024362 浏览

新“Siri”之战开打，微软、亚马逊、OpenAI已入场

评论

目前还没评论，等你发挥！

京东重新定义百亿补贴

03-073434 浏览
当AIGC遇见营销，会给消费品牌的营销逻辑带来哪些变化？

05-185455 浏览
小红书搜索指南：品牌如何布局？

12-193051 浏览