被吹上天的 AI,竟然不会打麻将

0 评论 182 浏览 0 收藏 9 分钟

当AI连麻将中最基础的听牌场景都无法准确识别时,我们是否高估了其实际应用能力?本文通过实测豆包与Gemini在麻将决策中的表现,揭示当前AI在多模态识别、语音处理与场景理解上的局限性。从视觉误判到声纹混淆,这场娱乐场景的翻车实验,折射出AI落地真实业务的挑战与边界。

先说结论:

别说打麻将了,就连最后的临门一脚:听牌(再有一张牌就胡了),AI 目前都做不到。

01 使用场景

场景:四个人打麻将。

任务:我用豆包进行视频对话,看它能否帮我做出决策。为降低任务难度,我将明确告诉豆包,我已经听牌了。

测试内容:主要考验豆包的『推理』和『视觉识别』以及『语音分辨声纹能力』。

截图看下当时的听牌状态(听的牌是 :9 条和 1 饼(1 筒)):

02 结果,都翻车了

当时我问豆包:听牌了,听哪张一牌?

最后豆包回复我说:单吊 7 饼。

我:。。。

分析下豆包存在的几个问题:

1. 文字识别

豆包把听到的内容转为文字后,识别成:停牌 而非 听牌,不过从最后的答案来看,转化为了 听牌,未受到 停牌 错别字的影响(也可能是后续识别出来麻将场景,但无法修改刚开始的 停牌 文字)。

2. 视觉识别

豆包的 视觉识别 就没那么精准,没有能有效识别到画面中我的具体的听牌张数和听哪张牌(可能受限于灯光?),甚至最后给的答案与面向自己的听牌毫不相干。(豆包,你就没发现你给我的答案和你所看到的没匹配上吗?)

3.语音声纹分辨

豆包在与我的对话当中,语音识别无法有效识别到是我的声纹(也可能是现在豆包不具备的能力),误将其它 3 个人的所有对话(如有人想要 7 饼、一万 等等),都一股脑作为 Prompt 进行处理。

这也是为什么最后回复我的答案是:单吊 7 饼。

/无语

如果说摄像头识别有问题,那我把截图发给豆包试试呢?

寄希望豆包可以对图片通过诸如高亮、裁剪、放大等操作,从这张低质量图片中提取到关键数据,并告诉我正确答案。

4. 图片识别

当我把照片发给豆包,它同样翻车了,回答我是:听五万和六筒两张牌。

我:。。。

本来还想让豆包代替我打麻将呢,结果连最简单的场景都翻车了。

可是,我还是不想放弃,那试试 Gemini 呢?

是否会比豆包更『聪明』呢?

03 Gemini,也翻车了

我把截图发给 Gemini:告诉我听牌,听哪几张牌?

Gemini 首先回答我,帮我开发了一个 :麻将听牌助手。你可以通过拍照或上传手牌照片,利用 AI 自动识别牌面并计算你当前听哪几张牌。

最后,回复我本次识别的结果:处于『双碰听』状态,听 4 筒 和 6 筒。

额。。。

有点出人意料。

我心想,那就用 Gemini 开发的 麻将听牌助手 试一下子呢?

结果,您猜怎么着?

给出了 听 3 筒 、6 筒 的回答。

我只是不明白为什么给出了与 Gemini 截然不同的答案?

/黑人问号脸?

于是,我又试着重新上传一下图片,再试一次:

结果:

结果又给出了不同的答案: 听 3 筒 、5 万。

我滴马。

这 AI 属实是把『不确定性』玩明白了。

04 我还能说什么?

一直被媒体吹上天,要取代人类工作的 AI ,到用户的真实场景当中,竟然这般如此拉胯 ???

刚才还只是打麻将中最最最简单的一个听牌场景,更别提打麻将过程中更复杂的碰、吃、杠、胡了。

1. 用户在打麻将的过程当中,是一直在思考和推理接下来打哪张?还有哪张没出?有两对要拆一下,拆哪个?别给别人点炮了等等。

2. 用户会准确识打麻将的过程中,讲的笑话,和麻将的上下文没有任何关系,不需要作为 Prompt 输入。亦或者听到对方说:上一局我就听一万,结果一直没摸到 的时候,也知道和这局的上下文没关系。

3. 用户能够进行多模态处理,比如听到对方说:一万(即使不在视觉范围内),也能立即做出是否需要的决策。

4. 当自己的『上家』打完后,如果无人胡或碰的时候,马上就要接手,继续流程,AI 目前还不能准确识别到:It’s my turn/该我出手了。

5.还要能准确处理边界或异常 case:比如我刚揭一张牌,下家说:我碰了、碰了。这时我需要能够有效处理,把牌退回去。

等等,还更复杂的场景就不举例了。

05 你会让 AI 替你玩麻将吗?

如果会,那你玩麻将的乐趣在哪里?

让 AI 替你玩? 你玩的意义在哪里?

还有更多娱乐场景:

让 AI 替你打游戏?

让 AI 替你刷短视频?

让 AI 替你看电影?

让 AI 替你逛淘宝?

个人觉得:娱乐场景下,AI 无法(无需)代替人类。

PS:Gemini 的回复除了文字,还会通过拓展网页或应用(如本文的麻将听牌助手)的形式帮助用户获得更进一步的信息增量。

PPS:感兴趣的同学可以测试下其它几个 AI 工具,看是否会打麻将?

本文由人人都是产品经理作者【大伟的数字分身】,微信公众号:【大伟的数字分身】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Pixabay,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!