横评Opus 4.8、GPT-5.5、DeepSeek V4、MiniMax M3，356元测出来的真实排名

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

横评Opus 4.8、GPT-5.5、DeepSeek V4、MiniMax M3，356元测出来的真实排名

沃垠AI

2026-06-09

3 评论 2104 浏览 4 收藏

20 分钟

四款大模型在编程与设计领域的巅峰对决刚刚落幕！Claude Opus 4.8保持稳定发挥，MiniMax M3异军突起直逼第一梯队，而GPT-5.5的审美短板与DeepSeek-V4-Pro的稳定性问题同样令人深思。本文通过3D编程、网页开发、游戏制作等硬核测试，用356元实测数据揭示模型间的真实差距。

最近，模型圈的节奏又加快了。Opus 4.8、GPT-5.5、Qwen3.7-Plus、MiniMax M3，四款重量级模型几乎同时登场，想认真跟一遍都很难。

昨天，我注意到一个榜单叫「Browse Code」，专门测LLM在真实浏览器环境里完成编程和网页自动化任务的成功率。

没想到，MiniMax M3在这个榜上从M2.7时期的倒数第二直接冲到了全球第五，和Claude 4.6 Sonnet、Gemini 3.5 Flash并排。

当然，一个榜单说明不了全部问题。所以我花了356元，把Claude Opus 4.8、GPT-5.5、DeepSeek-V4-Pro和MiniMax M3这四个模型拉到一起，用同一套任务、同一条提示词、同一个评分标准，全部接API走Claude Code/Codex测了一遍。

覆盖了3D编程、视觉编程、游戏开发、Agent长程任务四大场景，横评结果如下。

01 一手横评

本次测评的原则是：变量归一，对比才有意义。

四个模型用同一份视觉素材、同一条提示词，分别接各家API在Claude Code / Codex里跑，最终从任务完成度和输出质量两个维度来评价，场景覆盖3D编程、视觉编程（网站开发）、游戏开发和Agent长程任务（Office三件套 + Coding）。

1）3D任务

先给模型看一张金门大桥的实景照片，然后让它根据桥体外观，用Three.js写一个3D交互网页。

这个任务的考验是三维的：第一，模型要有视觉理解能力，能从图片里提取出关键的结构特征；第二，要能把这些特征准确映射到三维空间的几何关系上；第三，Three.js代码质量要过关，别写出跑起来就崩的东西。

三项能力任缺一项，结果都会差很多。提示词：参考“金门大桥.jpeg”的外观构造，帮我开发一个旧金山的金门大桥的3D交互网页，要求如下：- 使用 Three.js，全部用程序化几何体生成，不加载外部3D模型。- 桥体主色为国际橙色(#C47832)，塔柱为Art Deco风格，桥体结构高度还原“金门大桥.png”的倒弧形外观结构。- 准确还原金门大桥标志性的国际橙色桥塔、双塔悬索结构，包含主缆、吊索、桥面和车道分隔线。- 环境包括：深蓝色波浪海水、天空渐变雾效，远处绿色山丘和城市群。- 动态：海水浮动、云影移动、支持鼠标拖拽旋转/缩放。- 性能：全屏自适应，使用Three.jsr128，输出一个可直接运行的HTML文件。- 支持鼠标拖拽旋转、缩放、平移，初始视角从西南方向俯瞰大桥。

Claude Opus 4.8：

GPT-5.5：

DeepSeek-V4-Pro：

MiniMax M3：

这个Case里，毋庸置疑表现最好的是Claude Opus 4.8，MiniMax M3紧随其后。

这两个模型都准确还原了金门大桥最标志性的一个物理细节：主缆从两侧塔顶向跨中垂下来的倒弧形外观。这说明它们不只是在描述一座桥，而是真正理解了悬索桥的结构原理，并能把这个理解翻译成三维几何。

GPT-5.5和DeepSeek-V4-Pro则没有还原出这个特征，输出的桥体五花八门。

尤其是GPT-5.5，它的编程审美怎么描述呢，有种浓眉大眼的感觉，就很粗糙。后面几个Case，它的这个特征会一直持续。Claude和M3的视觉语言则完全相反，一看就很精致、高级，有明确的设计意识。

另外值得一提的是，DeepSeek的海洋流体动效设计得挺有意思，但天空出现了穿模问题，说明三维空间的碰撞逻辑还是处理得不够扎实。

这轮实测：Claude Opus 4.8 > MiniMax M3 > GPT-5.5 > DeepSeek-V4-Pro。

2）视觉编程（网站开发）

前几天给大家分享了“冷同学的院子”这个民宿概念，这次顺手让模型给它开发一个官网。

我的提示词故意没有给出具体的设计指令，只丢了民宿信息和素材包，让模型自己做判断——哪些素材该用、怎么排版、用什么设计语言。

这其实是在测两件事：一是视觉理解能力，模型能不能“看懂”图片、视频素材的内容和质量；二是设计决策能力，能不能根据品牌调性做出合理的创作取舍。提示词：

给这家民宿设计一个官方网站。
民宿的基本信息：
– 民宿名称：冷同学的院子
– Slogan：云朵上的院子，冷同学的家
– 地理位置：四川汶川（羌族文化核心区、高山峡谷地带）
– 品牌调性关键词：温暖治愈
· 在地羌韵
· 自然松弛
· 外冷内热
· 有故事感
– 目标客群：追求慢生活的年轻人、亲子家庭、文化旅行者、成都周末度假客、川西旅游爱好者文件夹
【民宿资料包】
放着很多民宿的素材，有logo、门店、房间、周边和宣传视频，你自己决定用哪些素材（不是所有素材都用上）。我只需要最终交付的网站顶级审美，让人看了就想马上去玩。

Claude Opus 4.8：

GPT-5.5：

DeepSeek-V4-Pro：

MiniMax M3：

这轮表现最好的是MiniMax M3。它确实“看懂”了我的素材和需求，一上来先给我梳理了开发计划。

然后定义出设计语言：大面积米白留白加克制几何为”冷”，羌红/赭金/暖木色为”热”，再把这两套视觉语言融在一起，做成”外冷内热”的调性表达。审美参考了了Aman侘寂、松赞在地文化和虹夕诺雅的克制感。

这就是视觉理解能力和设计品位带来的差距。只靠读文字提示词，是做不到这个程度的。

房型展示那一屏，M3用了左右交错的错位布局来呈现房型和价格，节奏感很好，看完真的有预订的冲动。

Opus 4.8也不赖，几处书法字体的运用尤其喜欢，素材选用也很克制，没有全部堆进去。

GPT-5.5继续它“浓眉大眼”的直男审美：大标题、方方正正的排版，完全没有灵活性，是真的很丑。

DeepSeek-V4-Pro的审美比GPT-5.5耐看一点，但它缺乏视觉理解能力，所以根本不知道哪些图该用、用在哪里，索性把所有素材全堆进去，结果图文错乱，部分页面文不对题。这是能力上的硬限制，不是调整提示词能解决的问题。

这轮测试：MiniMax M3 > Claude Opus 4.8 > GPT-5.5 > DeepSeek-V4-Pro。

3）游戏开发

不知道大家在手机上玩过“抓大鹅”没？你可能没玩过，但你的另一半一定玩过。

这次我先跟AI沟通设计了一份PRD，再让模型根据PRD开发一款web端的抓大鹅游戏。

这个任务的考验点在于：模型能不能完整、准确地读懂设计文档里的功能描述，并把每一条需求准确地转化成可运行的代码，同时把游戏体验和视觉完成度都顾到。提示词：

请按PRD“大鹅.png”的要求，帮我创建一个网页版《抓大鹅》3D堆叠消除游戏。
要求：
1、6种不同颜色/形状的物品，共36个，随机堆叠在3D空间中。
2、鼠标点击物品后消失，图标进入底部7格暂存栏。
3、暂存栏出现3个相同物品时自动消除。
4、暂存栏满7个不同物品时失败，场上物品清空时胜利。
5、提供洗牌、移除、回退三个道具按钮，各3次使用次数。
6、支持鼠标拖拽旋转视角和滚轮缩放。
7、支持localStorage保存进度和复活功能。
8、输出一个完整的html文件，可直接在浏览器运行。

Claude Opus 4.8：

GPT-5.5：

DeepSeek-V4-Pro：

MiniMax M3：

四个模型都把游戏开发出来了，核心功能都对，说明面对有明确PRD的开发任务，主流模型基本都能过关了。

有意义的差异集中在两点：一是前端审美，Claude依旧最耐看，DeepSeek和M3也还行，GPT-5.5最丑；二是细节完成度，PRD里有一项要求是“通关后奖励一只大鹅”，只有M3做到了，其他三个模型都漏掉了这个细节。

这轮测试：Claude Opus 4.8 ≈ MiniMax M3 > DeepSeek-V4-Pro > GPT-5.5。

4）Agent长程任务

最后一个Case也是最复杂的：我们让各个模型用Claude Code / Codex做一个联网搜索 + word/PDF生成 + skill调用 + 网站开发的复杂长程任务。提示词：

联网搜索电影《火遮眼》的关键信息内容，尽量从权威信源获取内容。先给我创建一份2000字的word调研报告（含pdf版）。然后调用guizang-ppt skill生成一份12页的PPT，宣传一下这部电影。

Claude Opus 4.8：

GPT-5.5：

DeepSeek-V4-Pro：

MiniMax M3：

这个任务的难点在于“长”——不只是单步执行，而是要求模型在跨越多个工具调用节点的情况下，始终保持上下文连贯、指令不漂移。这对模型的长程稳定性和工具协调能力要求很高。

先说PPT的完成度：GPT-5.5、Opus 4.8和M3都交付了质量不错的PPT，Claude每页带微动画，GPT-5.5有真实配图（应该是Codex的原因），M3的色彩搭配比较好看。DeepSeek-V4-Pro在这一项差了明显一截，排版、配色和交互都不在同一个水平线上。

调研报告的内容质量：Opus 4.8、M3和GPT-5.5不相上下，DeepSeek-V4-Pro垫底。

关于DeepSeek-V4-Pro有一个独立的问题值得单说：它在Claude Code里跑得极慢，而且频繁中途停摆不再继续输出。这个PPT任务它跑了整整36分钟，期间多次卡顿。

大概率是DeepSeek并未针对Claude Code做更多适配导致的，属于工程层面的问题，而不只是模型能力本身的问题。但从用户体验角度来说，这个差异是实实在在存在的。

这轮测试：GPT-5.5 ≈ Claude Opus 4.8 ≈ MiniMax M3 > DeepSeek-V4-Pro。

02 实测总结

四轮任务跑下来，先看综合能力，再看成本。

能力上，Claude Opus 4.8是这次横评里综合实力最强的，稳如预期。

M3是最大的惊喜，整体水平大约在Opus 4.7和4.8之间，与Opus 4.8的差距比我预想的要小。

GPT-5.5表现不稳定，有时候在线，有时候掉链子，前端审美上的短板在编程场景里是一个贯穿始终的减分项。

DeepSeek-V4-Pro整体能力不如其他三家，Agent长程任务的稳定性和代码生成质量都有差距。

成本这块，本期测评费用明细：

Claude Opus 4.8，接API测的，50美刀；

GPT-5.5，在Codex里用的，大约2美刀；

MiniMax M3，我订的Token Plan极速版，每月有12亿额度的M3 Token，这期用了约2000万token，折下来大约2 块钱；

DeepSeek-V4-Pro，大量输入命中缓存，不到2元。

换算下来总计356元，而两款国产模型加起来不到总费用的零头。性价比这件事，真的越来越不好意思讨论了。

03 写在最后

模型到底行不行，很多时候只有真实用过才知道，benchmark数字只是参考，不是结论。

至少从这几轮Coding任务来看，Claude Opus 4.8的前沿地位还是稳的。MiniMax M3也不差，大概是Opus 4.7的水准，很接近Opus 4.8了。

GPT-5.5可能在办公类任务上更有优势，但Coding层面的审美问题不是小问题，对于编程场景来说是一个明显的硬伤，而且这个问题不是靠调提示词就能解决的。

DeepSeek-V4-Pro性价比依然很高，但这次测评也暴露了它在Agent适配、长程稳定性和代码生成质量上与另外三家的真实差距。差距不是追不上，但需要时间。

说实话，这轮测下来最让我兴奋的是前几天发布的M3。我没想到它能这么接近Opus 4.8。1M上下文+原生多模态+Coding SOTA，配合Token Plan的定价，真的能做很多事情。

本文由人人都是产品经理作者【沃垠AI】，微信公众号：【沃垠AI】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

沃垠AI

努力分享一些好玩、有用的AI干货。首发同名公众号。

35篇作品 109882总阅读量

政务产品建设指南 | 涵义篇

10-133191 浏览

反思国产大模型：如果泡沫不可避免，我们该如何面对这场革命？

06-203222 浏览

都2023年了，谁还在用QQ？

05-128060 浏览

如何打造属于自己的私域流量？

06-096650 浏览

AIGC赋能下，产品的创新之路

12-203646 浏览

林帅

如果给一个独立开发者做外包网站，用MiniMax M3出初稿、再用Claude Opus 4.8精修细节，可能既省钱又能保证质量——毕竟M3素材理解和排版决策挺聪明。

最近来自广东回复
翁雅

MiniMax M3在视觉编程任务里能主动梳理设计语言，这确实比单纯执行指令高一个层次。说明模型得先理解目标，再谈产出质量。

最近来自广东回复
江木子

对GPT-5.5的审美批评很到位，但说它“浓眉大眼”有点主观。也许在办公场景下，那种方正规整的排版反而更受商务用户欢迎？编程审美和产品审美不完全是一回事。

最近来自广东回复