一人天 + MiniMax M2.5，三种语言，三个产品

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

一人天 + MiniMax M2.5，三种语言，三个产品

杜昭

2026-03-04

0 评论 95 浏览 0 收藏

20 分钟

MiniMax M2.5模型正在重新定义AI编程的边界，一人一天完成三个跨平台项目成为现实。从Kotlin原生App到JavaScript网页游戏，再到Python后端API，这款模型展现出架构级思考能力与全栈开发实力。本文通过实战案例解析其多语言支持、代码质量与成本优势，为开发者提供效率跃迁的新路径。

以前办了三个月的健身卡，总共去了两次。第一次是办卡当天，第二次是去问能不能退卡。

最近终于开始持续健身了，那必须得做好记录到时候发个朋友圈秀一下，问题是市面上的健身 App 要么臃肿得像个社交平台，要么疯狂推会员。我一个做了十年用户体验的人，看着那些反人类的交互设计，血压比心率还高。

那就自己做一个。

这个念头一冒出来，后面发生的事就完全收不住了，一天时间，我不但做了健身 App，还顺手搞了个赛车游戏和一套后端 API。三个项目，三种语言，三个完全不同的技术栈。而它们全都是用同一个工具完成的：MiniMax 刚发布的 M2.5 模型。下面我一个一个说。

第一关：做一个真正的 App，不是网页 demo

我之前用过不少 AI 编程工具，大部分停留在“能写个网页 demo”的水平。但我要的是一个 Android 原生 App——Kotlin + Jetpack Compose，不是套壳 WebView。

M2.5 有个让我眼前一亮的点：它在超过 10 种语言上做过训练，Kotlin、Python、Go、Rust、TypeScript、Dart 全都覆盖，而且明确支持 Android、iOS、Web、Windows、Mac 多平台的全栈项目。不是“理论上支持”，是真的练过。

我打开某AI编程工具，添加了M2.5自定义模型就要开搞，这里Trae中国版已经内置了M2.5模型，其他没有内置的产品基本都可以在添加自定义模型的入口通过选择服务商-选择模型-输入Key的方式完成添加。

随后敲下了第一条指令：

用 Kotlin + Jetpack Compose 开发一个 Android 健身记录应用。要求：新拟态设计风格，包含运动记录（跑步、骑行、健身等多种类型，记录坡度、速度、距离、时长和卡路里）、数据统计（首页统计卡片、运动趋势图表，支持 7 天/30 天/90 天筛选）、体脂追踪（自动计算体脂率，基于 Mifflin-St Jeor 公式计算基础代谢）、三种主题配色切换。数据用 SharedPreferences + Gson 本地存储。

然后我去泡了杯咖啡。

回来的时候，M2.5 已经把整个项目架构铺好了。不是那种一股脑把所有代码塞进一个文件的写法——它自己做了分层：data 层放数据模型和持久化，viewmodel 层管状态，ui 层分 screen 和 theme。

安装到手机上之后，这个 APP 已经成了我每天必用的工具。

我仔细看了一下代码结构：

app/src/main/java/site/duzhao/jianshen/├── MainActivity.kt├── data/│ ├── WorkoutRecord.kt│ ├── WorkoutStorage.kt│ ├── BodyFatRecord.kt│ └── BodyFatStorage.kt├── viewmodel/│ ├── WorkoutViewModel.kt│ ├── BodyFatViewModel.kt│ └── ThemeViewModel.kt└── ui/ ├── screen/ ├── navigation/ └── theme/

这个结构让我有点意外。它不是在写代码，它是在做架构设计。先想清楚模块怎么分，数据怎么流，然后才动手写。M2.5 官方管这个叫“原生 Spec 行为”——在动手写代码之前，以架构师视角主动拆解功能模块、代码结构和 UI 设计，做完整的前期规划。

这跟我见过的大多数 AI 编程工具完全不一样。那些工具像实习生，你说啥它写啥。M2.5 更像一个干了几年的工程师，会先问自己“这个项目应该怎么组织”。

新拟态的 UI 效果也超出预期。柔和的阴影、渐变的卡片、底部导航栏，视觉上真的能打。体脂追踪那个模块，它甚至自己加了基础代谢计算——用的是 Mifflin-St Jeor 公式，男性版本，参数都对。

编译，运行，很快通过。从敲下第一条指令到 App 跑起来，两个小时出头。偶尔有点小BUG直接把错误提示粘贴过去也都马上修复了。

一个 Android 原生 App，就这么做完了。但这只是验证了 M2.5 能处理前端 UI 和本地数据。我想知道的是：如果把复杂度拉满呢？

第二关：游戏级别的复杂逻辑，它接得住吗

做完 App 有点上头。那种感觉怎么说呢，就像你发现了一把特别顺手的锤子，满世界都是钉子。

我儿时有个执念——做一个赛车游戏。小时候玩的那种竖版卷轴赛车，躲障碍物、吃道具、冲终点。简单，但上瘾。

这个需求比健身 App 复杂多了。游戏开发涉及渲染循环、碰撞检测、状态机、音效系统……一个人从零写，没个一两周搞不定。这是对 M2.5 的一次真正压力测试：它能不能在交互密集、逻辑纠缠的场景下保持代码质量？

我试了：

开发一个赛车网页游戏，HTML5 Canvas + 原生 JavaScript。要求：

①三个难度关卡（城市道路/郊区道路/高速公路），速度和障碍物递增

②五种道具系统（加速、护盾、无敌、金币、磁铁）

③排行榜系统，localStorage 存储前 10 名

④计分系统（距离分+金币分+过关奖励）

⑤支持键盘和触屏操作

⑥用 Web Audio API 合成音效，不需要额外音频文件

⑦需要 34 张图片素材的规格说明文档。面向对象设计，60fps 流畅运行。

M2.5 给我生成了一个完整的游戏工程。不是那种“能跑但很糙”的 demo——它有完整的类继承体系：Game 类管主循环，Player 类管玩家车辆，Obstacle 类管障碍物，PowerUp 类管道具，Level 类管关卡，Leaderboard 类管排行榜，Sound 类管音效。

难度选择

让我最服气的是道具系统。五种道具各有独立的触发逻辑、持续时间和视觉效果——护盾有光晕，无敌有闪烁，磁铁会吸引附近金币。这些交互细节它自己就想到了，我没提。

放个短视频简单展示一下游戏过程。

音效系统也是个惊喜。它用 Web Audio API 直接合成了收集音效、碰撞音效、道具音效和过关音效，不需要任何外部音频文件。一个 python3 -m http.server 8080 就能跑起来。

好，前端能打，游戏逻辑也能扛。但这两个项目本质上还是“展示层”。一个 AI 编程工具到底行不行，得看最后一关。

第三关：后端、数据库、鉴权——真正考验功力的地方

我一直想给自己的小工具做一套付费变现系统。最核心的需求就是激活码：生成、验证、管理。听起来简单，但细节很多——激活码要分类型（周期卡、永久卡、单次卡），要绑定设备防止一码多用，要有管理后台，接口要有鉴权保护。

这是完全不同的技术维度。没有 UI 可以糊弄，数据库 schema 设计不好后面全是坑，鉴权逻辑有漏洞就是安全事故。

我给 M2.5 下了这道题：

开发一个基于 FastAPI + SQLite 的激活码核验后端服务。要求：

①三种激活码类型——周期卡（VIP-前缀，自定义天数）、永久卡（PERM-前缀）、单次卡（once-前缀，验证后立即失效）

②设备绑定，支持配置最大绑定设备数

③API Key 认证保护管理接口

④批量生成激活码（最大 100 个）

⑤完整的 RESTful API 设计，包含生成、验证、查询、禁用、删除接口

⑥自动生成 Swagger API 文档

⑦初始化脚本自动生成首个 API Key。公开接口（健康检查、验证）无需认证，管理接口需 X-API-Key 头认证。

这次我没去泡咖啡。我想亲眼看看它怎么处理后端逻辑。首先是创建了一个todo列表跟踪任务

M2.5 先输出了数据库 schema 设计——激活码表、设备绑定表、API Key 表，字段设计合理，外键关系清晰。然后是 models.py 的 SQLAlchemy 模型，schemas.py 的 Pydantic 请求/响应模型，crud.py 的数据库操作层，最后才是 main.py 的路由定义。

它在写后端的时候，也保持了那个”架构师”的习惯：先设计数据结构，再写业务逻辑，最后暴露接口。这个顺序是对的。

验证接口的逻辑让我仔细 review 了一遍：检查激活码是否存在→检查是否被禁用→检查是否过期→检查设备绑定数是否超限→首次激活则记录激活时间和设备→返回剩余天数。每一步都有对应的错误信息。单次卡验证后自动标记失效。

数据库设计也很规整，用DB browser for SQlite工具就能看到

讲真，这个逻辑链条我自己写也差不多就是这样。

我测了一圈：批量生成 10 个周期卡，验证激活，设备绑定，过期检查，全部符合预期。在网页可以查看详细的API文档和使用方式。

激活码 API 开发完成之后，其实就可以实现最简单的商业化产品。例如，把第一个案例和第三个案例结合一下就可以实现在健身 APP 中，设置页面增加一个激活码模块，通过限制用户记录健身数据的数量来触发输入激活码。

最终的实现效果如下图，通过常驻入口以及对用户数据条数的限制，触发 VIP 兑换。输入激活码后，通过 API 验证激活码是否可用。可用则兑换成功，并且在设置页面显示出 VIP 已激活的状态和有效期。

三关打完。Kotlin 写 Android 原生 App，JavaScript 写 Canvas 游戏，Python 写 FastAPI 后端。三种语言，三个完全不同的技术栈，M2.5 全都接住了。

到底强在哪

三个项目做完，我想认真聊聊这个模型。

第一，快。不是“比以前快一点”的那种快，是量级上的差异。官方数据是 100TPS 的输出速度，体感上确实比我之前用的主流模型快了两三倍。而且 M2.5 比上一代 M2.1 完成任务的速度快了 37%——不只是吐 token 快，是整个任务链路的效率都在提升。做赛车游戏那个项目，整个代码生成过程几乎没有等待焦虑。

第二，真正的全栈。我做这三个项目的体验，最深的感触不是“它能写代码”——现在哪个模型不能写代码？关键是它覆盖的范围。Kotlin 原生 App、JavaScript 游戏、Python 后端，三种语言无缝切换。而 M2.5 实际训练覆盖的语言超过 10 种，包括 Go、C++、Rust、TypeScript、Dart、Ruby。它不是”前端网页 demo 选手”，是真正的全栈多端多语言选手。

第三，先想清楚再动手。这是我觉得 M2.5 和其他模型拉开差距最大的地方。它的”原生 Spec 行为”——在写代码之前先做架构规划——不是噱头，是真的影响了最终代码质量。三个项目，每一个它都是先输出项目结构和模块划分，然后才开始写具体实现。好的程序员和普通程序员的区别，从来不是谁写代码更快，而是谁在动手之前想得更清楚。 M2.5 显然学到了这一点。

第四，覆盖完整的开发生命周期。不只是从零写代码。M2.5 覆盖了从 0 到 1 的系统设计、从 1 到 10 的系统开发、从 10 到 90 的功能迭代，一直到从 90 到 100 的 code review 和系统测试。我在激活码项目里追加了几轮对话让它帮我 review 代码、补充边界 case 处理，体验确实流畅。

第五，编程能力的硬指标。 SWE-Bench Verified 跑到了 80.2%，Multi-SWE-Bench（多语言编程测试）51.3% 拿了第一——这两个数字意味着 M2.5 和 Claude Opus 系列基本在同一梯队。但价格呢？M2.5 的输出价格大概是 Opus、Gemini 3 Pro、GPT-5 这些模型的十分之一到二十分之一。

当然也说点不足。在赛车游戏项目里，第一版的碰撞检测有点粗糙，矩形碰撞在视觉上偶尔会出现“明明没碰到但判定碰撞”的情况。我追加了一轮对话让它优化，第二版就好多了。另外，它对图片素材的处理还是需要人工介入——它能给出详细的素材规格文档（34 张图的尺寸、用途都列得清清楚楚），但图本身还是得自己准备。