搭建一个云端Skills系统,随时随地记录TikTok爆款
当AI技能被锁在开发者的电脑里,业务效率的提升便成了空谈。本文通过构建云端Skills系统,将TikTok爆款分析流程压缩到一次轻击手机背面的动作,实现从视频链接到结构化数据的全自动处理。这套基于OpenHands的方案不仅打破了工具与场景的时空限制,更揭示了Agent在跨境电商、竞品监控等领域的落地潜力,为真正意义上的业务自动化提供了新思路。

最近 Claude Skills 很火。
但我观察了一圈,发现大家都在陷入一种“开发者的自嗨”。
绝大多数 Skills 的应用场景都被死死锁在 IDE 里,锁在开发者的电脑前。
这叫开发提效,不叫业务提效。
真正的业务发生在移动端,发生在你通勤、吃饭、甚至躺在床上刷 TikTok 的时候。
如果你的 AI 能力必须打开电脑、输入命令行才能调用,那它的时空效率就是零。
于是我抛弃本地的 Claude Code,基于 OpenHands 做了一套云端 Skills 系统。
效果极其简单粗暴:
我在刷 TikTok,看到一个爆款视频,点击复制链接,敲击 iPhone 背面三下。
20 秒后,我的飞书多维表格里自动新增了一行数据。

这行数据包含了:这个视频的无水印文件、Gemini 拆解的镜头语言分析、爆款原因推导,以及一套可直接复用的 AI 视频生成提示词。
全过程我不需要打开电脑,不需要切换 APP,不需要等待。
这就是我今天要聊的:如何用 OpenHands + Skills + iOS 快捷指令,构建一套真正落地的业务自动化系统。
01 为什么 Claude Code 在业务侧是伪需求
先厘清两个概念:OpenHands 和 Claude Code。
Claude Code 是 Anthropic 官方推出的命令行工具,它是一个嵌入在你本地终端里的结对程序员。它的 Skills 本质是上下文记忆和本地工具接口。
它的优势是懂你的代码规范,能直接改你电脑里的文件。
但它有一个对于业务场景的致命弱点:它必须依附于你的会话,你不在,它就不动。
它是一个副驾驶(Copilot)。
而 OpenHands(前身 OpenDevin)是一个开源的、自主的 AI 软件工程师。它运行在 Docker 容器里,是一个独立的服务端 Agent。

https://openhands.dev/
它是一个可以被封装成 API 服务的数字员工。
我看重 OpenHands 的核心理由只有一个:它可以 24 小时在线,并且可以通过 API 远程唤醒。
我做的这个 TikTok 分析系统,本质就是把 OpenHands 部署在服务器上,通过 FastAPI 暴露接口。
Claude Code 是给你用的工具;OpenHands 是你雇佣的、随时待命的员工。
小提示:FastAPI 的服务地址后加/docs就是文档了
02 业务视角:从 刷视频 到「数据入库」的闭环
对于做出海营销和短视频矩阵的朋友,拆解爆款是每天的必修课。
传统的流程极其反人类:
1. 手机刷到视频,点收藏。
2. 晚上回家打开电脑,把链接导出来。
3. 找第三方工具去水印下载。
4. 把视频传给 Gemini 分析。
5. 人工把分析结果复制粘贴到 Excel 或飞书。
这个链路太长,断点太多。任何需要延迟满足的流程,最终都会变成不了了之。
我的远程 Skills 方案,把这个流程压缩到了极致。
整个逻辑是这样的:

用户端(前端)
利用 iOS 自带的快捷指令 + 背部轻点功能。
- 动作:获取剪贴板内容(TikTok 链接)。
- 触发:发送 HTTP POST 请求给我的服务器。
- 反馈:手机震动一下,表示任务已接收。


服务端(后端)
OpenHands 接收到请求后,自主执行以下 Skills:
1. Playwright Skill:
启动无头浏览器。这里有一个技术难点,TikTok 的反爬虫机制非常严格。如果用普通的 request 请求,成功率几乎为零。OpenHands 调用 Playwright 模拟真实浏览器行为,绕过 blob 协议,抓取真实的 MP4 视频流。这种方式的下载成功率稳定在 70%-80%
2. Gemini Skill:
视频下载后,调用Gemini 2.5 Flash,快且便宜。它不只是看,它是理解。它可以识别拍摄角度(俯拍/特写)、运镜方式(推拉摇移)、BGM 节奏点、色彩心理学。
3. Feishu Skill:
将清洗好的结构化数据(JSON),通过 API 写入飞书多维表格。
结果:
当你刷完半小时视频,打开飞书,几十个爆款视频的深度分析报告已经整整齐齐躺在那里了。
这才是 AI 赋能业务的本质:隐形化。

Openhands 的 Skills 文档:
https://docs.openhands.dev/sdk/guides/skill
03 举一反三:跨境电商的远程 Skills 玩法
这套架构的核心逻辑是:移动端触发 -> 服务端 API -> OpenHands 执行复杂 Skills -> 结果回传。
这个逻辑在出海业务里有无限的延展性。
我给几个具体的场景,你们可以拿去直接落地。
场景一:竞品独立站监控
- 动作:在手机浏览器看到竞品的 Shopify 店铺,复制链接,触发 Shortcut。
- Skills:OpenHands 调起爬虫 Skill 扫描该站点的新品上架情况、价格策略,并调用 SEO Skill 分析其关键词布局。
- 产出:一份竞品分析简报直接推送到你的 Slack 或 钉钉。
场景二:亚马逊差评自动预警与回复草稿
- 动作:系统监控到差评(自动触发,无需人工)。
- Skills:OpenHands 读取差评内容,结合历史客服知识库 Skill,分析用户情绪,并模仿金牌客服的语气撰写 3 个版本的回复邮件。
- 产出:草稿进入审核流,你只需要在手机上点批准。
场景三:广告素材批量生产
- 动作:上传一张产品图到指定文件夹。
- Skills:OpenHands 识别产品特征,调用 Midjourney 或 Runway 的 API,结合当下的流行趋势 Skill,自动生成 10 种不同风格的广告背景图。
- 产出:素材自动同步到 Google Drive 供投放团队筛选。
04 为什么非要用 Agent Skills?写个 Python 脚本不行吗?
这是很多技术出身的朋友最容易陷入的误区。
你这个功能,我写个 Python 脚本 + 定时任务也能跑,为什么要搞这么复杂的 OpenHands Skills?
因为业务逻辑是流动的,而脚本是僵死的。
如果你写死了一个 Python 脚本:
- 当 TikTok 的前端代码更新了 class 名,脚本报错,你得去修。
- 当飞书的 API 接口变动,脚本报错,你得去修。
- 当 Gemini 的模型参数调整,脚本报错,你得去修。
但在 OpenHands Skills 的架构下,我们定义的不是步骤,而是目标。
在我的 Skill 定义里,我告诉 OpenHands:你的任务是下载这个页面上的视频,如果常规方法失败,尝试模拟用户滚动;如果还失败,检查是否有验证码并尝试通过。
OpenHands 作为一个 Agent,它具备自主决策和自我修复的能力。
- 它发现 TikTok 改了页面结构?它会尝试用视觉识别去定位播放按钮。
- 它发现 API 报错?它会自主查阅文档或尝试备用节点。
在跨境出海这种平台规则朝令夕改的环境下,维护脚本的成本极高。
我们需要的是一个能够理解意图并自主寻找路径的智能体。
05 思路打开,Agentic Skills 的高级玩法
文章到这里,这套远程 Skills 系统的雏形已经搭建完毕。
但如果你觉得这就结束了,那你就小看了 Agentic Skills 的天花板。
我们现在的架构是“一个请求触发一个 Skill”,但这只是冰山一角。真正的威力在于 Multi-Skill Orchestration(多技能编排)。
1. Skill Chain(技能链)与递归调用
OpenHands 的 Skill 本质是可执行的逻辑单元。我们可以像写代码一样,让 Skill A 去调用 Skill B。
- 比如定义一个 Base-Skill:只负责做基础的数据清洗。
- 再定义一个 Pro-Skill:先调用 Base-Skill 处理数据,再把结果传给 Analysis-Skill,最后调用 Report-Skill 生成报告。
你可以构建一个自我迭代的 Agent。让它先写一段代码(Coding Skill),然后自己运行测试(Testing Skill),如果报错,递归调用 Coding Skill 进行修复,直到测试通过。
2. 混合云架构(Hybrid Agent Architecture)
OpenHands 运行在 Docker 里,这意味着它可以部署在任何地方。
- 私有化部署:对于涉及公司财务、用户隐私的数据,你可以把 OpenHands 部署在公司内网服务器上。
- 公有云调用:对于需要访问外网(如 TikTok 下载、竞品分析)的任务,部署在 AWS 或 Vercel 上。
这样,通过 API 网关,你可以指挥内网的 Agent 去调用外网的 Agent,实现数据在安全域和互联网域之间的智能流转。
3. “人机回环”的异步交互
谁说 API 只有“请求-响应”这一种模式? 在我的系统中,有些复杂任务(如竞品深度调研)可能需要运行 30 分钟。
- 流程设计:OpenHands 接收任务 -> 立即返回 TaskID -> 后台异步执行。
- 关键点:当 Agent 遇到无法决策的卡点(例如:这个验证码我解不开,或者这个竞品网站有两套价格体系,取哪套?),它可以主动通过飞书/Slack 给你发消息请求确认。
你点击确认后,Agent 继续执行。这才是真正的人机协作:AI 处理海量冗余信息,人类只在关键节点做决策。
在这个体系下,Skills 不再是静态的脚本,而是可生长、可组合的原子能力。
未来,你的个人服务器里可能运行着上百个这样的 Skills。它们是一群田螺姑娘,在你睡觉的时候,帮你监控市场、回复邮件、整理知识、优化代码。
而你,只需要握着手机,轻轻敲两下背部,就像魔法师挥动了魔杖。
这,才是 Agent 时代的真正玩法。
本文由人人都是产品经理作者【饼干哥哥】,微信公众号:【饼干哥哥AGI】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
- 目前还没评论,等你发挥!

起点课堂会员权益




