给 Agent 装上眼睛和手:OpenCLI 深度体验
Agent 联网全是坑——搜索 API 贵且飘、Puppeteer 秒封、Jina 抓不了登录页。OpenCLI 换了个思路:直接把你已经登录的 Chrome 借给 Agent 用。

用 AI Agent 做过实际项目的人,大概都踩过”联网”这个坑。
让 Agent 搜个东西,调 Tavily——结果相关度低到 0.2,月费 $49 起步;用 Puppeteer——Cloudflare 五层检测一碰就死;Jina Reader 对公开页面不错,但碰到公众号文章这种需要验证的就抓瞎。
每个方案看着都能用,真到关键时刻全掉链子。Reddit 上有人总结得到位:“大部分时间能用——直到它不能。”
OpenCLI 的思路完全不一样。不是搜索引擎,不是浏览器自动化框架,而是直接把你已经登录的 Chrome 借给 Agent 用。
Agent 联网到底有几条路
先说清楚现状。Agent 从网上获取信息,主流方案大概这几类:
搜索 API(Tavily、Serper、Brave Search、Exa)
Agent 不直接访问网页,而是调搜索 API 拿结果。问题是:搜索质量取决于 API 本身,Tavily 专为 Agent 设计但贵且结果飘忽,Serper 便宜但只返回链接不提取内容,Brave 中文搜索差且国内经常连不上,Exa 语义检索强但 $150/月。博查(0.02 元/次)是国内最实用的,但只解决搜索不解决内容提取。
网页转 Markdown 服务(Jina Reader、Firecrawl)
把 URL 变成干净的 Markdown 给 Agent。Jina Reader 国内可用,甚至不需要注册,直接 r.jina.ai/目标URL 就能转,对公开页面很好用。但遇到反爬或需要验证的页面(比如公众号文章)就没辙了,毕竟它没有你的登录态。Firecrawl 免费版要绑信用卡还有双重计费陷阱。这类服务的共同天花板是:需要登录才能看的内容,全抓不到。
浏览器自动化(Puppeteer、Playwright)
Agent 自己操控浏览器。技术上最灵活,但反爬是噩梦。Cloudflare 对 Puppeteer/Playwright 是秒封级别,你需要加 stealth 补丁、代理池、验证码处理,复杂度比你的业务逻辑还高。Reddit 上有人吐槽:”让 Agent 用 Puppeteer 访问网站,就像让机器人模仿人类逛商场,保安一眼就看出来了。”
MCP Server
协议层面标准化了,但底层还是调上面这些工具。Google 官方的 Chrome DevTools MCP 需要开远程调试端口,有安全风险。大多数 MCP 搜索 Server 质量取决于背后的 API。
这些方案有个共同的死穴:拿不到你的登录状态。
Twitter 的时间线、Reddit 的个性化首页、知乎的登录内容、小红书的创作者数据——这些都需要登录才能访问。而上面的方案要么拿不到登录态,要么需要你自己导 Cookie、配 OAuth、绑信用卡。
OpenCLI 的路:直接借你的 Chrome

OpenCLI 的思路很简单:你的 Chrome 已经登录了所有网站,Agent 为什么不能直接用?
opencli weixin download –url”https://mp.weixin.qq.com/s/xxxxx”
三秒出干净 Markdown。不需要 API Key,不需要绑卡,不需要处理 OAuth。你的 Chrome 能访问什么,Agent 就能访问什么。
这意味着反爬问题也跟着解了——因为 Agent 用的是你真实浏览器的 session,不是 Puppeteer 那种裸奔的 headless Chrome。Cloudflare 看到的是你的真实 Chrome 指纹。
Token 消耗极低。Playwright MCP 需要给 Agent 发截图或完整 DOM,每次调用吃掉大量 context。OpenCLI 直接返回结构化 JSON/YAML,Agent 拿到就能处理。社区有人实测:OpenCLI 的 token 消耗比 Playwright MCP 少一个数量级。
和 Puppeteer/Playwright 到底什么关系

底层技术上,OpenCLI 用的就是 Chrome CDP 协议,跟 Puppeteer/Playwright 同源。区别在封装层。Puppeteer/Playwright 给你的是 API——你得写代码,自己处理选择器、等待、错误重试。Agent 需要先写代码,再执行,再解析结果,链路长,每一步都可能出错。OpenCLI 给你的是命令——Agent 直接跑一行 shell,拿结构化输出。821 条命令覆盖 145 个网站,每个命令都预适配了对应的页面结构。
打个比方:Puppeteer 是给你原材料让你自己盖房子,OpenCLI 是给你一把钥匙直接住进去。
当然代价是灵活性。超出了预适配命令范围的网站,你得回退到 opencli browser 通用模式或 Puppeteer。但 145 个网站的覆盖面,日常使用基本够用。
安装:让 Agent 自己装
你不需要手动操作。把项目地址发给你的 Agent(Claude Code、Codex、Cursor 都行),让它:
git clone https://github.com/jackwener/openclicd opencli& & npm install&& npm run build& &npm link
如果你用的是 Claude Code 或兼容 skills 机制的 Agent,更简单:
npx skills add jackwener/opencli
Agent 会自动读取 skills 里所有可用命令,直接就能调用。不需要你教它怎么用。
前提是机器上有 Node.js 22+ 和 Chrome。第一次运行自动启动守护进程,之后所有命令复用同一个浏览器实例。
支持的平台
国内平台覆盖是 OpenCLI 对国内用户最大的差异化。完整列表如下:
国内高频平台:
- 微信(公众号文章下载、草稿管理)
- 微博(热搜、发帖、搜索、收藏)
- 知乎(热榜、搜索、回答、收藏)
- 小红书(笔记搜索、创作者数据、发布、评论)
- B站(视频信息、评论、字幕下载、AI总结)
- 抖音(视频搜索、评论、直播)
- 淘宝(搜索、详情、购物车、评价)
- 京东(商品搜索)
- 闲鱼(搜索、发布、聊天)
- 大众点评(搜索、店铺详情)
- 豆瓣(电影/图书/Top250)
- BOSS直聘(搜索、打招呼、简历、面试邀请)
- 携程(机票、酒店)
- 贝壳找房(二手房、租房、成交记录)
- 雪球(股票、自选股、K线)
- 同花顺(热股榜)
- 今日头条(热榜、文章管理)
- 百度贴吧(搜索、帖子)
- 36氪(文章、热榜)
- 即刻(动态、发布、搜索)
- 掘金(文章)
- 飞书(文档、消息、日历)
- 企业微信(通讯录、消息、日程)
- 知识星球(话题、搜索)
- 小鹅通(课程、视频)
- 小宇宙(播客、转录稿)
- 幕布(文档、搜索)
- flomo(笔记)
- AIbase(AI日报)
- 什么值得买(好价搜索)
- 夸克网盘(文件管理)
- 新浪博客/财经
- 优设
- 剑鱼标讯
- V2EX(签到、话题)
- Linux.do
- 牛客网
- 51job
- 脉脉
- 百度学术
- 中国知网
- 万方数据
- 学习通
- 1688
- 大众点评
AI 对话工具(网页 & 桌面):
ChatGPT(网页 + 桌面 App)、Claude、DeepSeek、Gemini、Grok、豆包(网页 + 桌面 App)、通义千问、元宝、ChatWise、Cursor、Codex、NotebookLM、即梦AI
国际平台:
Twitter/X(时间线、发推、搜索、书签、下载)、Reddit(搜索、帖子、评论、投票)、YouTube(视频、字幕、评论、频道)、Instagram、TikTok、Facebook、LinkedIn、Bluesky、Discord(桌面 App)、Spotify、Hacker News、Product Hunt、Stack Overflow、Medium、Substack、Dev.to、LessWrong、Lobsters、Bloomberg、Reuters、BBC、Pixiv、Steam、Amazon、arXiv、PubMed、Wikipedia、Docker Hub、npm、PyPI、Crates.io、Maven、RubyGems、NuGet、Binance、CoinGecko、DefiLlama、HuggingFace、MDN、OEIS、RFC……
还有 12 个外部 CLI 集成:GitHub(gh)、Docker、Notion、Obsidian、Telegram、Vercel、Discord CLI、长桥证券等。
完整 821 条命令,装完运行 opencli list 查看。
实际使用的注意事项
DOM 选择器脆弱。 821 条命令依赖网页的 DOM 结构,网站改版对应的命令可能失效。GitHub Issues 里约 35% 的 bug 来自网站更新页面结构。维护者响应速度还行,1-3 天回 Issue,基本每周发新版。但这是所有基于 DOM 的方案都逃不掉的问题。
同一站点避免并发。 当前版本同一网站的并发命令共享浏览器窗口,存在竞争问题(正在修复中)。Agent 做批量操作时最好串行执行,或等 per-command workspace 隔离上线。
多 Profile 用不同端口。 如果你有多个 Chrome Profile,每个 Profile 需要用不同的 daemon 端口,否则后连接的会覆盖前一个。
为什么值得装
Agent 的能力 = 模型 + 工具。现在模型能力已经很强了,瓶颈在工具层——Agent 能看到的信息、能执行的操作太少。
OpenCLI 填的是最实际的一块:让 Agent 获得跟你自己坐在浏览器前一模一样的操作能力。不需要注册任何服务,不需要绑信用卡,不需要处理反爬。你 Chrome 里已经登录的网站,Agent 直接就能用。
在所有 Agent 联网方案里,这是目前我见过的成本最低、覆盖最广、上手最快的。
项目地址:
https://github.com/jackwener/opencli
Agent skills 一键集成(Claude Code / Cursor):
npx skills add jackwener/opencli
本文由 @jovi_AI电报 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自作者提供
- 目前还没评论,等你发挥!

起点课堂会员权益




