Flipbook：无限视觉浏览器？这是什么？

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

Flipbook：无限视觉浏览器？这是什么？

张艾拉

2026-04-29

0 评论 3795 浏览 7 收藏

18 分钟

Flipbook正在颠覆传统网页体验，用AI实时生成图像取代HTML与CSS的固化结构。这个实验性原型将浏览器变成可无限翻页的视觉图册，每次点击都能动态生成全新界面，背后是视频生成、实时交互与云端计算的融合突破。本文深度解析这一概念如何重构人机交互逻辑，并探讨其对未来界面设计的启示。

强烈推荐大家都试试看：https://flipbook.page/?utm_source=chatgpt.com

这两天，一个叫Flipbook的小原型被刷屏了，短短几天就有 550 万的曝光浏览。

简单来说，Flipbook是一个用 AI 模型直接生成屏幕像素的实验性原型，取代 HTML、CSS 等传统网页技术。

用户看到的每个「页面」都是一张 AI 生成的图像，点击图像中任意区域即生成新图像继续深入，整个界面无 HTML 代码、无固定链接、无预定义按钮，连文字也是图中像素。

也就是说，它想做的就是：把网页变成一段由 AI 实时生成的视频流。

你打开它，输入一个问题。它不会像传统网页那样加载 HTML、按钮、链接、布局，也不是像 ChatGPT 那样给你一段文字。

它会直接生成一张“视觉页面”。你点页面上的任何地方，它再根据你的点击，生成下一张页面。

我刚从姬路回来，就随便搜了个书写山圆教寺，推荐大家都去试试看这种 UI 和 UX 体验，虽然目前的速度和稳定性都一般，但很值得体验

简单来说就是：Flipbook把浏览器变成了一本 AI 实时画出来的图册，你每点一下，AI 就翻到下一页。

01 Flipbook到底是什么？

Flipbook 官网介绍是：这是一个“无限视觉浏览器”，所有内容都是按需、实时生成的。

你看到的每一个页面，本质上都是一张图片。你点击图片里的任何东西，它会继续生成下一张图，带你往下探索。

这和我们现在理解的网页完全不一样。

今天的网页是提前搭好的。

设计师画界面，工程师写代码，前端负责布局，后端负责数据，浏览器负责把 HTML、CSS、JavaScript 渲染出来。

你看到的按钮、卡片、文字、图片，本质上都是代码结构。

Flipbook 把这个过程都砍掉了。

它不先搭页面，也不先写组件，而是让模型直接生成屏幕上的像素。

所以你看到的文字也是图片里的像素，按钮也是图片里的像素，页面布局也是图片里的像素。

你点击某个区域，系统理解你点了哪里，然后继续生成下一帧、新页面、新画面。

这就是它最不一样的地方。

很多 AI 浏览器，做的是在传统浏览器上加一个 AI 助手。比如帮你总结网页，帮你点按钮，帮你填表，帮你找资料。

Flipbook 想得更极端，它不是给旧网页加 AI，它想让 AI 直接生成网页本身。

02 团队很小，但背景很强

Flipbook 目前还只是一个小原型，团队主要是三个人：Zain Shah、Eddie Jiao 和 Drew O’Carr。

Zain Shah 是最核心的人，他之前在OpenAI做过机器人研究，研究方向是如何在模拟环境中训练智能体，让它们学到的能力可以迁移到真实世界。

Eddie Jiao 的背景也比较有意思，他曾经在 Humane 和 Slack 做过工程相关工作。Drew O’Carr 则曾在 Apple 工作。

这几个人的组合，刚好对应 Flipbook 这个产品的气质。

它不是一个普通网页工具，也不是简单的 AI 生成图片工具。它同时涉及视觉生成、实时交互、浏览器体验、AI 基础设施和新型界面设计。

虽然它现在看起来很像一个技术原型，但这个原型背后，提出的问题却很宏大：

如果 AI 能实时生成整个界面，那我们还需要提前写好网页吗？

03 Flipbook 是怎么运行的？

Flipbook 没有使用传统 HTML 和 CSS 来构建页面，而是用 AI 直接生成屏幕像素。

每一个页面都是 AI 生成的图像，点击后再生成新的视觉内容。

这个原型还使用了 Lightricks 的 LTX Studio / LTX Video 相关开源视频生成模型，并通过 WebSocket 把 1080p、24fps 的视频流推到用户屏幕，后端则使用 Modal Labs 的服务器 GPU。

这几个信息放在一起，就能看懂它为什么特别。

第一，它不是传统网页。

传统网页是结构化的。页面上有按钮、有链接、有文字、有图片，每个元素都有自己的代码位置。

Flipbook 的页面是生成出来的视觉结果。

也就是说，模型不是在“调用网页组件”，而是在直接决定你屏幕上应该出现什么。

第二，它不是静态图片。

如果只是输入一句话生成一张图，那它就是一个生图工具。

但 Flipbook 的关键在于交互，你点击不同位置，系统会生成不同的下一步画面。

它更像一个可以一直走下去的视觉空间。

第三，它借用了实时视频生成的能力。

LTX-Video 这类模型可以在 H100 GPU 上用 2 秒生成 5 秒、24fps、768×512 分辨率的视频，重点就是实时和低延迟。

所以 Flipbook 能成立，靠的不是一个单点能力，它背后是几个能力的同时成熟：

视频生成变快了、模型理解视觉和指令的能力变强了、云端 GPU 调用变方便了、浏览器可以承载更实时的交互流。

放在几年前，这个东西很难做出来，就算做出来，也可能慢到没法用。

现在它至少能跑成一个早期原型，这就够有趣了。

04 Flipbook 和 AI 浏览器不太一样

最近大家都在聊 AI 浏览器。

比如 Perplexity 的 Comet、OpenAI 的 Atlas、Dia、Arc 这些产品，思路大多还是围绕传统网页展开。

它们解决的问题是：网页已经存在了，AI 怎么帮你更好地读、更好地找、更好地操作。

所以它们的核心还是浏览器 + AI 助手。

你打开一个网页，AI 帮你总结；

你要买东西，AI 帮你比价；

你要订机票，AI 帮你点按钮；

你要研究资料，AI 帮你把多个网页串起来。

Flipbook 的问题不一样。

它问的是：如果界面本身可以被 AI 生成，网页还需要提前存在吗？

这就不是给浏览器加助手，这是在重新思考“什么是浏览器”。

当然，现在说它能取代浏览器还太早，它现在更像一个概念验证。

但这个方向很值关注和思考。

因为 AI 真正改变浏览器界面的，不一定只是多一个侧边栏、多一个聊天框、多一个总结按钮。

更大的变化可能是：界面不再固定，而是根据你的意图实时长出来。

比如：

你想学一段历史，它给你生成一条可以点击的人物关系图；
你想研究一家公司的产品，它给你生成一个视觉化的产品地图；
你想装修房子，它生成一个可以点开、改风格、换家具的空间；
你想理解一篇论文，它直接把论文变成一个可以探索的动态图册。

这些东西，用今天的网页也能做。

但问题是，每一种都要专门设计、专门开发、专门适配。

Flipbook 给我们的想象空间是：你要什么，它就实时的长成什么。

05 把“界面”变成了生成对象

过去三年，AI 主要生成三类东西：文字、图片、视频。

后来开始生成代码、网页、应用。

但大多数时候，AI 生成网页的方式还是先写代码，再由浏览器渲染。

比如你让 AI 做一个网页，它会生成 HTML、CSS、JavaScript。所以你看到的页面，还是传统网页。

Flipbook 更像是另一条路：不生成代码，直接生成“你看见的结果”。

今天很多界面之所以复杂，是因为它必须被工程化。

按钮要能点，状态要能变，布局要能适配，数据要能更新，组件要能复用。

这套体系很强，也很成熟，但也很重。

Flipbook 就是把这套体系变轻了。

它先不管代码结构，先让模型生成一个可看的、可点的、可继续推进的视觉界面。

这有点像从“搭舞台”变成“现场即兴表演”。

传统网页是提前搭好的舞台，Flipbook 是你说一句，模型当场画出下一幕。

这个体验现在肯定不稳定，也不一定可靠。

但它让人看到一种新可能：

未来某些软件界面，可能不再是固定菜单和固定按钮，而是根据任务临时生成。

你要报销，它就生成一个报销界面；
你要分析数据，它就生成一个图表工作台；
你要做旅行计划，它就生成一张可以继续探索的地图；
你要写故事，它就生成一个能点开人物、场景、线索的视觉空间。

不是让你去适应软件，是让软件临时变成你需要的样子。

06 问题和难点

Flipbook 现在还只是很早期的原型。

Zain Shah 自己也在 X 上提醒过，Flipbook 是一个小团队做出来的项目，背后是很多 API 和开源模型拼起来的，稳定性还很脆弱。

也就是说，这个产品现在看起来很酷，但离真正可用还差很远。

第一个问题，是速度。

视觉生成再快，也很难和传统网页渲染比。传统网页点击一个按钮，反馈可以非常快。

Flipbook 每一次交互都要理解点击、生成下一帧、传回屏幕。如果延迟太高，体验就会断。

第二个问题，是准确性。

传统网页里的按钮是确定的。你点“提交”，它就提交；你点“下一页”，它就下一页。

Flipbook 里的按钮是模型生成的像素。系统要理解你点了哪里，还要理解这个点击意味着什么。只要理解错了，体验就会乱。

第三个问题，是状态保持。

真正的软件不是一张张图。

它要记住你做了什么、选了什么、填了什么、改了什么。

比如你在一个购物流程里，前面选了尺码，后面就不能忘。

你在一个财务系统里改了金额，系统必须准确记录。

Flipbook 如果要进入真实工作流，就必须解决状态问题。

第四个问题，是可控性。

企业软件、金融系统、医疗系统、政府系统，都不能接受“模型随手生成一个界面”。界面必须符合权限、合规、安全、审计要求。

所以 Flipbook 这种方向，更适合探索、学习、娱乐、内容浏览、视觉化理解，不太可能马上进入高严肃场景。

它现在的价值，也不是替代网页，是把一个问题推到大家面前：界面能不能从静态设计，变成实时生成？

07 商业化？还为时过早

Flipbook 目前更像一个实验项目，但如果这个方向继续往前走，商业化可能会有几条路。

第一条，是做新型 AI 浏览器。

如果它能把生成速度、交互稳定性、视觉质量都做上去，它可以成为一种“视觉浏览器”。

用户不是打开网页，而是打开一个可以无限探索的视觉空间。

第二条，是做教育和知识探索。

这个场景很适合 Flipbook。

因为学习不是只看文字。很多知识更适合被画出来、拆开、点进去。

比如历史、地理、生物、建筑、产品结构、商业模式、论文概念，都可以变成一张张可点击的视觉图册。

第三条，是做创意和故事工具。

Flipbook 很适合做实时故事、互动漫画、AI 绘本、视觉小说、游戏原型。

你不需要提前画完整内容，而是让模型跟着用户点击不断生成下一幕。

第四条，是做界面原型工具。

设计师和产品经理可能会喜欢这个东西。

今天做界面原型，要用 Figma、代码、组件库、交互逻辑。

未来你可能直接说：“给我一个面向儿童阅读的互动百科界面”，Flipbook 先帮你生成一个可以探索的版本。

不过这些都还只是可能，现在它真正能证明的，还只是技术想象力，不是商业模式。

08 一次“互联网界面”的预告片

分享 Flipbook 不是因为它现在有多好用。

它现在肯定不好用，也不稳定，甚至很多地方可能只是演示级别。

但它像一个预告片，它提前放出了一种可能的互联网形态：

网页不再是提前写好的页面；
搜索不再只是文字列表；
浏览不再只是点链接；
界面不再只是固定按钮和菜单。

你想看什么，模型生成什么，你点哪里，世界就往哪里长。

传统网页肯定不会轻易消失。HTML、CSS、JavaScript 这套东西太成熟、太便宜、太稳定。

而且绝大多数网站、应用和企业系统，仍然需要结构化、可控、可审计的界面。

但在一些探索型场景里，Flipbook 这种方式很有吸引力。

比如你不是要完成一个确定任务，而是想发散、学习、探索、理解、创作。这个时候，传统网页的结构反而有点硬。

你需要的是一个能跟着你走的视觉空间，Flipbook 这时候就很适合。

最后，至少对于我来说，当我打开屏幕时，如果看到的不再是别人提前做好的页面，而是一个根据我当下需求和意图实时生成的互动世界，那一定很有趣。

以上，祝你今天开心。

作者：张艾拉公众号：Fun AI Everyday

本文由 @张艾拉原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自作者提供

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

张艾拉

公众号「 Fun AI Everyday」& AI 出海App「爱卜」

157篇作品 288464总阅读量

明星带货，带得动小红书吗？

03-145922 浏览

产品周报269期 | 百度文心大模型 4.0 发布，东方甄选上线付费会员业务

10-202328 浏览

面试官说“你做的产品没什么价值”，怎么应对？

06-083667 浏览

用大厂APP告诉你：这14个技巧可以优化“评论区”

03-079069 浏览

团建：用数字化让经费翻倍，还让老板闭上了嘴

06-254742 浏览

目前还没评论，等你发挥！