Flipbook:无限视觉浏览器?这是什么?
Flipbook正在颠覆传统网页体验,用AI实时生成图像取代HTML与CSS的固化结构。这个实验性原型将浏览器变成可无限翻页的视觉图册,每次点击都能动态生成全新界面,背后是视频生成、实时交互与云端计算的融合突破。本文深度解析这一概念如何重构人机交互逻辑,并探讨其对未来界面设计的启示。

强烈推荐大家都试试看:https://flipbook.page/?utm_source=chatgpt.com
这两天,一个叫Flipbook的小原型被刷屏了,短短几天就有 550 万的曝光浏览。
简单来说,Flipbook是一个用 AI 模型直接生成屏幕像素的实验性原型,取代 HTML、CSS 等传统网页技术。
用户看到的每个「页面」都是一张 AI 生成的图像,点击图像中任意区域即生成新图像继续深入,整个界面无 HTML 代码、无固定链接、无预定义按钮,连文字也是图中像素。
也就是说,它想做的就是:把网页变成一段由 AI 实时生成的视频流。
你打开它,输入一个问题。它不会像传统网页那样加载 HTML、按钮、链接、布局,也不是像 ChatGPT 那样给你一段文字。
它会直接生成一张“视觉页面”。你点页面上的任何地方,它再根据你的点击,生成下一张页面。

我刚从姬路回来,就随便搜了个书写山圆教寺,推荐大家都去试试看这种 UI 和 UX 体验,虽然目前的速度和稳定性都一般,但很值得体验
简单来说就是:Flipbook把浏览器变成了一本 AI 实时画出来的图册,你每点一下,AI 就翻到下一页。
01 Flipbook到底是什么?
Flipbook 官网介绍是:这是一个“无限视觉浏览器”,所有内容都是按需、实时生成的。
你看到的每一个页面,本质上都是一张图片。你点击图片里的任何东西,它会继续生成下一张图,带你往下探索。

这和我们现在理解的网页完全不一样。
今天的网页是提前搭好的。
设计师画界面,工程师写代码,前端负责布局,后端负责数据,浏览器负责把 HTML、CSS、JavaScript 渲染出来。
你看到的按钮、卡片、文字、图片,本质上都是代码结构。
Flipbook 把这个过程都砍掉了。
它不先搭页面,也不先写组件,而是让模型直接生成屏幕上的像素。
所以你看到的文字也是图片里的像素,按钮也是图片里的像素,页面布局也是图片里的像素。
你点击某个区域,系统理解你点了哪里,然后继续生成下一帧、新页面、新画面。
这就是它最不一样的地方。
很多 AI 浏览器,做的是在传统浏览器上加一个 AI 助手。比如帮你总结网页,帮你点按钮,帮你填表,帮你找资料。
Flipbook 想得更极端,它不是给旧网页加 AI,它想让 AI 直接生成网页本身。
02 团队很小,但背景很强
Flipbook 目前还只是一个小原型,团队主要是三个人:Zain Shah、Eddie Jiao 和 Drew O’Carr。
Zain Shah 是最核心的人,他之前在OpenAI做过机器人研究,研究方向是如何在模拟环境中训练智能体,让它们学到的能力可以迁移到真实世界。

Eddie Jiao 的背景也比较有意思,他曾经在 Humane 和 Slack 做过工程相关工作。Drew O’Carr 则曾在 Apple 工作。
这几个人的组合,刚好对应 Flipbook 这个产品的气质。
它不是一个普通网页工具,也不是简单的 AI 生成图片工具。它同时涉及视觉生成、实时交互、浏览器体验、AI 基础设施和新型界面设计。
虽然它现在看起来很像一个技术原型,但这个原型背后,提出的问题却很宏大:
如果 AI 能实时生成整个界面,那我们还需要提前写好网页吗?
03 Flipbook 是怎么运行的?
Flipbook 没有使用传统 HTML 和 CSS 来构建页面,而是用 AI 直接生成屏幕像素。
每一个页面都是 AI 生成的图像,点击后再生成新的视觉内容。
这个原型还使用了 Lightricks 的 LTX Studio / LTX Video 相关开源视频生成模型,并通过 WebSocket 把 1080p、24fps 的视频流推到用户屏幕,后端则使用 Modal Labs 的服务器 GPU。
这几个信息放在一起,就能看懂它为什么特别。
第一,它不是传统网页。
传统网页是结构化的。页面上有按钮、有链接、有文字、有图片,每个元素都有自己的代码位置。
Flipbook 的页面是生成出来的视觉结果。
也就是说,模型不是在“调用网页组件”,而是在直接决定你屏幕上应该出现什么。
第二,它不是静态图片。
如果只是输入一句话生成一张图,那它就是一个生图工具。
但 Flipbook 的关键在于交互,你点击不同位置,系统会生成不同的下一步画面。
它更像一个可以一直走下去的视觉空间。
第三,它借用了实时视频生成的能力。
LTX-Video 这类模型可以在 H100 GPU 上用 2 秒生成 5 秒、24fps、768×512 分辨率的视频,重点就是实时和低延迟。
所以 Flipbook 能成立,靠的不是一个单点能力,它背后是几个能力的同时成熟:
视频生成变快了、模型理解视觉和指令的能力变强了、云端 GPU 调用变方便了、浏览器可以承载更实时的交互流。
放在几年前,这个东西很难做出来,就算做出来,也可能慢到没法用。
现在它至少能跑成一个早期原型,这就够有趣了。
04 Flipbook 和 AI 浏览器不太一样
最近大家都在聊 AI 浏览器。
比如 Perplexity 的 Comet、OpenAI 的 Atlas、Dia、Arc 这些产品,思路大多还是围绕传统网页展开。
它们解决的问题是:网页已经存在了,AI 怎么帮你更好地读、更好地找、更好地操作。
所以它们的核心还是浏览器 + AI 助手。
你打开一个网页,AI 帮你总结;
你要买东西,AI 帮你比价;
你要订机票,AI 帮你点按钮;
你要研究资料,AI 帮你把多个网页串起来。

Flipbook 的问题不一样。
它问的是:如果界面本身可以被 AI 生成,网页还需要提前存在吗?
这就不是给浏览器加助手,这是在重新思考“什么是浏览器”。
当然,现在说它能取代浏览器还太早,它现在更像一个概念验证。
但这个方向很值关注和思考。
因为 AI 真正改变浏览器界面的,不一定只是多一个侧边栏、多一个聊天框、多一个总结按钮。
更大的变化可能是:界面不再固定,而是根据你的意图实时长出来。
比如:
- 你想学一段历史,它给你生成一条可以点击的人物关系图;
- 你想研究一家公司的产品,它给你生成一个视觉化的产品地图;
- 你想装修房子,它生成一个可以点开、改风格、换家具的空间;
- 你想理解一篇论文,它直接把论文变成一个可以探索的动态图册。
这些东西,用今天的网页也能做。
但问题是,每一种都要专门设计、专门开发、专门适配。
Flipbook 给我们的想象空间是:你要什么,它就实时的长成什么。
05 把“界面”变成了生成对象
过去三年,AI 主要生成三类东西:文字、图片、视频。
后来开始生成代码、网页、应用。
但大多数时候,AI 生成网页的方式还是先写代码,再由浏览器渲染。
比如你让 AI 做一个网页,它会生成 HTML、CSS、JavaScript。所以你看到的页面,还是传统网页。
Flipbook 更像是另一条路:不生成代码,直接生成“你看见的结果”。
今天很多界面之所以复杂,是因为它必须被工程化。
按钮要能点,状态要能变,布局要能适配,数据要能更新,组件要能复用。
这套体系很强,也很成熟,但也很重。
Flipbook 就是把这套体系变轻了。
它先不管代码结构,先让模型生成一个可看的、可点的、可继续推进的视觉界面。
这有点像从“搭舞台”变成“现场即兴表演”。
传统网页是提前搭好的舞台,Flipbook 是你说一句,模型当场画出下一幕。
这个体验现在肯定不稳定,也不一定可靠。
但它让人看到一种新可能:
未来某些软件界面,可能不再是固定菜单和固定按钮,而是根据任务临时生成。
- 你要报销,它就生成一个报销界面;
- 你要分析数据,它就生成一个图表工作台;
- 你要做旅行计划,它就生成一张可以继续探索的地图;
- 你要写故事,它就生成一个能点开人物、场景、线索的视觉空间。
不是让你去适应软件,是让软件临时变成你需要的样子。
06 问题和难点
Flipbook 现在还只是很早期的原型。
Zain Shah 自己也在 X 上提醒过,Flipbook 是一个小团队做出来的项目,背后是很多 API 和开源模型拼起来的,稳定性还很脆弱。
也就是说,这个产品现在看起来很酷,但离真正可用还差很远。
第一个问题,是速度。
视觉生成再快,也很难和传统网页渲染比。传统网页点击一个按钮,反馈可以非常快。
Flipbook 每一次交互都要理解点击、生成下一帧、传回屏幕。如果延迟太高,体验就会断。
第二个问题,是准确性。
传统网页里的按钮是确定的。你点“提交”,它就提交;你点“下一页”,它就下一页。
Flipbook 里的按钮是模型生成的像素。系统要理解你点了哪里,还要理解这个点击意味着什么。只要理解错了,体验就会乱。
第三个问题,是状态保持。
真正的软件不是一张张图。
它要记住你做了什么、选了什么、填了什么、改了什么。
比如你在一个购物流程里,前面选了尺码,后面就不能忘。
你在一个财务系统里改了金额,系统必须准确记录。
Flipbook 如果要进入真实工作流,就必须解决状态问题。
第四个问题,是可控性。
企业软件、金融系统、医疗系统、政府系统,都不能接受“模型随手生成一个界面”。界面必须符合权限、合规、安全、审计要求。
所以 Flipbook 这种方向,更适合探索、学习、娱乐、内容浏览、视觉化理解,不太可能马上进入高严肃场景。
它现在的价值,也不是替代网页,是把一个问题推到大家面前:界面能不能从静态设计,变成实时生成?
07 商业化?还为时过早
Flipbook 目前更像一个实验项目,但如果这个方向继续往前走,商业化可能会有几条路。
第一条,是做新型 AI 浏览器。
如果它能把生成速度、交互稳定性、视觉质量都做上去,它可以成为一种“视觉浏览器”。
用户不是打开网页,而是打开一个可以无限探索的视觉空间。
第二条,是做教育和知识探索。
这个场景很适合 Flipbook。
因为学习不是只看文字。很多知识更适合被画出来、拆开、点进去。
比如历史、地理、生物、建筑、产品结构、商业模式、论文概念,都可以变成一张张可点击的视觉图册。
第三条,是做创意和故事工具。
Flipbook 很适合做实时故事、互动漫画、AI 绘本、视觉小说、游戏原型。
你不需要提前画完整内容,而是让模型跟着用户点击不断生成下一幕。
第四条,是做界面原型工具。
设计师和产品经理可能会喜欢这个东西。
今天做界面原型,要用 Figma、代码、组件库、交互逻辑。
未来你可能直接说:“给我一个面向儿童阅读的互动百科界面”,Flipbook 先帮你生成一个可以探索的版本。
不过这些都还只是可能,现在它真正能证明的,还只是技术想象力,不是商业模式。
08 一次“互联网界面”的预告片
分享 Flipbook 不是因为它现在有多好用。
它现在肯定不好用,也不稳定,甚至很多地方可能只是演示级别。
但它像一个预告片,它提前放出了一种可能的互联网形态:
- 网页不再是提前写好的页面;
- 搜索不再只是文字列表;
- 浏览不再只是点链接;
- 界面不再只是固定按钮和菜单。
你想看什么,模型生成什么,你点哪里,世界就往哪里长。
传统网页肯定不会轻易消失。HTML、CSS、JavaScript 这套东西太成熟、太便宜、太稳定。
而且绝大多数网站、应用和企业系统,仍然需要结构化、可控、可审计的界面。
但在一些探索型场景里,Flipbook 这种方式很有吸引力。
比如你不是要完成一个确定任务,而是想发散、学习、探索、理解、创作。这个时候,传统网页的结构反而有点硬。
你需要的是一个能跟着你走的视觉空间,Flipbook 这时候就很适合。
最后,至少对于我来说,当我打开屏幕时,如果看到的不再是别人提前做好的页面,而是一个根据我当下需求和意图实时生成的互动世界,那一定很有趣。
以上,祝你今天开心。
作者:张艾拉 公众号:Fun AI Everyday
本文由 @张艾拉 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自作者提供
- 目前还没评论,等你发挥!

起点课堂会员权益



