DeepSeek就是传说中那个世外高手

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

DeepSeek就是传说中那个世外高手

微果酱

2025-10-24

0 评论 1075 浏览 0 收藏

5 分钟

最近，DeepSeek 推出了一款革命性的 OCR（光学字符识别）模型，这一创新技术在西方科技圈引起了巨大的轰动。本文将带你深入了解 DeepSeek-OCR 的技术原理和其背后的重大意义。

平常不显山露水，一出手惊涛骇浪，而且招式从没人见过。这就是传说中的世外高手。

20日，DeepSeek推出OCR（光学字符识别）模型，犹如一颗深水炸弹，在西方科技圈炸出无数感叹号。

OCR不是新技术，已经广泛应用在生活中，如停车场自动识别车牌号码；拍照识别银行卡号、身份证；微信群里的图片提取文字等等，仿如生活中无处不在的一双”眼睛“。

大模型，即大语言模型，基于文本，工作原理就像一个需要逐字阅读的学生，处理长文本的时候，token数量会线性增长，消耗大量计算资源和内存。DeepSeek-OCR则学会“看图识字“，工作原理是将文本内容转换为图像，再高效压缩，最后用视觉模型将压缩后的图像转化为极简的”视觉标记“，由语言模型解码还原，就像把一本厚书拍成一张照片，依然能读懂其中的内容。

DeepSeek-OCR压缩10倍，还原率是96.5%；压缩20倍，还原率还保持60%左右，效率大幅提升，能耗大幅减少。前特斯拉总监Karpathy对DeepSeek-OCR高度赞赏，认为它可能预示着“文本输入终将让位于像素输入“。

4.5亿年前，三叶虫进化出感光能力，生命第一次看见了光，随后地球物种涌现，史称寒武纪生命大爆发——动物通过眼睛看见世界，然后感知、然后行动。人类祖先也不例外，只是后来诞生了语言去认知和理解世界、改变了自己的命运，从而成为万物之灵。

目前大语言模型最大的争议，即其是个“瞎子“，仅从人类语言入手，并不能看见世界，也不能真正理解这个世界，有关观点在《“大语言模型是死路一条”》已论及。

DeepSeek-OCR为大模型安上了一双眼睛，触达了生命智能的源头——“看见”，尽管DeepSeek-OCR只是从二维的静态图像中识别和提取文字，还不是真正意义从动态的三维空间看见世界，但它无疑给人工智能模型，无论是广泛应用的大模型、视觉模型、多模态模型，还是在前沿探索的世界模型，提供了崭新思路和技术路线，犹如传说中的世外高手，使出了一招天外飞仙。这就是西方科技圈为之震撼的原因。

尽管OCR模型如此惊艳，但其影响力似乎只在科技圈。就像2024年底DeepSeek发布的V3，以极高的性价比和训练效率轰动西方科技圈，圈外却风平浪静，直到2025年1月R1推出，才在全球掀起人工智能应用浪潮，成为耀眼全球的科技明星。

OCR模型是否R2发布的前奏？看历史轨迹，极有可能。

本文由人人都是产品经理作者【微果酱】，微信公众号：【AI微果酱】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自DeepSeek官网截图

更多精彩内容，请关注人人都是产品经理微信公众号或下载App