DeepSeek就是传说中那个世外高手
最近,DeepSeek 推出了一款革命性的 OCR(光学字符识别)模型,这一创新技术在西方科技圈引起了巨大的轰动。本文将带你深入了解 DeepSeek-OCR 的技术原理和其背后的重大意义。

平常不显山露水,一出手惊涛骇浪,而且招式从没人见过。这就是传说中的世外高手。
20日,DeepSeek推出OCR(光学字符识别)模型,犹如一颗深水炸弹,在西方科技圈炸出无数感叹号。




OCR不是新技术,已经广泛应用在生活中,如停车场自动识别车牌号码;拍照识别银行卡号、身份证;微信群里的图片提取文字等等,仿如生活中无处不在的一双”眼睛“。
大模型,即大语言模型,基于文本,工作原理就像一个需要逐字阅读的学生,处理长文本的时候,token数量会线性增长,消耗大量计算资源和内存。DeepSeek-OCR则学会“看图识字“,工作原理是将文本内容转换为图像,再高效压缩,最后用视觉模型将压缩后的图像转化为极简的”视觉标记“,由语言模型解码还原,就像把一本厚书拍成一张照片,依然能读懂其中的内容。
DeepSeek-OCR压缩10倍,还原率是96.5%;压缩20倍,还原率还保持60%左右,效率大幅提升,能耗大幅减少。前特斯拉总监Karpathy对DeepSeek-OCR高度赞赏,认为它可能预示着“文本输入终将让位于像素输入“。

4.5亿年前,三叶虫进化出感光能力,生命第一次看见了光,随后地球物种涌现,史称寒武纪生命大爆发——动物通过眼睛看见世界,然后感知、然后行动。人类祖先也不例外,只是后来诞生了语言去认知和理解世界、改变了自己的命运,从而成为万物之灵。
目前大语言模型最大的争议,即其是个“瞎子“,仅从人类语言入手,并不能看见世界,也不能真正理解这个世界,有关观点在《“大语言模型是死路一条”》已论及。
DeepSeek-OCR为大模型安上了一双眼睛,触达了生命智能的源头——“看见”,尽管DeepSeek-OCR只是从二维的静态图像中识别和提取文字,还不是真正意义从动态的三维空间看见世界,但它无疑给人工智能模型,无论是广泛应用的大模型、视觉模型、多模态模型,还是在前沿探索的世界模型,提供了崭新思路和技术路线,犹如传说中的世外高手,使出了一招天外飞仙。这就是西方科技圈为之震撼的原因。
尽管OCR模型如此惊艳,但其影响力似乎只在科技圈。就像2024年底DeepSeek发布的V3,以极高的性价比和训练效率轰动西方科技圈,圈外却风平浪静,直到2025年1月R1推出,才在全球掀起人工智能应用浪潮,成为耀眼全球的科技明星。
OCR模型是否R2发布的前奏?看历史轨迹,极有可能。
本文由人人都是产品经理作者【微果酱】,微信公众号:【AI微果酱】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自DeepSeek官网截图
- 目前还没评论,等你发挥!

起点课堂会员权益




