最近 AI 圈又出新花活儿了,DeepSeek 团队悄咪咪地开源了一个 30 亿参数的小模型,名叫DeepSeek-OCR。
别看体量不大,想法可是够炸的:他们居然打算让 AI用看图的方式去读文本。
没错,真 " 看图识字 "。
而且不只是识字,而是让 " 视觉模态 " 成为一种文本压缩介质,用图片来代表文字,用 " 视觉 token" 取代 " 文本 token",实现所谓的光学压缩(Optical Compression)。

说实话,老狐看到这论文内容的时候,第一反应是:他们是想让语言模型也上美术课?
不过仔细一想,还真挺有道理。
大语言模型(LLM)最大的痛点是什么?处理长文本太烧算力。
大家都知道,大模型的注意力机制复杂度是平方级的。你给它 2 倍的输入,它要算 4 倍的东西;你让它记住一整个长文档,它立刻开始 " 烧卡烧心 "。
那能不能换个思路?DeepSeek 团队说:既然一张图能装下好多字,那不如把文本直接变成图像,再让模型去看图!

论文里有个特别直观的例子:原本 1000 个 token 才能表达的内容,现在只用 100 个视觉 token 搞定,压缩 10 倍,还能保留 97% 的 OCR 准确率。
再狠点,压缩 20 倍也还能保留约 60% 的准确率。这意味着,模型 " 读图 " 的效率,居然比 " 读字 " 还高。
换句话说,模型没丢太多信息,但算力负担轻了十倍。

不少网友看到这里都傻了:AI 处理图像用量比长文本还少?这反人类直觉啊!
也有网友感叹:DeepSeek 这是想让模型 " 看文档像刷朋友圈 " 一样轻松。
老狐觉得,这波操作可以称得上 " 反向降维打击 "。
过去我们都在想办法让模型更懂文字、看得更远;DeepSeek 直接反着来:让模型把字变成画,再 " 看画识文 "。有点像回到了人类最原始的沟通方式:象形。
说到这儿,得聊聊这模型到底咋做的。DeepSeek-OCR 由两部分组成:DeepEncoder(看图压缩)+DeepSeek3B-MoE(解码还原)。
前者是整个系统的 " 压缩引擎 ",它把两大视觉猛将 SAM-base 和 CLIP-large 串起来:
SAM 负责盯细节的 " 窗口注意力 ",CLIP 负责抓整体的 " 全局注意力 "。中间还塞了个 16× 卷积压缩模块,专门砍 token。
比如说,一张 1024×1024 的图片,理论上要被切成 4096 块去处理,现在被这个压缩模块一刀下去,直接瘦身成几百个 token。
这样一来,既保留了清晰度,又不炸显存。

而且它还支持多档分辨率模式:Tiny、Small、Base、Large,还有一个代号叫 "Gundam(高达)" 的动态模式。
你没看错,这模型甚至取名都带点 " 中二魂 "。
解码器部分则是 DeepSeek 的老本行:MoE(混合专家)架构。
64 个专家中每次只激活 6 个,再加两个共享专家,实际算力只动用了约 5.7 亿参数,但性能媲美 30 亿模型。又快又省,堪称 " 节能灯中的战斗机 "。
它的任务也不复杂,就是从那些压缩后的视觉 token 里,把文字 " 解码 " 回来。
整个过程有点像 OCR 的升级版,不过,这次是模型自己在 " 看图猜字 ",而不是人类教它识字,而且猜得非常准。
当然,要把这玩意训好,得先喂够粮。DeepSeek 这回可是下了血本:整整 3000 万页 PDF 文档,涵盖 100 种语言,其中中英文就占 2500 万页。
他们还整了个 " 模型飞轮 ":先用一个版面分析模型粗标数据,再用 GOT-OCR 之类的模型做精标,训练一遍,再反过来标更多数据。
循环往复,模型自己喂自己长大。

除此之外,还有 300 万条 Word 文档,专门练公式识别、HTML 表格提取,甚至包括金融图表、化学结构式、几何图形等奇奇怪怪的图像结构,也都被塞进训练集中。
DeepSeek 还从 LAION、Wukong 这些开源数据集抓了中英文各 1000 万张场景图,用 PaddleOCR 标注。
可以说,这波训练,真的是 " 从理工科到艺术科全覆盖 ",真真正正用数据砸出来的聪明脑袋。
那效果咋样?论文里放了几组结果,非常能打。
在 OmniDocBench 测试上,DeepSeek-OCR 用100 个视觉 token就超过了 GOT-OCR2.0(每页 256 token)。用不到800 个视觉 token,又超越了 MinerU2.0(每页 6000+ token)。
性能更强、输入更短、推理更快。

这速度,简直是 "AI 印刷机 "。
不过,最让老狐拍案叫绝的,是论文最后那个脑洞:光学压缩还能模拟人类遗忘?
人脑的记忆会随时间衰退,旧事模糊,新事清晰。DeepSeek 团队就琢磨:那 AI 能不能也学会 " 忘 "?
如果 AI 也能像人一样 " 选择性记忆 ",是不是就能在超长对话里活得更轻松?
他们设计了一个实验设想:超过第 k 轮的历史对话内容,就渲染成图像;先压一遍,减少 10 倍 token;再久远一点,继续缩小图像尺寸;图像越小,信息越模糊,最终就 " 忘掉 " 了。

有网友看完直接感叹:这不就是在模拟人脑记忆机制嘛!

当然,也有人泼冷水:DeepSeek 的幻觉高得惊人,这要是再给它学会 " 忘 ",怕是忘得比人还快。
老狐看完这部分,是真觉得有点哲学意味。AI 的记忆,到底该无限延展,还是学会遗忘?
DeepSeek 给出的答案是后者,它用视觉的方式,让模型在 " 压缩 " 的同时,也 " 过滤 " 掉冗余。就像人脑那样:只留有用的信息。

这背后的意义,比 OCR 本身更大。它在重新定义 " 上下文 " 的概念:不是记得多,而是记得精。
说到底,DeepSeek-OCR 看似是个 OCR 模型,实则是在试探一种新范式:能不能用视觉模态来高效承载语言信息?
在所有人都往 " 更大、更长、更贵 " 的方向卷的时候,DeepSeek 却反手做了个 " 更小、更快、更巧 " 的模型。
这事儿本身就很 DeepSeek。
老狐最后想说一句:AI 的进化,可能并不总是加法,有时候减法更优雅。
DeepSeek-OCR 就是个活生生的例子:一个 3B 小模型,玩出了长文本压缩的新思路,甚至顺手摸到了 " 记忆与遗忘 " 的边界。
如果说去年是 " 谁能记住更多 ",那今年,可能是 " 谁能忘得更聪明 "。而 DeepSeek,这次又走在了前头。


登录后才可以发布评论哦
打开小程序可以发布评论哦