仅 1B 参数吊打全场？腾讯开源 HunyuanOCR 成为 OCR 新晋顶流！

腾讯最近开源的参数不到 1B 的 HunyuanOCR，以 94.10 分直接冲到榜单第一，把前段时间大火的 PaddleOCR-VL、DeepSeek-OCR 都压在了后面，甚至在成绩上还反超了 Qwen3-VL-235B 这类超大体量模型。

关于HunyuanOCR的架构如下，可以看到它内置了一个0.5B的轻量的语言模型，也就是说我们可以通过提示词来约束OCR模型的内容输出格式。

看完官方技术报告的多个案例，我只能感叹一句：不愧是腾讯，HunyuanOCR 的能力不仅强大而且具有很高的商业价值。像下面这个例子，它甚至可以直接“看懂”箱线图表，并一键转成结构化的表格数据。

还有更复杂的情况，比如一张柱状图+折线图，HunyuanOCR 只用一句指令，就能直接读懂整张图，把数据自动整理成可直接使用的 Markdown 表格。

更夸张的是，它甚至可以直接理解流程图的结构，然后自动输出对应的 Mermaid 流程图代码（Mermaid 是一种用纯文本描述图表的标记语言，可以由支持的渲染器直接生成图像）。

除了这类图表的分析与转化的功能之外，HunyuanOCR 还可以直接当翻译工具使用：在下面这个例子中，它先识别出图片中的英文文本，再一口气输出对应的中文译文。

还可以识别艺术字体，比如下面这个文字logo识别的例子。

下面这个识别就有点离谱了：这张艺术字图片我自己都未必看得出来，HunyuanOCR 居然还能给出精准识别结果。

除了图表解析、图片翻译、艺术字这些高难度场景之外，HunyuanOCR 对传统的“图片转文字”就更是轻松拿捏了。，比如下面的数学公式和几何图的识别。

以及下面这类常用于测评 OCR 能力的发票场景，HunyuanOCR 也能轻松拿下：不仅完成识别，还能按字段要求直接输出结构化的 JSON 数据。

对于一张单词密集、而且还皱巴巴的图片，HunyuanOCR 依然能完整、准确地把英文单词全部识别出来。

不仅可以规规矩矩的识别所有文本，还可以根据你的要求检索然后识别出对于的字段。

还可以识别视频截图中的字幕信息。

最后，尽管这款模型看上去只有1B，但是目前只有16精度的模型版本，所以实际显存官方建议是20G。

需要讲一下，上面的例子都是官方的技术报告中列出来的，如果大家想看看实际的上手体验测评的话可以评论区留言哦。

还没有评论，来说两句吧...