腾讯最近开源的参数不到 1B 的 HunyuanOCR,以 94.10 分直接冲到榜单第一,把前段时间大火的 PaddleOCR-VL、DeepSeek-OCR 都压在了后面,甚至在成绩上还反超了 Qwen3-VL-235B 这类超大体量模型。
关于HunyuanOCR的架构如下,可以看到它内置了一个0.5B的轻量的语言模型, 也就是说我们可以通过提示词来约束OCR模型的内容输出格式。
看完官方技术报告的多个案例,我只能感叹一句:不愧是腾讯,HunyuanOCR 的能力不仅强大而且具有很高的商业价值。像下面这个例子,它甚至可以直接“看懂”箱线图表,并一键转成结构化的表格数据。
还有更复杂的情况,比如一张柱状图+折线图,HunyuanOCR 只用一句指令,就能直接读懂整张图,把数据自动整理成可直接使用的 Markdown 表格。
更夸张的是,它甚至可以直接理解流程图的结构,然后自动输出对应的 Mermaid 流程图代码(Mermaid 是一种用纯文本描述图表的标记语言,可以由支持的渲染器直接生成图像)。
除了这类图表的分析与转化的功能之外,HunyuanOCR 还可以直接当翻译工具使用:在下面这个例子中,它先识别出图片中的英文文本,再一口气输出对应的中文译文。
还可以识别艺术字体,比如下面这个文字logo识别的例子。
下面这个识别就有点离谱了:这张艺术字图片我自己都未必看得出来,HunyuanOCR 居然还能给出精准识别结果。
除了图表解析、图片翻译、艺术字这些高难度场景之外,HunyuanOCR 对传统的“图片转文字”就更是轻松拿捏了。,比如下面的数学公式和几何图的识别。
以及下面这类常用于测评 OCR 能力的发票场景,HunyuanOCR 也能轻松拿下:不仅完成识别,还能按字段要求直接输出结构化的 JSON 数据。
对于一张单词密集、而且还皱巴巴的图片,HunyuanOCR 依然能完整、准确地把英文单词全部识别出来。
不仅可以规规矩矩的识别所有文本,还可以根据你的要求检索然后识别出对于的字段。
还可以识别视频截图中的字幕信息。
最后,尽管这款模型看上去只有1B,但是目前只有16精度的模型版本,所以实际显存官方建议是20G。
需要讲一下,上面的例子都是官方的技术报告中列出来的,如果大家想看看实际的上手体验测评的话可以评论区留言哦。
相关信息地址:
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……




还没有评论,来说两句吧...