前言
在文本编辑领域,设想一种技术:无需复杂控制信号,只靠字形图像和少量训练数据,就能把文字“无缝”嵌入真实场景——中文招牌、日文海报、韩文标语,多语言统统适用。这就是 TextFlux 带来的全新体验,由bilibili人工智能平台部,联合北京大学王选所提出。
TextFlux 不再依赖 OCR 编码器和繁复的监督信号,而是把渲染好的字形直接贴进场景,让模型型专注学习“如何与周围环境自然融合”。思路直观,架构简洁,却能生成更真实、更快捷、更通用的多语言场景文本编辑效果。相关代码、权重和数据集均已开源。截至目前,该项目已支持ComfyUI,能够在消费级显卡上部署和运行。
图1 TextFlux项目开源页面
相关链接
背景介绍
场景文本编辑需兼顾两方面:一是文本“拼写”精确性,二是与场景视觉的自然融合。传统方法虽强化拼写,却容易产生“贴片”感;或者反之,虽融合逼真,但文本识别失败。借助扩散模型(DiT)优越的上下文推理能力,TextFlux 摒弃了传统方法基于 OCR 编码器的复杂条件注入,将渲染的字形图像与场景图像在空间维度融合,转而让模型专注于“如何将字形自然融入场景”,而非“如何认识文字”。在多行生成和单行生成领域,TextFlux都有不俗的表现。
多行生成
TextFlux能够一次性编辑生成多行文本,每一行文字的内容、位置和风格都可以精准调整,文字与场景无缝融合,既真实又具有可读性。
关键特征
单行生成
针对多行一次性生成时存在小文本生成效果不佳的问题,考虑到单行文本编辑是许多用户的核心使用场景,并且往往能产生更稳定、更高质量的结果。团队发布了针对该场景优化的beta 版权重模型。与原始模型在整幅全尺寸掩码上渲染字形不同,beta 版本采用单行图像条作为字形条件输入。这种方式既减少了不必要的计算开销,又能提供更加稳定且高质量的监督信号,从而直接提升单行和小字体文本的渲染效果。
关键特征
显著提升单行文本渲染质量。
单行文本推理速度提升约 1.4 倍。
大幅提高小尺寸文本的合成准确性。
效果展示
出色的多语言编辑能力
TextFlux 在多语种场景文本编辑任务中表现优异,能够高质量生成不同语言的文本,满足多元化视觉场景编辑需求。即便是新加入的低资源语言,只需少于 1,000 条样本,TextFlux 也可迅速适配并生成高质量文本,极大降低了数据标注和获取门槛。
图2 TextFlux编辑多语言场景文本
优越的视觉保真度和文本准确性
在视觉保真度和文本准确性两个方面,TextFlux 在定量评测和定性对比中均优于现有SOTA的文本编辑方法。尤其对于低分辨率的输入图像,TextFlux能够自适应的生成相对更清晰的文本。在一次性多行生成和单行生成的场景下,TextFlux都具有不俗的表现。甚至在和目前参数量十倍于己的基于LLM的图像生成模型相比较也取得了可比的效果。
与已有基于Diffusion方法的比较
图3 TextFlux与已有基于扩散模型的文字编辑方法的比较
与目前基于LLM的文生图模型的比较
图4 TextFlux与已有基于LLM的文字编辑方法的比较
可扩展性及Zero-Shot能力
得益于其创新的 OCR-Free 架构与视觉融合机制,TextFlux 对训练集中未包含的字符也能实现即时渲染(zero‑shot),有效拓展了应用场景。目前对于训练集中未见到的生僻中文字符及横排小语种,TextFlux有很好的泛化能力。尽管在未经特别挑选的情况下,个别字符有概率出现错误,但依旧证明了架构在OOD问题上强大的泛化能力。值得注意的是,目前生成连笔文字如阿拉伯文上,TextFlux的能力受限,这也是本工作将来的优化和研究方向之一。
图5 TextFlux在未见字集和未见语言上的Zero-shot能力
图6 TextFlux生成连笔文字的能力尚有待加强
保留原始基座的通用能力
此外,TextFlux不会改变原本基座模型的通用能力,具备良好的可扩展性,基于提供的权重,能够赋予其他基于该基座模型的工作多语言的生成能力。
图7 TextFlux很好的保留了Flux-Fill的通用能力
总结
TextFlux 打破了场景文本编辑的瓶颈,提出一种“OCR-Free”架构:只用字形图像作引导,依托 Diffusion Transformer(DiT)完成生成。相比需要额外视觉-文本控制模块和海量标注的方法,它结构更精简、数据效率更高,支持多语种、多行文本及复杂字形,甚至对未见字符也能零样本泛化。这一新范式不仅提升了视觉真实度和文字准确率,也为多语言文本融合落地提供了可行路径。
-End-
作者丨seasonxy、墨枢、Jerry酱
开发者问答
随着通用大模型的生成能力越来越强,大家觉得通用大模型未来如何能cover多语种的问题呢?
欢迎在留言区分享你的见解~
转发本文至朋友圈并留言,即可参与下方抽奖⬇️
小编将抽取1位幸运的小伙伴获取龙年蛇来运转系列 小电视毛绒挂件
抽奖截止时间:9月26日12:00
如果喜欢本期内容的话,欢迎点个“在看”吧!
往期精彩指路
丨丨
丨丨
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...