作者:孙暕晖,IH-VQA团队队长;邵涛,IH-VQA队员
导语
在 ICCV 2025 MIPI Detailed Image Quality Assessment挑战赛中,来自微信测试中心的IH-VQA团队斩获大赛冠军。在比赛中,IH-VQA团队首创的iDetex细节质量评估方案,刷新了细节图像质量评价的业界标准,为图片质量优化提供更精准的迭代方向。本次比赛获得亚军的是来自Bilibili以及上海交大的联合团队,季军是来自理光中国研究院的团队。我们能从众多优秀团队中胜出,展示了微信在业界图像质量评估研究工作的一些成果。研究成果iDetex也正在微信视频号、音视频通话、微信电商等业务落地中。
一、任务背景
图像质量评估(Image Quality Assessment, IQA)旨在建立符合人类视觉系统(Human Visual System, HVS)感知特性的图像质量评价模型。随着AIGC等图像生成技术的飞速发展,对IQA模型的需求与日俱增,同时对其性能要求也愈发严苛。然而,传统IQA模型通常只能提供一个笼统的质量分数。这种“知其然,而不知其所以然”的单一评分方式,存在结果维度单一、可解释性差及泛化能力有限等核心局限。尽管业界已有研究尝试使用模型对图像的优点与不足进行概括性描述,但针对图像进行细粒度质量分析,例如对失真区域进行精准定位,以及评估特定失真在图像中的视觉表现和对人类视觉感知的影响仍然鲜有人涉足。
为应对上述挑战,推动IQA技术向更高层次的可解释智能迈进,抖音多媒体质量实验室与基础体验算法团队联合南开大学,在第四届ICCV MIPI Workshop上共同举办了细节图像质量评估(Detailed Image Quality Assessment)赛道。该赛道依托全新的ViDA-UGC数据集和评估基准,旨在激励研究者运用多模态大语言模型(MLLMs),开发能够同时实现图像失真精准定位、多维度感知和深度因果推理的新一代IQA系统,从而显著提升其智能化与实用性。
比赛链接:
二、细节图像质量评价赛事介绍
本次比赛使用的数据集 ViDA-UGC 分为图像元数据和指令微调数据两部分。
元数据包含11,058张图像的信息,涵盖总体质量等级、分辨率以及详细的失真信息(包括失真类型、位置、严重性及对图像影响的描述)等信息。其中,失真的类型包括了运动模糊、过曝、噪声等现实生活中常见的10种类型,失真的边界框和类型由人类标注,而相关的属性和描述则由GPT-4生成。
指令微调数据(约534K条)由三部分组成:ViDA-Description、ViDA-Perception和ViDA-Grounding,分别从图像描述、感知和失真定位三个维度对模型进行提问,并设有不同的评测方法。
图像感知(Perception): 包含2567道选择题,采用感知准确率(Perception Accuracy)作为评估指标。 失真定位(Grounding): 设计了两个子任务,均使用 mAP 指标进行评估。 失真定位(distortion): 模型需输出所有失真区域的边界框。 区域感知(region): 模型接收一个随机区域框,并输出该框内的失真类型和边界框。 图像描述(Description): 模型输出需遵循四个步骤: 简要描述图像内容。 定位所有失真,并分析其对特定区域的影响。 分析整体图像质量与视觉观感,并识别出关键失真。 总结图像质量,给出一个总体质量等级。
此任务使用 Description mAP 评估步骤2,使用 Key Distortions Accuracy(与真实关键失真框IoU > 0.5即视为正确)评估步骤3,使用 Image Quality Accuracy 评估步骤4。
最终,所有六个指标得分的总和构成最终得分(Final Score),即:
三、团队冠军解法介绍
3.1 iDetex模型总结构
iDetex的总体流程如图5所示。输入图像首先通过一个视觉编码器以提取一系列视觉特征token。这些特征,连同一个设定任务目标的System Prompt,一同被输入到一个大型语言模型中。在提示词的引导下,LLM执行一个思维链(Chain of Thought,CoT)式的分步推理过程:首先,它将对图像内容进行简要描述;其次,它会定位并详细分析图像中存在的各种失真(如失焦模糊、边缘锯齿和曝光不足);接着,它从所有失真中识别出影响质量的关键因素,如图中的关键失真是失焦模糊和曝光不足,它们严重影响了前景人物,对图像整体观感影响较大;最后,基于上述的思考过程,模型输出一个总结性的整体质量评级。最后我们会根据模型的输出将检测出的失真可视化到原图中以便用户查看。
3.2 特定任务Grounding增强:图像空间扰动
为提升模型在失真定位任务上的鲁棒性和泛化能力,我们引入了一系列空间扰动策略,主要包括随机裁剪和水平翻转。如图6所示,将输入的图片进行随机裁剪(图6上)和水平翻转(图6下),在进行变换时,失真区域的边界框坐标也进行相应的仿射变换以确保标注的有效,例如对于水平翻转增强,原始的边界框将由变为,其中为图像的宽度。
这种空间扰动增强方法有效丰富了训练样本的空间多样性,提升了模型对不同位置失真的检测能力。它促使模型关注失真的内在特征模式,而非依赖其在图像中的绝对位置。同时,该方法还作为一种隐式正则化手段,增强了模型的空间不变性,从而显著提升了失真定位的准确性与鲁棒性。
3.3 特定任务Perception增强:查询风格对齐
质量感知任务主要以多项选择题的形式呈现。我们分析了测试集问题的风格与格式,并利用训练集的元信息生成了与之风格对齐的问答数据。这种对齐策略使得训练数据与测试数据的查询分布保持一致,减少了模型在推理时因问题措辞差异而产生的困惑,使其能更专注于对视觉内容的理解,进而提高准确率。我们的修改侧重于风格统一而非语义变更,在保留原始数据属性多样性的前提下,仅重述问题以匹配格式。
3.4 特定任务Description增强:评分粒度细化
在原始设定中,Description任务要求模型同时完成失真定位、关键失真识别和总体质量评估,这易导致子任务间的相互干扰。为缓解此问题,我们对该任务进行了拆解:总体质量评估部分,我们复用Perception任务的Prompt进行推理;而失真相关问题则沿用原始Prompt。这种设计降低了多任务学习的认知负荷,提升了分数预测的一致性;该现象也说明了在一些场景下,CoT的输出可能给模型的性能带来负向效果。
同时,如图8下半部分所示,我们对总体质量评估的标签粒度进行了优化,将原始的5级评分(bad,poor,fair,good,excellent)细化为10级(a-j)。这使模型能够在更精细的粒度上学习,捕捉更细微的质量差异。在输出阶段,我们将细粒度预测结果映射回原始的5级评分,从而在保持结果格式一致性的同时提升预测精度。
具体来说,在训练阶段,我们首先需要将原始的主观平均分(Mean Opinion Score,MOS)扩展为10级精细标签。这可以通过一个线性映射函数实现:
例如,一张图片的MOS分数为 3.2。在5分制下,它被归为第3级fair。但通过细化公式,它被映射为6。第6级标签在图中对应为f。因此,模型将被训练去预测 "The quality of the image is <f>"。
在推理阶段,模型将为给出的图片输出一个10级的精细标签,如f。最后,我们通过一个逆向映射将其转换回标准的5级评分 。逆向映射的公式可以表示为
将模型的预测f代入得到3,对应着原始的fair等级。通过这种方式,模型需要在训练中学习“一般-”和“一般+”之间的细微差别,从而提高了整体的评估准确率。
3.5 数据混合&全局增强策略
该比赛包含众多子任务,一个自然而然的问题便是:为每个任务单独训练一个专用的模型,效果是否会更好?经过实验验证,答案是否定的。多任务的训练不仅提升了训练数据的多样性,而且可以让模型对接触到的知识进行融会贯通,从而在各个子任务上获得比只学习单个任务更高的性能。
因此,为实现高效的联合微调,我们将上述各个任务增强数据与原始训练数据进行混合。具体而言,我们按15%-45%的比例将空间扰动数据替换原始定位数据,用查询风格对齐数据完全替代原始感知数据,并用细化标签数据替代原始描述数据。最终使用混合增强数据集对模型进行端到端的联合微调。该策略确保每个任务都由最优化的监督信号引导,并通过共享的MLLM骨干网络,促进了定位、感知和描述能力之间的知识迁移与协同增强。
此外我们发现,提升输入图像的分辨率(如从256x256至2048x2048)能保留更多图像细节和微弱的失真线索,有助于模型进行更精细的感知,对模型的Grounding能力有较大的提升。同时,选择具有更强视觉编码与图文对齐能力的基础模型如InternVL3也能显著提升综合性能。
四、 iDetex算法落地业务——解决实际应用问题
4.1 iDetex与IQA传统算法效果对比
如图10所示,传统IQA模型只能输出一个1-5的分数和简短的画质描述,无法给出更多的细节解释;但是IH-VQA团队自主研发的细节图像质量评估模型iDetex却可以不仅输出它认为有问题的区域(损失框,如图10右侧红绿蓝三色区域)以及三个框中损失的详细描述(失真类型+严重程度),并给出一个综合的诊断(失真框1是本图中的关键失真)。
相较于传统的IQA模型,我们的细节图像质量评估(Detailed Image Quality Assessment, DIQA)模型iDetex不仅能评估图像的整体质量,更实现了重大突破:将质量评估从“打分”升级为“诊断”。具体而言,iDetex模型能够:
精准识别失真类型: 判别图像中存在的具体失真,如模糊、噪点、压缩伪影、过曝等。 定位失真区域: 准确框选出失真在画面中的具体位置。 分析失真影响: 说明失真对整体画质及人类视觉感知的负面影响。
这种多维度的深度分析,将模糊的数值分数转变为清晰、可执行的“诊断报告”,极大地提升了模型的可解释性,同时为后续的图像质量优化指明了明确的方向。DIQA模型强大的可解释性,使其能无缝融入多样化的业务场景,创造切实的商业价值。
4.2 图文/短视频/直播场景
在内容创作领域,iDetex能够自动评估素材质量,从而提升作品吸引力:对于图文、短视频或直播创作者,封面或内容的画质直接影响点击率和用户观感。DIQA方案能够自动反馈“封面图人脸区域模糊”或“视频后段光线过暗导致噪点过多”等具体问题,并给出优化建议,帮助创作者快速提升作品质量。
图11展示了 iDetex 模型 在视频封面质量评估中的实际应用效果。首先模型分析了图像的主要内容:一位女士穿着白色连衣裙站在桥上,并给出了整体质量评分4.02,这符合预期,因为图像主体人物较为清晰,观感良好。
同时,模型准确判断出了图像出现的失真并且定位了失真的位置。分别是人物处的边缘锯齿效应,与城市景观的失焦模糊失真,导致细节不清晰;其中,失焦模糊被识别为关键失真,因为其对图像背景城市景观产生了较大的影响。
4.3 画质折损分析场景
在长链路的画质折损分析中,iDetex可以为算法提供明确优化方向: 画质损失是哪个阶段引入的?是用户上传的原片本身就不清晰,还是在转码/传输等环节出现了问题?DIQA方案能够对样本进行精细化分析和定位,量化指出“边缘锐度不足”、“色彩还原失真”等具体问题,为影像算法的迭代优化提供精确的数据支持,从而推动高清、精细画质内容的生产。
图12. 常见的画质损伤链路,iDetex可以在链路折损画质中,逐一检查画质损伤核心区域,给出折损建议和圈出关键区域(示意图))
如图12所示,这是一张演示“图像从原片到转码再到传输上屏”的对比图,随着转码与网络传输的进行,画质分从约4.08递减到3.5、再到2.49,同时画面清晰度和细节逐步下降,红框中也显示了细节损失最明显的区域。
画质的另外一种损伤引入方式也不容小视,那就是原片画质损伤。图13展示了 iDetex 模型在影像算法优化场景中的实际应用效果。首先,模型分析了图像的主要内容:一艘船上的人在水面上,前景有粉红色的花朵。模型给出的整体画质评分为2.197,这是一个较低的分数,反映了图像存在较严重的质量问题,也通过“原片->转码->上屏“链路检测出是原片阶段可能出现的问题。
图13. iDetex能够给出摄像头拍摄不清成因,应用于高清/精细画质内容生产领域(iDetex实际使用截图1)
同时,模型准确判断出图像存在的具体失真,并定位了失真区域。分析结果指出,图像在船上的人物和前景的花朵区域同时存在“运动模糊(严重)”和“低清晰度(严重)”两种失真。这两种失真被识别为关键损伤,因为它们都严重影响了图像的重要区域人物和花朵,导致大量细节、纹理和清晰度折损。
4.4 电商场景
在电商领域,iDetex可以加速审核流程,提高商家上新效率: 电商商家上传的商品图常因画质不符平台规则(如模糊、有水印、主体不突出)被驳回,延长上架周期。iDetex模型可在上传环节即时进行质量检测,精准告知“商品主体边缘模糊”或“图片亮度过低”等不合规原因,引导商家一次性修改到位,缩短审核流程。
图14. 在电商领域,iDetex可以给出上架商品配图不符合平台规则的质量归因,帮助商家快速上架平台(iDetex实际使用截图2)
图14 展示了 iDetex 模型 在电商商品图像质量检测中的实际应用效果。模型首先对图像内容进行了分析,识别出主体为摆放在木质台面上的两颗黄色水果及一杯果汁,并给出了整体质量评分 3.906,反映出图像质量较为不错。
同时,模型精准检测并定位了图像中的多处质量问题:包括“边缘锯齿效应(中等)”和两处“失焦模糊(中等)”。其中,边缘锯齿效应出现在果壳边缘,导致轮廓不平滑、清晰度下降;失焦模糊主要影响了背景及玻璃杯区域,使整体锐度不足、细节丢失。模型进一步识别出“边缘锯齿效应”为关键失真,因为其直接影响商品主体水果的视觉吸引力与展示效果。
五、IH-VQA团队斩获冠军
经过两轮激烈角逐,微信测试中心IH-VQA团队最终从众多参赛队伍中脱颖而出,成功摘得本次赛事冠军。相关技术方案已整理为论文,并被计算机视觉顶级会议ICCV 2025 Workshop接收。
在核心评测指标方面,我们的模型在 Perception Accuracy(+4%)、Region mAP(+4%)、Distortion mAP(+6%)、Image Quality Acc(+2%)等多项关键指标上均显著领先第二名,刷新了当前领域的性能基准。
秉承“竞合相长”的理念,我们始终保持开放的技术交流态度,通过内部协同创新和外部学术合作不断优化技术体系。未来,IH-VQA团队将持续深耕VQA与质量评估领域,重点突破多模态质量评价、实时质量监测等关键技术,并着力将研究成果转化为视频号短视频、直播、朋友圈等核心业务场景的解决方案,为平台内容生态建设提供更精准的智能质量保障。
六、感谢
成绩的获得离不开团队的努力,感谢每一位参赛队员的辛苦付出,比赛成员如下:
孙暕晖、岳新立、谢育浩、邵涛、赵钊然。
展望未来,我们将继续保持探索精神,专注于构建面向复杂场景的精细化、可解释的音视频质量评估体系,携手业界同仁共同进步!
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……




还没有评论,来说两句吧...