近年来,音频大语言模型(LALMs)如 GPT-4o 迅速发展,已具备直接进行语音对话的能力,标志着人机交互迈入“开口即交流”的新时代。然而,当前模型在理解人类隐含意图(如阴阳怪气、讽刺)时表现堪忧。例如:同一句“你可真厉害”通过语调变化可表达真诚赞美或尖锐讽刺,而 LALMs可能仅依赖文本字面含义,丢失语调信号(音高、重音、语速等),导致无法捕捉言外之意。针对这一问题,我们提出ADU-Bench,该成果发布在ACL 2025上:《Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models 》
01
问题背景
音频大语言模型(LALMs)因其在处理各类音频相关任务中的能力而受到广泛关注。尤其是,LALMs 近期解锁了前所未有的人机交互语音对话能力,促进了更加动态的沟通方式。近期的技术进展,例如 GPT-4o,使得 LALMs 能够与人类进行实时、反复的语音对话,显著拓展了其在依赖互动语音对话的多种现实应用场景中的适用性。
然而,尽管技术迅速发展,目前仍缺乏一个全面的评估基准来系统衡量 LALMs 在开放式音频对话理解中的表现。现有的评估工作多聚焦于基本任务的表现、基于文本指令的音频问答,或是一般性的音频对话场景这种缺乏针对开放式语音对话的系统评估基准的现状,导致不同 LALMs 间的比较缺乏统一、客观的依据。
开放式音频对话,即用户通过语音直接与 LALMs 互动,构成了现实世界中大量关键交互形式。这类对话可以涵盖多种主题,如日常问题、专业技能、甚至跨多种语言。同时,语调变化或停顿位置的不同也可能使说话者在字面语义一致的情况下传达出完全不同的意图,进一步加剧了理解的复杂性。
为此,我们提出了一个音频对话理解基准(ADU-Bench),用于系统评估 LALMs 在开放式音频对话理解中的表现。值得注意的是,我们首次对音频对话中的歧义性进行了系统分析,特别聚焦于同一句字面语句在不同语调下表达不同意图的挑战,例如以阴阳怪气的语调说出的 “你可真厉害”,通过语调变化可表达真诚赞美或尖锐讽刺。
图1 ADU-Bench的总体示例
02
ADU-Bench构造
ADU-Bench 是一个面向音频大语言模型(LALMs)开放式语音对话理解能力评估的基准数据集,共包含 20,715 条对话样本,其中超过 8,000 条为真实人声录音。该基准被系统划分为以下四个子数据集。
ADU-General包含 12,000 条通用对话,覆盖三类场景(Helpful Questions、Daily Questions、Daily Statements);ADU-Skill共 3,750 条数据,覆盖 12 项专业技能(如数学、物理、编程、金融等);ADU-Multilingual包含 3,600 条多语言对话,涵盖 9 种语言(中、英、法、德、日、韩、俄、西、阿)。
ADU-Ambiguity专注于 1,390 条语音歧义样本,首次系统定义 4 类歧义:语调(prosody)、停顿(break)、同音词(homophones)、重复词(repetition),通过SSML标记(Speech Synthesis Markup Language)精确控制语调特征。具体来说,分为以下四种情况:
语气歧义(Intonationbased):相同文本“Really!?”,如果带有兴奋上扬的语气,意味着“真是太棒了!”,而用低沉讽刺的语调,则是“哦,是吧?”的质疑或不满。此外,疑问句与感叹句的边界也往往在声调中体现 。
停顿歧义(Pausebased):比如“professional reviewers and authors”,在“reviewers 和 authors”之间做停顿,可能暗示两者都很专业;若停在“professional reviewers”和“and authors”之间,则只肯定评审,暗含对作者的不满。
同音歧义(Homophonebased):英语中“weight”和“wait”发音几乎一致,考察对同音异义的理解。
重复歧义(Repetitionbased):句子“I saw a man saw a saw with a saw.”中连续出现的“saw”和“saw”既可作动词也可作名词,考察对一词多义的理解。
表1 ADU-Bench的数据统计
ADU-Bench评估流程如下:LALMs 接收语音输入并生成文本响应,之后与 GPT-4 生成的参考答案进行比对。采用 GPT-4 进行自动评分(0–10 分)。
图2 ADU-Bench的评估框架
03
实验结果
我们对多个主流音频大语言模型(LALMs)在开放式音频对话理解任务上的表现进行了系统评估。
实验结果显示:经过音频指令微调的模型整体表现更优,具备更强的对话交互能力与语音场景适应性。此外,级联式处理架构(如语音识别 + 语言模型)通常能带来更高的理解精度,并在多项评估任务中优于端到端模型,显示出其在当前技术阶段的实际优势。
值得强调的是,GPT-4o 作为当前最先进的闭源模型,在所有评测中表现最佳,平均得分为 8.16,显示出其在音频对话理解任务中的领先性能。
表2 ADU-Bench的评估实验结果
在通用音频对话理解方面,模型对需要精确信息检索的帮助型问题表现较好,但在日常问答和陈述中理解能力较弱,显示其对丰富上下文和自然交流的把握仍需提升。
在专业技能领域,模型在生物、法律、金融等语言主导领域具备一定知识储备和理解能力,但在涉及数学符号、公式和编程语言的领域表现较差。
多语言能力方面,模型在英语及部分印欧语系语言表现相对较好,但对于其他语言的理解能力明显不足,表明当前多语言支持仍有较大改进空间。
在语音歧义阴阳怪气处理上,模型能够较好地处理不依赖语音特征的重复词歧义,但在语调、停顿和同音词歧义等需要感知细微语音差异的任务中表现较弱,说明语音细节的理解仍是音频大语言模型面临的重要挑战。
图3 ADU-Bench中四个数据子集的评估实验结果
04
总结与思考
本次基于 ADU-Bench 的评测系统揭示了音频大语言模型(LALMs)在开放式音频对话理解方面的优势与不足。虽然模型在信息检索和部分专业领域表现尚可,但在处理复杂语音歧义和多语言场景时仍面临显著挑战。特别值得关注的是,LALMs 在识别和理解“阴阳怪气”这类语调歧义方面表现极为有限。
“阴阳怪气”语调,即表面上看似赞美或中性,实则含有讽刺、挖苦等隐含意图的表达方式,严重考验模型对副语言特征的感知能力。因此,未来提升 LALMs 的音频对话理解能力,需要重点突破对阴阳怪气等复杂语调的感知与解析能力。这需要引入更细粒度的声学特征建模,结合多模态信息深入挖掘语音中的情感和意图变化。
总之,ADU-Bench 的系统评测不仅暴露了 LALMs 在音频理解上的短板,更明确了阴阳怪气语调等副语言特征的理解瓶颈,推动我们向更加自然、精准的语音交互迈进。在未来的研究中,我们将从多个 OOD(Out-of-Distribution)视角进一步评估 LALMs 的鲁棒性与音频理解能力,评估模型对复杂语音表达的洞察力,从而更好地服务于现实生活中的多样化语音交流需求。
论文链接:
https://arxiv.org/abs/2412.05167
代码链接:
https://github.com/KuofengGao/ADU-Bench
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...