智能语音，让沟通更顺畅，让医疗更温暖 | CNCC - 新鲜讯息

国家领导人指出，残疾人是中国式现代化的重要力量；CCF秀湖会议亦以“智能时代的科技助残”为主题。作为人工智能的重要分支，语音技术虽已普及，但在构音障碍、失语症等群体中的识别精度仍有限，对抑郁、焦虑等情感状态的感知与交互能力亦有不足，在认知障碍人群的辅助沟通与干预方面潜力尚未充分释放。国家政策已将辅助技术、情感计算与认知辅助列为重点攻关方向，为语音技术的包容性应用提供了明确指引。

本论坛聚焦语音技术在沟通与认知支持中的前沿进展与挑战，旨在汇聚跨学科力量，探讨如何通过语音技术弥合沟通鸿沟、提供认知支持，涵盖构音障碍评估、喉镜数据分析与语音修复、精神健康语音建模、跨模态视听内容生成、以及构音障碍语音识别对心理健康的促进，面向残障、言语障碍、精神心理障碍和认知障碍人群。论坛旨在推动语音交互迈向“可理解、能共情、善支持”的新阶段，实现科技与助残、助康、助老等民生事业的深度融合，为多元需求群体提供精准而温暖的支撑。最终面向中国民生健康需求，提出具有示范意义的“中国方案”。

论坛安排

📍论坛名称：

智能语音赋能医疗：病理语音处理与辅具技术探索

顺序	主题	主讲嘉宾	单位
1	运动性构音障碍的客观评估方法	燕楠	中国科学院深圳先进技术研究院
2	音视频喉镜数据分析及电子喉与耳语语音的修复	李明	昆山杜克大学
3	可计算的精神健康语音及文本研究	吴梦玥	上海交通大学
4	AI赋能信息无障碍：视听内容生成研究进展	刘李	香港科技大学（广州）
5	构音障碍语音识别系统使用对残疾人心理健康的促进	刘烨	中国科学院心理研究所
6	Panel环节	王甦菁	中国科学院心理研究所
		凌震华	中国科学技术大学
		燕楠	中国科学院深圳先进技术研究院
		李明	昆山杜克大学
		吴梦玥	上海交通大学
		刘李	香港科技大学（广州）
		刘烨	中国科学院心理研究所

论坛主席

王甦菁

CCF理事，中国科学院心理研究所副研究员

中国科学院心理研究所副研究员、博士生导师。在TPAMI、TAC、TIP、TNN、ECCV等国内外重要期刊和会议发表论文百余篇。曾获2018年第八届吴文俊人工智能科学技术奖一等奖、2023年度北京市科学技术奖自然科学二等奖，2019—2024年连续六年入选斯坦福全球前2%顶尖科学家榜单。北京2022年冬残奥会火炬手，被新华社誉为“中国版霍金”，第七届全国自强模范。

论坛共同主席

凌震华

CCF语音对话与听觉专委秘书长，中国科学技术大学教授

中国科学技术大学信息学院教授、博士生导师，语音及语言信息处理国家工程研究中心副主任，入选教育部CJ学者校企联聘学者。主要从事语音信号处理、自然语言处理等方向的研究。主持国家自然科学基金、国家重点研发计划等项目，发表论文200余篇，总被引超1万次。曾获国家科技进步奖、IEEE信号处理学会最佳青年作者论文奖，多次在国际语音语言技术评测中获第一名。

论坛讲者

燕楠

中国科学院深圳先进技术研究院研究员

中国科学院深圳先进技术研究院研究员、博士生导师，中科院特聘研究员，深圳市海外高层次人才“孔雀计划”引进人才。主要研究语音信号处理与人工智能、退行性脑疾病识别及智能言语康复技术。近五年主持国家重点研发计划课题、国家自然科学基金等多项科研项目，累计经费超千万，发表SCI/EI论文百余篇，申请专利18项（授权12项）。担任IEEE TASL、IEEE TBME等十余本国际期刊审稿人，ICASSP、INTERSPEECH等会议审稿人，兼任多项康复与言语学术组织委员。

报告题目：运动性构音障碍的客观评估方法

报告摘要：运用语音分析技术和人工智能方法对构音障碍的严重程度进行客观评估已成为语音领域在医疗中应用的热点问题，受到语音领域的学者的广泛关注。由于这个研究方向是一个非常交叉的方向，需要多领域、多学科的知识，对语音领域的学者是个挑战。在本报告中，我将从一些医学背景、构音障碍的类型、背后的病理机制、语音特征、现在的主流方法等方面进行一个概述，介绍当前最新研究进展，使相关领域学者能够从不同角度了解语音人工智能如何应用于病理语音的客观评估方向研究。

李明

昆山杜克大学教授

CCF语音对话与听觉专委会常务委员，昆山杜克大学电子与计算机工程学教授、博士生导师，数字创新研究中心研究员，江苏省六大高峰B类人才。研究方向涵盖智能语音处理与多模态行为信号分析。发表论文200余篇，谷歌学术引用逾1万次，带领团队十余次获国际评测冠军，两次获国际会议最佳论文奖。任IEEE SLTC委员、APSIPA专委会委员，TASLP、CSL等期刊副主编。获IBM Faculty Award、ISCA最佳期刊论文奖、教育部高校科研优秀青年成果奖等荣誉。

报告题目：音视频喉镜数据分析及电子喉与耳语语音的修复

报告摘要：首先，从实际喉镜数据分析对喉部疾病检测的角度，介绍基于语音关键词检测和视觉声门检测的数据预处理方法，利用Unet, 扩散网络及大型通用分割模型对声门和声带进行分割的方法，以及后端计算关键声带运动参数用于预测喉麻痹的方法，探索如何基于真实带噪喉镜音视频数据进行自动喉麻痹检测。然后，从喉癌病人声带切除后使用电子喉发声的角度，介绍多种基于深度学习的语音修复方法。最后，将病理语音转换扩展到一些相近的语音修复任务，例如耳语语音的修复与转换。

吴梦玥

上海交通大学副教授

上海交通大学计算机系副教授、博士生导师，CCF高级会员、CCF听觉语音与对话专委会委员，浦江人才计划入选者。主要研究语音与多模态智能在精神健康中的应用，主持国家自然科学基金、上海市浦江人才项目、阿里巴巴达摩院Air项目等。长期与上海市精神卫生中心合作，参与国家社科基金重大项目，承担医工交叉研究计划，推动语音与人工智能在抑郁、双相障碍及认知功能筛查中的应用。相关成果获上海市数字医学技术及应用创新大赛二等奖。

照片：

报告题目：可计算的精神健康语音及文本研究

报告摘要：数字化心理健康逐渐受到重视，言语智能在精神疾病检测中展现出巨大潜力。研究结合声学、文本与对话，多维度探索抑郁症等疾病的诊断方法：提出基于自监督学习的抑郁特征提取和语音-文本联合检测方法；构建抑郁症问诊数据集，开发具备共情机制的智能问诊系统；利用社交媒体数据，首次提出以症状为核心的序列化诊断方式，提升模型精度与可解释性。同时探索大模型在医患交互模拟中的应用。研究为精神疾病的智能诊断提供了工具，也为理解其言语行为特征开辟了新方向。

刘李

香港科技大学（广州）副研究员

香港科技大学（广州）助理教授、博士生导师，研究方向为视听语音识别与生成、多模态学习与人工智能。在TPAMI、TMM、TASLP、NeurIPS、ICCV、ICASSP等顶级期刊会议发表论文50余篇。入选广州市青年拔尖人才、深圳市“孔雀人才”，主持国家自然科学基金重点(课题)及面上、青年项目，以及腾讯、阿里巴巴等企业项目。曾获2017年法国Sephora Berribi女性科学家奖，团队成果获ICSR最佳学生论文提名奖及深圳市人工智能优秀论文奖。

报告题目：AI赋能信息无障碍：视听内容生成研究进展

报告摘要：随着AIGC技术的发展，视听内容生成正从单一模态迈向跨模态情感智能融合，并在影视、互动媒体、数字教育等领域需求激增。本报告将介绍近期工作，包括跨模态拟人化有声书生成、长视频配音与舞蹈视频配乐。同时，在中文线索语生成与识别方面，提出跨模态互学习框架：利用低秩Transformer实现高效交互，并在生成模块中融合思维链提示学习与扩散模型，结合大语言模型解析文本与手势特征的复杂关联，显著提升识别效率与生成准确度，推动信息无障碍发展。

刘烨

中国科学院心理研究所副研究员

中国科学院心理研究所副研究员、博士生导师。主要研究认知与情绪心理学，致力于心理学与计算机科学的交叉研究，在人机交互、谎言识别、情感计算等方向开展工作。主持和参与国家重点研发计划、国家自然科学基金等10余项，发表论文40余篇，参与著作7部，获国家发明专利1项、实用新型专利8项，参与制定人工智能领域手势交互与情感计算国家标准2项。现任CCF人机交互专委会委员、CAAC人工心理与人工情感专委会委员、CSIG人机交互专委会委员。

报告题目：构音障碍语音识别系统使用对残疾人心理健康的促进

报告摘要：言语沟通是人类社会互动的基础，我国逾130万构音障碍者因语音可懂度低，常陷入“表达受限—社交回避—心理困扰”循环。通过人工模拟构音障碍语音识别系统，考察其对心理健康的作用。招募构音障碍者随机分为实验组与对照组，间隔一周进行两次心理测试，涵盖焦虑、自尊与生活满意度。实验组在首次测试后一周内完成4次语音识别行为实验。结果显示，实验组的状态焦虑显著下降，生活满意度明显上升。语音识别技术不仅能提升构音障碍人群的交流顺畅度，还具有改善心理健康的潜力，为其作为辅助干预工具提供了实验证据。

CNCC2025

CNCC2025将于10月22-25日在哈尔滨举办。专题论坛将在往年多样化主题的基础上，首次通过“基础-前沿-未来”的一体化设计，满足不同背景参会者的需求，构建从知识获取到创新激发的完整路径，打造系统化、进阶式的参会体验。重点设置9大主题板块，每个主题板块的专题论坛由三大核心模块组成：面向前沿领域的体系性Tutorial、聚焦前沿突破的专题论坛以及探讨未来发展路径的思辨论坛。

点击“阅读原文”，进入官网。