科学家打造轻量级解码模型,成功研发静默语音系统,复杂环境下语音解码准确率仍达95%
“这项研究无疑是静默语音界面领域的一项重大突破,重新定义了可穿戴静默语音界面的设计标准。”对于北京航空航天大学本科校友、24 岁的英国剑桥大学博士生唐晨宇发表于 npj Flexible Electronics(IF 12.3)的一作论文,评审专家给予上述肯定。
唐晨宇表示:“这项研究成果其实只能算是静默语音项目的阶段性进展。”
2024 年初,当他完成本次论文并将其投稿后,便和所在团队迅速将研究重点转向临床应用领域。
目前,课题组正与多个医疗团队合作,针对脑卒中引发的语言障碍患者进行初步临床试验,旨在验证该系统在不同病理状态和个体差异下的语音解码能力。
据介绍,唐晨宇等人针对系统进行了多项创新设计,使其不仅能够解码患者的无声语音信号,还能以低延迟、个性化的方式重建语音,从而让患者能够实现近似健康人群交流的流畅度和自然度。
目前,临床试验进展非常顺利,唐晨宇相信这有望彻底改变语言障碍患者日常沟通方式的系统,不久后就能真正应用于临床,为患者带来更便捷、更高效的交流体验。
创新传感机制和独特神经网络架构
而在关于本次论文的研究中,唐晨宇和同事将纺织应变传感器与机器学习算法相结合,解决了同类静默语音系统在精度、效率和舒适性之间难以平衡的难题。
通过采用创新的传感机制和独特的神经网络架构,让本次系统在维持高识别精度的同时,还能大幅降低计算负担,在便携式、可穿戴的通信设备中拥有巨大应用潜力。
首先,其能用于辅助医疗沟通设备。
该系统能够帮助因脑卒中、渐冻症、喉癌术后等导致语言障碍的患者恢复交流能力。通过捕捉患者微弱喉部肌肉活动来解码他们的无声语音。
同时,这项技术可以替代传统的交流辅助设备,使患者能够更自然、更便捷地与家属和医护人员沟通。
其次,其能用于人机交互和虚拟现实应用。
在未来的智能设备或虚拟现实系统中,基于本次系统可以打造全新的人机交互模式。
用户只需通过轻微的面部肌肉运动或喉部动作,就能操控虚拟角色或智能系统,从而提升互动体验的沉浸感和操控的自由度。
再次,其能用于智能穿戴和健康监测。
源:arXiv)
当将本次成果集成到智能项链或耳挂式设备等可穿戴设备中,即可作为全天候的健康监测系统,以用于捕捉细微的呼吸、吞咽、咳嗽等生理信号,从而帮助用户实现健康管理和早病监测,进而为个性化健康管理提供更丰富的数据支持。
关于这一方向的应用,已经在唐晨宇的另一篇最新论文中得到验证 [1]。
从北京到剑桥,一名 00 后的科研探索路
唐晨宇针对可穿戴设备和人工智能的交叉研究,最早可以追溯到在北航读大三的上学期。
当时,他身边的很多同学要么进入实验室做科研,要么前往企业实习。这让他意识到自己也应该寻找一个更有意义的发展方向。
一次偶然的机会,他听同学说北航的高硕教授正在进行可穿戴设备与人工智能结合的交叉研究。兴趣使然之下,唐晨宇主动联系高硕并加入了该课题组。
本科期间,唐晨宇独立完成了第一篇研究型论文,这让他开始对科研产生兴趣,并决定继续深耕可穿戴设备与人工智能技术,以将其用于健康管理和人机交互领域。
在本科毕业之后,唐晨宇收到了英国剑桥大学工程系的博士录取通知书,随后来到英国继续深耕上述领域。
2023 年夏天,唐晨宇正在读博士一年级下学期,这时导师向他介绍了“静默语音界面(SSI,Silent Speech Interface)”这一研究方向。
静默语音界面,是一种通过捕捉人体在无声状态下的口腔和面部肌肉活动来实现语音信息传递的技术,它不仅可以辅助健康人群实现更隐蔽和私密的交流方式,还能帮助那些因脑卒中、渐冻症、喉癌术后等疾病导致语言障碍的患者恢复沟通能力。
但在当时别说将这类成果用于患者群体,即便是在健康人群中,也很难打造兼顾舒适性、准确性和高效性的静默语音系统。
好在组内有两位主要研究传感器设计和制造的博士同学,于是唐晨宇和他们一起尝试突破这一技术瓶颈,希望能够设计一款轻便、可穿戴、能有效捕捉和解码静默语音信号的系统。
随后,他们调研了市面上现有的各种静默语音信号采集技术,包括表面肌电、声波传感器和现有的纺织应变传感器。
通过对比这些方案在精度、灵敏度、可穿戴性等方面的优缺点,他们决定以柔性纺织应变传感器作为主要研究方向,并设计出一种基于石墨烯薄膜的传感器结构。
这一结构旨在通过“有序裂纹”的特殊设计,实现对微小喉部运动的超高灵敏度捕捉,并确保在长时间佩戴时的舒适性。
在传感器的开发阶段,他们尝试了不同类型的石墨烯材料及其复合工艺,并通过调整石墨烯涂层的厚度、裂纹间距和传感器的拉伸程度,最终确定了最优的制造工艺,使传感器能够在 5% 以内的微小应变范围内实现 420% 的灵敏度提升。
传感器设计成功后,他们还对其进行了多次性能测试与耐久性评估,确保其能够在复杂的应用环境中稳定工作。
在传感器开发成功后,他们进入了系统的信号解码阶段。期间,唐晨宇等人利用新设计的传感器进行了大量的静默语音信号采集,建立了一个涵盖常用词汇和短语的健康人群数据集。
由于信号中存在大量的个体差异与噪声,他们对每个样本进行了仔细的预处理,并尝试了多种机器学习模型。
在模型开发过程中,他们设计了一种基于一维卷积神经网络的轻量级解码模型,在保证解码精度的同时,大幅降低了系统的计算成本,使得解码速度和能效达到理想状态。
完成模型设计后,他们将传感器与解码算法集成到一个便携式静默语音界面系统中,并在健康人群中进行了实际应用测试。
通过一系列的模拟场景(如安静环境、嘈杂环境和不同佩戴条件),验证了系统的稳定性和抗干扰能力。
结果表明,该系统在复杂环境下仍能保持 95% 以上的语音解码准确率,同时在佩戴舒适性和数据处理速度上都达到了可应用的水准。
唐晨宇是第一作者,北京航空航天大学高硕教授和英国剑桥大学路易吉·朱塞佩·奥奇皮蒂(Luigi Giuseppe Occhipinti)教授担任共同通讯作者 [2]。
图 | 相关论文(来源:npj Flexible Electronics)
如前所述,目前本次成果已经在健康人群中取得出色效果,这为唐晨宇正在开展的针对脑卒中构音障碍患者的临床应用奠定了基础。
他非常希望本次成果能真正帮助到有需要的人群,让他们通过静默语音界面系统恢复与世界的沟通。
1.Tang, C., Yi, W., Xu, M. et al. A deep learning-enabled smart garment for accurate and versatile sleep conditions monitoring in daily life. arXiv:2408.00753 (2024). https://arxiv.org/abs/2408.00753
2.Tang, C., Xu, M., Yi, W. et al. Ultrasensitive textile strain sensors redefine wearable silent speech interfaces with high machine learning efficiency. npj Flex Electron 8, 27 (2024). https://doi.org/10.1038/s41528-024-00315-1
运营/排版:何晨龙