必威体育-国外新闻热点-时事新闻爆料

分类

【必威体育】平安科技联邦学习技术团队再创佳绩:5篇论文被国际语音会议INTERSPEECH 2020录用

近日,语音通信领域的国际会议INTERSPEECH 2020发布论文接收结果,与往年相比,今年投稿量激增50%,竞争异常激烈!平安科技联邦学习团队凭借行业技术实力,潜心研究,再创佳绩,成功入选五篇论文,其科研实力受到全球多位专业评委的一致认可,全面展现出平安科技在AI领域的技术底蕴和创新实力。

一年一度的全球语音大会INTERSPEECH 2020是语音科学和技术领域的国际学术会议。会议期间,来自全球学术界和产业界的研究人员汇聚一堂,共同交流、探讨语音领域的新技术,其内容涵盖语音合成、语音识别、语音增强等众多细分领域。会议上展示的研究成果,将代表着语音相关领域的最高研究水平和未来发展趋势。

本次INTERSPEECH2020大会的论文入选门槛较高,竞争异常激烈,而平安科技联邦学习团队仍然在“金融+生态”、“金融+科技”的战略引领下,锐意进取,斩获佳绩,被大会成功收录的论文涵盖科学防疫、语音合成、语音处理、语音理解、声纹识别多个领域,以下为平安科技联邦学习技术团队在INTERSPEECH 2020中入选五篇论文的精彩集锦:

论文1

A Real-time Robot-based Auxiliary System for Risk Evaluation of COVID-19 Infection

《基于机器人新冠肺炎风险评估辅助系统》

关键词:COVID-19;智能防疫;智能新冠肺炎检测

【必威体育】平安科技联邦学习技术团队再创佳绩:5篇论文被国际语音会议INTERSPEECH 2020录用

图1 Covid-19智能检测系统流程图

自2020年开始,世界各地相继爆发了新冠肺炎(COVID-19)疫情。然而中国在较短时间内成功的控制了疫情的传播,为新冠肺炎的防控交出了教科书式的答卷,这与我国实行严格的疫情防控工作密不可分。在公共场合,手持式测温枪与红外体温测量仪的使用可以有效监测密集人群中的体温异常情况,第一时间发现疑似患者,减少聚集感染可能性。在防治疫情阶段,有序对不同症状的患者进行区分,并按照病理特征合理分配医疗资源是十分重要的。这种措施一方面减少了人群在医院等高危区域的交叉感染,另一方面避免出现医疗资源的挤兑发生。

为了更好的防治新冠肺炎疫情,平安科技从海量的咳嗽病理数据出发,以自主研发的奥卡姆平台为依托,使用前沿Few-shot Learning以及注意力相似度技术成功研制出通过咳嗽来进行新冠肺炎智能诊断的系统,并将该系统嵌入到平安科技爱德机器人当中。该系统会根据使用者的咳嗽声进行智能诊断,目前支持新冠肺炎,急性支气管炎,慢性咽炎,百日咳,发烧咳嗽等多种疾病的诊断,并且会根据使用者所在GPS定位以及个人情况生成专属的电子病历以及疫情地图。电子病例与疫情地图中包含有数据解读以及防疫建议。

论文2

Prosody Learning Mechanism for Speech Synthesis System Without Text Length Limit

《一种新型的任意长度语音合成系统的韵律学习机制》

关键词:语音合成;韵律建模;自注意力模型

最近的神经语音合成系统已经逐渐集中于韵律的控制以提高合成语音的质量,但是它们很少考虑韵律的多变性以及韵律与语义之间的相关性。

【必威体育】平安科技联邦学习技术团队再创佳绩:5篇论文被国际语音会议INTERSPEECH 2020录用

图2 韵律学习机制下的模型训练图

平安科技联邦学习团队提出了一种基于TTS系统的韵律学习机制,该机制从语音频谱特征中提取语音的韵律信息,然后结合韵律信息与音素序列重构原始语音频谱特征。同时,为了改善韵律预测效果,本文通过预训练语言模型(BERT)引入文本的语义特征。

此外,平安科技还提出了一种新颖的局部自注意网络结构(Local Attention),以消除输入文本长度的限制,其中序列的相对位置信息由相对位置矩阵建模,不再需要位置编码。通过对英语和普通话的合成实验表明,所提出的模型获得了更令人满意的韵律的语音。尤其是在普通话合成中,该模型在MOS领先了基准模型0.08,并且合成语音的整体自然性得到了显著改善,并且已经在保险外呼服务的生产效果中得到验证。

论文3

MLNET: An Adaptive Multiple Receptive-field Attention Neural Network for Voice Activity Detection

《一种用于声音信号检测的自适应的注意力神经网络》

关键词:语音端点检测;自适应;多感受域;注意力网络

【必威体育】平安科技联邦学习技术团队再创佳绩:5篇论文被国际语音会议INTERSPEECH 2020录用

图3 自适应性的多感受野注意力模块

语音端点检测(Voice Activity Detection)是语音处理的一个重要部分。准确高效的语音端点检测不仅可以减少语音信号处理的计算量,提高系统的实时性,而且可以提高语音系统的鲁棒性及后续语音系统的准确性。为了提高语音端点检测的精确度,通常在设计网络的时候会人为的设定固定的上下文信息进行识别或者检测。但在实际应用中,特别是高噪声环境中,固定的上下文信息无法有效应对各种复杂的应用环境。