专利 一种基于发声神经电位信号的无声语音重建方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111625746.8 (22)申请日 2021.12.28 (71)申请人浙江大学地址 310013 浙江省杭州市西湖区余杭塘路866号 (72)发明人李光　王酉　李卉艳　林皓泓　高晗　 (74)专利代理机构杭州知见专利代理有限公司 33295 专利代理师卢金元 (51)Int.Cl. G10L 25/30(2013.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于发声神经电位信号的无声语音重建方法 (57)摘要本发明公开了一种基于发声神经电位信号的无声语音重建方法，利用电极采集发声时发声相关神经电位信号与语音信号，并在无声情况下采集发声相关神经信号，并且通过深度学习网络获得无声神经电位信号与相同文本的语音信号的联系，完成无声情况下语音信号的重建，完成无声情况信息内容的传递，完成无声传递信息的任务，可直接进行无声情况的信息传递。对于一些无法发声的场合，声带不振动，以默读的形式完成信息传递的过程。权利要求书3页说明书8页附图4页 CN 114530165 A 2022.05.24 CN 114530165 A 1.一种基于发声神经电位信号的无声语音重建方法，基于语音重建模型，其特征在于，包括模型训练过程和重建过程，模型训练过程如下： S1、被试者正常朗读文本内容，贴在人体表面的电极阵列采集有声朗读时的有声神经电位信号，麦克风同时采集朗读的语音信号； S2、被试者无声默读与步骤1中相同的文本内容，电极阵列采集无声默读时的无声神经电位信号； S3、对有声神经电位信号、无声神经电位信号以及语音信号进行预处理及分帧，有声神经电位信号分帧后得到的有声神经电位特征记为x1： M， M为有声神经电位特征的总帧数；语音信号分帧后得到的语音特征记为Y1： M，语音特征的帧数和有声神经电位特征相同；无声神经电位信号分帧后得到的无声神经电位特征记为X1： N， N为无声神经电位特征的总帧数； S4、根据语音信号及其对应的文本，通过强制对齐获得语音信号对应的真实音素ph1： M； S5、通过有声神经电位信号与无声神经电位信号计算第i帧无声神经电位信号的持续长度di，第i帧无声神经电位信号X1:N[i]对应语音信号中的[Y1： M[j],…,Y1： M[j+p‑1]]， di＝ p， d1:N是di的集合； S6、将无声神经电位特征X1： N输入至编码器得到编码隐变量h1:N； S7、将编码隐变量h1:N输入至持续长度预测器中得到预测的持续长度计算预测的持续长度与真实帧持续长度d1:N的均方误差损失； S8、将编码隐变量h1:N与真实帧持续长度d1:N输入至长度调整器，进行帧数调整以得到解码隐变量h1:M； S9、将解码隐变量h1:M输入至音素分类器中，输出预测音素计算预测音素与真实音素ph1： M的交叉熵损失； S10、将解码隐变量h1:M输入至有声神经电位特征重建器中，输出预测有声神经电位特征计算预测有声神经电位特征与有声神经电位特征x1： M的均方误差损失； S11、将解码器隐变量h1:M输入至解码器得到预测语音特征再将预测语音特征经过后处理网络得到残差M帧语音特征将预测的M帧语音特征和残差M帧语音特征分别与实际的语音特征Y1： M计算平均绝对误差损失； S12、根据损失函数进行反向传播以更新语音重建模型的训练权重，直至语音重建模型收敛，损失函数公式为：权　利　要　求　书 1/3 页 2 CN 114530165 A 2式中， λph为音素分类损失权重， λrecons为有声信号重建损失权重；重建过程为将采集到的无声神经电位信号输入到语音重建模型中，得到重建后的语音信号。 2.根据权利要求1所述的一种基于发声神经电位信号的无声语音重建方法，其特征在于，所述重建过程具体为： A1、通过贴在人体表面的电极阵列采集无声神经电位信号，将采集到的无声神经电位信号进行预处理并分帧，得到无声神经电位特征X ′1:n， n为无声神经电位特征的总帧数，将无声神经电位特征X′1:n输入至编码器得到编码隐变量 A2、将编码隐变量输入到持续长度预测器中获得预测的持续长度 A3、将编码隐变量和预测的持续长度输入至长度调整器得到解码隐变量 m为调整后的解码隐变量总帧数， A4、将解码器隐变量输入至解码器后得到预测语音特征将预测语音特征输入到后处理网络中得到残差语音特征 A5、将残差语音特征输入至声码器中获得语音信号。 3.根据权利要求1或2所述的一种基于发声神经电位信号的无声语音重建方法，其特征在于，所述电极阵列的电极为银/氯化银表面湿电极，包括偏置电极、参考电极以及采集电极；至少各有一个偏置电极和一个参考电极放置于耳后乳突处；采集电极包括位于口颊肌区域、舌外肌区域、颧肌区域、喉外肌区域中的任何一类或若干类。 4.根据权利要求1或2所述的一种基于发声神经电位信号的无声语音重建方法，其特征在于，所述预处理包括滤波和特征提取，特征提取具体为通过移动窗按帧提取时域和时频域特征。 5.根据权利要求1或2所述的一种基于发声神经电位信号的无声语音重建方法，其特征在于，所述编码器包括全连接层、位置嵌入层以及基于Fastspe ech框架搭建的前馈转换器。 6.根据权利要求5所述的一种基于发声神经电位信号的无声语音重建方法，其特征在于，所述持续长度预测器包括卷积层、 ReLU激活层以及一个全连接层，卷积层的层数在1到3权　利　要　求　书 2/3 页 3 CN 114530165 A 3

专利 一种基于发声神经电位信号的无声语音重建方法

专利一种基于发声神经电位信号的无声语音重建方法