公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111625746.8 (22)申请日 2021.12.28 (71)申请人 浙江大学 地址 310013 浙江省杭州市西湖区余杭塘 路866号 (72)发明人 李光 王酉 李卉艳 林皓泓  高晗  (74)专利代理 机构 杭州知见专利代理有限公司 33295 专利代理师 卢金元 (51)Int.Cl. G10L 25/30(2013.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于发声神经电位信号的无声语音重 建方法 (57)摘要 本发明公开了一种基于发声神经电位信号 的无声语音重建方法, 利用电极采集发声时发声 相关神经电位信号与语音信号, 并在无声情况下 采集发声相关神经信号, 并且通过深度学习网络 获得无声神经电位信号与相同文本的语音信号 的联系, 完成无声情况下语音信号的重建, 完成 无声情况信息内容的传递, 完成无声传递信息的 任务, 可直接进行无声情况的信息传递。 对于一 些无法发声的场合, 声带不振动, 以默读的形式 完成信息传递的过程。 权利要求书3页 说明书8页 附图4页 CN 114530165 A 2022.05.24 CN 114530165 A 1.一种基于发声神经电位信号的无声语音重建方法, 基于语音重建模型, 其特征在于, 包括模型训练过程和重建过程, 模型训练过程如下: S1、 被试者正常朗读文本内容, 贴在人体表面的电极阵列采集有声朗读时的有声神经 电位信号, 麦克风同时采集朗读的语音信号; S2、 被试者无声默读与步骤1中相同的文本内容, 电极阵列采集无声默读时的无声神经 电位信号; S3、 对有声神经电位信号、 无声神经电位信号以及语音信号进行预处理及分帧, 有声神 经电位信号分帧后得到的有声神经电位特征记为x1: M, M为有声神经电位特征的总帧数; 语 音信号分帧后得到的语音 特征记为Y1: M, 语音特征的帧数和有声神经电位特征相同; 无声神 经电位信号分帧后得到的无声神经电位特 征记为X1: N, N为无声神经电位特 征的总帧数; S4、 根据语音信号及其对应的文本, 通过强制对齐获得语音信号对应的真实音素ph1: M; S5、 通过有声神经电位信号与无声神经电位信号计算第i帧无声神经电位信号的持续 长度di, 第i帧无声神经电位信号X1:N[i]对应语音信号中 的[Y1: M[j],…,Y1: M[j+p‑1]], di= p, d1:N是di的集合; S6、 将无声神经电位特 征X1: N输入至编码器得到编码隐变量h1:N; S7、 将编码隐变量h1:N输入至持续长度预测器中得到预测的持续长度 计算预测的 持续长度 与真实帧持续长度d1:N的均方误差损失; S8、 将编码隐变量h1:N与真实帧持续长度d1:N输入至长度调整器, 进行帧数调整以得到 解码隐变量h1:M; S9、 将解码隐变量h1:M输入至音素分类器中, 输出预测音素 计算预测音素 与真实音素ph1: M的交叉熵损失; S10、 将解码隐变量h1:M输入至有声神经电位特征重建器中, 输出预测有声神经电位特 征 计算预测有 声神经电位特 征 与有声神经电位特 征x1: M的均方误差损失; S11、 将解码器隐变量h1:M输入至解码器得到预测语音特征 再将预测语音 特征 经过后处理网络得到残差M帧语音特征 将预测的M帧语音特征 和残差M帧语音特征 分别与实际的语音特征Y1: M计算平均绝对误差损 失; S12、 根据损失函数进行反向传播以更新语音重建模型的训练权重, 直至语音重建模型 收敛, 损失函数公式为:权 利 要 求 书 1/3 页 2 CN 114530165 A 2式中, λph为音素分类损失权 重, λrecons为有声信号重建损失权 重; 重建过程为将采集到的无声神经电位信号输入到语音重建模型中, 得到重建后的语音 信号。 2.根据权利要求1所述的一种基于发声神经电位信号的无声语音重建方法, 其特征在 于, 所述重建过程具体为: A1、 通过贴在人体表面的电极阵列采集无声神经电位信号, 将采集到的无声神经电位 信号进行预处理并分帧, 得到无声神经电位特征X ′1:n, n为无声神经电位特征的总帧数, 将 无声神经电位特 征X′1:n输入至编码器得到编码隐变量 A2、 将编码隐变量 输入到持续长度预测器中获得 预测的持续长度 A3、 将编码隐变 量 和预测的持续长度 输入至长度调整器得到 解码隐变 量 m为调整后的解码隐变量总帧数, A4、 将解码器隐变量 输入至解码器后得到预测语音特征 将预测语音 特征 输入到后处 理网络中得到残差语音特 征 A5、 将残差语音特 征 输入至声码器中获得语音信号。 3.根据权利要求1或2所述的一种基于发声神经电位信号的无声语音重建方法, 其特征 在于, 所述电极阵列的电极为银/氯化银表面湿电极, 包括偏置电极、 参考电极以及采集电 极; 至少各有一个偏置电极和一个参 考电极放置 于耳后乳突处; 采集电极包括位于口颊肌区域、 舌外肌区域、 颧肌区域、 喉外肌区域中的任何一类或若 干类。 4.根据权利要求1或2所述的一种基于发声神经电位信号的无声语音重建方法, 其特征 在于, 所述预处理包括滤波和特征提取, 特征提取具体为通过移动窗按帧提取时域和时频 域特征。 5.根据权利要求1或2所述的一种基于发声神经电位信号的无声语音重建方法, 其特征 在于, 所述编码器包括全连接层、 位置嵌入层以及基于Fastspe ech框架搭建的前馈转换器。 6.根据权利要求5所述的一种基于发声神经电位信号的无声语音重建方法, 其特征在 于, 所述持续长度预测器包括卷积层、 ReLU激活层以及一个全 连接层, 卷积层的层数在1到3权 利 要 求 书 2/3 页 3 CN 114530165 A 3

.PDF文档 专利 一种基于发声神经电位信号的无声语音重建方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于发声神经电位信号的无声语音重建方法 第 1 页 专利 一种基于发声神经电位信号的无声语音重建方法 第 2 页 专利 一种基于发声神经电位信号的无声语音重建方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:40:55上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。