公共安全标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111625746.8 (22)申请日 2021.12.28 (71)申请人 浙江大学 地址 310013 浙江省杭州市西湖区余杭塘 路866号 (72)发明人 李光 王酉 李卉艳 林皓泓 高晗 (74)专利代理 机构 杭州知见专利代理有限公司 33295 专利代理师 卢金元 (51)Int.Cl. G10L 25/30(2013.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于发声神经电位信号的无声语音重 建方法 (57)摘要 本发明公开了一种基于发声神经电位信号 的无声语音重建方法, 利用电极采集发声时发声 相关神经电位信号与语音信号, 并在无声情况下 采集发声相关神经信号, 并且通过深度学习网络 获得无声神经电位信号与相同文本的语音信号 的联系, 完成无声情况下语音信号的重建, 完成 无声情况信息内容的传递, 完成无声传递信息的 任务, 可直接进行无声情况的信息传递。 对于一 些无法发声的场合, 声带不振动, 以默读的形式 完成信息传递的过程。 权利要求书3页 说明书8页 附图4页 CN 114530165 A 2022.05.24 CN 114530165 A 1.一种基于发声神经电位信号的无声语音重建方法, 基于语音重建模型, 其特征在于, 包括模型训练过程和重建过程, 模型训练过程如下: S1、 被试者正常朗读文本内容, 贴在人体表面的电极阵列采集有声朗读时的有声神经 电位信号, 麦克风同时采集朗读的语音信号; S2、 被试者无声默读与步骤1中相同的文本内容, 电极阵列采集无声默读时的无声神经 电位信号; S3、 对有声神经电位信号、 无声神经电位信号以及语音信号进行预处理及分帧, 有声神 经电位信号分帧后得到的有声神经电位特征记为x1: M, M为有声神经电位特征的总帧数; 语 音信号分帧后得到的语音 特征记为Y1: M, 语音特征的帧数和有声神经电位特征相同; 无声神 经电位信号分帧后得到的无声神经电位特 征记为X1: N, N为无声神经电位特 征的总帧数; S4、 根据语音信号及其对应的文本, 通过强制对齐获得语音信号对应的真实音素ph1: M; S5、 通过有声神经电位信号与无声神经电位信号计算第i帧无声神经电位信号的持续 长度di, 第i帧无声神经电位信号X1:N[i]对应语音信号中 的[Y1: M[j],…,Y1: M[j+p‑1]], di= p, d1:N是di的集合; S6、 将无声神经电位特 征X1: N输入至编码器得到编码隐变量h1:N; S7、 将编码隐变量h1:N输入至持续长度预测器中得到预测的持续长度 计算预测的 持续长度 与真实帧持续长度d1:N的均方误差损失; S8、 将编码隐变量h1:N与真实帧持续长度d1:N输入至长度调整器, 进行帧数调整以得到 解码隐变量h1:M; S9、 将解码隐变量h1:M输入至音素分类器中, 输出预测音素 计算预测音素 与真实音素ph1: M的交叉熵损失; S10、 将解码隐变量h1:M输入至有声神经电位特征重建器中, 输出预测有声神经电位特 征 计算预测有 声神经电位特 征 与有声神经电位特 征x1: M的均方误差损失; S11、 将解码器隐变量h1:M输入至解码器得到预测语音特征 再将预测语音 特征 经过后处理网络得到残差M帧语音特征 将预测的M帧语音特征 和残差M帧语音特征 分别与实际的语音特征Y1: M计算平均绝对误差损 失; S12、 根据损失函数进行反向传播以更新语音重建模型的训练权重, 直至语音重建模型 收敛, 损失函数公式为:权 利 要 求 书 1/3 页 2 CN 114530165 A 2式中, λph为音素分类损失权 重, λrecons为有声信号重建损失权 重; 重建过程为将采集到的无声神经电位信号输入到语音重建模型中, 得到重建后的语音 信号。 2.根据权利要求1所述的一种基于发声神经电位信号的无声语音重建方法, 其特征在 于, 所述重建过程具体为: A1、 通过贴在人体表面的电极阵列采集无声神经电位信号, 将采集到的无声神经电位 信号进行预处理并分帧, 得到无声神经电位特征X ′1:n, n为无声神经电位特征的总帧数, 将 无声神经电位特 征X′1:n输入至编码器得到编码隐变量 A2、 将编码隐变量 输入到持续长度预测器中获得 预测的持续长度 A3、 将编码隐变 量 和预测的持续长度 输入至长度调整器得到 解码隐变 量 m为调整后的解码隐变量总帧数, A4、 将解码器隐变量 输入至解码器后得到预测语音特征 将预测语音 特征 输入到后处 理网络中得到残差语音特 征 A5、 将残差语音特 征 输入至声码器中获得语音信号。 3.根据权利要求1或2所述的一种基于发声神经电位信号的无声语音重建方法, 其特征 在于, 所述电极阵列的电极为银/氯化银表面湿电极, 包括偏置电极、 参考电极以及采集电 极; 至少各有一个偏置电极和一个参 考电极放置 于耳后乳突处; 采集电极包括位于口颊肌区域、 舌外肌区域、 颧肌区域、 喉外肌区域中的任何一类或若 干类。 4.根据权利要求1或2所述的一种基于发声神经电位信号的无声语音重建方法, 其特征 在于, 所述预处理包括滤波和特征提取, 特征提取具体为通过移动窗按帧提取时域和时频 域特征。 5.根据权利要求1或2所述的一种基于发声神经电位信号的无声语音重建方法, 其特征 在于, 所述编码器包括全连接层、 位置嵌入层以及基于Fastspe ech框架搭建的前馈转换器。 6.根据权利要求5所述的一种基于发声神经电位信号的无声语音重建方法, 其特征在 于, 所述持续长度预测器包括卷积层、 ReLU激活层以及一个全 连接层, 卷积层的层数在1到3权 利 要 求 书 2/3 页 3 CN 114530165 A 3
专利 一种基于发声神经电位信号的无声语音重建方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 20:40:55
上传分享
举报
下载
原文档
(1.0 MB)
分享
友情链接
GB-T 12230-2023 通用阀门 不锈钢铸件技术条件.pdf
GB 7000.204-2008 灯具 第2-4部分:特殊要求 可移式通用灯具.pdf
GB 50174-2017数据中心设计规范.pdf
GB-T 29321-2012 光伏发电站无功补偿技术规范.pdf
腾讯研究院:2024工业大模型应用报告-2024-04-宏观大势.pdf
GB-T 30287.3-2013 卫星定位船舶信息服务系统 第3部分:信息安全规范.pdf
DL-T 1987-2019 六氟化硫气体泄漏在线监测报警装置技术条件.pdf
NY-T 2454-2019 机动植保机械报废技术条件.pdf
GB-T 22336-2008 企业节能标准体系编制通则.pdf
T-CEC 677—2022 电化学储能电站接入电网继电保护配置技术条件.pdf
GB-T 34766-2017 矿物源总腐殖酸含量的测定.pdf
GB-T 8905-2012 六氟化硫电气设备中气体管理和检测导则.pdf
GB-T 36950-2018 信息安全技术 智能卡安全技术要求(EAL4+).pdf
GB-T 33041-2016 中国陆地木材腐朽与白蚁危害等级区域划分.pdf
T-CIECCPA 035—2023 浮选磷尾矿基生态修复基质土规范.pdf
HB 8456-2014 民用飞机研制阶段评审要求.pdf
GB-T 15846-2006 集装箱门框密封条.pdf
Linux安全配置基线.pdf
GB-T 39440-2020 公共信用信息资源目录编制指南.pdf
DL-T 1989-2019 电化学储能电站监控系统与电池管理系统通信协议.pdf
1
/
3
16
评价文档
赞助2元 点击下载(1.0 MB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。