(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111633230.8
(22)申请日 2021.12.2 9
(65)同一申请的已公布的文献号
申请公布号 CN 114282621 A
(43)申请公布日 2022.04.05
(73)专利权人 湖北微模式科技发展 有限公司
地址 430074 湖北省武汉市东湖开发区关
东科技工业园七号 地块
(72)发明人 申意萍 陈友斌 张志坚 徐一波
(74)专利代理 机构 湖北高韬律师事务所 42 240
专利代理师 张承接
(51)Int.Cl.
G06K 9/62(2022.01)
G06V 40/20(2022.01)
G10L 17/04(2013.01)G10L 17/10(2013.01)
G06V 10/80(2022.01)
(56)对比文件
CN 112565885 A,2021.0 3.26
CN 113192516 A,2021.07.3 0
审查员 程浩瑞
(54)发明名称
一种多模态融合的话者角色区分方法与系
统
(57)摘要
一种多模态融合的话者角色区分方法与系
统, 方法包括: 步骤1: 分割视频, 分割后得到音频
信息和视频信息; 步骤2: 音频信息分析, 截取音
频信息中出现语音特征的语音片段, 记录所述语
音片段的时间节点, 并提取语音片段的声纹特征
用于角色区分; 步骤3: 视频信息分析, 跟踪分析
视频信息中各角色的说话特征信息, 所述说话特
征信息包括头部状态信息、 口罩信息和嘴巴状态
信息。 一方面利用音频信息, 提取音频特征, 并基
于音频特征进行说话人转换检测, 然后提取声纹
特征用于话者角色区分; 另一方面利用视频信
息, 分析视频中说话人的头部状态、 口罩和嘴巴
状态, 对视频中人说话的起始时间进行判断; 最
后融合两种检测结果得到更准确的角色区分结
果。
权利要求书2页 说明书9页 附图2页
CN 114282621 B
2022.08.23
CN 114282621 B
1.一种多模态融合的话者角色区分方法, 其特征在于: 包括以下步骤: 步骤1: 分割视
频, 分割后得到音 频信息和视频信息; 步骤2: 音频信息 分析, 截取音频信息中出现语音 特征
的语音片段, 记录所述语音片段的时间节点, 并提取语音片段的声纹特征用于角色区分; 步
骤3: 视频信息分析, 跟踪分析视频信息中各角色的说话特征信息, 所述说话特征信息包括
头部状态信息、 口罩信息和嘴巴状态信息, 跟踪视频信息中对应角色识别 符合说话特征类
的起始时间节点; 步骤4: 音视频融合分析划分话者角色, 匹配步骤2和步骤3两种分析结果
的时间节点得到角色划分结果;
步骤3采用以下步骤进行视频信息分析: a.人头检测和跟踪, 对视频信息部分, 进行人
头检测和跟踪, 根据跟踪结果确定视频中角色的数量, 这里用M表示视频中角色的数量; b.
角色嘴巴状态分析, 首先判断嘴巴是否可见, 若嘴巴可见, 则进行嘴巴张合状态分析, 根据
嘴巴动态特征判断对应角色是否处于说话状态; 若嘴巴不可见, 则进 行遮挡物状态分析, 根
据遮挡物动态特征判断对应角色是否处于说话状态; c.角色说话时间判断, 根据人头跟踪
结果和嘴巴状态分析 结果, 判断视频中对应角色的说话时间段和置信度;
采用以下步骤具体进行视频信息分析: 在人头检测区域采用Adaboost、 MTCNN、
RetinaFace或Pyrami dBox算法进行人脸检测, 若检测到人脸, 则调用带遮挡判断功能的关
键点定位算法进行关键点定位, 并判断嘴巴部 分是否被遮挡; 若嘴巴可见, 则进 行嘴巴张合
状态分析, 若嘴巴处于张合变化的状态, 则判断嘴巴对应的角色处于 说话状态, 记录该角色
当前说话的时间节点, 并将该角色对应时间节点的说话置信度设置为fm; 若角色嘴巴不可
见, 则使用光流法对遮挡嘴巴的口罩或者其他遮挡物进 行光流分析, 若检测到口罩运动, 则
判断对应角色处于说话状态, 记录该角色当前说话的时间节点, 并将该角色对应时间节点
的说话置信度设置为fk; 若步骤a中没有检测到人脸, 则对人头的运动状态进行分析, 判断
该角色是否处于 说话附带动作状态, 所述说话附带动作状态包括摇头、 点头或转头, 若判断
该角色处于说话附带动作状态, 则将判断对应角色处于说话状态, 记录该角色当前说话的
时间节点, 并将该角色对应时间节 点的说话置信度设置为fh; 对于视频信息的其它时刻, 将
说话置信度设为0, 据此 得到每个角色随时间变化的说话置信度曲线。
2.根据权利要求1所述的一种 多模态融合的话者角色区分方法, 其特征在于: 所述步骤
2采用以下方法具体进行音 频信息分析: Step1: 语音检测, 采用语音检测模 型将所述音频信
息帧分为语音部分和非语音部分两类; Step2: 角色转换检测, 对所述语音部分进行音频分
割, 分割后的片段只包含单一角色: 检测角色发生变化的具体时间点, 并根据角色发生变化
的具体时间点将语音分割成n个语音片段S1, …, Sn, 其中Si={TStarti,TEndi}, 所述
TStarti表示该语音片段的开始时间位置, 所述TEndi表示该语音片段的结束时间位置;
Step3: 声纹特 征提取, 分别对分割之后的每 个语音片段Si 提取对应的声纹特 征Fi。
3.根据权利要求2所述的一种多模态融合的话者角色区分方法, 其特征在于: 所述
Step2中, 采用基于左右窗比较的方法或窗分类的方法进 行角色转换检测, 抓取发生角色转
换的所有节点音频帧, 以所述节点音频帧为分界点, 将语音部分分段, 得到n个语音片段
S1,…, Sn, 其中Si ={TStar ti,TEndi}。
4.根据权利要求2所述的一种多模态融合的话者角色区分方法, 其特征在于: 所述
Step3中, 分别对分割之后的每个语音片段Si采用i ‑vector、 d ‑vector或x ‑vector提取对应
的声纹特 征Fi, 对于时间长度低于1秒的语音片段的声纹特 征作留空 处理。权 利 要 求 书 1/2 页
2
CN 114282621 B
25.根据权利要求1 ‑4任一项所述的一种多模态融合的话者角色区分方法, 其特征在于:
所述步骤4采用以下方法具体进行音视频融合分析划分话者角色: d.从视频分析中获取对
应于语音片段Si的时间段{TStarti,TEndi}中, 各角色处于说话状态的总时间长度, 选择总
时间长度最长, 长度大于p*(TEn di‑TStarti), 且平均置信度大于q的角色作为该语音片段
的匹配角色, 得到初级划分结果R={Qi|i=1, …,M}, 其中Qi表示划分给第i个人的所有语
音片段集合; e.对于所述步骤d中无法确定 说话人的语音片段Si, 若 该片段可以提取声纹特
征, 根据其声纹特征Fi判断其说话人是否为初级划分结果中的角色或者是其他角色; f.对
于步骤d和e均无法确定说话人的可以提取声纹特征且时间长度大于t1的语音片段, 使用
Native聚类或谱 聚类的方法得到新的角色划分, 保留总说话时间长度大于t2的角色, 并将
其并入到步骤d和e的划分结果中, 得到最终 的划分结果R={Qi|i=1, …,N}, 所述N=M+T,
所述T为步骤e得到的角色数量; g.对于上述 步骤均无法确定说话人的语音片段Si, 则丢弃。
6.根据权利要求5所述的一种 多模态融合的话者角色区分方法与系统, 其特征在于: 所
述步骤e中, 采用以下具体方法进行判断: ①.设初级划分结果Qj可以提取声纹特征的一个
语音片段其声纹特征为计算所有的平均作为中心向量Fcj, 计算所有初级划分结果Qj的所
有语音片段声纹特征的中心向量Fcj, j=1,2, …,M;②.分别计算Fi与Fcj, j=1,2, …,M的
余弦距离, 选择余弦距离最大且距离大于事先给定的阈值t的类作为Si的话者角色; 或分别
计算Fi与Fcj, j=1,2, …,M的欧式距离、 马氏距离、 切空间距离或者街区距离, 选择距离最
小且距离小于事先给定的阈值t的类作为Si的话者角色; ③.若步骤②无法确定角色, 则判
定该Si来自初级划分结果之外的另外角色。
7.一种多模态融合的话者角色区分系统, 其特征在于: 包括录音录像设备(1)、 处理器
(2)、 存储器(3), 所述存储器(3)内预装有根据权利要求1 ‑6中任一项所述方法设计的话者
角色区分程序, 所述录音录像设备(1)采集到的视频储存在存储器(3), 所述处理器(2)运行
存储器(3)内的话 者角色区分程序完成对录音录像设备(1)采集到的视频的话 者角色区分。
8.根据权利要求7所述一种 多模态融合的话者角色区分系统, 其特征在于: 还有显示器
(4), 所述处 理器(2)通过显示器(4)显示 话者角色区分程序运行界面和结果。权 利 要 求 书 2/2 页
3
CN 114282621 B
3
专利 一种多模态融合的话者角色区分方法与系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 20:41:48上传分享