专利 一种手势控制的方法、系统、设备及存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111633178.6 (22)申请日 2021.12.2 9 (71)申请人北京淳中科技股份有限公司地址 100082 北京市海淀区林风二路39号院1号楼5层 (72)发明人程星凯　 (74)专利代理机构北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 代理人彭星 (51)Int.Cl. G06V 40/20(2022.01) G06K 9/62(2022.01) G06F 3/01(2006.01) G06V 10/764(2022.01) (54)发明名称一种手势控制的方法、系统、设备及存储介质 (57)摘要本申请提供了一种手势控制的方法、系统、设备及存储介质，该方法包括：接收图像采集装置发送的图像数据，将图像数据中的待识别图像逐帧输入至训练好的手势检测模型中，得到每帧待识别图像的手势检测结果；当检测到手势检测结果中出现目标人体对象时，根据目标人体对象的人体特征数据，从目标手势检测结果中，确定目标手势对象所在的目标手势区域边界框；根据目标手势对象在目标手势区域边界框中显示的目标手势动作，从手势动作与控制指令的映射关系库中，确定与目标手势动作具备映射关系的目标控制指令；将目标控制指令发送给屏幕显示设备，以控制屏幕显示设备显示目标控制指令的执行过程与执行结果。这样，可以提高对屏幕显示设备的控制效率。权利要求书4页说明书27页附图13页 CN 114333056 A 2022.04.12 CN 114333056 A 1.一种手势控制的方法，其特征在于，所述方法应用于图像处理器中，所述图像处理器位于手势控制系统中，其中，所述手势控制系统至少包括：图像采集装置、所述图像处理器以及屏幕显示设备；所述方法，包括：响应于接收到所述图像采集装置发送的图像数据，将所述图像数据中的待识别图像逐帧输入至预先训练好的手势检测模型中，得到每帧待识别图像的手势检测结果；其中，所述手势检测模型用于预测每帧待识别图像中目标对象所在的图像区域边界框以及每一所述图像区域边界框中目标对象的所属类别；所述目标对象包括：人体对象和/或手势对象；所述手势检测结果用于表征所述手势检测模型对于每帧待识别图像的预测结果；当检测到所述手势检测结果中出现目标人体对象时，根据所述目标人体对象的人体特征数据，从目标手势检测结果中，确定目标手势对象所在的目标手势区域边界框；其中，所述目标人体对象用于表征具备所述屏幕显示设备的控制权限的人体对象；所述人体特征数据至少包括所述目标人体对象的手部中心点与身体中心点之间的标准臂长距离；所述目标手势检测结果用于表征检测到所述目标人体对象出现的手势检测结果；所述目标手势对象用于表征所述目标人体对象中用于控制所述屏幕显示设备的手势对象；根据所述目标手势对象在所述目标手势区域边界框中显示的目标手势动作，从手势动作与控制指令的映射关系库中，确定与所述目标手势动作具备映射关系的目标控制指令；其中，所述目标手势动作是根据所述目标手势对象在所述目标手势检测结果中检测出的所属类别确定的；将所述目标控制指令发送给所述屏幕显示设备，以控制所述屏幕显示设备显示所述目标控制指令的执行过程与执行结果。 2.根据权利要求1所述的方法，其特征在于，在所述手势检测模型的工作状态属于在线工作状态的情况下，所述将所述图像数据中的待识别图像逐帧输入至预先训练好的手势检测模型中，得到每帧待识别图像的手势检测结果，包括：针对每帧待识别图像，将该帧待识别图像输入至所述手势检测模型中，通过所述手势检测模型，对该帧待识别图像中所述目标对象所在的图像区域进行分类预测，得到第一分类预测结果；其中，所述第一分类预测结果至少包括：该帧待识别图像中所述人体对象和/ 或所述手势对象所在的图像区域边界框；在检测到所述第一分类预测结果中包括第一图像区域边界框时，通过所述手势检测模型，对所述手势对象在该第一图像区域边界框中显示的第一手势动作进行分类预测，得到第二分类预测结果；其中，所述第一图像区域边界框用于表征所述手势对象所在的图像区域边界框；所述第二分类预测结果至少包括：所述第一手势动作在手势类别列表中所属的手势类别；所述手势类别列表中的手势类别数量是根据所述手势检测模型在训练过程中使用的样本图像中包括的手势动作种类确定的；将所述第一分类预测结果和所述第二分类预测结果作为该帧待识别图像的手势检测结果。 3.根据权利要求1所述的方法，其特征在于，在所述手势检测模型的工作状态属于离线工作状态时，所述将所述图像数据中的待识别图像逐帧输入至预先训练好的手势检测模型中，得到每帧待识别图像的手势检测结果，包括：针对每帧待识别图像，将该帧待识别图像输入至所述手势检测模型中，根据所述手势权　利　要　求　书 1/4 页 2 CN 114333056 A 2检测模型中预先存储的多个离线模板图像，确定该帧待识别图像与每一所述离线模板图像之间的图像相似度；其中，所述离线模板图像用于表征所述手势检测模型在训练过程中使用的样本图像；针对每一所述离线模板图像，以所述图像相似度作为权重参数，对该离线模板图像的标准检测结果进行加权求和处理，得到用于表征该帧待识别图像的手势检测结果与该标准检测结果之间匹配程度的置信度结果；其中，所述标准检测结果用于表征训练好的手势检测模型针对该离线模板图像的模型输出结果；从多个所述离线模板图像的标准检测结果中，提取目标置信度结果对应的标准检测结果作为该帧待识别图像的手势检测结果；其中，所述目标置信度结果是多个所述置信度结果中的最大值。 4.根据权利要求1所述的方法，其特征在于，在所述得到每帧待识别图像的手势检测结果之后，通过以下方法，对所述手势检测结果中是否出现所述目标人体对象进行检测：针对每一所述手势检测结果，对该手势检测结果中是否出现第二图像区域边界框进行检测，得到第一区域检测结果；其中，所述第二图像区域边界框用于表征所述人体对象所在的图像区域边界框；当检测到所述第一区域检测结果中包括所述第二图像区域边界框时，获取该第二图像区域边界框中的图像区域特征；当检测到所述图像区域特征与所述目标人体对象的图像特征数据之间的相似程度大于或者等于第一相似度阈值时，确定该手势检测结果中出现所述目标人体对象。 5.根据权利要求1所述的方法，其特征在于，所述根据所述目标人体对象的人体特征数据，从目标手势检测结果中，确定目标手势对象所在的目标手势区域边界框，包括：从所述目标手势检测结果中，确定每一像素点与第三图像区域边界框的中心点之间的像素距离；其中，所述第三图像区域边界框用于表征所述目标人体对象所在的图像区域边界框；根据每一所述像素距离与所述标准臂长距离之间的距离差值，从所述目标手势检测结果中，确定目标像素点所在的目标图像区域；其中，所述目标像素点用于表征所述距离差值小于或者等于距离偏差阈值的像素点；在所述目标图像区域内，对所述手势对象所在的图像区域边界框进行二次预测，确定位于所述目标图像区域内的多个手势区域边界框；在所述第三图像区域边界框内，对所述目标人体对象的手部区域位置进行多次追踪预测，得到所述手部区域位置的多次追踪预测结果；计算每一所述手势区域边界框与所述多次追踪预测结果之间的平均相似程度，以将所述平均相似程度最高的手势区域边界框确定为所述目标手势区域边界框。 6.根据权利要求1所述的方法，其特征在于，所述从手势动作与控制指令的映射关系库中，确定与所述目标手势动作具备映射关系的目标控制指令，包括：当检测到所述目标手势动作属于接管手势动作时，从所述映射关系库中，获取与所述接管手势动作具备映射关系的手势控制开启指令和手势控制关闭指令；响应获取到所述手势控制开启指令和所述手势控制关闭指令，向所述屏幕显示设备发送工作状态获取指令；权　利　要　求　书 2/4 页 3 CN 114333056 A 3

专利 一种手势控制的方法、系统、设备及存储介质

专利一种手势控制的方法、系统、设备及存储介质