基于声音和图像的婴儿监护需求识别方法、装置、设备和介质与流程

专利2025-04-17  16


本技术涉及婴儿监护,特别是涉及一种基于声音和图像的婴儿监护需求识别方法、装置、设备和介质。


背景技术:

1、婴儿监护是婴儿护理的重要的任务之一。当前,婴儿监护主要由人员进行人工监护,在监护中不仅需要时刻注意婴儿的身体状态、睡眠情况等,对于经验不够丰富的护理人员(如新手爸妈)而言,比如在婴儿啼哭的时候,很难快速判断婴儿此时的需求,进而让新手爸妈出现焦虑及争执行为,大大增加产妇出现产后抑郁风险。同时由于人工无法24h实时盯着婴儿,而婴儿无法通过有效的手段向看护人员传递自己当前的感觉和想法,所以极易发生危险。例如当婴儿发生意外吞咽时,由于噎住无法发出声音,导致看护人员很难第一时间发现。

2、另外,儿童心理学研究者邓斯坦博士研究了大量的婴儿哭声信息发现婴儿的0~3个月哭声对应生理需求。但新手爸妈早期难以听懂,无法科学判断婴儿哭声意义及其安抚办法,带给婴幼儿身心痛苦,增加早年心理创伤,同样会增加家庭在育儿中的摩擦,增加产后抑郁发生。

3、还有,在妇婴医院,很多情况下,护士看护婴儿面对一对多的任务。当护士不在看护病房中时,唯一的监控方法即为通过看护病房内的看护摄像头进行监控,然而,当多名婴儿同时出现啼哭、喊叫等情况下,护士也无法第一时间判断出发生情况的婴儿是哪一个。

4、由此可知,婴儿的监护需要多方面进行判断,也就是说,需要定点结合婴儿本人表情、动作、以及声音进行分析。

5、现有算法技术存在两点弊端,其一是无法有效的过滤背景噪声,例如婴儿看护室中电视、成人说话等噪声的干扰,容易造成误检测。当前的主流网络设计只考虑了常人说话语音为主体的结构设计,而缺乏对婴儿发音特征的提取优化设计。其二是婴儿啼哭、喊叫等视频动作和声音,通常传统的神经网络设计会比较复杂,较高的计算量让算法模型不得不部署在服务器端,由于婴儿表情类型并不多,则造成了大量计算资源浪费,以及海量数据向后台服务器传输的带宽压力。

6、从成本角度分析,已有的行为动作等识别算法往往需要使用复杂的神经网络,需要服务器级别的大型计算设备去计算分析,不仅硬件成本高,同时也需要极高的视频图像传输带宽需求,以及较高的能耗。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种基于声音和图像的婴儿监护需求识别方法、装置、设备和介质。

2、一种基于声音和图像的婴儿监护需求识别方法,应用于边缘端,所述边缘端包括至多路摄像头、多路麦克风以及ai算力卡,的所述方法包括:

3、当摄像头检测到婴儿,且麦克风采集的声音信号超过阈值时,进入连续检测阶段;

4、在所述连续检测阶段,多路摄像头和麦克风以间隔时间采集预设时间长度的视频数据和音频数据;所述视频数据和音频数据的时长相同;

5、采用轻量化卷积网络提取所述视频数据中的图像特征,以及提取所述音频数据中的声音特征;

6、将每路采集得到的图像特征和声音特征进行融合,根据预训练的分类器进行分类,得到婴儿的状态信息;

7、通过连续输出的婴儿的状态信息,对婴儿进行监护。

8、在其中一个实施例中,还包括:获取从时域上稀疏到稠密的多段音频数据,对多段音频数据进行短时傅里叶变换,转化为频域信号;

9、通过预定超参数的高通滤波器对稀疏采样后的数据进行滤波;

10、通过编码器和金字塔的u-net网络对频域信号进行降维,并且解码至时域得到无噪声婴儿声音的声音特征。

11、在其中一个实施例中,还包括:从所述视频数据中提取多帧图像数据,将所述多帧图像数据输入轻量化卷积网络,得到图像特征。

12、在其中一个实施例中,还包括:将所述图像特征和声音特征进行归一化,得到融合特征。

13、在其中一个实施例中,还包括:预训练的分类器的损失函数包括:分类损失、所述声音特征的波形损失以及所述声音信号的去噪损失。

14、在其中一个实施例中,还包括:在所述连续检测阶段,多路摄像头和麦克风采用流水线方式以间隔时间采集预设时间长度的视频数据和音频数据,连续输出视频数据和音频数据。

15、在其中一个实施例中,还包括:当连续输出的婴儿的状态信息处于危急状态时,输出预警信息,从而对婴儿进行监护。

16、一种基于声音和图像的婴儿监护需求识别装置,应用于边缘端,所述边缘端包括至多路摄像头、多路麦克风以及ai算力卡,所述装置包括:

17、检测模块,用于当摄像头检测到婴儿,且麦克风采集的声音信号超过阈值时,进入连续检测阶段;

18、采集模块,用于在所述连续检测阶段,多路摄像头和麦克风以间隔时间采集预设时间长度的视频数据和音频数据;所述视频数据和音频数据的时长相同;

19、特征提取模块,用于采用轻量化卷积网络提取所述视频数据中的图像特征,以及提取所述音频数据中的声音特征;

20、融合模块,用于将每路采集得到的图像特征和声音特征进行融合,根据预训练的分类器进行分类,得到婴儿的状态信息;

21、监护模块,用于通过连续输出的婴儿的状态信息,对婴儿进行监护。

22、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

23、当摄像头检测到婴儿,且麦克风采集的声音信号超过阈值时,进入连续检测阶段;

24、在所述连续检测阶段,多路摄像头和麦克风以间隔时间采集预设时间长度的视频数据和音频数据;所述视频数据和音频数据的时长相同;

25、采用轻量化卷积网络提取所述视频数据中的图像特征,以及提取所述音频数据中的声音特征;

26、将每路采集得到的图像特征和声音特征进行融合,根据预训练的分类器进行分类,得到婴儿的状态信息;

27、通过连续输出的婴儿的状态信息,对婴儿进行监护。

28、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

29、当摄像头检测到婴儿,且麦克风采集的声音信号超过阈值时,进入连续检测阶段;

30、在所述连续检测阶段,多路摄像头和麦克风以间隔时间采集预设时间长度的视频数据和音频数据;所述视频数据和音频数据的时长相同;

31、采用轻量化卷积网络提取所述视频数据中的图像特征,以及提取所述音频数据中的声音特征;

32、将每路采集得到的图像特征和声音特征进行融合,根据预训练的分类器进行分类,得到婴儿的状态信息;

33、通过连续输出的婴儿的状态信息,对婴儿进行监护。

34、上述基于声音和图像的婴儿监护需求识别方法、装置、设备和介质,为了解决目前婴儿监护数据量大、模型复杂导致监控实时性不好的问题,本发明通过边缘部署的方式,将计算和分析部署与边缘端,为了解决数据量小的问题,一方面采用轻量化的神经网络模型,降低计算的开销,另外为了提高监护预警的精度,边缘端部署了多路摄像头和麦克风,采用以间隔时间采集预设时间长度的视频数据和音频数据的方式,保证在间隔时间就可以输出一个状态信息,通过连续的状态信息,即保证了监护准确性,同时降低计算开销。


技术特征:

1.一种基于声音和图像的婴儿监护需求识别方法,其特征在于,应用于边缘端,所述边缘端包括至多路摄像头、多路麦克风以及ai算力卡,的所述方法包括:

2.根据权利要求1所述的方法,其特征在于,提取所述音频数据中的声音特征,包括:

3.根据权利要求2所述的方法,其特征在于,采用轻量化卷积网络提取所述视频数据中的图像特征,包括:

4.根据权利要求3所述的方法,其特征在于,将每路采集得到的图像特征和声音特征进行融合,包括:

5.根据权利要求1至4任一项所述的方法,其特征在于,预训练的分类器的损失函数包括:分类损失、所述声音特征的波形损失以及所述声音信号的去噪损失。

6.根据权利要求5所述的方法,其特征在于,在所述连续检测阶段,多路摄像头和麦克风以间隔时间采集预设时间长度的视频数据和音频数据,包括:

7.根据权利要求6所述的方法,其特征在于,通过连续输出的婴儿的状态信息,对婴儿进行监护,包括:

8.一种基于声音和图像的婴儿监护需求识别装置,其特征在于,应用于边缘端,所述边缘端包括至多路摄像头、多路麦克风以及ai算力卡,所述装置包括:

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。


技术总结
本申请涉及一种基于声音和图像的婴儿监护需求识别方法、装置、设备和介质。所述方法包括:当摄像头检测到婴儿,且麦克风采集的声音信号超过阈值时,进入连续检测阶段;在连续检测阶段,多路摄像头和麦克风以间隔时间采集预设时间长度的视频数据和音频数据;采用轻量化卷积网络提取视频数据中的图像特征,以及提取音频数据中的声音特征;将每路采集得到的图像特征和声音特征进行融合,根据预训练的分类器进行分类,得到婴儿的状态信息;通过连续输出的婴儿的状态信息,对婴儿进行监护。该方法即可以降低计算量的压力,又可以保证监护准确性。

技术研发人员:李君,姚秉彝,陆红霞,方文莉,占城,屠蕾,吕铃,陈颖彬,申网燕
受保护的技术使用者:上海市长宁区妇幼保健院
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-23541.html