本技术涉及人工智能、计算机视觉与自然语言处理的,具体是涉及一种工业巡检场景的多模态分析方法、系统、设备及介质。
背景技术:
1、工业自动化与智能化水平不断提高,工业巡检作为确保生产安全与设备正常运行的重要环节,其智能化水平直接关系到企业的生产效率与经济效益。传统巡检方式依赖于人工,存在效率低下、易出错等问题。尽管已有部分巡检系统采用了视频监控技术,但大多仅停留在视频录制与回放阶段,缺乏深入的场景理解与智能分析。
2、近年来,多模态学习在人工智能领域取得了显著进展,通过融合不同模态的信息,能够更全面地理解复杂场景。然而,在工业巡检领域,基于多模态模型的视频理解和自然语言处理算法尚不成熟,难以满足实际复杂巡检场景的巡检需求。因此需要进一步提高工业巡检的智能化水平,提高巡检效率与准确性,降低人工干预成本。
技术实现思路
1、为了实现工业巡检场景的智能化分析,提高巡检效率与准确率,本技术提供一种工业巡检场景的多模态分析方法、系统、设备及介质。
2、第一方面,本技术提供一种工业巡检场景的多模态分析方法,包括:
3、实时采集工业巡检区域的多模态数据,包括视频图像与语音数据;
4、将当前采集到的多模态数据输入场景类型识别模型,识别场景类型,包括:设备密集型、人员密集型以及设备人员密集型;所述场景类型识别模型采用神经网络模型,通过历史标注场景类型的工业巡检区域的多模态数据训练生成;
5、基于确定的场景类型匹配对应的多模态融合方式,所述多模态融合方式包括:与设备密集型匹配的多尺度特征融合、与人员密集型匹配的跨模态交互融合以及与设备人员密集型匹配的多尺度特征与跨模态交互联合融合;
6、根据匹配的多模态融合方式,分别利用深度学习算法对视频图像进行特征提取,利用自然语言处理技术对语音数据转化的文本进行特征提取,将提取的特征进行多模态融合;
7、利用深度学习算法对多模态融合特征进行联合推理,识别工业巡检区域潜在风险或设备故障;基于识别的潜在风险或设备故障生成巡检报告与决策。
8、通过采用上述方案,确定不同工业巡检场景类型并基于不同场景类型的特性匹配适合的多模态融合方式,从而融合视频图像、语音文本等多模态信息,实现对于工业巡检不同场景的智能分析,及时准确的识别工业巡检区域潜在的风险与设备故障,提高巡检效率与准确率。
9、优选的,还包括:
10、实时采集工业巡检区域的环境数据;
11、将当前环境数据、场景类型以及场景类型匹配的多模态融合方式输入构建的最优融合权重获取模型,输出当前环境数据对应的最优的融合权重,根据最优的融合权重将提取的特征进行多模态融合;所述构建的最优融合权重获取模型通过历史的环境数据、场景类型以及场景类型匹配的多模态融合方式下若干专家标注的融合权重训练生成的。
12、通过采用上述方案,考虑环境因素对于视频图像以及语音数据特征提取的影响,设计根据环境特征动态调整不同模态特征的融合权重,从而提高巡检的效率和准确性。
13、优选的,还包括:
14、当基于确定的场景类型匹配的多模态融合方式为多尺度特征与跨模态交互联合融合时,统计识别出的不同工业巡检区域于当前时刻的前一预设时间段内潜在风险中人员违规率或设备故障率;判断是否存在与当前时刻采集的工业巡检区域属于相同区域的统计的潜在风险中人员违规率上升达到预设违规率或设备故障率上升达到预设故障率;若存在与当前时刻采集的工业巡检区域属于相同区域的统计的设备故障率上升达到预设故障率,则对于当前时刻提取的特征进行多模态加权融合时,上调跨模态交互融合的特征权重;若存在与当前时刻采集的工业巡检区域属于相同区域的统计的潜在风险中人员违规率上升达到预设违规率,则对于当前时刻提取的特征进行多模态加权融合时,上调多尺度特征融合的特征权重;否则,不调整。
15、通过采用上述方案,将历史检测到的设备故障率与人员违规率作为反馈数据,根据反馈数据对应多模态联合融合中各融合方式的权重,以更好的检测当前设备故障或人员违规的检测,提高巡检的准确性。
16、优选的,还包括:
17、获取工业巡检区域的巡检任务,获取巡检任务中的工业巡检区域的尺寸,针对当前获取的工业巡检区域的尺寸确定其所处预设尺寸范围,根据确定的预设尺寸范围匹配不同尺度的多尺度特征融合;其中,处于不同预设尺寸范围的工业巡检区域对应设置有不同尺度的多尺度特征融合。
18、通过采用上述方案,基于工业巡检区域的尺寸范围对应匹配不同尺寸的特征融合,以使得对于较小尺寸的巡检区域可在较细的尺寸融合以捕捉更多的细节信息,对于较大尺寸的巡检区域可在较粗的尺度融合以提高处理速度。
19、优选的,还包括:
20、获取工业巡检区域的巡检任务,获取工业巡检区域巡检任务的巡检难度与任务数量;根据获取的巡检难度与任务数量确定巡检复杂度等级,不同巡检复杂度等级均对应设置满足条件,所述满足条件包括:预设巡检难度的巡检任务数量达到预设数量;针对当前确定的巡检任务的复杂度等级,匹配不同阈值的跨模态交互融合;其中,处于不同复杂度等级的巡检任务对应设置有不同阈值的跨模态交互融合。
21、通过采用上述方案,确定工业巡检区域的巡检复杂度,对于巡检复杂度等级较高的巡检场景中,降低阈值,以增加跨模态交互的敏感性,而在巡检复杂度等级较低的巡检场景中,提高阈值,以减少误报率。
22、优选的,还包括:
23、获取工业巡检区域的巡检任务,确定工业巡检区域巡检任务的巡检难度与任务数量,计算获取当前时刻前一段时间段内相同巡检难度和任务数量条件下识别到工业巡检区域潜在风险或设备故障的平均识别时长;比较计算获取的平均识别时长是否大于第一预设时长,若计算获得平均时长大于第一预设时长,则将当前提取的多模态特征传送至计算资源丰富的边缘设备,利用边缘设备对多模态融合特征进行联合推理,识别工业巡检区域潜在风险或设备故障。
24、通过采用上述方案,利用计算资源丰富的边缘设备对于识别时长较长的复杂的巡检任务进行识别,提高工业巡检的效率。
25、优选的,还包括:
26、比较计算获取的平均识别时长是否大于第二预设时长,若大于第二预设时长,则将当前提取的多模态特征传送至备份的深度学习模型,利用备份的深度学习模型对多模态融合特征进行联合推理,识别工业巡检区域潜在风险或设备故障。
27、通过采用上述方案,考虑到识别时长过长可能存在识别算法对应的模型存在故障,从而及时替换备份的模型以及时识别工业巡检区域潜在风险或设备故障,保障工业巡检的准确性。
28、第二方面,本技术一种工业巡检场景的多模态分析系统,包括:
29、多模态数据获取模块,用于实时采集工业巡检区域的多模态数据,包括视频图像与语音数据;
30、多模态数据场景确定模块,用于将当前采集到的多模态数据输入场景类型识别模型,识别场景类型,包括:设备密集型、人员密集型以及设备人员密集型;所述场景类型识别模型采用神经网络模型,通过历史标注场景类型的工业巡检区域的多模态数据训练生成;
31、多模态融合方式确定模块,用于基于确定的场景类型匹配对应的多模态融合方式,所述多模态融合方式包括:与设备密集型匹配的多尺度特征融合、与人员密集型匹配的跨模态交互融合以及与设备人员密集型匹配的多尺度特征与跨模态交互联合融合;
32、多模态数据融合模块,用于根据匹配的多模态融合方式,分别利用深度学习算法对视频图像进行特征提取,利用自然语言处理技术对语音数据转化的文本进行特征提取,将提取的特征进行多模态融合;
33、多模态数据分析结果获取模块,用于利用深度学习算法对多模态融合特征进行联合推理,识别工业巡检区域潜在风险或设备故障;基于识别的潜在风险或设备故障生成巡检报告与决策。
34、通过采用上述方案,实现工业巡检场景的智能化分析,提高巡检效率与准确率。
35、第三方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的方法。
36、第四方面,本技术提供一种计算机设备,所述计算机设备包括存储器、处理器及在所述存储器上存储并可运行的程序,所述程序被处理器执行时实现如上述方法的步骤。
37、综上,本技术具有以下有益效果为:
38、1、通过识别不同工业巡检场景类型,根据不同场景类型的特性匹配适合的多尺度融合、跨模态交互融合或多尺度特征与跨模态交互联合融合等方式,获取更细节全面的视频图像特征、语音文本特征并融合为丰富的多模态信息,实现对于工业巡检不同场景的智能分析,及时准确的识别工业巡检区域潜在的风险与设备故障,提高巡检效率与准确率;
39、2、通过采集环境数据或识别巡检结果的反馈信息,动态的调整特征融合的权重或不同融合方式的融合权重,从而实现更为准确的巡检;
40、3、考虑工业巡检的尺寸范围、工业巡检任务的复杂程度,对应的调整多尺寸融合的具体尺度与跨模态交互融合的确定特征关联的阈值,从而提高巡检准确性。
1.一种工业巡检场景的多模态分析方法,其特征在于,包括:
2.根据权利要求1所述的工业巡检场景的多模态分析方法,其特征在于,还包括:
3.根据权利要求1所述的工业巡检场景的多模态分析方法,其特征在于,还包括:
4.根据权利要求1所述的工业巡检场景的多模态分析方法,其特征在于,还包括:
5.根据权利要求1所述的工业巡检场景的多模态分析方法,其特征在于,还包括:
6.根据权利要求1所述的工业巡检场景的多模态分析方法,其特征在于,还包括:
7.根据权利要求6所述的工业巡检场景的多模态分析方法,其特征在于,还包括:
8.一种工业巡检场景的多模态分析系统,其特征在于,包括:
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的方法。
10.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器及在所述存储器上存储并可运行的程序,所述程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。