一种基于声音感知行车场景与事件的检测方法

专利2025-06-27  16


本发明涉及汽车检测,尤其涉及一种基于声音感知行车场景与事件的检测方法。


背景技术:

1、随着汽车行业向着智能化网联化的快速发展,多种类型的传感器技术应用到智能汽车上,汽车的感知能力越来越强大。除了视觉技术,声音信号也能提供很多有用信息,并具备无需光照,不受阴雨天及黑天情况干扰的优势。运用声音事件检测技术的音频监控设备由于其成本低廉,体积小巧,安装方便快捷,可靠性较强,不容易损坏,维护简单的特点,未来将会在智能汽车中广泛应用。

2、近些年,声音事件分类和场景分类的技术框架主要是基于深度学习路线,采用卷积神经网络(cnn)和循环神经网络(rnn)搭建检测模型。对音频信号中的特征进行提取和分类,单独作为声音事件或声学场景分析与检测的依据。但模型没有考虑将不同场景中存在着的具有场景特征的声音事件作为声音场景检测的依据之一,也没有利用场景与事件的联系以及事件之间的联系来帮助模型预测声学场景和声音事件,所以在复杂情况下的检测能力与人类相比还存在一定的差距。

3、目前尚且没有技术方案能够较全面的提取和利用声学场景和声音事件的关系信息以及声音事件之间的关系信息,并利用这种关系信息进行声音事件检测和声学场景分类的多任务联合分析。

4、noriyuki tonami和keisuke imoto在论文中指出,声音事件检测(sed)与声学场景分类(asc)之间存在紧密的联系,然而现有研究在处理sed和asc问题时,往往未能共同考虑声音事件与声学场景的分析。因此,提出了一种利用sed和asc方法相结合的多任务学习来联合分析声音事件和声学场景的新方法。keisuke imoto和seisuke kyochi在论文中指出,单个场景中发生的声音事件的种类是有限的,并且有一些声音事件会同时发生。因此希望能够利用有限的声音数据高效地建模声音事件。把声音事件的发生表示为一个图,其节点表示事件发生的频率,其边表示共同发生的声音事件,将该图用于声音事件建模,并引入图拉普拉斯正则化到神经网络的目标函数中。

5、现有的技术几乎都仅采用神经网络模型如cnn,rnn,crnn等拾取到的音频信号中每个场景的声学特征来进行声学场景分类,或仅采用拾取到的音频信号中每种声音事件独立的特征来进行声音事件检测,没有用到声学场景和声音事件的联系来帮助模型进行预测,同时也没有考虑声音事件之间的联系。

6、现有方法将声学场景分类和声音事件检测作为两个单独检测的任务,没有考虑和利用到场景与事件的关系以及声音事件之间的关系,仅通过二者的声学特征进行检测和分析。

7、现有方法在构建声音事件关系图时,仅考虑了同时发生的声音事件,使用两个声音事件同时发生的概率来构建无向图或使用两个声音事件同时发生的条件概率来构建有向图。构建无向图时不能准确描述出每个声音事件及其相关声音事件之间的条件共现关系,在实际情况下很可能出现发生a事件时很高概率发生b事件,但是发生b事件时,发生a事件的概率并不一定高,还可能很低。而现有的有向图的构建方法缺乏关于各类声音事件发生频率的描述,场景与事件之间的关系信息不足,可能导致模型不能较好的分辨两个具有相似或相同声音事件种类的不同场景。

8、在车辆行驶过程中,除了通过声音信号对汽车周围发生的事件进行准确的分析和检测,对场景的具体情况进行判断,明确车辆当前处于什么场景,提升对声音信息的利用率,也是进一步提高汽车的感知与分析能力重要手段。

9、现有技术都没有同时考虑到场景与事件的关系以及声音事件之间的关系,也没有将声学场景检测和声音事件检测两个任务进行有效的联合分析,目前尚无利用图神经网络学习具备场景与事件之间的关系以及声音事件之间的关系两种关系,并有效的完成声学场景检测和声音事件检测两个任务的技术方案。


技术实现思路

1、本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于声音感知行车场景与事件的检测方法,实现行车场景与事件的检测。

2、为解决上述技术问题,本发明所采取的技术方案是:一种基于声音感知行车场景与事件的检测方法,包括以下步骤:

3、步骤1:基于交通场景声音事件数据集构建声音事件关系图及行车场景图;所述声音事件数据集包含音频数据和音频标签,并将声音事件数据集划分为训练数据集、测试数据集和验证数据集;

4、步骤1.1:获取交通场景声音事件数据集中的标签信息,进行声音事件的统计;

5、步骤1.1.1:读取声音事件数据集中的标签文件,获取声音事件数据集中训练数据集的标签信息,包括每个音频的标签文件中的声音事件类别,以及每个声音事件的起止时间;

6、将各类声音事件分别记为li,i=0,1,2,3...n,n为声音事件总数,并记录每个声音事件的起止时间;

7、步骤1.1.2:统计声音事件数据集中各类声音事件的发生次数,所有声音事件发生的总次数,每一个音频中各类声音事件同时发生的次数;

8、将两个声音事件同时发生的情况记为lij,j=0,1,2,3...n且i≠j,lij表示事件li与事件lj在一段音频中同时发生;根据每个音频的标签存在的声音事件,统计各类声音事件发生的次数,记为xi,表示声音事件li发生的次数,x表示各类声音事件发生的总次数;两个声音事件同时发生的次数,记为xij表示事件li与事件lj在同一个音频中同时发生的次数;

9、步骤1.2:计算声音事件数据集中各类声音事件关系,构建不同行车场景的声音事件关系图;

10、步骤1.2.1:通过先验概率公式计算出各类声音事件同时发生的概率;

11、计算各类声音事件同时发生的概率pij,根据步骤1.1得到的各类声音事件发生的次数xi,以及两个声音事件同时发生的次数xij,计算当声音事件li发生时同时发生声音事件lj的概率pij,如下公式所示:

12、pij=p(lj|li)=xij/xi

13、采用概率阈值α,α∈(0,1)对声音事件关系进行过滤,将概率低于阈值的声音事件关系权重置0,如下公式所示:

14、

15、步骤1.2.2:计算不同行车场景中各类声音事件的发生频率;

16、利用步骤1.1得到的各类事件发生的次数xi,以及各类声音事件发生的总次数x,计算出场景中各类声音事件的发生频率pi:

17、pi=xi/x

18、步骤1.2.3:构建不同行车场景的声音事件关系图;

19、将各类声音事件作为节点,各类声音事件同时发生概率pij作为连接这些节点的有向边构建声音事件关系图,各类声音事件的发生频率pi作为每个节点自身属性中的一部分;

20、步骤1.3:将每个声音事件关系图,作为一个高级节点并入行车场景图中,行车场景图中每一个节点表示一个行车场景,每个行车场景中又具有相应的声音事件关系图;

21、步骤2:对声音事件数据集中的音频数据预处理,提取相位和幅度特征,并将得到的幅度谱和相位谱合并成特征序列;

22、在汉宁窗上,使用快速傅里叶变换从多声道音频的每个c声道提取频谱图;然后提取频谱图的相位和幅度,并将提取出的相位和幅度作为单独的特征合并成特征序列;

23、步骤3:构建声学场景与声音事件联合检测模型进行声音事件检测;

24、步骤3.1:构建共享声学特征信息学习网络,用以学习音频中声音事件的声学特征,并将学到的声学特征共享至声学场景分类网络和声音事件分类网络;

25、所述共享声学特征信息学习网络将经过步骤2预处理后输出的特征序列作为输入送到卷积神经网络;在卷积神经网络部分,使用三层的二维cnn学习特征序列中的声学特征;第一层cnn有b1个3×3×2c维感受野的滤波器,之后的两层cnn的滤波器数量分别为b2=b1/2,b3=b1/4;三层cnn的步长和填充均为1,以保证特征序列长度t不变;在每一层cnn之后,使用批标准化对输出进行标准化,并使用relu函数激活,然后使用沿频率轴的最大池化降低维度,从而保持特征序列长度t不变;使用跨越所有信道的滤波器内核,允许cnn学习时间和频率维度的相关信道内特征;最后一个cnn层的输出为t×2×b3;

26、步骤3.1.1:创建第一层二维的cnn层,该层的输入为步骤2预处理输出的特征序列,cnn层使用跨越所有信道的滤波器内核,允许cnn学习时间和频率维度的相关信道内特征,该层有b1个3×3×2c维感受野的滤波器,步长和填充均为1,以保证特征序列长度t不变;使用批标准化对卷积层输出进行标准化,并使用relu函数激活,之后使用沿频率轴的最大池化降低维度,从而保持特征序列长度t不变;

27、步骤3.1.2:创建第二层二维的cnn层,该层有b2个3×3×2c维感受野的滤波器,步长和填充均为1,以保证特征序列长度t不变;该层的输入为第一层cnn层输出的特征序列,首先通过卷积层,然后使用批标准化对卷积层输出进行标准化,并使用relu函数激活,之后经过沿频率轴的最大池化后降低维度;

28、步骤3.1.3:创建第三层二维的cnn层,该层有b3个3×3×2c维感受野的滤波器,步长和填充均为1,以保证序列长度t不变;该层的输入为第二层cnn层输出的特征序列,首先通过卷积层,然后使用批标准化对卷积层输出进行标准化,并使用relu函数激活,之后经过沿频率轴的最大池化降低维度;

29、步骤3.2:构建声音事件分类网络,用以实现音频中声音事件的分类任务;

30、所述声音事件分类网络包括双向rnn层和两个fc层,将步骤3.1.3输出的特征序列交换维度并进一步重塑为长度为2b3的特征向量,并将其送入到双向rnn层,该双向rnn层用于从cnn输出学习时间上下文信息;在每一rnn层都使用q个节点的门控循环单元gru,并使用tanh函数激活,最终输出的特征序列维度与输入保持一致;然后将双向rnn层输出结果送入到两个fc层,进一步提取声音事件的声学特征;第一个fc层包含r个节点,每个节点都具有线性激活;第二个fc层由n个节点组成,n的值为对应声音数据集中的声音事件类别数量;

31、步骤3.2.1:将cnn输出的特征序列交换维度变并进一步重塑为长度为2b3的特征向量;

32、步骤3.2.2:创建两个双向rnn层,将经过步骤3.1.4重塑后的特征序列送入其中,每一层rnn层都使用q个节点的门控循环单元gru以提取声音事件的时间上下文信息,并使用tanh函数激活,最终输出的特征序列维度与输入保持一致;

33、步骤3.2.3:创建两个fc层,将经过双向rnn层提取了声音事件时间上下文信息的特征序列送入其中,进行进一步训练;

34、第一个fc层包含r个节点,每个节点都具有线性激活;

35、第二个fc层由n个节点组成,n的值为对应数据集中的声音事件类别数量;

36、步骤3.3:构建声学场景分类网络进行声学场景分类;

37、将步骤3.1.3输出的特征序列作为输入送到卷积神经网络;在卷积神经网络部分,使用两层的二维的cnn学习特征序列中的声学特征;第一层cnn层有b4个3×3×2c维感受野的滤波器,第二层cnn层的滤波器数量也为b4;两层cnn层的步长和填充均为1,以保证特征序列长度t不变;在每一层cnn的之后,使用批标准化对输出进行标准化,并使用relu函数激活,保持特征序列长度t不变;将第二层cnn输出的特征序列交换维度并进一步重塑后送入到两个fc层,进一步提取声学场景的声学特征;第一个fc层包含r个节点,每个节点都具有线性激活;第二个fc层由m个节点组成,m的值为对应声学数据集中的声音场景数量;

38、步骤3.3.1:创建第一层二维的cnn层,该层的输入为步骤3.1.3输出的特征序列,使用跨越所有信道的滤波器内核,允许cnn学习时间和频率维度的相关信道内特征,该层有b4个3×3×2c维感受野的滤波器,步长和填充均为1,以保证序列长度t不变;使用批标准化对输出进行标准化,并使用relu函数激活。

39、步骤3.3.2:创建第二层二维的cnn层,该层有b5个3×3×2c维感受野的滤波器,步长和填充均为1,以保证序列长度t不变;该层的输入为第一层cnn层输出的特征序列,首先通过卷积层,然后使用批标准化对输出进行标准化,并使用relu函数激活;

40、步骤3.3.3:将第二层cnn层输出的特征序列交换维度变并进一步重塑为t帧序列后送入到两个fc层,进一步提取声学场景的声学特征;

41、步骤3.3.4:创建两层fc层;第一个fc层包含r个节点,每个节点都具有线性激活;

42、第二个fc层由m个节点组成,m的值为对应数据集中的声音场景数量;

43、步骤3.4:构建节点表示学习模块,学习每个声学场景下的节点表示然后再将其作为高级节点学习行车场景下的节点表示;

44、所述节点表示学习模块使用gcn网络分别学习每个声学场景下的节点表示然后再将其作为高级节点学习行车场景下的节点表示;gcn网络使用两个gcn层,每个gcn层将前一层学习到的节点表示h(l)作为输入,学习后输出新的节点表示h(l+1);第一个gcn层的输入节点表示是标签的词嵌入,其中n表示标签的数量,即声音数据集中声音事件的种类数,f表示标签字嵌入的维数;对于最后一层,输出为o表示输出的特征序列的特征维度,与步骤3.2和步骤3.3所输出的特征序列维度相同;将多个声学场景的节点表示输出作为行车场景的节点嵌入再次送入gcn网络中,其中m表示行车场景中的声学场景种类数,f为代表声学场景特征的高级节点的嵌入维数;经过两层gcn后,最终输出的行车场景的节点表示的特征序列

45、步骤3.4.1:根据步骤1构建的声音事件关系图结构获取参数,图g=(v,e),其中v包含声音事件关系网络中所有的n个节点,即要检测的n种声音事件,vi∈v,e代表节点之间的边(vi,vi)∈e;节点的特征向量矩阵为其中n为节点数,f为特征向量的维数;

46、步骤3.4.2:为了在聚合邻居信息时同时保留节点自身的信息,为每个节点添加自连接:

47、

48、其中,a表示图g的邻接矩阵,中的元素为权重实数,in表示每个节点都添加了自连接,n为节点数量,表示每个节点都添加了自连接关系后的邻接矩阵,表示每个添加了自连接之后的度矩阵,度矩阵d=∑jaij;

49、步骤3.4.3:使用参数β来调整节点自身和邻居的权重比,则调整了自身和邻居权重比之后的邻接矩阵如下公式所示:

50、

51、其中,表示调整了自身和邻居权重比之后的邻接矩阵,β用于分配邻居和自身的权重比,β∈[0,1];

52、步骤3.4.4:改进gcn网络在层与层之间的传播;

53、经过改进后的的gcn网络在层与层之间的传播遵循以下公式:

54、

55、其中,表示调整了h(l)表示第l层gcn网络的输入,w(l)表示待训练的参数,h()表示相应的激活函数;

56、步骤3.4.5:构建第一层gcn层,将节点的特征向量矩阵h(0)输入经过上述步骤3.4.4改进后的gcn网络中;

57、

58、其中,h(1)为第一层gcn层聚合更新后的节点特征向量矩阵;

59、步骤3.4.6:构建第二层gcn层,将经过第一层gcn层聚合更新后的节点特征向量矩阵h(1)输入其中,聚合更新后的节点特征向量矩阵,如下公式所示:

60、

61、其中,h(2)为第二层gcn层聚合更新后的节点特征向量矩阵;

62、最后一层学习到的节点特征向量矩阵h(2)作为该声学场景的节点表示输出;

63、步骤3.4.7:将多个声学场景在步骤3.4.6的节点表示输出作为行车场景的节点嵌入再次送入gcn网络中,其中m表示行车场景中的声学场景种类数,f为代表声学场景特征的高级节点的嵌入维数;

64、经过两层gcn后,最终输出的行车场景的节点表示的特征序列

65、步骤3.5:将步骤3.4.7输出的行车场景的节点表示的特征序列转置;将转置前的特征序列与声音事件检测的声学特征序列进行矩阵相乘,得到结合后的第一特征序列;将转置后的特征序列与声学场景检测的声学特征序列做对应元素相乘,得到结合后的第二特征序列;

66、步骤3.6:构建声学场景分数输出网络和声音事件分数输出网络,并根据网络输出的分数实现最终的声学场景分类和声音事件分类任务;

67、将步骤3.5两个结合后的特征序列分别送入声学场景分数输出网络和声音事件分数输出网络中,声学场景分数输出网络和声音事件分数输出网络均由fc层实现;声学场景分数输出网络的fc层由m个具有sigmoid激活的节点组成,每个节点对应于要检测的m个声学场景类别中的一个;声音事件分数输出网络的fc层由n个具有sigmoid激活的节点组成,每个节点对应于要检测的n个声音事件类别中的一个;使用sigmoid激活可以同时激活多个类,并输出分数,使用交叉熵损失函数进行训练,并输出最终的分类和检测结果,asc和sed输出均在[0,1]的连续范围内,当输出超过阈值0.5时,则判定为车辆处于该声学场景或存在该事件,对于判定处于的场景输出该场景的类别,对判定存在的声音事件输出其事件的起止时间和持续时间;

68、步骤3.6.1:创建一层声学场景检测的fc层,将经过步骤3.5结合后的特征序列送入其中,fc层由m个具有sigmoid激活的节点组成,每个节点对应于要检测的m个声学场景类别中的一个;使用sigmoid激活可以同时激活多个类并输出分数;使用交叉熵损失函数进行训练,并输出最终的声学场景分类结果,声学场景检测输出在[0,1]的连续范围内,当输出超过阈值0.5时,判定车辆处于该声学场景中;

69、步骤3.6.2:创建一层声音事件检测的fc层,将经过步骤3.5结合后的第一特征序列m×n送入其中,fc层由n个具有sigmoid激活的节点组成,每个节点对应于要检测的n个声音事件类别中的一个,fc层输出为m×n;使用sigmoid激活可以同时激活多个类并输出分数;使用交叉熵损失函数进行训练,并输出最终的声音分类结果,声音事件检测输出在[0,1]的连续范围内,当输出超过阈值0.5时,判定存在该声音事件;

70、步骤3.6.3:将经过步骤3.6.1和3.6.2判断后的声学场景和声音事件类别以及声音事件的起止时间和持续时间输出。

71、采用上述技术方案所产生的有益效果在于:本发明提供的一种基于声音感知行车场景与事件的检测方法,提取了行车过程中的声学场景与声音事件的联系以及声音事件之间的联系两种关系信息,并构建了相应的图形结构,使用多层图结构的方式,将声音事件之间的关系以及声学场景与声音事件的关系融合到一张图中。使用图神经网络学习其中的两种关系信息,并将其用于声学场景和声音事件的多任务联合检测分析中,使声学场景检测和声音事件检测都能够获取到更多的先验知识,有效提高二者的检测能力。


技术特征:

1.一种基于声音感知行车场景与事件的检测方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的一种基于声音感知行车场景与事件的检测方法,其特征在于:所述步骤1包括:

3.根据权利要求2所述的一种基于声音感知行车场景与事件的检测方法,其特征在于:所述步骤1.1包括:

4.根据权利要求3所述的一种基于声音感知行车场景与事件的检测方法,其特征在于:所述步骤1.2包括:

5.根据权利要求1所述的一种基于声音感知行车场景与事件的检测方法,其特征在于:所述步骤2在汉宁窗上,使用快速傅里叶变换从多声道音频的每个c声道提取频谱图;然后提取频谱图的相位和幅度,并将提取出的相位和幅度作为单独的特征合并成特征序列。

6.根据权利要求5所述的一种基于声音感知行车场景与事件的检测方法,其特征在于:步骤3.1包括:

7.根据权利要求6所述的一种基于声音感知行车场景与事件的检测方法,其特征在于:步骤3.2包括:

8.根据权利要求7所述的一种基于声音感知行车场景与事件的检测方法,其特征在于:步骤3.3包括:

9.根据权利要求8所述的一种基于声音感知行车场景与事件的检测方法,其特征在于:步骤3.4包括:

10.根据权利要求9所述的一种基于声音感知行车场景与事件的检测方法,其特征在于:步骤3.6包括:


技术总结
本发明提供一种基于声音感知行车场景与事件的检测方法,涉及汽车检测技术领域。该方法基于交通场景声音事件数据集构建声音事件关系图及行车场景图;并对声音事件数据集中的音频数据预处理,提取相位和幅度特征,并将得到的幅度谱和相位谱合并成特征序列;构建共享声学特征信息学习网络,用以学习音频中声音事件的声学特征,并将学到的声学特征共享至声学场景分类网络和声音事件分类网络进行声音事件和声学场景的分类;构建节点表示学习模块,学习每个声学场景下的节点表示然后再将其作为高级节点学习行车场景下的节点表示;构建声学场景分数输出网络和声音事件分数输出网络,并根据网络输出的分数实现最终的声学场景分类和声音事件分类任务。

技术研发人员:汪澜,张海涛,郭鹏飞,王瑶
受保护的技术使用者:汕头职业技术学院
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-25772.html