本发明属于网络安全领域,具体涉及一种基于hash函数和fpn-transformer恶意代码分类方法。
背景技术:
1、恶意代码家族分类通常通过监测网络活动和分析恶意软件的行为特征来进行。这些分类方法具有特定的目的,分析恶意软件在不同网络环境下的活动模式和攻击策略。其中,许多恶意代码家族显示出相似的攻击特征,但它们的行为并非完全相同,而是具有一些变体特征。这些特征可能代表着特定的攻击意图或恶意活动,例如数据窃取、系统破坏或其他安全威胁。因此,对这些恶意代码家族特征的准确识别和分类对于提高网络安全防护措施的有效性具有重要的实际意义。
2、恶意代码的样本量庞大且呈爆炸性增长,早期的基于规则和签名的分类方法虽取得一定进展,但面临模式更新缓慢、误报率高的问题。随着机器学习技术的发展,尤其是深度学习模型的引入,恶意代码检测和分类技术取得了显著进展。然而,传统的深度学习方法在处理恶意代码时,常常依赖于大量的、高质量的标注数据,且易受到“神经网络模型崩溃”现象或“过拟合”的影响,这在实际应用中导致分类模型泛化能力和实用性下降。现有的分类方法在应对复杂多变的恶意代码家族时,常面临着特征提取不足、处理大规模数据集时资源消耗大等问题。
技术实现思路
1、本发明的技术问题是现有的基于深度学习网络的恶意代码分类方法依赖于高质量数据,且易受到神经网络模型崩溃现象或过拟合的影响,导致模型泛化能力和实用性下降,尤其是在处理大规模或低质量的数据集时面临资源消耗大和准确率不足的问题。
2、本发明的目的是针对上述问题,提供一种基于hash函数和fpn-transformer恶意代码分类方法,该方法通过改进数据预处理和特征提取机制,降低对高质量数据的依赖,并通过结合特征金字塔网络(feature pyramid networks,fpn)与transformer模型,优化特征表达和分类效率,提高模型的准确率和泛化能力。
3、为了达到上述目的,本发明提供的技术方案为:
4、基于hash函数和fpn-transformer的恶意代码分类方法,使用哈希函数对待分类的代码文件数据进行压缩处理,降低特征数据的维度并减少噪声;将特征金字塔网络fpn和transformer模型相结合,构建fpn-transformer模型,为多层回归特征提取模型提供多层次和多视角的特征数据;利用多层回归特征提取模型对fpn-transformer模型提取的不同层次的特征进行综合和融合,根据融合结果输出最终的代码分类结果。
5、所述恶意代码家族分类方法包括以下步骤:
6、步骤1:数据预处理,利用自然语言处理模型从待分类的代码文件或代码程序集的代码中提取初步的特征数据,捕获代码的语义和结构信息;
7、步骤2:对步骤1中获得的特征数据进行哈希随机压缩处理,降低特征数据的维度并减少噪声;
8、步骤2.1:使用哈希函数将预处理后的特征值映射到哈希函数空间;
9、步骤2.2:根据预设的阈值筛选得到重要特征,减少无关特征的影响;
10、步骤3:使用fpn-transformer模型对压缩后的特征数据进行深层次分析和特征提取;
11、步骤4:将步骤3中得到的特征数据通过多层回归特征提取模型进行进一步的融合和分类处理;
12、步骤5:根据多层回归特征提取模型的输出结果,判断代码文件中是否存在恶意代码,并针对恶意代码得到其所属的恶意代码家族。
13、优选地,待分类的代码文件或代码程序集的代码采用二进制或脚本格式。
14、优选地,步骤1中,所述自然语言处理模型为codebert模型。
15、优选地,所述fpn-transformer模型,具体包括多个平均池化层、m个编码器和m个解码器,其中m为编码器的数量,所述编码器包括依次连接的输入嵌入层、多头注意力单元、归一化层、前馈神经网络和归一化层,所述解码器的结构与编码器相同;带有自注意力机制的多头注意力单元和前馈神经网络用于特征的转换和增强。
16、优选地,所述多层回归特征提取模型,具体包括并行的通道注意力模块和空间注意力模块、线性层和回归层以及自相关矩阵分类器,所述通道注意力模块包括输入嵌入层、并行的平均池化层和最大池化层、共享多层感知器;所述空间注意力模块包括输入嵌入层、并行的平均池化层和最大池化层,以及卷积层。通道注意力模块、空间注意力模块与线性层、回归层结合,用于捕捉恶意代码特征的多尺度信息,通道注意力模块的共享多层感知器与回归层结合,用于增强特征表达的丰富性和鲁棒性。自相关矩阵分类器利用自相关矩阵来评估和加强分类特征之间的关系,通过自相关性来优化特征组合,提高分类的准确性和鲁棒性。
17、进一步地,步骤1中,所述根据预设的阈值筛选得到重要特征,依据fpn-transformer模型的需要动态调整哈希函数空间的维度大小和用于特征筛选的阈值。
18、本发明还提供了与所述恶意代码分类方法相对应的恶意代码分类系统,包括:
19、数据输入模块:接收代码文件或代码程序集作为输入;
20、数据预处理模块:对数据输入模块得到的代码数据进行预处理,包括特征提取、数据清洗、标准化/归一化和特征选择,确保输入数据的质量和一致性,输出预处理后的特征数据至hash随机压缩模块;
21、hash随机压缩模块:利用哈希算法将预处理后的特征数据进行随机映射和压缩,映射到哈希空间;
22、特征选择模块:根据设定的阈值对哈希算法映射、压缩后的特征数据进行筛选即特征选择,保留对恶意代码家族分类有显著贡献的特征,生成压缩特征集;
23、fpn-transformer模型模块:利用fpn-transformer模型对特征选择模块输出的特征数据进行深层次分析和特征提取;
24、多层回归特征提取模型模块:运用多层回归特征提取模型从fpn-transformer模型输出的特征数据中提取多尺度特征信息,生成通道注意力特征和空间注意力特征并融合,使用线性层对融合特征进行线性变换,将线性变换后的特征输入回归层,生成自相关矩阵;
25、分类结果输出模块:根据多层回归特征提取模型得到的自相关矩阵,判断代码文件中是否存在恶意代码,并针对恶意代码得到其所属的恶意代码家族,输出最终的分类结果。
26、相比现有技术,本发明的有益效果包括:
27、1)本发明结合特征金字塔网络fpn和transformer模型,构建了fpn-transformer模型,为多层回归特征提取模型提供多层次和多视角的特征数据,再利用多层回归特征提取模型对fpn-transformer模型提取的不同层次的特征进行综合和融合,相比现有的采用单一的分类模型的恶意代码分类方法,本发明先后采用两个模型即先采用fpn-transformer模型进行输入数据特征分解、挖掘,再采用多层回归特征提取模型进行注意力权重增强、特征提取、特征融合,将融合特征输入到自相关矩阵分类器,从而得到恶意代码的分类,有效提高了恶意代码分类方法的准确率和泛化能力,能防止分类模型过拟合并避免分类模型崩溃现象,提高了分类模型的稳定性。
28、2)本发明利用哈希函数对输入fpn-transformer模型前的特征数据进行特征选择,哈希函数具有随机性,能动态地映射和压缩特征,这使得模型能够更好地适应不同类型的恶意代码,并且减少了模型过拟合的风险;而传统的特征选择方法,如基于统计特征或信息增益的方法,通常是固定的,这意味着一旦选择了某些特征,模型在后续的训练中就会一直依赖这些特征,现有技术的这些方法在处理动态、复杂的恶意代码时往往表现出不足。本发明将哈希随机压缩方法与深度学习模型相结合,能够自适应地学习和筛选关键特征,提高恶意代码分类的精度和效率。
29、3)本发明通过fpn-transformer模型对恶意代码特征数据进行深层次分析和特征提取。相比于传统的深度学习方法,这种并行的分解得到多尺度特征的机制更为灵活和细致。transformer的自注意力机制能使模型在分析特征时更关注特征之间的关系和上下文信息,这种机制在恶意代码分类中尤其有用,与lstm这类深度学习模型相比,fpn-transformer模块能通过并行处理特征,利用自注意力机制高效地捕捉长距离依赖关系,而不需要逐步遍历序列,使得它在处理复杂恶意代码的分类任务中更为高效且效果更好。
30、4)本发明使用多层回归特征提取模型对fpn-transformer模型输出的多层次、多尺度的特征进行综合和融合,多层回归特征提取模型不仅仅进行简单的特征提取,还能够从fpn-transformer模型输出的特征中提取多尺度信息,并通过通道注意力和空间注意力机制进行特征融合;而传统的深度学习模型,如单层的全连接网络或单一的卷积层,通常只能捕捉到输入特征的某一层次或某一维度的信息。本发明的多层回归特征提取模型通过多层次的回归分析,不仅能够提取和融合多尺度的特征,还能通过通道注意力和空间注意力机制深入挖掘特征之间的复杂关系。这种深层次的特征融合使得模型能够更好地捕捉到恶意代码的多维特征,从而在分类任务中取得更好的效果。
31、5)本发明利用自相关矩阵分类器融合并行的通道注意力模块和空间注意力模块输出的特征数据,优化了特征的结构图,便于对恶意代码所属的恶意代码家族准确分类,进一步增强了本发明对不同恶意代码家族特征的识别精度。
32、6)本发明的模型能够自适应地学习不同数据分布的特征表示,从而更准确地识别和分类恶意代码家族,提高了分类的精度和效率,并且降低了对高质量训练数据的依赖,使得在处理大规模或低质量数据集时更为高效。本发明的方法减少了计算资源消耗,并提高了模型在实际应用中的可行性和效果。
1.基于hash函数和fpn-transformer的恶意代码分类方法,其特征在于,使用哈希函数对待分类的代码文件数据进行压缩处理,降低特征数据的维度并减少噪声;将特征金字塔网络fpn和transformer模型相结合,构建fpn-transformer模型,为多层回归特征提取模型提供多层次和多视角的特征数据;利用多层回归特征提取模型对fpn-transformer模型提取的不同层次的特征进行综合和融合,根据融合结果输出最终的代码分类结果;
2.根据权利要求1所述的恶意代码分类方法,其特征在于,所述fpn-transformer模型,具体包括多个平均池化层、m个编码器和m个解码器,其中m为编码器的数量,所述编码器包括依次连接的输入嵌入层、多头注意力单元、归一化层、前馈神经网络和归一化层,所述解码器的结构与编码器相同;带有自注意力机制的多头注意力单元和前馈神经网络用于特征的转换和增强。
3.根据权利要求2所述的恶意代码分类方法,其特征在于,所述多层回归特征提取模型,具体包括并行的通道注意力模块和空间注意力模块、线性层和回归层以及自相关矩阵分类器,所述通道注意力模块包括输入嵌入层、并行的平均池化层和最大池化层、共享多层感知器;所述空间注意力模块包括输入嵌入层、并行的平均池化层和最大池化层,以及卷积层;
4.根据权利要求3所述的恶意代码分类方法,其特征在于,步骤1具体包括以下子步骤:
5.根据权利要求4所述的恶意代码分类方法,其特征在于,所述步骤2.1,具体包括以下子步骤:
6.根据权利要求5所述的恶意代码分类方法,其特征在于,所述步骤2.2,具体包括以下子步骤:
7.根据权利要求6所述的恶意代码分类方法,其特征在于,步骤3具体包括以下子步骤:
8.根据权利要求7所述的恶意代码分类方法,其特征在于,步骤4中,所述使用fpn-transformer模型对压缩后的特征数据进行深层次分析和特征提取,具体包括:
9.根据权利要求8所述的恶意代码分类方法,其特征在于,自相关矩阵分类器的数学关系式为:
10.如权利要求1-9任意一项所述的恶意代码分类方法的系统,其特征在于,包括:
