基于强化学习的钓鱼邮件动态防御决策方法及系统

专利2026-06-18 3

本发明涉及网络安全，尤其涉及一种基于强化学习的钓鱼邮件动态防御决策方法及系统。

背景技术：

1、随着互联网的快速发展和电子邮件的广泛应用，钓鱼邮件已成为当前最严重的网络安全威胁之一，钓鱼攻击占网络安全事件的36％，高居首位，给个人隐私和关键信息基础设施安全造成了巨大威胁；

2、传统的钓鱼邮件防御大多采用特征工程和黑白名单方法，通过人工提取钓鱼邮件的显著特征并构建检测规则，结合恶意域名、ip地址黑名单等进行拦截，存在规则更新不及时、泛化能力不足等问题，难以应对不断变种的钓鱼邮件，近年来，机器学习方法被广泛应用于钓鱼邮件检测领域，但现有的防御方法大多将钓鱼邮件检测视为一个静态分类问题，采用事先训练好的静态模型，缺乏动态更新和自适应调整能力，难以有效应对不断演化的钓鱼攻击手法；

3、因此，亟需一种方案解决现有技术中存在的问题。

技术实现思路

1、本发明实施例提供一种基于强化学习的钓鱼邮件动态防御决策方法及系统，至少能解决现有技术中存在的部分问题。

2、本发明实施例的第一方面，提供一种基于强化学习的钓鱼邮件动态防御决策方法，包括：

3、获取多源异构的历史钓鱼邮件数据，通过自然语言处理技术和知识图谱技术对所述历史钓鱼邮件数据进行特征提取，生成多维度特征并通过机器学习算法确定所述多维度特征中的语义结构和话术模式，构建得到高质量钓鱼邮件特征数据集，构建钓鱼邮件动态防御决策模型并基于强化学习算法进行训练，结合自适应多尺度探索策略和优先级经验回放机制动态调整样本利用率和特征权重，结合风险厌恶机制和成本约束对防御决策进行调整，得到训练后的钓鱼邮件动态防御决策模型；

4、将训练后的钓鱼邮件动态防御决策模型封装为标准化接口并与预先设置的邮件安全防护体系进行集成，通过邮件收发系统实时获取新接收的邮件，提取新接收的邮件对应的初始邮件特征，通过所述钓鱼邮件动态防御决策模型进行初始判断，基于初始判断结果，通过启发式分析和行为沙箱进行深层特征提取，结合上下文信息进行二次甄别，生成准确识别结果，若所述准确识别结果指示当前邮件为钓鱼邮件，则生成钓鱼邮件攻击画像，根据所述初始邮件特征生成主动防御策略；

5、基于所述主动防御策略，输出多层级渐进式的防御动作指令，通过标准接口将所述防御动作指令下发至防御执行节点并进行钓鱼邮件防御，在防御过程中实时获取用户反馈和行为数据，基于所述用户反馈和行为数据，通过流量镜像和蜜罐诱捕扩充所述高质量钓鱼邮件特征数据集，结合安全事件关联分析算法评估全局钓鱼邮件攻击态势和防御效果，基于所述全局钓鱼邮件攻击态势和所述防御效果，结合领域专家发出的分析反馈意见，通过在线学习算法自适应更新所述钓鱼邮件动态防御决策模型的动作空间和状态空间，重复优化直至模型收敛。

6、在一种可选的实施方式中，

7、获取多源异构的历史钓鱼邮件数据，通过自然语言处理技术和知识图谱技术对所述历史钓鱼邮件数据进行特征提取，生成多维度特征并通过机器学习算法确定所述多维度特征中的语义结构和话术模式，构建得到高质量钓鱼邮件特征数据集，构建钓鱼邮件动态防御决策模型并基于强化学习算法进行训练，结合自适应多尺度探索策略和优先级经验回放机制动态调整样本利用率和特征权重，结合风险厌恶机制和成本约束对防御决策进行调整，得到训练后的钓鱼邮件动态防御决策模型包括：

8、从公开的钓鱼邮件数据集和邮件服务提供商数据库中获取多源异构的历史钓鱼邮件数据，对所述历史钓鱼邮件数据进行去重、去噪和格式标准化处理，去除冗余邮件并对保留的邮件进行数据编码，结合预先设置的邮件解析库将被保留的邮件解析为结构化数据格式，基于所述结构化数据格式提取邮件内容，对所述邮件内容进行敏感信息脱敏处理，得到标准邮件内容；

9、基于所述标准邮件内容，通过自然语言处理技术分别提取所述标准邮件内容对应的词法特征、语法特征和语义特征，综合得到语言特征，通过指数图谱技术从所述标准邮件内容中抽取实体、属性和关系，生成语义三元组并与现有的通用知识图谱和行业知识图谱进行链接融合，构建钓鱼邮件语义知识图谱并提取图谱特征，通过语义推理技术识别所述图谱特征对应的深层语义关系，基于所述深层语义关系，将所述图谱特征和所述语言特征进行融合，得到所述多维度特征；

10、基于所述多维度特征，通过主题建模算法将所述标准邮件内容分解为多个主题，对每个主题进行分配并基于主题分配结果确定当前邮件对应的主要语义主题，组合所述主要语义主题得到所述语义结构，通过依存语法分析技术识别所述标准邮件内容对应的复杂句式和命令性语句，结合卷积神经网络提取得到所述话术模式，通过特征重要性分析方法选择所述多维度特征中的代表特征，结合所述语义结构和所述话术模式进行语义特征提取，基于提取得到的语义特征构建所述高质量钓鱼邮件特征数据集；

11、以所述多维度特征作为状态表示，生成状态空间，定义多层次渐进式的防御动作，基于所述防御动作构建防御策略空间，基于所述防御动作的有效性和响应速度构建奖励函数，基于所述状态空间、防御策略空间和所述奖励函数构建钓鱼邮件动态防御决策模型，通过强化学习算法对所述钓鱼邮件动态防御决策模型进行训练，在策略搜索过程中，通过自适应多尺度探索机制动态调整探索幅度，根据不确定性和收益变化调节搜索深度和广度，对于不同转移状态的经验数据根据价值进行优先级排序，根据排序结果调整采样概率，根据预先设置的风险阈值对所述防御动作进行标注，确定高风险防御动作并结合风险厌恶机制对所述高风险防御动作进行惩罚，结合成本约束条件对所述防御动作和防御决策进行调整，更新所述防御策略空间，得到优化后的钓鱼邮件动态防御决策模型。

12、在一种可选的实施方式中，

13、结合成本约束条件对所述防御动作和防御决策进行调整如下公式所示：

14、

15、其中，θ表示策略网络的参数，表示关于参数θ的目标函数j(θ)的梯度，是期望值，表示在当前策略πθ下对未来所有可能的状态-动作序列的加权平均，t表示时间步的总数，πθ(at|st)表示在给定状态st下，策略πθ选择动作at的概率，q(st，at)为状态-动作值函数，表示在状态st下采取动作at后，未来可能获得的累积奖励的期望值，λ表示成本权重系数，c(st，at)是在状态st下采取动作at的防御成本，表示执行防御行为需要的资源消耗，表示对策略网络参数θ的梯度操作符。

16、在一种可选的实施方式中，

17、将训练后的钓鱼邮件动态防御决策模型封装为标准化接口并与预先设置的邮件安全防护体系进行集成，通过邮件收发系统实时获取新接收的邮件，提取新接收的邮件对应的初始邮件特征，通过所述钓鱼邮件动态防御决策模型进行初始判断，基于初始判断结果，通过启发式分析和行为沙箱进行深层特征提取，结合上下文信息进行二次甄别，生成准确识别结果，若所述准确识别结果指示当前邮件为钓鱼邮件，则生成钓鱼邮件攻击画像，根据所述初始邮件特征生成主动防御策略包括：

18、将训练完成的钓鱼邮件动态防御决策模型封装为标准化接口，将所述标准化接口部署至预先设置的邮件安全防护体系中，与现有的邮件处理流程进行集成；

19、通过集成后的邮件安全防护体系中的邮件收发系统实时获取新接收的邮件，对于每个新接收的邮件进行多角度特征提取，包括文本特征提取、图像特征提取和附件特征提取，将提取得到的特征转化为标准特征向量，组合得到所述初始邮件特征；

20、基于所述初始邮件特征，结合流量镜像将所述初始邮件特征发送至所述钓鱼邮件动态防御决策模型中，通过预先设置的前馈神经网络中进行非线性变换，生成威胁等级和置信度，基于所述威胁等级判断当前邮件是否为疑似钓鱼邮件，将被标记为疑似钓鱼邮件的邮件发送至所述邮件安全防护体系中的再判定系统，所述再判定系统根据启发式分析算法，结合预先设置的规则和特征库，检测所述疑似钓鱼邮件中的可疑特征，结合行为沙箱分析算法，将所述疑似钓鱼邮件的附件和链接添加至行为沙箱中执行，监控运行行为并提取动态特征，获取所述疑似钓鱼邮件对应的发件人历史信誉和收件人反馈信息作为上下文信息，将所述上下文信息和所述可疑特征以及所述动态特征融合，生成第二邮件特征，基于所述第二邮件特征，通过所述钓鱼邮件动态防御决策模型进行二次甄别，生成准确识别结果；

21、若所述准确识别结果指示当前邮件为钓鱼邮件，则读取当前邮件的攻击目标、伪装手法、诱饵内容和恶意载荷作为关键攻击特征，基于所述关键攻击特征生成结构化的钓鱼邮件攻击画像，基于所述钓鱼邮件攻击画像和所述初始邮件特征，匹配预先定义的防御策略模板，生成所述主动防御策略。

22、在一种可选的实施方式中，

23、通过前馈神经网络输出威胁等级对应的置信度如下公式所示：

24、

25、其中，pk表示当前样本属于第k个威胁等级的置信度，为第l层第k个神经元的权重，表示从第l-1层第i个神经元到第l层第k个神经元的连接权重，表示第l-1层第i个神经元的激活值，表示第l层第k个神经元的偏置项，k表示威胁等级总数量，为第l层第j个神经元的权重，表示从第l-1层第i个神经元到第l层第j个神经元的连接权重，表示第l层第j个神经元的偏置项。

26、在一种可选的实施方式中，

27、基于所述主动防御策略，输出多层级渐进式的防御动作指令，通过标准接口将所述防御动作指令下发至防御执行节点并进行钓鱼邮件防御，在防御过程中实时获取用户反馈和行为数据，基于所述用户反馈和行为数据，通过流量镜像和蜜罐诱捕扩充所述高质量钓鱼邮件特征数据集，结合安全事件关联分析算法评估全局钓鱼邮件攻击态势和防御效果，基于所述全局钓鱼邮件攻击态势和所述防御效果，结合领域专家发出的分析反馈意见，通过在线学习算法自适应更新所述钓鱼邮件动态防御决策模型的动作空间和状态空间，重复优化直至模型收敛包括：

28、基于所述主动防御策略的优先级和置信度，确定每个策略对应的防御层级，在每个防御层级内，将所述主动防御策略对应的类型和防御参数映射至对应的防御动作原语，组合所述防御动作原语得到所述多层级渐进式的防御动作指令，通过预先设置的标准接口将所述防御动作指令下发至防御执行节点，其中，所述防御动作指令包括预警层、阻断层和溯源层，所述预警层通过报警、提示和通知动作提醒钓鱼风险，所述阻断层通过隔离、拦截和限制动作隔绝钓鱼邮件对应的实质危害，所述溯源层通过追踪和取证识别钓鱼邮件来源；

29、在所述防御执行节点执行所述防御动作指令时，实时获取当前用户的反馈信息和行为数据，基于反馈信息和行为数据，通过流量镜像算法在邮件网关旁设置流量镜像端口，实时复制邮件流量并根据邮件协议类型进行解析和提取，得到结构化邮件对象，对所述结构化邮件对象进行内容解析并添加至所述高质量钓鱼邮件特征数据集，通过蜜罐诱捕算法设置蜜罐邮件账号群并公开账号信息，定期收集每个蜜罐邮件账号接收到的蜜罐可疑邮件并进行内容提取，人工审核所述蜜罐可疑邮件并进行标注，根据标注结果将所述蜜罐可疑邮件添加至所述高质量钓鱼邮件特征数据集中；

30、基于更新后的高质量钓鱼邮件特征数据集，结合安全事件关联分析算法，将钓鱼邮件相关数据与预先划分的安全事件数据进行关联分析，识别钓鱼攻击活动和钓鱼邮件攻击链，结合攻击规模、攻击频率和攻击成功率确定全局钓鱼邮件攻击态势，基于所述全局钓鱼邮件攻击态势，结合当前防御动作指令对应的执行结果和效果数据，确定当前防御动作指令的防御效果；

31、基于所述全局钓鱼邮件攻击态势和所述防御效果，获取领域专家给出的分析反馈意见，结合领域知识和经验，生成结构化反馈数据，通过增量学习算法，基于所述结构化反馈数据和更新后的高质量钓鱼邮件特征数据集对所述钓鱼邮件动态防御决策模型的状态空间、动作空间和奖励函数进行局部更新，重复更新直至达到预设的最大更新次数或所述钓鱼邮件动态防御决策模型收敛。

32、在一种可选的实施方式中，

33、识别钓鱼攻击活动和钓鱼邮件攻击链，结合攻击规模、攻击频率和攻击成功率确定全局钓鱼邮件攻击态势如下公式所示：

34、

35、其中，i表示全局钓鱼邮件攻击态势值，ws表示攻击规模的权重系数，na表示在时间窗口内识别出的钓鱼攻击活动总数，wf表示攻击频率的权重系数，ti表示时间窗口的长度，wr表示攻击成功功率的权重系数，ns表示攻击成功的钓鱼邮件数，nt表示钓鱼邮件总数，wc表示攻击链复杂度权重系数，nc表示识别到的攻击链总数，le表示第e条攻击链的长度，e表示攻击链的索引。

36、本发明实施例的第二方面，提供一种基于强化学习的钓鱼邮件动态防御决策系统，包括：

37、第一单元，用于获取多源异构的历史钓鱼邮件数据，通过自然语言处理技术和知识图谱技术对所述历史钓鱼邮件数据进行特征提取，生成多维度特征并通过机器学习算法确定所述多维度特征中的语义结构和话术模式，构建得到高质量钓鱼邮件特征数据集，构建钓鱼邮件动态防御决策模型并基于强化学习算法进行训练，结合自适应多尺度探索策略和优先级经验回放机制动态调整样本利用率和特征权重，结合风险厌恶机制和成本约束对防御决策进行调整，得到训练后的钓鱼邮件动态防御决策模型；

38、第二单元，用于将训练后的钓鱼邮件动态防御决策模型封装为标准化接口并与预先设置的邮件安全防护体系进行集成，通过邮件收发系统实时获取新接收的邮件，提取新接收的邮件对应的初始邮件特征，通过所述钓鱼邮件动态防御决策模型进行初始判断，基于初始判断结果，通过启发式分析和行为沙箱进行深层特征提取，结合上下文信息进行二次甄别，生成准确识别结果，若所述准确识别结果指示当前邮件为钓鱼邮件，则生成钓鱼邮件攻击画像，根据所述初始邮件特征生成主动防御策略；

39、第三单元，用于基于所述主动防御策略，输出多层级渐进式的防御动作指令，通过标准接口将所述防御动作指令下发至防御执行节点并进行钓鱼邮件防御，在防御过程中实时获取用户反馈和行为数据，基于所述用户反馈和行为数据，通过流量镜像和蜜罐诱捕扩充所述高质量钓鱼邮件特征数据集，结合安全事件关联分析算法评估全局钓鱼邮件攻击态势和防御效果，基于所述全局钓鱼邮件攻击态势和所述防御效果，结合领域专家发出的分析反馈意见，通过在线学习算法自适应更新所述钓鱼邮件动态防御决策模型的动作空间和状态空间，重复优化直至模型收敛。

40、本发明实施例的第三方面，

41、提供一种电子设备，包括：

42、处理器；

43、用于存储处理器可执行指令的存储器；

44、其中，所述处理器被配置为调用所述存储器存储的指令，以执行前述所述的方法。

45、本发明实施例的第四方面，

46、提供一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现前述所述的方法。

47、本发明中，通过机器学习算法自动优选特征组合，克服了人工设计特征的局限性，在提高检测率的同时有效降低了误报率，引入强化学习理论，通过探索利用平衡、优先级经验回放等机制，使得防御决策模型能够在钓鱼攻防对抗中不断自我优化，学习攻击者策略的变化规律，动态调整防御策略，从而在复杂多变的安全环境中保持稳定的防御效果，通过多层级渐进式的主动防御措施，从威胁情报感知、实时行为分析、攻击态势评估等方面形成闭环，在第一时间阻断攻击的同时，积极对未知威胁进行画像分析，主动狩猎潜在风险，最大限度压缩了钓鱼攻击的生存空间，用在线学习范式，通过用户反馈、流量镜像、蜜罐诱捕等多种方式持续获取实际运行数据，并用于动态扩充训练数据集、实时更新防御决策模型，使得防御体系能够顺应环境变化自主进化，不断提高防御的时效性和针对性，综上，本发明在精准识别、主动防御、态势感知、管理辅助等方面均取得了突破，大幅提升了钓鱼邮件防范的智能化水平，对于遏制日益猖獗的钓鱼攻击、维护网络空间安全具有重要意义。

技术特征：

1.基于强化学习的钓鱼邮件动态防御决策方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，获取多源异构的历史钓鱼邮件数据，通过自然语言处理技术和知识图谱技术对所述历史钓鱼邮件数据进行特征提取，生成多维度特征并通过机器学习算法确定所述多维度特征中的语义结构和话术模式，构建得到高质量钓鱼邮件特征数据集，构建钓鱼邮件动态防御决策模型并基于强化学习算法进行训练，结合自适应多尺度探索策略和优先级经验回放机制动态调整样本利用率和特征权重，结合风险厌恶机制和成本约束对防御决策进行调整，得到训练后的钓鱼邮件动态防御决策模型包括：

3.根据权利要求2所述的方法，其特征在于，结合成本约束条件对所述防御动作和防御决策进行调整如下公式所示：

4.根据权利要求1所述的方法，其特征在于，将训练后的钓鱼邮件动态防御决策模型封装为标准化接口并与预先设置的邮件安全防护体系进行集成，通过邮件收发系统实时获取新接收的邮件，提取新接收的邮件对应的初始邮件特征，通过所述钓鱼邮件动态防御决策模型进行初始判断，基于初始判断结果，通过启发式分析和行为沙箱进行深层特征提取，结合上下文信息进行二次甄别，生成准确识别结果，若所述准确识别结果指示当前邮件为钓鱼邮件，则生成钓鱼邮件攻击画像，根据所述初始邮件特征生成主动防御策略包括：

5.根据权利要求4所述的方法，其特征在于，通过前馈神经网络输出威胁等级对应的置信度如下公式所示：

6.根据权利要求1所述的方法，其特征在于，基于所述主动防御策略，输出多层级渐进式的防御动作指令，通过标准接口将所述防御动作指令下发至防御执行节点并进行钓鱼邮件防御，在防御过程中实时获取用户反馈和行为数据，基于所述用户反馈和行为数据，通过流量镜像和蜜罐诱捕扩充所述高质量钓鱼邮件特征数据集，结合安全事件关联分析算法评估全局钓鱼邮件攻击态势和防御效果，基于所述全局钓鱼邮件攻击态势和所述防御效果，结合领域专家发出的分析反馈意见，通过在线学习算法自适应更新所述钓鱼邮件动态防御决策模型的动作空间和状态空间，重复优化直至模型收敛包括：

7.根据权利要求6所述的方法，其特征在于，识别钓鱼攻击活动和钓鱼邮件攻击链，结合攻击规模、攻击频率和攻击成功率确定全局钓鱼邮件攻击态势如下公式所示：

8.基于强化学习的钓鱼邮件动态防御决策系统，用于实现前述权利要求1-7中任一项所述的方法，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的方法。

技术总结
本发明提供一种基于强化学习的钓鱼邮件动态防御决策方法及系统，涉及网络安全技术领域，包括：获取历史钓鱼邮件数据，进行特征提取，生成多维度特征并构建高质量钓鱼邮件特征数据集，构建钓鱼邮件动态防御决策模型并进行训练，将训练后的钓鱼邮件动态防御决策模型封装为标准化接口进行集成，获取新接收的邮件，提取初始邮件特征，进行初始判断，进行深层特征提取，进行二次甄别，生成准确识别结果，若为钓鱼邮件，则生成钓鱼邮件攻击画像和主动防御策略；输出防御动作指令，下发至防御执行节点，实时获取用户反馈和行为数据，评估全局钓鱼邮件攻击态势和防御效果，结合分析反馈意见更新钓鱼邮件动态防御决策模型。

技术研发人员：杨静波,吕伟春,汤剑,沈萍萍,刘奕
受保护的技术使用者：苏州市职业大学
技术研发日：
技术公布日：2024/12/17

转载请注明原文地址:https://xbbs.6miu.com/read-31760.html