本发明涉及大语言模型,尤其涉及一种融合预训练与动态微调技术的大语言模型方法及系统。
背景技术:
1、内部审计作为企业决策科学化、管理规范化、风险防控常态化的一项重要制度设计,既是企业强化内部控制不可或缺的重要手段,又是国家治理体系的基础环节和重要组成部分。加速推进企业数字化转型的步伐,加强复用数据审计方法,实现在此基础上的智能审计,从“人审”到“机审”再到“智审”为转变思路,逐渐成为一种新的趋势。大数据时代、云计算、人工智能使得企业内部审计的数据基础从少量的“样本数据”转变为海量的“全体数据”,实现跨专业、跨地域、跨类型的全量数据审计分析与应用,实现从以有限个案为基础向“用数据说话”转变的全新决策。
2、例如授权公告号为cn112214609b的中国专利公开了一种基于知识图谱的审计方法和系统,属于知识图谱技术领域,解决了现有审计方法不能重复利用通用性差的问题。审计方法包括:利用基础数据源,基于知识图谱schema构建知识图谱;在知识图谱中配置规则表达式;以及基于规则表达式自动审计知识图谱数据包括:循环遍历多个起始节点,并获取一个起始节点;将规则表达式拆分为多个规则子表达式;循环遍历执行多个规则子表达式,当执行规则子表达式出错时,参与规则子表达式执行的所有节点作为违反规则数据被记录;循环遍历记录的违反规则数据,并对多个规则子表达式赋值;以及执行赋值后的规则表达式,并当执行规则表达式出错时,通过可视化知识图谱展示违反规则数据。增强通用性和可扩展性。
3、以上专利均存在本背景技术提出的问题:审计工作需要大量人力物力支持,且规则不够明细,难于解释理解,采用逻辑规则推理的技术,需要人工预先定义准确的逻辑规则为解决以上问题,本申请设计了一种融合预训练与动态微调技术的大语言模型方法。
技术实现思路
1、本发明所要解决的技术问题是针对现有技术的不足,提供了一种融合预训练与动态微调技术的大语言模型方法,首先通过审计知识建立审计语言池,对审计语言池进行预训练,其次根据审计信息在审计语言池中寻找最匹配的审计知识进行配对,最后构建微调模型,根据配对的结果对审计语言池进行微调。
2、为实现上述目的,本发明提供如下技术方案:
3、一种融合预训练与动态微调技术的大语言模型方法,包括以下步骤;
4、s1:以审计知识为研究内容建立审计语言池,所述审计知识包括典型审计指标项和审计专家经验库;
5、s2:获取用户输入的审计信息,对审计信息进行增强,获取增强审计信息,所述对审计信息进行增强包括回译、专业同义词替换和问答对互换;
6、s3:根据所述增强审计信息和所述审计语言池生成审计三元组训练数据;
7、s4:构建微调模型,将所述审计三元组训练数据输入至所述微调模型中,获取微调指令集,根据微调指令集对审计语言池进行指令微调。
8、所述以审计知识为研究内容建立审计语言池,包括:
9、提取审计项目名称,根据审计项目名称确认审计本体的领域与范围;
10、根据审计本体的领域与范围确定领域的关键词和关键术语,自顶向下建立审计本体知识模型,所述审计本体知识模型包括顶层本体、概念子树和子层实例,所述概念子树包括财务报表、工程项目、审批结果、内部评估和项目实施日志;
11、将领域的关键词和关键术语作为知识特征添加至子层实例中;
12、对审计本体知识模型进行逻辑检验,判断是否满足审计领域本体构建原则,如果满足,将审计本体实例化,如果不满足,继续添加子层实例;
13、根据知识录入策略将实例化后的审计本体在审计语言池进行录入。
14、所述知识录入策略具体步骤如下:
15、s2.1:获取输入的实例化审计本体的概念分支数、关键词和关键词属性;
16、s2.2:确定实例化审计本体在审计语言池所处的语义树,遍历语义树所有节点,提取节点和实例化审计本体中语义距离最小的关键词对作为相似节点对,计算节点和实例化审计本体的语义相似度;
17、s2.3:将最高的语义相似度与相似阈值进行对比,如果小于相似阈值,将实例化审计本体作为最高语义相似度节点的兄弟节点,如果大于等于相似阈值,将实例化审计本体与最高语义相似度节点进行融合。
18、所述s3具体步骤如下:
19、s3.1:根据所述增强审计信息建立特征序列,并计算所述特征序列的拟合值;
20、s3.2:将所述特征序列的拟合值转换至高维空间,在所述高维空间中通过多层卷积层和池化层逐层特征提取,得到高级语义特征,对高级语义特征进行关系分析,计算审计关键词特征;
21、s3.3:根据所述审计关键词特征和所述审计语言池,计算审计关键词特征与审计语言池中审计本体的相似度;
22、s3.4:将相似度最高的审计关键词特征与审计语言池中审计本体进行匹配,生成审计三元组训练数据。
23、所述审计关键词特征与审计语言池中审计本体相似度的计算公式为:
24、
25、其中,rs表示审计关键词特征与审计语言池中审计本体相似度,γ表示学习速率,u表示审计关键词特征的单个节点,u表示审计关键词特征节点总数,v表示审计语言池中审计本体的单个节点,v表示审计语言池中审计本体的节点总数,hu表示审计关键词特征第u个节点的特征向量,ωuv表示审计关键词特征和审计语言池中审计本体的连接权值,hv表示审计语言池中审计本体第v个节点的特征向量,bv表示审计语言池中审计本体的节点阈值,e表示误差。
26、所述构建微调模型包括调用低秩分解矩阵结合通道和空间注意力机制训练所述微调训练模型,生成微调指令集。
27、一种融合预训练与动态微调技术的大语言模型系统所述系统包括审计语言池训练模块、审计训练数据生成模块和审计语言池微调模块;
28、所述审计语言池训练模块,用于以审计知识为研究内容建立审计语言池;
29、所述审计训练数据生成模块,用于获取用户输入的审计信息,对审计信息进行处理,获取审计三元组训练数据;
30、所述审计语言池微调模块,用于构建微调模型,将所述审计三元组训练数据输入至所述微调模型中,获取微调指令集,根据微调指令集对审计语言池进行指令微调。
31、与现有技术相比,本发明的有益效果是:
32、1.本发明通过全面、动态、真实地获得审计对象的总体信息,帮助内部审计人员高效地识别审计信息,对内外部审计数据的交叉验证和组合分析,也为企业规避经营风险提供更好的参考依据;
33、2.本发明通过大语言模型技术实现自学习功能,提高审计速度和审计准确率,实现内部审计的高效管理和工程量就近消纳,提升内部审计系统运行灵活性。
1.一种融合预训练与动态微调技术的大语言模型方法,其特征在于,包括以下步骤;
2.根据权利要求1所述一种融合预训练与动态微调技术的大语言模型方法,其特征在于,所述以审计知识为研究内容建立审计语言池,包括:
3.根据权利要求2所述一种融合预训练与动态微调技术的大语言模型方法,其特征在于,所述知识录入策略具体步骤如下:
4.根据权利要求3所述一种融合预训练与动态微调技术的大语言模型方法,其特征在于,所述s3具体步骤如下:
5.根据权利要求4所述一种融合预训练与动态微调技术的大语言模型方法,其特征在于,所述审计关键词特征与审计语言池中审计本体相似度的计算公式为:
6.根据权利要求5所述一种融合预训练与动态微调技术的大语言模型方法,其特征在于,所述构建微调模型包括调用低秩分解矩阵结合通道和空间注意力机制训练所述微调训练模型,生成微调指令集。
7.一种融合预训练与动态微调技术的大语言模型系统,基于如权利要求1-6任一项所述的一种融合预训练与动态微调技术的大语言模型方法实现,其特征在于,所述系统包括审计语言池训练模块、审计训练数据生成模块和审计语言池微调模块;