一种基于对比句向量表征框架的公平竞争审查方法与流程

专利2026-06-30  0


本发明涉及自然语言处理,具体为一种基于对比句向量表征框架的公平竞争审查方法。


背景技术:

1、公平竞争是市场经济的基本原则,是市场机制高效运行的重要基础。

2、公平竞争审查旨在促进市场对各种市场主体的平等对待,防止地方保护主义等不公平的市场行为,审查对象是国家和政府在制定市场准入、产业发展、招商引资、招标投标、政府采购、经营行为规范、资质标准涉及市场主体经济活动的规章、规范性文件和其他政策措施,审查目标是根据《公平竞争审查制度实施细则》确定是否存在妨碍统一市场和公平竞争的问题。

3、目前公平竞争审查领域的存在的问题如下:1)存量政策措施涉及面广,数量多,对于政策措施文件的常态化审查耗费成本大,2)目前采用人工审核的方式,审查人员需要掌握竞争法、经济学专业知识,熟悉行业情况,造成审查难度大、审查效率低问题,也极易出现因审查标准不一致导致的审核结果难统一的问题。


技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足,本发明提供了一种基于对比句向量表征框架的公平竞争审查方法,解决现有基于同等级标签公平竞争审查模型准确率不高,缺少样本数据等问题,提升审查工作智能化水平,提升工作效率,有效解决审查、监管资源不足问题。

3、(二)技术方案

4、为实现上述的目的,本发明提供如下技术方案:一种基于对比句向量表征框架的公平竞争审查方法,包括:

5、s1.采集大量的政策措施文件,获取待审查文件数据集;

6、s2.基于专家审查构建公平竞争审查的案例库并增量更新;

7、s3.基于s2步骤得到的专家审查的公平竞争审查案例库并结合专家标注结果对语义相似度计算模型训练,并保存最终模型的参数;

8、s4.s1得到的待审查文件通过s3得到的语义相似度计算模型与s2的案例库文件语义相似度计算;

9、s5.基于s4的语义相似度结果识别相关涉嫌违规的条款,从而实现待审查文件违规类型识别判断。

10、优选的,s1中采集大量的政策措施文件,获取待审查文件数据集,还包括以下步骤:

11、s1-1:以“采购文件”、“招标文件”为关键词,采集政府网站上相关文件,将相关文件进行整理构建待审查文件数据集;

12、s1-2:针对待审查文件数据集的文本进行数据预处理,包括分词、停用词过滤、词向量编码。

13、优选的,s2中基于专家审查构建公平竞争审查的案例库并增量更新,还包括以下步骤:

14、s2-1:请专家对审查的案例文本进行人工标注,标注内容包括涉嫌违规的条款、涉嫌违反的一级标准、涉嫌违反的二级标准、涉嫌违反的三级标准、违规理由;

15、s2-2:对案例库中数据进行清洗,包括去除噪声、处理缺失值、标准化文本格式,进行文本预处理,如分词、去停用词、词干化或词性标注。

16、优选的,s3中基于s2步骤得到的专家审查的公平竞争审查案例库并结合专家标注结果对语义相似度计算模型训练,并保存最终模型的参数,还包括以下步骤:

17、s3-1:基于对比句向量表征框架模型的核心是对比学习,对比学习是通过拉近相似数据的距离,拉远不相似数据的距离为目标,更好地学习数据的表征,使得其在文本匹配任务中产生更好的效果,给定一个样本集合

18、其中xi和为相似样本,采用in-batch negatives交叉熵损失函数优化目标,如下:

19、

20、其中,hi和hi+为xi和xi+的句向量表示,n为训练过程中batch的大小,sim(hi,hi+)为向量hi和hi+余项相似度,τ为温度超参;

21、s3-2:对比句向量表征的框架包含无监督和有监督两种方法:

22、无监督的方法:无监督语义相似度计算是给定一个句子集合将xi分别输入到编码器中两次,分别得到向量zi的正例和z′i;由于随机dropout mask机制存在于模型的全连接层和注意力层上,因此相同的输入,经过模型后会得到不同的结果;将z′i向量作为zi的正例,其他向量作为负例,语义相似度计算的训练目标变成:

23、

24、注意:z为transformers中的标准dropout mask,在无监督语义相似度计算没有额外增加任何dropout;

25、有监督的方法:案例库中,一个前提假设文本xi,具有对应的蕴含文本和矛盾文本,将矛盾文本作为难负例,即,数据对变成数据组,其中,为蕴含文本,为矛盾文本,监督学习语义相似度计算的训练目标变成:

26、

27、增加矛盾文本作为难负例后,将监督学习语义相似度计算的训练目标变成:

28、

29、其中,分别表示经过编码器后得到的embedding,α为加权系数;

30、s3-3:用不同的α值训练语义相似度计算模型,并在案例库的数据集上对训练的模型进行评价,发现当α为1时效果最优,并且中性数据不会带来更多的收益。

31、优选的,s4中s1得到的待审查文件通过s3得到的语义相似度计算预训练模型与s2的案例库文件语义相似度计算,还包括以下步骤:

32、s4-1:将s2得到的案例库文件和s1得到的待审查文件分别加载到数据结构中,进行编码以获取嵌入表示;

33、s4-2:使用分词器将文本对编码为模型可以理解的输入,这个步骤需要对每个数据点进行标记化、分词并添加特殊标记;

34、s4-3:对于每对编码的文本,使用模型来计算它们的嵌入表示,并计算它们之间的相似度得分;

35、s4-4:使用相似度得分来评估文本相似度,并使用不同的评估指标:包括准确率、召回率、f1分数来评估模型性能。

36、优选的,所述s5中基于s4的语义相似度结果识别相关涉嫌违规的条款,从而实现待审查文件违规类型识别判断,还包括以下步骤:

37、s5-1:使用s5计算的语义相似度分数,这些得分表示每个目标句子与训练数据中的句子之间的语义相似度;

38、s5-2:根据需求可以为语义相似度分数设置一个阈值,分数高于阈值的句子被认为与s2的案例库文件的句子具有相似的意思,违反相同的条款,而分数低于阈值的句子被认为不具有相似的意思;

39、s5-3:基于s5-2的结果识别待审查文件相关涉嫌违规的条款、涉嫌违反的一级标准、涉嫌违反的二级标准、涉嫌违反的三级标准、违规理由,从而实现待审查文件违规类型识别判断。

40、(三)有益效果

41、与现有技术相比,本发明提供了一种基于对比句向量表征框架的公平竞争审查方法,具备以下有益效果:

42、该基于对比句向量表征框架的公平竞争审查方法,包含了无监督和有监督两种方法,基于对比学习理论,将文本嵌入到语义空间中,从而能够度量文本之间的语义相似度,得到语义相似度计算的公平竞争审查模型,具体操作方式是使用训练好的语义相似度计算模型,将待审文件和文件案例库中的文本转化为语义嵌入表示(向量表示),计算待审文件与案例库中案例之间的语义相似度,而且基于计算得到的相似度分数,从而识别相关涉嫌违规的条款,解决现有基于同等级标签公平竞争审查模型准确率不高,缺少样本数据等问题,提升审查工作智能化水平,提升工作效率,有效解决审查、监管资源不足等问题。


技术特征:

1.一种基于对比句向量表征框架的公平竞争审查方法,其特征在于,包括:

2.根据权利要求1所述的一种基于对比句向量表征框架的公平竞争审查方法,其特征在于:所述s1中采集大量的政策措施文件,获取待审查文件数据集,还包括以下步骤:

3.根据权利要求1所述的一种基于对比句向量表征框架的公平竞争审查方法,其特征在于:所述s2中基于专家审查构建公平竞争审查的案例库并增量更新,还包括以下步骤:

4.根据权利要求1所述的一种基于对比句向量表征框架的公平竞争审查方法,其特征在于:所述s3中基于s2步骤得到的专家审查的公平竞争审查案例库并结合专家标注结果对语义相似度计算模型训练,并保存最终模型的参数,还包括以下步骤:

5.根据权利要求1所述的一种基于对比句向量表征框架的公平竞争审查方法,其特征在于:所述s4中s1得到的待审查文件通过s3得到的语义相似度计算预训练模型与s2的案例库文件语义相似度计算,还包括以下步骤:

6.根据权利要求1所述的一种基于对比句向量表征框架的公平竞争审查方法,其特征在于:所述s5中基于s4的语义相似度结果识别相关涉嫌违规的条款,从而实现待审查文件违规类型识别判断,还包括以下步骤:


技术总结
本发明涉及自然语言处理技术领域,且公开了一种基于对比句向量表征框架的公平竞争审查方法,S1.采集大量的政策措施文件;S2.基于专家审查构建公平竞争审查的案例库;S3.对语义相似度计算模型训练;S4.S1得到的待审查文件通过S3得到的语义相似度计算模型与S2的案例库文件语义相似度计算;S5.基于S4的语义相似度结果识别相关涉嫌违规的条款,从而实现待审查文件违规类型识别判断。该基于对比句向量表征框架的公平竞争审查方法,能够通过政策措施文本采集、基于专家审查的公平竞争审查案例库的构建、语义相似度计算模型构建及训练、待审查文件与案例库文件语义相似度计算以及待审查文件的违规类型识别,提升审查工作智能化水平和工作效率。

技术研发人员:谷欣欣,张朝,王梓旭,王坚
受保护的技术使用者:人民中科(北京)智能技术有限公司
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-32066.html