本申请涉及文本信息处理领域,特别是涉及一种考题相似度计算方法、介质及设备。
背景技术:
1、现有技术中,对于考题的相似度比较方法主要基于关键词匹配、文本编辑距离等简单技术,存在准确性低、无法理解语义等问题。例如,仅通过关键词匹配可能会将语义相近但表述不同的题目误判为不相似,而基于编辑距离的方法又难以处理语义层面的差异。无法对多元化的信息来源进行处理,也无法深度理解文本中上下文语义和逻辑关系。对于不断增加的题库,传统方法无法快速将新增加的题目更新到相似度比较规则和参数中。因此,上述局限性导致现有的考题相似度比较方法无法准确、高效地进行相似度的判别。
技术实现思路
1、本申请主要提供一种,以解决考题相似度比较准确性差的问题。
2、为解决上述技术问题,本申请采用的一个技术方案是:提供一种基于深度学习模型的考题相似度计算方法,包括:在考题数据库中选取不同类型的考题,并对选取的考题进行预处理,以构建训练数据库;通过通用文本对深度学习模型进行预训练,以优化所述深度学习模型的语言分析能力;通过所述训练数据库对预训练后的深度学习模型进行二次训练,以优化所述深度学习模型的标签标注能力;以考题数据库中的考考题目作为所述二次训练后的深度学习模型的输入,得到所述考题数据库中各考题对应的向量编码,所述向量编码包含各考题的标签标注信息;基于所述向量编码计算所述考题数据库中各考题之间的相似度。
3、通过对深度学习模型分别进行预训练和微调二次训练,首先在大规模的通用文本数据上进行预训练,让深度学习模型学习到通用的语言知识和语义理解能力;然后在训练数据库的基础上对深度学习模型进行二次微调训练,使模型能够更好地适应考考题目相似度比较的任务。通过训练好的模型获取各考题对应的向量编码,以进行各考题之间的相似度对比。
4、在一些实施例中,所述计算所述考题数据库中各考题之间的相似度的公式为:
5、
6、其中,a为参与相似度计算的第一考题向量编码,b为参与相似度计算的第二考题向量编码,cosine_similarity为第一考题与第二考题之间的相似度。
7、在一些实施例中,所述训练数据库包括训练考题集、训练标签集和模型测试集;所述在考题数据库中选取不同类型的考题,并对选取的考题进行预处理,以构建训练数据库,包括:按照预设的选取比例选取所述考题数据库中不同类型的考题,并以预设的分割比例将所述被选取的考题分割为训练考题集、训练标签集和模型测试集,其中所述训练数据库中的各考题包含对应的预标注标签。
8、将训练数据库分割为训练考题集、训练标签集和模型测试集,分别用于模型的训练、参数调整和模型性能验证。
9、在一些实施例中,所述通过所述训练数据库对预训练后的深度学习模型进行二次训练,以优化所述深度学习模型的标签标注能力,包括:以所述训练考题集和所述训练标签集中的考题作为所述预训练后的深度学习模型的输入,获得所述预训练后的深度学习模型输出的分类标签;计算所述分类标签和所述训练标签集中对应的预标注标签之间的损失函数,并基于所述损失函数以预设的训练参数对所述预训练后的深度学习模型的参数进行优化;响应于所述预训练后的深度学习模型对所述模型测试集的标注准确度小于预设的准确度阈值,停止对所述预训练后的深度学习模型的训练。
10、通过损失函数量化分类标签和练标签集中对应标签之间的差异,并由差异知道深度学习模型的训练方向,按照预设的训练参数如学习率、训练轮次等,将深度学习模型训练至损失函数收敛,即训练后的深度学习模型对模型测试集的标注准确度小于预设的准确度阈值。
11、在一些实施例中,所述对选取的考题进行预处理,包括:对选取的考题进行数据清洗,以去除所述考题中的噪声、错误信息和无关信息;将数据清洗后的考题的格式转换为预设的标准格式。
12、对数据进行预处理,确保数据的质量,将考题转化为大模型可处理的格式,以便提取有效的特征。
13、在一些实施例中,所述在考题数据库中选取不同类型的考题,并对选取的考题进行预处理,以构建训练数据库之前,还包括:以获取的真实考考题目数据构建所述考题数据库,其中所述考题数据库基于新获取的真实考考题目数据进行更新。
14、在一些实施例中,所述基于所述向量编码计算所述考题数据库中各考题之间的相似度之后,还包括:判断所述相似度是否大于预设的相似度阈值;若所述相似度大于预设的相似度阈值,则参与相似度计算的两个考题之间相似;若所述相似度不大于预设的相似度阈值,则参与相似度计算的两个考题之间不相似。
15、通过将计算得到的相似度与预设的相似度阈值进行比较,可以判断当前两个考题之间的相似度是否符合要求。
16、在一些实施例中,所述基于所述基于所述向量编码计算所述考题数据库中各考题之间的相似度之后,还包括:在所述考题数据库中选取所述相似度和所述标签标注信息符合预设组卷要求的考题,组成试卷。
17、将标签标注信息和相似度符合组卷要求的考题选出,可以组成题目之间相似度较低的试卷,避免同一知识点被重复考察。
18、为解决上述技术问题,本申请采用的另一个技术方案是:提供一种存储介质,其上存储有程序数据,所述程序数据被处理器执行时实现如上述的考题相似度计算方法的步骤。
19、该存储介质的有益效果参考上述考题相似度计算方法的有益效果,在此不再赘述。
20、本申请还提供一种计算机设备,包括相互连接的处理器和存储器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现如上述的考题相似度计算方法的步骤。
21、该计算机设备的有益效果参考上述考题相似度计算方法的有益效果,在此不再赘述。
22、本申请的有益效果是:区别于现有技术的情况,本申请公开了一种考题相似度计算方法、介质及设备。在考题数据库中选取不同类型的考题,并对选取的考题进行预处理,以构建训练数据库;通过通用文本对深度学习模型进行预训练,以优化深度学习模型的语言分析能力;通过训练数据库对预训练后的深度学习模型进行二次训练,以优化预训练后的深度学习模型的标签标注能力;以考题数据库中的考考题目作为二次训练后的深度学习模型的输入,得到考题数据库中各考题对应的向量编码,向量编码包含各考题的标签标注信息;基于向量编码计算考题数据库中各考题之间的相似度。通过预训练与二次训练结合,可以有效地提升深度学习模型对考题的语义关系和考题特点的理解程度,从而更好地提取考题中的特征,完成标签标注,理解考题考察的知识点内容。以标签标注后输出的向量编码进行相似度计算,准确分析各类考题之间的相似度,避免相似的知识点被重复考察。
1.一种基于深度学习模型的考题相似度计算方法,其特征在于,包括:
2.根据权利要求1所述的考题相似度计算方法,其特征在于,所述计算所述考题数据库中各考题之间的相似度的公式为:
3.根据权利要求1所述的考题相似度计算方法,其特征在于,所述训练数据库包括训练考题集、训练标签集和模型测试集;
4.根据权利要求3所述的考题相似度计算方法,其特征在于,所述通过所述训练数据库对预训练后的深度学习模型进行二次训练,以优化所述深度学习模型的标签标注能力,包括:
5.根据权利要求1所述的考题相似度计算方法,其特征在于,所述对选取的考题进行预处理,包括:
6.根据权利要求1所述的考题相似度计算方法,其特征在于,所述在考题数据库中选取不同类型的考题,并对选取的考题进行预处理,以构建训练数据库之前,还包括:
7.根据权利要求1所述的考题相似度计算方法,其特征在于,所述基于所述向量编码计算所述考题数据库中各考题之间的相似度之后,还包括:
8.根据权利要求1所述的考题相似度计算方法,其特征在于,所述基于所述向量编码计算所述考题数据库中各考题之间的相似度之后,还包括:
9.一种存储介质,其上存储有程序数据,其特征在于,所述程序数据被处理器执行时实现如权利要求1-8任一项所述的考题相似度计算方法的步骤。
10.一种计算机设备,其特征在于,包括相互连接的处理器和存储器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-8任一项所述的考题相似度计算方法的步骤。