语料数据的清洗和质检方法、设备、存储介质及程序产品与流程

专利2026-06-16 0

本发明涉及计算机，特别涉及一种语料数据的清洗和质检方法、设备、存储介质及程序产品。

背景技术：

1、在自然语言处理和机器学习模型的训练过程中，数据质量是决定模型性能的关键因素。高质量的训练数据能显著提升模型的预测准确性和泛化能力，而劣质数据则会导致模型性能不佳，甚至产生错误的预测结果。然而，实际收集到的语料库通常充斥着噪音、错误和不一致性，这不仅给模型训练带来了巨大挑战，还降低了模型在实际应用中的效果。目前，语料清洗主要依赖人工干预，这种方法不仅耗时费力，而且难以保证清洗结果的一致性和准确性。

技术实现思路

1、本发明提供一种语料数据的清洗和质检方法、设备、存储介质及程序产品，通过系统化的清洗步骤，有效减少了语料数据中的噪声和错误，显著提高了语料数据的质量，从而提高了机器学习模型的训练效果和实际应用的性能。

2、为了实现上述目的和其他优点，本发明采用以下技术方案实现：

3、第一方面，本发明提供一种语料数据的清洗和质检方法，包括：

4、获取原始语料数据；

5、对所述原始语料数据进行数据预处理，得到第一语料数据；

6、对所述第一语料数据进行噪声过滤，得到第二语料数据；

7、对所述第二语料数据进行语义一致性检查，得到第三语料数据；

8、对所述第三语料数据进行语法错误纠正，得到第四语料数据；

9、对所述第四语料数据采用多层级审核机制进行审核，对存在的疑似问题语料进行标注和反馈，并对反馈结果通过持续的监督与评估，以提高标注数据的准确性。

10、根据本发明提供的一种语料数据的清洗和质检方法，所述对所述原始语料数据进行数据预处理，得到第一语料数据的步骤，包括：

11、去除所述原始语料数据中的冗余信息，在通过文本标准化进行格式处理后，采用分词操作进行文本分割，以得到所述第一语料数据。

12、根据本发明提供的一种语料数据的清洗和质检方法，所述对所述第一语料数据进行噪声过滤，得到第二语料数据的步骤，包括：

13、获取所述第一语料数据的多模态特征、上下文相关性、信息熵和时序特性；

14、根据所述第一语料数据的多模态特征、上下文相关性、信息熵和时序特性，进行综合性的噪声得分计算，得到噪声值；

15、根据所述噪声值设定自适应的动态阈值，当所述噪声值大于所述动态阈值，标记为噪声数据点并进行过滤；

16、根据所述噪声值和所述动态阈值，对噪声过滤决策提供置信度评估。

17、根据本发明提供的一种语料数据的清洗和质检方法，所述对所述第二语料数据进行语义一致性检查，得到第三语料数据的步骤，包括：

18、获取所述第二语料数据中多个文本的语义向量；

19、对于组成文本对的两段文本，基于所述语义向量，分别计算所述两段文本之间的相似度、一致性评估得分和逻辑推理结果；

20、基于所述两段文本之间的相似度、一致性评估得分和逻辑推理结果，对所述两段文本之间的矛盾程度进行量化，并将量化得到的矛盾检测数值与预设的检测阈值进行判断，当所述矛盾检测数值大于所述检测阈值，则判定所述两段文本存在矛盾；

21、基于所述矛盾检测数值，对于不同文本对组成的集合采用图优化算法进行全局语义一致性优化。

22、根据本发明提供的一种语料数据的清洗和质检方法，所述对所述第三语料数据进行语法错误纠正，得到第四语料数据的步骤，包括：

23、获取所述第三语料数据的上下文编码向量；

24、基于所述上下文编码向量，采用图神经网络进行语法结构的建模，并将语法结构编码为图结构；

25、基于所述图结构，创建强化学习驱动的错误纠正策略，以自动识别和纠正文本中的语法错误；

26、采用多头注意力机制评估纠正后的文本中的纠正词与上下文的相关性；

27、基于所述图神经网络的错误检测概率、所述多头注意力机制的错误检测概率和语言模型的错误检测概率，对所述纠正后的文本采用综合性错误检测机制进行检测，得到文本中每个原词的错误检测分数；

28、对于所述错误检测分数超过预设值的原词，生成多个候选纠正词的评估分数并进行排序，并选择最佳的候选纠正词进行语法纠正。

29、根据本发明提供的一种语料数据的清洗和质检方法，所述对所述第四语料数据采用多层级审核机制进行审核，对存在的疑似问题语料进行标注和反馈，并对反馈结果通过持续的监督与评估的步骤，包括：

30、在初级审核中，对于由自动化质检算法初步标记的疑似问题语料进行快速筛查，并对所述初级审核的准确率进行量化评估；

31、在高级审核中，对于复杂的或所述自动化质检算法难以识别的问题语料，采用自然语言处理技术提供的上下文提示和分析建议，对问题语料进行标注，并对所述高级审核的匹配度进行量化评估；

32、将标注后的问题语料作为优化的训练数据输入至所述自动化质检算法进行重新训练，对所述自动化质检算法进行参数优化，并对更新后的所述自动化质检算法的识别准确性进行量化评估。

33、根据本发明提供的一种语料数据的清洗和质检方法，所述对所述第四语料数据采用多层级审核机制进行审核，对存在的疑似问题语料进行标注和反馈，并对反馈结果通过持续的监督与评估的步骤，还包括：

34、引入分布式人工智能技术，通过多名审核者对同一语料进行独立审核，利用加权投票机制汇总各审核者的审核结果；

35、利用区块链技术记录每次审核和标注的过程，通过审核者之间一致性的统计量来衡量审核过程的监督效果；

36、通过持续的监督与评估，对审核标准和流程进行动态调整，以适应不同类型的语料数据的质检任务需求。

37、第二方面，本发明提供一种电子设备，所述电子设备包括：

38、一个或多个处理器；以及存储有计算机程序指令的存储器，所述计算机程序指令在被所述处理器执行时实现如上述任一种所述的语料数据的清洗和质检方法的步骤。

39、第三方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序/指令，所述计算机程序/指令被处理器执行时实现如上述任一种所述的语料数据的清洗和质检方法的步骤。

40、第四方面，本发明提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现如上述任一种所述的语料数据的清洗和质检方法的步骤。

41、本发明提供的一种语料数据的清洗和质检方法、设备、存储介质及程序产品，通过获取原始语料数据；对原始语料数据进行数据预处理，得到第一语料数据；对第一语料数据进行噪声过滤，得到第二语料数据；对第二语料数据进行语义一致性检查，得到第三语料数据；对第三语料数据进行语法错误纠正，得到第四语料数据；对第四语料数据采用多层级审核机制进行审核，对存在的疑似问题语料进行标注和反馈，并对反馈结果通过持续的监督与评估，以提高标注数据的准确性。本发明通过系统化的清洗步骤，有效减少了语料数据中的噪声和错误，显著提高了语料数据的质量，并大幅降低了人工干预的频率，提高了数据处理的效率。优质的语料数据能显著提升模型在各类自然语言处理任务中的表现，从而提高了机器学习模型的训练效果和实际应用的性能。

技术特征：

1.一种语料数据的清洗和质检方法，其特征在于，包括：

2.根据权利要求1所述的语料数据的清洗和质检方法，其特征在于，所述对所述原始语料数据进行数据预处理，得到第一语料数据的步骤，包括：

3.根据权利要求1所述的语料数据的清洗和质检方法，其特征在于，所述对所述第一语料数据进行噪声过滤，得到第二语料数据的步骤，包括：

4.根据权利要求1所述的语料数据的清洗和质检方法，其特征在于，所述对所述第二语料数据进行语义一致性检查，得到第三语料数据的步骤，包括：

5.根据权利要求1所述的语料数据的清洗和质检方法，其特征在于，所述对所述第三语料数据进行语法错误纠正，得到第四语料数据的步骤，包括：

6.根据权利要求1所述的语料数据的清洗和质检方法，其特征在于，所述对所述第四语料数据采用多层级审核机制进行审核，对存在的疑似问题语料进行标注和反馈，并对反馈结果通过持续的监督与评估的步骤，包括：

7.根据权利要求6所述的语料数据的清洗和质检方法，其特征在于，所述对所述第四语料数据采用多层级审核机制进行审核，对存在的疑似问题语料进行标注和反馈，并对反馈结果通过持续的监督与评估的步骤，还包括：

8.一种电子设备，其特征在于，所述电子设备包括：

9.一种计算机可读存储介质，其上存储有计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现如权利要求1-7任一项所述的语料数据的清洗和质检方法的步骤。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现如权利要求1-7任一项所述的语料数据的清洗和质检方法的步骤。

技术总结
本发明提供一种语料数据的清洗和质检方法、设备、存储介质及程序产品，方法包括：获取原始语料数据；对原始语料数据进行数据预处理，得到第一语料数据；对第一语料数据进行噪声过滤，得到第二语料数据；对第二语料数据进行语义一致性检查，得到第三语料数据；对第三语料数据进行语法错误纠正，得到第四语料数据；对第四语料数据采用多层级审核机制进行审核，对存在的疑似问题语料进行标注和反馈，并对反馈结果通过持续的监督与评估，以提高标注数据的准确性。本发明通过系统化的清洗步骤，有效减少了语料数据中的噪声和错误，显著提高了语料数据的质量，并大幅降低了人工干预的频率，提高了数据处理的效率。

技术研发人员：山栋明,黄海清,刘红,贺仁驹
受保护的技术使用者：上海库帕思科技有限公司
技术研发日：
技术公布日：2024/12/17

转载请注明原文地址:https://xbbs.6miu.com/read-31680.html