基于特征工程的企业多类型数据标注方法及系统与流程

专利2025-05-01  19


本发明属于数据处理,具体涉及一种基于特征工程的企业多类型数据标注方法及系统。


背景技术:

1、企业在日常经营过程中产生大量的多类型数据,如文本数据(合同、报告)、表格数据(财务报表、销售数据)以及图像数据(扫描文件、照片)等。这些数据在原始状态下通常没有统一的标注,难以直接用于后续的分析和建模工作。传统的人工标注方式效率低下,且无法应对大规模数据处理需求。因此,自动化的数据标注方法对于企业的高效数据处理具有重要意义。

2、现有的一些自动化数据标注方法通常只针对单一类型数据进行处理,难以同时处理多种类型的数据,并且在标注精度和自适应性方面存在不足。因此,如何对企业在日常经营过程中产生的多类型数据进行高效且准确的自动化标注,以更好地满足企业实际的多类型数据处理需求,成为目前亟需解决的问题之一。


技术实现思路

1、针对上述问题,本发明提供了一种基于特征工程的企业多类型数据标注方法及系统,能够实现对多种类型数据的高效自动化标注,适用于文本、表格、图像等多种异构数据,具备较高的标注精度与扩展性。

2、本发明提供了一种基于特征工程的企业多类型数据标注方法,包括以下步骤:

3、s10、采集企业内部信息系统的初始数据,并按照数据类型进行分类,划分得到文本数据集、表格数据集和图像数据集;

4、s20、对初始数据的不同数据类型分别提取特征并筛选,将不同类型数据的特征向量融合,构建得到多维度的特征空间;

5、s30、根据特征空间的特征信息构建标注模型,通过自监督学习训练标注模型初步学习数据的内在结构和特征表示,并结合已标注数据微调模型;

6、s40、对未标注新数据构建相似样本对作为正样本对,不相关样本对作为负样本对,对比学习优化相似样本对之间的相似度;

7、s50、基于对比学习得到的特征向量进行标签推断,生成标注结果。

8、作为本发明的进一步方案,对初始数据的不同数据类型分别提取特征并筛选,对文本数据特征提取与筛选时,将文本分割为单词,构建词汇表,将每个文本表示为词频向量,计算每个词的tf-idf权重,根据词频统计筛选出反映文本的语义和内容特征;对表格数据特征提取与筛选时,将数值数据标准化,计算统计特征生成新的交互特征,基于相关性分析筛选出数值型特征;对图像数据特征提取与筛选时,调整图像大小并进行灰度化和归一化,通过尺度不变特征变换,基于特征重要性提取最大化图像信息。

9、作为本发明的进一步方案,构建得到多维度的特征空间时,将文本、表格和图像特征向量归一化,基于每种特征在任务中的重要性,通过权重优化分配权重系数,将加权后的特征向量按列拼接为统一的特征向量,将拼接后的综合特征向量映射到多维特征空间,将不同类型的数据在同一特征空间中对齐,在多维度特征空间中构建多层次的模型框架。

10、作为本发明的进一步方案,通过自监督学习训练标注模型初步学习数据时,对于文本数据集构建掩码语言模型,对于表格数据集使用部分数据列预测其他数据列,对于图像数据集进行图像修复。

11、作为本发明的进一步方案,构建标注模型时,根据特征空间的特征信息构建输入层,增加模型的特征提取层并添加输出层,根据任务选择合适的输出结构;自监督学习训练标注模型时,文本数据使用掩码语言模型设计预训练任务,表格数据使用列遮盖预测,图像数据使用图像块遮盖预测,生成自监督任务的训练数据,使用自监督任务对模型进行训练,更新模型权重,根据模型的损失函数值,对特征提取层进行调整。

12、作为本发明的进一步方案,微调模型时,包括:获取标注数据集,选择自监督预训练得到的特征层,利用已标注数据集微调模型,将损失函数调整为任务特定的目标,并对模型进行有监督的学习;在验证集上评估微调模型的表现,通过超参数调整优化模型,构建从自监督学习到有监督微调的流水线,在测试集上进行最终验证,部署最终模型。

13、作为本发明的进一步方案,所述基于特征工程的企业多类型数据标注方法还包括生成对抗网络扩充数据,其中,构建生成对抗网络,使用生成器生成带有标签的伪数据,判别器区分真实数据和伪数据;将生成的伪标签数据与部分已标注数据结合,进行半监督学习,优化标注模型。

14、作为本发明的进一步方案,所述基于特征工程的企业多类型数据标注方法还包括基于注意力机制对序列数据进行建模,采用多头注意力机制在不同数据类型的标注中分配不同的注意力权重,对生成的标签进行验证,通过验证反馈优化标注模型。

15、作为本发明的进一步方案,基于对比学习得到的特征向量进行标签推断时,使用对比学习得到的特征向量,对未标注数据进行聚类,根据相似度的度量标准将特征空间中相似样本分配到相同簇,并对每个聚类簇生成伪标签,其中,已标注样本的标签传播到聚类簇中;根据聚类的紧密度和聚类簇内样本的相似性,评估伪标签的置信度,按置信度排序对样本进行标注推断,将低于置信度阈值的样本保留为未标注状态,进一步验证。

16、作为本发明的进一步方案,所述基于特征工程的企业多类型数据标注方法还包括伪标签的微调与验证,对已标注数据微调时,基于已标注数据对模型进行微调,在伪标签生成后,使用验证集评估模型性能,并根据评估结果对伪标签进行迭代修正,在模型通过验证后,对所有未标注数据生成最终的标注结果,输出自动化标注。

17、本发明还提供了一种基于特征工程的企业多类型数据标注系统,包括:

18、数据采集模块,用于采集企业内部信息系统的初始数据,并按照数据类型进行分类,划分得到文本数据集、表格数据集和图像数据集;

19、特征融合模块,用于对初始数据的不同数据类型分别提取特征并筛选,将不同类型数据的特征向量融合,构建得到多维度的特征空间;

20、模型构建模块,用于根据特征空间的特征信息构建标注模型,通过自监督学习训练标注模型初步学习数据的内在结构和特征表示,并结合已标注数据微调模型;

21、相似度分析模块,用于对未标注新数据构建相似样本对作为正样本对,不相关样本对作为负样本对,对比学习优化相似样本对之间的相似度;

22、数据标注模块,用于基于对比学习得到的特征向量进行标签推断,生成标注结果。

23、本发明的有益效果为:

24、1.本发明能够同时处理文本、表格、图像等多种类型的数据,打破了传统方法仅处理单一数据类型的局限性;通过针对每种数据类型设计特定的特征提取和处理策略,确保不同类型的数据能够在统一的特征空间内进行融合和分析,实现了跨类型数据的高效标注,提高了系统的适用性,能够应用于企业内部各种信息系统的数据标注需求,增强了系统的灵活性和广泛适应性;

25、2.本发明采用特征工程的方法,实现了特征工程的高效性与多维度特征融合,通过对不同类型的数据进行特征提取和筛选,并通过特征向量的融合构建多维度特征空间;多维度特征空间能够捕捉多类型数据的关键特征,全面反映数据的内在结构和关联性,为后续的标注模型提供了更加精确和高效的特征输入;本发明通过多维度特征融合,系统能够更好地表征和区分数据,避免因特征信息不充分导致的标注不准确问题,显著提升了标注质量和精度;

26、3.本发明通过自监督学习的方式,使标注模型能够在未标注数据的情况下,自动学习数据的内在结构和特征表示;自监督学习的引入减少了对大规模已标注数据的依赖,使得模型在训练初期就能够具有较强的学习能力;同时,结合少量已标注数据的微调,进一步提高了模型在实际标注任务中的表现;通过自监督学习,系统在面临大规模未标注数据时表现优异,能够有效应对数据标注的瓶颈问题,减少了人工标注的成本,提升了标注效率和模型的泛化能力;

27、4.本发明通过对比学习构建相似样本对和不相关样本对,优化了标注模型对正负样本对的区分能力,具备对比学习优化模型的区分能力;通过对比学习强化了相似样本的相似度,同时显著降低了不相关样本的相似性,提升了模型在特征空间中对不同样本的区分能力,从而提高了模型的整体标注准确性;通过对比学习,本发明的系统能够在没有大量标注数据的情况下实现高效学习,特别是在复杂得多类型数据场景中,保证了标注结果的可靠性和准确性;

28、5.本发明具备高效的标签推断机制,基于对比学习得到的特征向量,系统通过高效的标签推断机制生成伪标签,进一步提升了未标注数据的标注效率;同时,通过迭代优化标签推断和模型训练,确保了标注结果的逐步优化和精确性提升;本发明通过标签推断机制使得系统能够快速生成高置信度的标注结果,避免了传统标注方法耗时长、效率低的问题,尤其适合处理大规模企业内部数据的标注任务;

29、6.本发明中的自动化标注流程结合了自监督学习和迭代优化策略,能够在标注过程中持续优化模型的学习效果;随着更多未标注数据的引入和迭代更新,系统能够不断提高标注结果的准确性和一致性;通过自动化和迭代优化的标注过程,系统可以持续提升标注质量,同时减少人工干预,实现高效、智能的企业数据标注流程;

30、7.本发明通过自监督学习和对比学习的自动化标注机制,降低企业数据标注的人工成本,减少了对大量人工标注的依赖,使得企业可以在无需大量人工参与的情况下,快速处理大规模的内部数据,显著降低了数据标注的人工成本和时间成本;本发明的系统特别适用于企业大规模数据标注需求,减少了人力资源的投入,降低了标注成本,提升了企业数据处理的效率;

31、8.本发明通过精确的数据标注,提升了数据挖掘与分析的准确性,也为后续的数据挖掘与分析提供了高质量的标签数据,确保数据挖掘模型和业务决策模型能够基于准确的标签进行训练和优化,进而提升企业数据分析和决策的可靠性,为企业提供了更加精准的数据基础,辅助企业进行数据驱动的决策和优化,提升了企业数据资产的利用效率。

32、综上所述,本发明具备通用性强、标注准确性高、自动化程度高、迭代优化能力强、人工成本低等多方面的优势,显著提升了企业多类型数据标注的效率和质量,能够为企业数据挖掘、数据分析以及业务优化提供坚实的基础,具有广泛的应用前景。


技术特征:

1.基于特征工程的企业多类型数据标注方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于特征工程的企业多类型数据标注方法,其特征在于,s20中,对初始数据的不同数据类型分别提取特征并筛选,具体为:

3.根据权利要求2所述的基于特征工程的企业多类型数据标注方法,其特征在于,构建得到多维度的特征空间时,将文本、表格和图像特征向量归一化,基于每种特征在任务中的重要性,通过权重优化分配权重系数,将加权后的特征向量按列拼接为统一的特征向量,将拼接后的综合特征向量映射到多维特征空间,将不同类型的数据在同一特征空间中对齐,在多维度特征空间中构建多层次的模型框架。

4.根据权利要求3所述的基于特征工程的企业多类型数据标注方法,其特征在于,s30中,通过自监督学习训练标注模型初步学习数据时,对于文本数据集构建掩码语言模型,对于表格数据集使用部分数据列预测其他数据列,对于图像数据集进行图像修复。

5.根据权利要求4所述的基于特征工程的企业多类型数据标注方法,其特征在于,构建标注模型时,根据特征空间的特征信息构建输入层,增加模型的特征提取层并添加输出层,根据任务选择合适的输出结构;自监督学习训练标注模型时,文本数据使用掩码语言模型设计预训练任务,表格数据使用列遮盖预测,图像数据使用图像块遮盖预测,生成自监督任务的训练数据,使用自监督任务对模型进行训练,更新模型权重,根据模型的损失函数值,对特征提取层进行调整。

6.根据权利要求5所述的基于特征工程的企业多类型数据标注方法,其特征在于,微调模型时,包括:获取标注数据集,选择自监督预训练得到的特征层,利用已标注数据集微调模型,将损失函数调整为任务特定的目标,并对模型进行有监督的学习;在验证集上评估微调模型的表现,通过超参数调整优化模型,构建从自监督学习到有监督微调的流水线,在测试集上进行最终验证,部署最终模型。

7.根据权利要求1所述的基于特征工程的企业多类型数据标注方法,其特征在于,还包括生成对抗网络扩充数据,其中,构建生成对抗网络,使用生成器生成带有标签的伪数据,判别器区分真实数据和伪数据;将生成的伪标签数据与部分已标注数据结合,进行半监督学习,优化标注模型。

8.根据权利要求7所述的基于特征工程的企业多类型数据标注方法,其特征在于,还包括基于注意力机制对序列数据进行建模,采用多头注意力机制在不同数据类型的标注中分配不同的注意力权重,对生成的标签进行验证,通过验证反馈优化标注模型。

9.根据权利要求1所述的基于特征工程的企业多类型数据标注方法,其特征在于,s50中,基于对比学习得到的特征向量进行标签推断时,使用对比学习得到的特征向量,对未标注数据进行聚类,根据相似度的度量标准将特征空间中相似样本分配到相同簇,并对每个聚类簇生成伪标签,其中,已标注样本的标签传播到聚类簇中;根据聚类的紧密度和聚类簇内样本的相似性,评估伪标签的置信度,按置信度排序对样本进行标注推断,将低于置信度阈值的样本保留为未标注状态,进一步验证。

10.基于特征工程的企业多类型数据标注系统,其特征在于,用于执行如权利要求1-9任一项所述的基于特征工程的企业多类型数据标注方法,所述系统包括:


技术总结
本发明属于数据处理技术领域,公开了基于特征工程的企业多类型数据标注方法及系统,通过采集企业内部信息系统的初始数据,划分得到文本数据集、表格数据集和图像数据集;提取特征并筛选后将不同类型数据的特征向量融合,构建得到多维度的特征空间;根据特征空间的特征信息构建标注模型,对未标注新数据构建相似样本对作为正样本对,不相关样本对作为负样本对,对比学习优化相似样本对之间的相似度;基于对比学习得到的特征向量进行标签推断,生成标注结果。本发明能够实现对多种类型数据的高效自动化标注,适用于文本、表格、图像等多种异构数据,具备较高的标注精度与扩展性。

技术研发人员:叶祖斌,刘康俊,熊发云,雷勇,陆蓉
受保护的技术使用者:江西省通信产业服务有限公司
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-24022.html