本发明涉及数据处理,尤其涉及一种已有外文数据的数据治理方法。
背景技术:
1、现有技术中,已有外文数据长期存在着元数据揭示字段数量不够、原有字段空置较多、乱码现象、具有独立意义的字段信息未按照相应规则进行格式化拆分处理,使之能够独立对信息进行揭示、数据著录格式不规范等一系列问题。
2、因此,有必要提供一种新的已有外文数据的数据治理方法解决上述技术问题。
技术实现思路
1、本发明解决的技术问题是提供一种能够对独立信息进行揭示,能够解决对外文数据原字段空置和乱码现象进行处理的已有外文数据的数据治理方法。
2、为解决上述技术问题,本发明提供的已有外文数据的数据治理方法包括以下步骤:
3、s1:增加外文期刊元数据揭示字段数量;
4、s2:对原有字段空置内容进行补充;
5、s3:对字段进行原子化处理;
6、s4:对字段进行原子化处理;
7、s5:对数据著录格式进行规范化数据处理。
8、优选的,所述s1中,增加外文期刊元数据揭示字段数量,具体为:在原有元数据字段的基础上,增加新的标引字段和字段内容的采集和数据处理。
9、优选的,所述s2中,对原有字段空置内容进行补充,具体为:根据每一条数据字段内容对数据字段内容进行采集和内容补充。
10、优选的,所述s3中,对字段进行原子化处理,具体为:对所有数据库所有乱码进行替换。
11、优选的,所述s4中,对字段进行原子化处理,具体为:对具有独立意义的每个字段信息按照相应规则进行格式化拆分处理,使之能够独立对信息进行揭示。
12、优选的,所述具有独立意义的每个字段信息包括作者和作者机构之间的信息、作者和orcid之间的信息、期刊和年卷期之间的信息、每一条参考文献之间的信息。
13、优选的,所述s5中,对数据著录格式进行规范化数据处理,具体为:对需处理的数据格式进行规范化数据处理。
14、与相关技术相比较,本发明提供的已有外文数据的数据治理方法具有如下有益效果:
15、本发明提供一种已有外文数据的数据治理方法,通过增加外文期刊元数据揭示字段数量,对原有字段空置内容进行补充,对字段进行原子化处理,对字段进行原子化处理和对数据著录格式进行规范化数据处理能够解决现有外文数据存在的元数据揭示字段数量不够、原有字段空置较多、乱码现象、具有独立意义的字段信息未按照相应规则进行格式化拆分处理,无法对独立对信息进行揭示、数据著录格式不规范等问题。
1.一种已有外文数据的数据治理方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的已有外文数据的数据治理方法,其特征在于,所述s1中,增加外文期刊元数据揭示字段数量,具体为:在原有元数据字段的基础上,增加新的标引字段和字段内容的采集和数据处理。
3.根据权利要求1所述的已有外文数据的数据治理方法,其特征在于,所述s2中,对原有字段空置内容进行补充,具体为:根据每一条数据字段内容对数据字段内容进行采集和内容补充。
4.根据权利要求1所述的已有外文数据的数据治理方法,其特征在于,所述s3中,对字段进行原子化处理,具体为:对所有数据库所有乱码进行替换。
5.根据权利要求1所述的已有外文数据的数据治理方法,其特征在于,所述s4中,对字段进行原子化处理,具体为:对具有独立意义的每个字段信息按照相应规则进行格式化拆分处理,使之能够独立对信息进行揭示。
6.根据权利要求5所述的已有外文数据的数据治理方法,其特征在于,所述具有独立意义的每个字段信息包括作者和作者机构之间的信息、作者和orcid之间的信息、期刊和年卷期之间的信息、每一条参考文献之间的信息。
7.根据权利要求1所述的已有外文数据的数据治理方法,其特征在于,所述s5中,对数据著录格式进行规范化数据处理,具体为:对需处理的数据格式进行规范化数据处理。