一种汉字拆分组合方法、装置、设备及可读存储介质

专利2025-04-25  18


本发明涉及汉字拆分组合,具体而言,涉及一种汉字拆分组合方法、装置、设备及可读存储介质。


背景技术:

1、《说文解字》是我国历史上第一部系统分析汉字字形和字源的汉语字典,也是我国第一部文字学专书。但由于汉字部首数量多、关系杂,纯人工统计整理汉字部首间的关系非常困难,所以到目前为止没有形成一个全面系统的部首间关系整体框架。在面向汉字教学时,现有汉字拆解方式有以下三种。第一种是将汉字拆分为笔画,虽然可以将汉字全部拆分,但是出现拆分原则不统一和规范性不足问题,组字时则因为笔画太过零散无法组配。第二种是用偏旁和部首拆解汉字,有基本的结构框架,但存在部首和偏旁的范畴重叠,并且依靠部首和偏旁无法将汉字拆分完全。第三种是用部件拆解,1997年颁布的《信息处理用gb13000.1字符集汉字部件规范》(“信息用规范”)和2009年颁布的《现代常用字部件及部件名称规范》(“常用字规范”)拆解出的部件颗粒度过大,无法有效降低汉字学习难度。在计算机领域,目前汉字编码都为整字编码,字符级别类别繁多,但却仍然无法满足汉字信息处理的需求,且有高度相似的字符为计算机自动识别带来极大挑战。


技术实现思路

1、本发明的目的在于一种汉字拆分组合方法、装置、设备及可读存储介质,以改善上述问题。

2、为了实现上述目的,本技术实施例提供了如下技术方案:

3、一方面,本技术实施例提供了一种汉字拆分组合方法,所述方法包括:

4、获取待处理对象,所述待处理对象为待拆分的汉字或待组合的元素,所述元素包括偏旁和部件;

5、构建汉字构形图式数据库;基于所述汉字构形图式数据库,构建汉字、汉字构形图式与拆分结果三者之间的对应关系表,一个汉字对应一个汉字构形图式,一个汉字构形图式对应至少一种拆分结果,所述拆分结果为汉字拆分后得到的汉字构件;

6、根据所述汉字构形图式数据库、所述对应关系表和预设的拆分方法对所述待拆分的汉字进行拆分,得到拆分后的偏旁和部件;或根据所述汉字构形图式数据库、所述对应关系表和预设的组合方法对所述待组合的元素进行组合,得到组合后的汉字。

7、可选的,构建汉字构形图式数据库,包括:

8、构建所述汉字构形图式数据库,所述汉字构形图式数据库中包括14个平面图式,将14个平面图式进行分层,从下到上为第一层到第五层;第一层为下包围结构、上包围结构、右包围结构和左包围结构;第二层为全包围结构、左下包围结构、右下包围结构、右上包围结构和左上包围结构;第三层为左中右结构和上中下结构;第四层为左右结构和上下结构;第五层为独体结构。

9、可选的,根据所述汉字构形图式数据库、所述对应关系表和预设的拆分方法对所述待拆分的汉字进行拆分,得到拆分后的偏旁和部件,包括:

10、获取所述待拆分的汉字是否能进行拆分的结果,若能进行拆分则获取所述待拆分的汉字对应的汉字构形图式;

11、根据所述待拆分的汉字对应的汉字构形图式、所述对应关系表和预设的拆分方法对所述待拆分的汉字进行拆分,得到拆分后的偏旁和部件。

12、可选的,根据所述待拆分的汉字对应的汉字构形图式、所述对应关系表和预设的拆分方法对所述待拆分的汉字进行拆分,得到拆分后的偏旁和部件,包括:

13、进行第一拆分阶段,所述第一阶段拆分包括按照所述待拆分的汉字对应的汉字构形图式、所述对应关系表进行拆分,其中,在进行拆分时,若一个待拆分的汉字对应有一种以上的拆分结果,则利用预设的拆分准则对其进行筛选,将筛选后剩余的一种拆分结果作为初步拆分结果;若一个待拆分的汉字只对应一种拆分结果,则直接将此拆分结果作为初步拆分结果;

14、获取所述初步拆分结果中是否包含能继续拆分的构件的结果,若包含则获取能继续拆分的构件并将所述能继续拆分的构件送入所述第一拆分阶段再次进行拆分,否则进入第二拆分阶段,所述第二阶段拆分包括获取所述初步拆分结果中的每个构件的组字率,判断每个构件的组字率是否均大于等于2,若均大于等于2,则将所述初步拆分结果中的构件作为输出,若所述初步拆分结果中其中一个构件的组字率小于2,则不再对所述初步拆分结果中的构件进行拆分,并且判断组字率小于2的构件是否具有上一层构件,若没有上一层构件则将所述初步拆分结果中的构件作为输出,若有上一层构件则返回上一层构件,并重新进入第二阶段拆分步骤中。

15、可选的,利用预设的拆分准则对其进行筛选,包括:

16、构建所述拆分准则,所述拆分准则包括第一拆分准则、第二拆分准则和第三拆分准则;所述第一拆分准则为若汉字能拆分成独体字,也能拆分成非独体字,那么将汉字拆分成独体字;所述第二拆分准则为若汉字能拆分为三个构件也能拆分成两个构件,那么将汉字拆分为三个构件;所述第四拆分准则为若汉字有多种拆分方法,其中一种拆分方法拆分之后包含汉字一,那么则不选择此种拆分方法。

17、可选的,根据所述汉字构形图式数据库、所述对应关系表和预设的组合方法对所述待组合的元素进行组合,得到组合后的汉字,包括:

18、从所述待组合的元素中选取两个元素,从所述汉字构形图式数据库中选取一汉字构形图式,按照所述对应关系表对选取的元素进行汉字组合形成组合元素,判断所述待组合的元素中的元素是否均进行了组合,若都进行了组合则将组合后的元素作为组合后的汉字,否则以所述组合元素为基础再次从所述待组合的元素中选取一元素,以及再次从所述汉字构形图式数据库中选取一汉字构形图式,再次进行汉字组合,直至所述待组合的元素均进行了组合。

19、第二方面,本技术实施例提供了一种汉字拆分组合装置,所述装置包括获取模块、构建模块和拆分组合模块。

20、获取模块,用于获取待处理对象,所述待处理对象为待拆分的汉字或待组合的元素,所述元素包括偏旁和部件;

21、构建模块,用于构建汉字构形图式数据库;基于所述汉字构形图式数据库,构建汉字、汉字构形图式与拆分结果三者之间的对应关系表,一个汉字对应一个汉字构形图式,一个汉字构形图式对应至少一种拆分结果,所述拆分结果为汉字拆分后得到的汉字构件;

22、拆分组合模块,用于根据所述汉字构形图式数据库、所述对应关系表和预设的拆分方法对所述待拆分的汉字进行拆分,得到拆分后的偏旁和部件;或根据所述汉字构形图式数据库、所述对应关系表和预设的组合方法对所述待组合的元素进行组合,得到组合后的汉字。

23、第三方面,本技术实施例提供了一种汉字拆分组合设备,所述设备包括存储器和处理器。存储器用于存储计算机程序;处理器用于执行所述计算机程序时实现上述汉字拆分组合方法的步骤。

24、第四方面,本技术实施例提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述汉字拆分组合方法的步骤。

25、本发明的有益效果为:

26、1、本发明的汉字拆分组合方法,可以解决目前汉字拆解不规范、构件原则不统一的问题。构建新型共时层面的汉字构形体系,提出可操作性强,标准统一的拆解汉字原则,搭建层级化的汉字平面图式,实现程式化学习汉字结构,形成汉字构形思维,对汉字重新用部件和偏旁进行编码。

27、2、本发明可以实现对所有汉字的层级化拆分和组合。该方法可以作为识记并书写汉字的新型方式应用到汉字教学之中。由现有整字学习变为依靠小单元的偏旁部件进行学习,降低汉字学习门槛,解决汉字形体混淆的问题。并且依靠共有的偏旁部件可以多个汉字的联结式学习,对汉字形成系统认知,解决单字孤立学习无法形成整体认知的问题。通过平面图式,能够清楚展示汉字结构及其部件偏旁的空间位置关系,利于形成明确的视觉表象,形成部件意识和构字思维,实现对无限汉字的自学。该方法将汉字以部件偏旁和平面图式做拆解,程式化科学训练,摆脱智力限制,实现全年龄段的学习。该方法构建了层级清晰的汉字理论体系,为汉字教学提供新的教学路径,变革现有教学方式,并最终通过汉字学习深挖其中蕴含的中华文化,用汉字讲好中国故事,扩大汉文化圈影响力。还可以创新现有的整字编码的方式,利用部件偏旁编码,拓展unicode字符集。

28、本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。


技术特征:

1.一种汉字拆分组合方法,其特征在于,包括:

2.根据权利要求1所述的汉字拆分组合方法,其特征在于,构建汉字构形图式数据库,包括:

3.根据权利要求2所述的汉字拆分组合方法,其特征在于,根据所述汉字构形图式数据库、所述对应关系表和预设的拆分方法对所述待拆分的汉字进行拆分,得到拆分后的偏旁和部件,包括:

4.根据权利要求3所述的汉字拆分组合方法,其特征在于,根据所述待拆分的汉字对应的汉字构形图式、所述对应关系表和预设的拆分方法对所述待拆分的汉字进行拆分,得到拆分后的偏旁和部件,包括:

5.根据权利要求4所述的汉字拆分组合方法,其特征在于,利用预设的拆分准则对其进行筛选,包括:

6.根据权利要求1所述的汉字拆分组合方法,其特征在于,根据所述汉字构形图式数据库、所述对应关系表和预设的组合方法对所述待组合的元素进行组合,得到组合后的汉字,包括:

7.一种汉字拆分组合装置,其特征在于,包括:

8.一种汉字拆分组合设备,其特征在于,包括:

9.一种可读存储介质,其特征在于:所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述汉字拆分组合方法的步骤。


技术总结
本发明提供了一种汉字拆分组合方法、装置、设备及存储介质,所述方法包括:获取待处理对象,所述待处理对象为待拆分的汉字或待组合的元素,所述元素包括偏旁和部件;构建汉字构形图式数据库;基于所述汉字构形图式数据库,构建汉字、汉字构形图式与拆分结果三者之间的对应关系表,所述拆分结果为汉字拆分后得到的汉字构件;根据所述汉字构形图式数据库、所述对应关系表和预设的拆分方法对所述待拆分的汉字进行拆分,得到拆分后的偏旁和部件;或根据所述汉字构形图式数据库、所述对应关系表和预设的组合方法对所述待组合的元素进行组合,得到组合后的汉字。本发明的汉字拆分组合方法,可以解决目前汉字拆解不规范、构件原则不统一的问题。

技术研发人员:王涛,霍旭睿,李若锦,桂福淋
受保护的技术使用者:四川大学
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-23820.html