本发明涉及临床数据处理,具体涉及一种肝胆外科临床数据的智能收集方法、系统及介质。
背景技术:
1、在肝胆外科临床数据的收集过程中,为了便于医生快速了解患者情况,往往会提取患者的关键信息。比如,可以基于提取的关键词,提取需要的关键信息。因此,关键词提取至关重要。目前,对关键词进行提取时,通常采用的方法为:通过逆文档频率(tf-idf)方法进行关键词提取。
2、然而,当通过逆文档频率方法,对肝胆外科临床数据进行关键词提取时,经常会存在如下技术问题:
3、通过逆文档频率方法,对肝胆外科临床数据进行关键词提取时,往往是基于词汇的独特性进行关键词提取的,然而,有些独特性相对较差的词汇往往也比较关键,比如,对于肝胆外科临床数据来说,其往往包含患者在临床进行的康复治疗情况,记录的康复治疗主题名称往往相对比较多,从而可能导致其独特性较差,但其往往也比较重要,属于关键词汇,因此,直接通过逆文档频率方法,对肝胆外科临床数据进行关键词提取时,可能导致关键词提取的合理性较差,从而导致肝胆外科临床数据快速收集的合理性较差。
技术实现思路
1、为了解决关键词提取的合理性较差的技术问题,本发明提出了一种肝胆外科临床数据的智能收集方法、系统及介质。
2、第一方面,本发明提供了一种肝胆外科临床数据的智能收集方法,该方法包括:
3、获取肝胆外科临床对应的目标关键词集合;
4、根据所述目标关键词集合,从待检测患者对应的所有临床信息中筛选出目标临床数据;
5、所述目标关键词集合的获取方法包括以下步骤:
6、获取肝胆外科对应的所有历史患者对应的临床信息集合,并对每个临床信息集合中的临床信息进行分词处理,得到目标分词;
7、根据每种目标分词在其所属临床信息集合中出现的时长,以及每种目标分词在其所属临床信息中出现的次数,确定每种目标分词对应的描述可能性;
8、根据每种目标分词对应的描述可能性,对每种目标分词对应的词频进行修正,得到每种目标分词对应的目标词频;
9、根据每种目标分词所属临床信息的数量,以及每种目标分词所属临床信息之间的相似情况,确定每种目标分词对应的主题可能性;
10、根据每种目标分词对应的主题可能性,对每种目标分词对应的逆文档频率进行修正,得到目标逆文档频率;
11、根据所有目标分词对应的目标词频和目标逆文档频率,对所有目标分词进行关键词提取,得到目标关键词集合。
12、结合上述第一方面,在一种可能的实现方式中,所述根据每种目标分词在其所属临床信息集合中出现的时长,以及每种目标分词在其所属临床信息中出现的次数,确定每种目标分词对应的描述可能性,包括:
13、将任意一种目标分词确定为标记分词,将所述标记分词在其所属每个临床信息中出现的次数,确定为所述标记分词在其所属每个临床信息下的目标次数;
14、将所述标记分词在其所属所有临床信息下的目标次数中的最大值,确定为所述标记分词对应的次数峰值;
15、将所述标记分词在其所属每个临床信息集合中最早出现的时刻和最晚出现的时刻之间的时长,确定为所述标记分词在其所属每个临床信息集合下的目标时长,其中,所述标记分词在其所属每个临床信息集合下的目标时长代表所述标记分词在其所属每个临床信息集合中出现的时长;
16、将所述标记分词在其所属所有临床信息集合下的目标时长的均值,确定为所述标记分词对应的整体代表时长;
17、根据所述标记分词对应的整体代表时长和次数峰值,确定所述标记分词对应的描述可能性。
18、结合上述第一方面,在一种可能的实现方式中,所述根据所述标记分词对应的整体代表时长和次数峰值,确定所述标记分词对应的描述可能性,包括:
19、将预设训练阶段时长与所述标记分词对应的整体代表时长之间的差异,确定为所述标记分词对应的描述偏差因子;
20、根据所述标记分词对应的描述偏差因子和次数峰值,确定所述标记分词对应的描述可能性,其中,描述偏差因子与描述可能性呈负相关关系,次数峰值与描述可能性呈正相关关系。
21、结合上述第一方面,在一种可能的实现方式中,所述根据每种目标分词对应的描述可能性,对每种目标分词对应的词频进行修正,得到每种目标分词对应的目标词频,包括:
22、通过关键词提取算法,确定每种目标分词对应的初始词频;
23、若目标分词对应的描述可能性大于预设描述阈值,则将目标分词确定为候选训练描述词;
24、根据每种候选训练描述词对应的描述可能性和初始词频,确定每种候选训练描述词对应的目标词频,其中,描述可能性和初始词频均与目标词频呈正相关关系;
25、将除了候选训练描述词之外的每种目标分词,确定为参考分词,并将每种参考分词对应的初始词频,确定为每种参考分词对应的目标词频。
26、结合上述第一方面,在一种可能的实现方式中,所述根据每种目标分词所属临床信息的数量,以及每种目标分词所属临床信息之间的相似情况,确定每种目标分词对应的主题可能性,包括:
27、将任意一种目标分词确定为标记分词,将所有临床信息集合中所述标记分词所属临床信息的总数,确定为所述标记分词对应的复现信息数;
28、根据所述标记分词对应的复现信息数,确定所述标记分词对应的初始可能因子;
29、若目标分词对应的初始可能因子大于预设疑似主题可能阈值,则将目标分词确定为疑似主题分词;
30、根据每种疑似主题分词所属临床信息之间的相似情况,确定每种疑似主题分词对应的主题可能性;
31、将除了疑似主题分词之外的每种目标分词,确定为临时分词,并将预设数值确定为每种临时分词对应的主题可能性。
32、结合上述第一方面,在一种可能的实现方式中,所述根据所述标记分词对应的复现信息数,确定所述标记分词对应的初始可能因子,包括:
33、将所有临床信息集合中所有临床信息的总数,确定为历史参照信息数;
34、将所述标记分词对应的复现信息数与所述历史参照信息数的比值,确定为所述标记分词对应的初始可能因子。
35、结合上述第一方面,在一种可能的实现方式中,疑似主题分词对应的主题可能性对应的公式为:
36、;
37、;其中,是第种疑似主题分词对应的主题可能性;是疑似主题分词的种类序号;是归一化函数;是第种疑似主题分词所属临床信息集合的数量;是第种疑似主题分词所属临床信息集合的序号;表征第种疑似主题分词在其所属第个临床信息集合下的主题可能情况;是以自然常数为底的指数函数;是第种疑似主题分词在其所属第个临床信息集合中其所属最早临床信息与其所属最晚临床信息之间的相似度;是第种疑似主题分词在其所属第个临床信息集合中其所属临床信息的数量;是第种疑似主题分词在其所属第个临床信息集合中其所属临床信息的序号;是第种疑似主题分词在其所属第个临床信息集合中其所属第个临床信息中,所有目标分词的信息熵;是第种疑似主题分词在其所属第个临床信息集合中,其所属第个临床信息与其所属第个临床信息之间的相似度。
38、结合上述第一方面,在一种可能的实现方式中,所述根据每种目标分词对应的主题可能性,对每种目标分词对应的逆文档频率进行修正,得到目标逆文档频率,包括:
39、通过关键词提取算法,确定每种目标分词对应的初始逆文档频率;
40、若目标分词对应的主题可能性大于预设真实主题可能阈值,则将目标分词确定为候选主题分词;
41、根据每种候选主题分词对应的主题可能性和初始逆文档频率,确定每种候选主题分词对应的目标逆文档频率,其中,主题可能性和初始逆文档频率均与目标逆文档频率呈正相关关系;
42、将除了候选主题分词之外的每种目标分词,确定为待定分词,并将每种待定分词对应的初始逆文档频率,确定为每种待定分词对应的目标逆文档频率。
43、第二方面,本发明提供了一种肝胆外科临床数据的智能收集系统,该系统包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现上述第一方面或第一方面任意一种可能的实现方式中的方法,具体地,该系统包括:
44、关键词获取模块,用于获取肝胆外科临床对应的目标关键词集合;
45、数据筛选模块,用于根据所述目标关键词集合,从待检测患者对应的所有临床信息中筛选出目标临床数据。
46、第三方面,提供了一种服务器,包括存储器和处理器。该存储器用于存储可执行程序代码,该处理器用于从存储器中调用并运行该可执行程序代码,使得该设备执行上述第一方面或第一方面任意一种可能的实现方式中的方法。
47、第四方面,提供了一种计算机程序产品,该计算机程序产品包括:计算机程序代码,当该计算机程序代码在计算机上运行时,使得该计算机执行上述第一方面或第一方面任意一种可能的实现方式中的方法。
48、第五方面,提供了一种肝胆外科临床数据的智能收集介质,该肝胆外科临床数据的智能收集介质存储有计算机程序代码,当该计算机程序代码在计算机上运行时,使得该计算机执行上述第一方面或第一方面任意一种可能的实现方式中的方法。
49、本发明具有如下有益效果:
50、本发明的一种肝胆外科临床数据的智能收集方法,解决了关键词提取的合理性较差的技术问题,提高了关键词提取的合理性,从而提高了肝胆外科临床数据快速收集的合理性。本发明综合考虑了多个与肝胆外科临床数据关键词相关的因素,比如,描述可能性和主题可能性,从而自适应地实现了对逆文档频率方法中的词频和逆文档频率的修正,进而提高了关键词提取的合理性,从而提高了肝胆外科临床数据快速收集的合理性。
1.一种肝胆外科临床数据的智能收集方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种肝胆外科临床数据的智能收集方法,其特征在于,所述根据每种目标分词在其所属临床信息集合中出现的时长,以及每种目标分词在其所属临床信息中出现的次数,确定每种目标分词对应的描述可能性,包括:
3.根据权利要求2所述的一种肝胆外科临床数据的智能收集方法,其特征在于,所述根据所述标记分词对应的整体代表时长和次数峰值,确定所述标记分词对应的描述可能性,包括:
4.根据权利要求1所述的一种肝胆外科临床数据的智能收集方法,其特征在于,所述根据每种目标分词对应的描述可能性,对每种目标分词对应的词频进行修正,得到每种目标分词对应的目标词频,包括:
5.根据权利要求1所述的一种肝胆外科临床数据的智能收集方法,其特征在于,所述根据每种目标分词所属临床信息的数量,以及每种目标分词所属临床信息之间的相似情况,确定每种目标分词对应的主题可能性,包括:
6.根据权利要求5所述的一种肝胆外科临床数据的智能收集方法,其特征在于,所述根据所述标记分词对应的复现信息数,确定所述标记分词对应的初始可能因子,包括:
7.根据权利要求5所述的一种肝胆外科临床数据的智能收集方法,其特征在于,疑似主题分词对应的主题可能性对应的公式为:
8.根据权利要求1所述的一种肝胆外科临床数据的智能收集方法,其特征在于,所述根据每种目标分词对应的主题可能性,对每种目标分词对应的逆文档频率进行修正,得到目标逆文档频率,包括:
9.一种肝胆外科临床数据的智能收集系统,其特征在于,包括处理器和存储器,所述处理器用于处理存储在所述存储器中的指令以实现权利要求1-8中任一项所述的一种肝胆外科临床数据的智能收集方法。
10.一种肝胆外科临床数据的智能收集介质,其特征在于,存储有计算机程序代码,当计算机程序代码在计算机上运行时,使得计算机执行权利要求1-8中任一项所述的一种肝胆外科临床数据的智能收集方法。
