本发明涉及医疗数据分析,具体涉及一种基于大数据的医疗数据分析对比系统。
背景技术:
1、基于大数据的医疗数据分析对比是指利用现有的技术包括机器学习、人工智能、数据挖掘和统计分析等,通过对电子健康记录(ehr)、基因组数据、影像数据和实时健康监测数据等多源数据进行集成和处理,从中提取有价值的信息。但是,在处理和集成多源数据时,如果稀有医疗患者数据的样本数量不足,可能会导致分析模型出现对常见医疗患者的偏向,忽视稀有医疗患者。使得模型可能无法正确识别稀有医疗患者,导致误诊或漏诊,影响患者健康。
技术实现思路
1、本发明的目的是提供一种基于大数据的医疗数据分析对比系统,以解决背景技术中不足。
2、为了实现上述目的,本发明提供如下技术方案:一种基于大数据的医疗数据分析对比系统,包括数据获取模块、数据处理模块、样本数据增加模块,模型稳定性评估模块以及展示模块;
3、数据获取模块:用于从各种数据源收集相关的医疗数据,并对收集到的数据进行预处理,将预处理后的医疗数据进行稀有医疗患者特征提取;
4、数据处理模块:根据提取出的稀有医疗患者的亚型复杂度特征和患者样本数据倾斜特征,判断稀有医疗患者数据样本数量是否充足;
5、样本数据增加模块:当稀有医疗患者数据数量不充足时,通过数据增强技术增加稀有医疗患者样本的数量,对稀有医疗患者数据进行过采样,对常见医疗患者数据进行欠采样,平衡数据集;
6、模型稳定性评估模块:使用k折交叉验证技术,将数据集分成k个子集,循环进行训练和验证,评估分析模型的稳定性;
7、展示模块:对稀有医疗患者数据样本数量的判断结果和分析模型的稳定性进行综合分析,评估分析模型医疗患者识别结果的准确性,并对其进行可视化展示。
8、优选的,数据处理模块中,根据提取出的稀有医疗患者的亚型复杂度特征生成亚型分布异常指数,则亚型分布异常指数的获取方法为:
9、获取稀有医疗患者的临床数据和基因数据并标注n个患者的亚型数量m,选择与稀有医疗患者亚型相关的临床特征,对选定的特征进行计算,计算正常情况下各个亚型的基线分布,表达式为:式中,ni为第i个亚型的患者数,其中i∈{1,2,…,m},qi为每个亚型i的基线分布,将基线分布建立数据集合q={q1,q2,…,qi,…,qn};并计算当前基线分布pi,建立数据集合p={p1,p2,…,pi,…,pn};计算当前样本中各个亚型的实际分布频率,即计算亚型分布异常指数,具体的计算表达式为:式中,dk为亚型分布异常指数。
10、优选的,根据提取出的患者样本数据倾斜特征生成数据类别不平衡指数,则数据类别不平衡指数的获取方法为:
11、从不同来源收集患者样本数据,对每个患者样本进行标注,确定其所属的类别,将数据集中的样本数量标记为w,并划分为k个类别,统计每个类别s的样本数量ws;计算每个类别的比例,表达式为:其中,gs表示类别s的样本比例,计算期望均匀分布的比例,表达式为:其中,k表示类别的总数,计算数据类别不平衡指数,表达式为:其中,yb为数据类别不平衡指数。
12、优选的,将亚型分布异常指数以及数据类别不平衡指数进行归一化处理,通过归一化处理后的亚型分布异常指数以及数据类别不平衡指数计算稀有医疗患者数据样本数量的充足性评估系数。
13、优选的,将获取到的稀有医疗患者数据样本数量的充足性评估系数与预先设置的稀有医疗患者数据样本数量的充足性评估系数参考阈值进行比较,若充足性评估系数大于等于充足性评估系数参考阈值,稀有医疗患者数据样本数量充足,此时生成数据充足信号;若充足性评估系数小于充足性评估系数参考阈值,稀有医疗患者数据样本数量不充足,此时生成数据不充足信号。
14、优选的,模型稳定性评估模块中,使用k折交叉验证技术,将数据集分成k个子集,循环进行训练和验证,评估分析模型的稳定性;
15、从各个数据源收集稀有医疗患者和常见医疗患者的患者数据,包括临床数据和基因数据,选择k值,将整个数据集随机分成k个子集,定义用于评估模型性能的指标,包括准确率、精确率、召回率、f1分数;
16、将第i个子集作为验证集,剩余的k-1个子集合并作为训练集;
17、使用训练集训练模型;
18、使用验证集评估模型性能,记录评估结果;
19、将k次验证结果的评估指标分别进行收集并建立对应的数据集合,计算各个数据集合的标准差,将各个数据集合的标准差进行加权移动平均计算后计算模型稳定性分析系数。
20、优选的,将获取到的模型稳定性分析系数与模型稳定性分析系数参考阈值进行比较,若模型稳定性分析系数大于等于模型稳定性分析系数参考阈值,模型稳定性高,此时生成模型稳定信号;若模型稳定性分析系数小于模型稳定性分析系数参考阈值,模型稳定性低,此时生成模型不稳定信号。
21、优选的,展示模块中,对稀有医疗患者数据样本数量的判断结果和分析模型的稳定性进行综合分析,评估分析模型医疗患者识别结果的准确性,具体为:
22、将稀有医疗患者数据样本数量的充足性评估系数与模型稳定性分析系数作为模糊逻辑的输入项,将分析模型医疗患者识别结果的准确性作为模糊逻辑的输出项;
23、分别定义稀有医疗患者数据样本数量的充足性评估系数与模型稳定性分析系数的模糊集合;
24、制定模糊规则,将具体数值转化为模糊值,根据模糊规则库进行推理,将模糊值转换为具体数值输出。
25、在上述技术方案中,本发明提供的技术效果和优点:
26、1、本发明通过整合多源医疗数据并对稀有疾病患者数据进行特征提取和评估,解决了样本数量不足导致的模型偏向问题。通过数据增强技术增加稀有疾病样本数量,并对常见疾病样本进行欠采样,有效平衡数据集。同时,使用k折交叉验证技术评估和优化模型稳定性,并通过模糊逻辑综合分析模型的准确性,为临床决策提供可靠依据。
27、2、本发明不仅提升了稀有疾病识别的准确性和模型的鲁棒性,还能直观地展示数据样本数量和模型稳定性分析结果。通过可视化展示,医疗从业者能够更全面地了解模型性能,做出更准确的治疗决策,最终改善患者健康管理效果。
1.一种基于大数据的医疗数据分析对比系统,其特征在于:包括数据获取模块、数据处理模块、样本数据增加模块,模型稳定性评估模块以及展示模块;
2.根据权利要求1所述的一种基于大数据的医疗数据分析对比系统,其特征在于:数据处理模块中,根据提取出的稀有医疗患者的亚型复杂度特征生成亚型分布异常指数,则亚型分布异常指数的获取方法为:
3.根据权利要求2所述的一种基于大数据的医疗数据分析对比系统,其特征在于:根据提取出的患者样本数据倾斜特征生成数据类别不平衡指数,则数据类别不平衡指数的获取方法为:
4.根据权利要求3所述的一种基于大数据的医疗数据分析对比系统,其特征在于:将亚型分布异常指数以及数据类别不平衡指数进行归一化处理,通过归一化处理后的亚型分布异常指数以及数据类别不平衡指数计算稀有医疗患者数据样本数量的充足性评估系数。
5.根据权利要求4所述的一种基于大数据的医疗数据分析对比系统,其特征在于:将获取到的稀有医疗患者数据样本数量的充足性评估系数与预先设置的稀有医疗患者数据样本数量的充足性评估系数参考阈值进行比较,若充足性评估系数大于等于充足性评估系数参考阈值,稀有医疗患者数据样本数量充足,此时生成数据充足信号;若充足性评估系数小于充足性评估系数参考阈值,稀有医疗患者数据样本数量不充足,此时生成数据不充足信号。
6.根据权利要求1所述的一种基于大数据的医疗数据分析对比系统,其特征在于:模型稳定性评估模块中,使用k折交叉验证技术,将数据集分成k个子集,循环进行训练和验证,评估分析模型的稳定性;
7.根据权利要求6所述的一种基于大数据的医疗数据分析对比系统,其特征在于:将获取到的模型稳定性分析系数与模型稳定性分析系数参考阈值进行比较,若模型稳定性分析系数大于等于模型稳定性分析系数参考阈值,模型稳定性高,此时生成模型稳定信号;若模型稳定性分析系数小于模型稳定性分析系数参考阈值,模型稳定性低,此时生成模型不稳定信号。
8.根据权利要求1所述的一种基于大数据的医疗数据分析对比系统,其特征在于:展示模块中,对稀有医疗患者数据样本数量的判断结果和分析模型的稳定性进行综合分析,评估分析模型医疗患者识别结果的准确性,具体为: