一种基于XRLD集成分类器的血肿扩张风险预测方法

专利2025-04-27  6


本发明属于出血性脑卒中后血肿扩张风险预测,具体涉及一种基于xrld集成分类器的血肿扩张风险预测方法。


背景技术:

1、出血性脑卒中是一种由于脑血管破裂而引起的神经类疾病,占全部脑卒中发病率的10%~20%(chen s,zeng l,hu z.progressing haemorrhagic stroke:categories,causes,mechanisms and managements.j neurol.2014nov;261(11):2061-78.),其病因涉及高血压、糖尿病、脑动脉瘤破裂、脑动脉异常等诸多方面。在急性期内,其病死率达40%(van asch cj,luitse mj,rinkel gj,van der tweel i,algra a,klijn cj.incidence,case fatality,and functional outcome of intracerebral haemorrhage over time,according to age,sex,and ethnic origin:a systematic review and meta-analysis.lancet neurol.2010feb;9(2):167-76.),具有高死亡、高致残的特点,严重危害人们的生命健康。而出血性脑卒中后,血肿扩张是预后不良的重要危险因素之一,血肿持续扩张轻则导致患者颅内压迅速增加从而引发神经功能进一步恶化,重则危及患者生命。因此,精准预测和有效控制患者出血性脑卒中后血肿扩张是当前临床医学领域亟待解决的问题。

2、越来越多的研究表明患者的个人史、疾病史和发病相关,尤其是高血压会大大增加患者出血性脑卒中后血肿扩张的风险。其病理过程在于高血压会引起原发部位持续出血从而导致血液渗透进周围组织中形成血肿,由于出血不会迅速停止,所以血肿会持续扩大,造成血肿周围血管的损伤和破裂。除了高血压外,糖尿病通过促进炎症介质、自由基释放和内环境酸中毒的形成,引起了血脑屏障破坏,也大大增加了血肿扩张的风险(bahadar ga,shah za.intracerebral hemorrhage and diabetes mellitus:blood-brain barrierdisruption,pathophysiology and cognitive impairments.cns neurol disord drugtargets.2021;20(4):312-326.)。

3、目前,基于机器学习的各类分类器已成为诊断疾病、识别疾病发生的潜在风险因素和预测疾病发生风险的重要工具。而现有的技术中,大多采用单一分类器进行疾病的风险预测。在常规的疾病风险预测中,通常会叠加患者个人史、疾病史和行为习惯等相关信息以获取精准的疾病风险预测结果,这也带来了检测数据体量大、维度高的问题。单一分类器在处理这种高维数据集时,很难提取有效的特征变量,这导致了其对疾病风险预测的精度不高且泛化能力不强,这也是现有技术在进行疾病风险预测方面的最大问题。同时,现有技术往往只考虑单个因素或少数几个因素对疾病风险发生的影响,忽略其他可能的因素。血肿扩张是一个复杂的过程,其发生因素涉及多个方面,若只关注几个因素,则无法全面评估患者发生血肿扩张的风险。

4、由于特征选择与集成分类器相结合的方法是研究出血性脑卒中后患者血肿扩张风险预测的新型方法,而基于具有最优超参数的xgboost、随机森林、lightgbm和决策树分类器结合成的xrld集成分类器的血肿扩张风险预测方法还未被研究。


技术实现思路

1、本发明的目的在于提供一种基于xrld集成分类器的血肿扩张风险预测方法,本发明将具有最优超参数的xgboost、随机森林、lightgbm和决策树分类器结合,构建了xrld集成分类器,并应用vif和vp,提出了一种既考虑特征重要性评分又剔除特征重要性评分排序最低特征的新型诊断方法,同时考虑了患者的个人史、疾病史和发病相关对出血性脑卒中后患者发生血肿扩张风险的影响,以有效提高了血肿扩张风险的预测精度。

2、本发明的发明思想为:本发明提出一种基于xrld集成分类器的血肿扩张风险预测方法,用于出血性脑卒中后患者发生血肿扩张风险的潜在诊断,同时本发明还考虑了患者个人史、疾病史和发病相关对出血性脑卒中后发生血肿扩张风险的影响,有效提高了血肿扩张风险的预测精度。

3、为了实现上述发明目的,本发明采用技术方案为:一种基于xrld集成分类器的血肿扩张风险预测方法,包括以下步骤:

4、s1:对原始数据集进行数据预处理,并判断前x位患者是否发生血肿扩张事件;

5、s2:对血肿扩张风险特征变量进行假设检验及相关性分析;

6、s3:基于xgboost、随机森林、lightgbm和决策树分类器,构建xrld集成分类器;

7、s4:利用vif和vp筛选特征变量,并结合xrld集成分类器进行血肿扩张风险诊断。

8、步骤s1包括以下步骤:

9、s11:基于原始数据集m0,提取样本数据并填充缺失值;

10、其中:原始数据集m0中包含的数据为患者发病到首次影像检查时间间隔δtf、患者每次影像检查的血肿体积vi以及患者首次检查和后续所有检查的时间点ti;

11、s12:计算第i次影像检查时间到发病时间间隔δti与第j次和第i次影像检查时间间隔δtij,即:

12、δti=ti-t0+δtf       (1)

13、δtij=δtj-δti             (2)

14、其中:δtf表示患者从发病到入院首次检查的时间间隔,ti、tj分别表示第i次、第j次影像检查时间点,且i,j=0,1,…,8。第0次影像检查表示患者入院首次检查的时间点,i=0,1,…,8分别表示第i次影像检查;

15、s13:根据每次影像检查的血肿体积,计算第j次和第i次影像检查的血肿绝对体积增量δvij与相对体积增量rvij,即:

16、δvij=vj-vi          (3)

17、

18、其中:其中vi和vj分别表示第i次和第j次影像检查的血肿体积;

19、s14:假设血肿呈匀速扩张的状态,计算第i+1次和第i次影像检查的血肿扩张速度vi,i+1,即:

20、

21、其中:vi+1表示第i+1次影像检查的血肿体积,δti,i+1表示第i+1次与第i次影像检查的时间间隔;

22、s15:根据步骤s13中δvij的计算公式,判断δv0i是否大于等于6毫升,若δv0i<6,则根据步骤s13中rvij的计算公式进一步判断rv0i是否大于等于33%,若rv0i<33%,则认为该患者没有发生血肿扩张事件;

23、其中:δv0i表示第i次和首次影像检查的血肿绝对体积增量;rv0i表示第i次和首次影像检查的血肿相对体积增量;

24、s16:若满足δv0i<6且rv0i≥33%或满足δv0i≥6,说明患者一定发生或者可能发生血肿扩张,则需要根据步骤s12中δti的计算公式进一步判断δti是否小于等于48小时。

25、s17:对于一定发生或者可能发生血肿扩张患者,分别计算第i次影像检查与发病时血肿绝对体积增量达到6毫升的时间ta和相对体积增量达到33%的时间tb,即:

26、

27、

28、其中:δv0,i-1表示第i-1次影像检查与首次影像检查的血肿绝对体积增量,vi-1,i表示第i次与第i-1次影像检查的血肿扩张速度,δti-1表示第i-1次影像检查与发病的时间间隔,rv0,i-1表示第i-1次影像检查与首次影像检查的血肿相对体积增量,v0表示首次影像检查的血肿体积;

29、s18:若δti≤48,则说明患者一定发生血肿扩张,此时发生血肿扩张的时间为min{ta,tb};

30、s19:若δti>48,则说明患者可能发生血肿扩张,结合步骤s14、步骤s17中的计算公式公式,计算此时ta、tb,判断ta、tb中的较小值是否小于等于48小时,即:

31、min{ta,tb}≤48                      (8)

32、其中:ta、tb分别表示第i次影像检查与发病时血肿绝对体积增量达到6毫升的时间和相对体积增量达到33%的时间;

33、s110:当min{ta,tb}≤48时,说明患者发生了血肿扩张,此时发生血肿扩张的时间为min{ta,tb};当min{ta,tb}>48时,说明患者没有发生血肿扩张。

34、步骤s2包括以下步骤:

35、s21:基于原始数据集n0中的数据,提取x0个特征变量;

36、其中:x0表示从原始数据集n0中提取的患者个人史、疾病史、治疗相关、影像信息血肿和水肿的体积、位置、形状及灰度特征变量数;

37、s22:利用标签编码处理“性别”特征项;

38、s23:利用卡方检验和u检验分别对分类变量和连续变量进行假设检验,剔除p值大于等于0.05的特征变量,剩余x1个特征变量,x1<x0;

39、其中,p值表示当原假设为真时,所得到的样本观察结果或更极端结果出现的概率,x1表示剔除p值大于等于0.05后剩余的特征变量的个数;

40、s24:利用spearman相关系数对x1个特征变量进行相关性分析,筛选与血肿体积变化相关性强的特征变量;

41、s25:得到预处理后的数据集中对血肿扩张风险诊断具有统计意义的j个特征变量,j=x1。

42、其中:j表示预处理后数据集中对血肿扩张风险诊断具有统计意义的特征变量的个数。

43、步骤s3包括以下步骤:

44、s31:构建机器学习xgboost分类器、随机森林分类器、lightgbm分类器和决策树分类器;

45、s32:分别计算j个特征变量的重要性评分,取四个重要性评分的平均值为第一轮重要性评分importance1,即:

46、

47、其中:sc表示分类器c计算的特征重要性评分;

48、s33:对特征变量的第一轮重要性评分由高到低进行排序,保留第一轮重要性评分排序前50%的k个特征变量,剔除其余特征变量,k<j;

49、其中:k表示保留第一轮重要性评分排序前50%的特征变量的个数;

50、s34:基于k个特征变量的相关数据,利用随机搜索算法和五折交叉验证,获取所述xgboost、随机森林、lightgbm和决策树四个分类器的最优超参数;

51、s35:基于具有最优超参数的所述xgboost、随机森林、lightgbm和决策树分类器的auc值,计算各分类器的权重,即:

52、

53、其中:aucc表示分类器c下患者血肿扩张的真阳性率,c=1,2,3,4,c=1代表xgboost分类器,c=2代表随机森林分类器,c=3代表lightgbm分类器,c=4代表决策树分类器;

54、s36:基于各分类器的权重,集成具有最优超参数的所述xgboost、随机森林、lightgbm和决策树四个分类器,构建xrld集成分类器。

55、步骤s4包括以下步骤:

56、s41:基于保留的k个特征变量,判断这些特征变量的vif值是否均小于10;

57、s42:若不小于10,则计算同一维度下vp>0.8的特征变量的个数n,则n个特征变量间存在多重共线性;

58、其中:n表示同一维度下vp>0.8的特征变量的个数,n≥2;

59、s43:将这n个特征变量按重要性评分排序,剔除评分最低的1个特征;

60、s44:计算此时所有特征的vif,若vif值不小于10,重复步骤s42、步骤s43操作;若各特征vif值小于10,则转至步骤s45操作;

61、s45:计算训练集准确率,判断训练集准确率是否开始下降。若训练集准确率没有下降,则返回至步骤s43;若训练集准确率开始下降,则转至步骤s46操作;

62、s46:利用xrld集成分类器计算最终l个特征变量的第二轮重要性评分importance2,即:

63、

64、其中:l表示筛选得到的最终特征数据集的特征变量数量,wc表示分类器c的权重,具体计算公式见步骤s35;

65、s47:对l个特征变量的第二轮特征重要性评分由高到低进行排序,l<k;

66、s48:基于各分类器的权重以及上述所筛选特征的重要性评分,得到患者血肿扩张的加权平均预测概率,即:

67、

68、其中:pm为状态m下的加权平均预测概率,pcm为分类器c下状态m的预测概率,m=1表示发生血肿扩张,m=0表示不发生血肿扩张;

69、s49:基于加权平均预测概率,对发生血肿扩张和不发生血肿扩张的加权平均预测概率进行排序,获取加权平均预测概率最高的序号,即:

70、

71、其中:k表示加权平均预测概率最高的序号,若k=1则表示该患者发生血肿扩张,若k=0则表示该患者没有发生血肿扩张。

72、与现有技术相比,本发明的有益效果为:

73、1、本发明将xgboost分类器、随机森林分类器、lightgbm分类器和决策树分类器结合,构建了xrld集成分类器,相比于采用单一分类器,利用xrld集成分类器能够综合多个分类器的结果,有效提高了血肿扩张风险预测的准确性和稳定性。

74、2、本发明应用vif和vp,确定了影响血肿扩张风险的最优特征变量,有效减少了xrld分类器中的冗余信息,大大提高了对血肿扩张风险的预测能力。

75、3、本发明不仅考虑了患者的个人史、疾病史和发病相关等相关因素对血肿扩张风险的影响,还将这些因素纳入预测模型中进行分析,可以更全面地评估患者发生血肿扩张的风险。

76、4、本发明提高了患者出血性脑卒中后发生血肿扩张风险的预测精度,这对于患者的治疗和干预决策具有重要的指导意义,可以提前采取相应的措施,减少患者发生血肿扩张的风险。

77、5、本发明提出一种既考虑特征重要性评分又剔除特征重要性评分排序最低特征的新型诊断方法,同时考虑患者的个人史、疾病史和发病相关对出血性脑卒中后患者发生血肿扩张风险的影响,有效提高了血肿扩张风险的预测精度。


技术特征:

1.一种基于xrld集成分类器的血肿扩张风险预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于xrld集成分类器的血肿扩张风险预测方法,其特征在于,所述步骤s1包括以下步骤:

3.根据权利要求2所述的一种基于xrld集成分类器的血肿扩张风险预测方法,其特征在于,步骤s2包括以下步骤:

4.根据权利要求3所述的一种基于xrld集成分类器的血肿扩张风险预测方法,其特征在于,所述步骤s3包括以下步骤:

5.根据权利要求4所述的一种基于xrld集成分类器的血肿扩张风险预测方法,其特征在于,所述步骤s4包括以下步骤:


技术总结
本发明提供了一种基于XRLD集成分类器的血肿扩张风险预测方法,属于出血性脑卒中后血肿扩张风险预测技术领域,解决了出血性脑卒中后血肿扩张风险预测精度较低的技术问题。其技术方案为:包括以下步骤:S1:对原始数据集进行数据预处理,并判断前X位患者是否发生血肿扩张事件;S2:对血肿扩张风险特征变量进行假设检验及相关性分析;S3:基于XGBoost、随机森林、LightGBM和决策树分类器,构建XRLD集成分类器;S4:利用方差膨胀因子和方差比例筛选特征变量,并结合XRLD集成分类器进行血肿扩张风险诊断。本发明的有益效果为:提高了血肿扩张风险的预测精度。

技术研发人员:赵敏,刘鑫,尤竹婷,黄欣,覃文智
受保护的技术使用者:南通大学
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-23873.html