本发明属于雄性激素脱发,尤其涉及一种基于机器学习模型的cfrna雄性激素脱发早筛方法及系统。
背景技术:
1、游离cell-free rna组学为癌症基因组数据分类提供了新的方向。cfrna组学用于疾病早期检测在学术界成为新的研究方向,已有数篇利用cfrna进行疾病早期检测的国际期刊陆续发表。
2、并且,人工智能用于生命科学领域的趋势逐年上升,其中语言类人工智能模型近年飞速突破。2017年,transformer人工智能模型被顶级会议《nips》录用。2021年,openai使用transformer为主的底层算法,叠加重建了生成式训练变换模型(generative pre-trained transformer;gpt),并商用商产品chatgpt。该产品以其高智能、理解能力强、生成立成式特点成为人工智能领域一大突破,让人工智能快速在大众用户中普及。2022年由metaa团队基于biorivx预印本发布算法esfold,2023年创业团队发表模型progone,通过使用语言模型,实现了媲美alphafold 2蛋白质的结构预测能力,并在未知蛋白等特定领域展示了更高的效果。药物发现:2024年,deepmind推出了新版本的alphafold,名为alphafold-3,它能够以更高的精度预测蛋白质-药物相互作用。这一进展加速了药物筛选过程,使得一些新药候选物在短短数月内进入临床试验阶段。此外,一家公司利用人工智能优化了crispr-cas9基因编辑工具。其开发的ai模型能够精确预测基因编辑的脱靶效应,显著提高了基因编辑的安全性和有效性,这一突破在罕见遗传病分类识别中取得了初步成功。另一家初创公司推出了biofold,这是一种结合量子计算和ai技术的蛋白质结构预测模型。biofold在预测复杂蛋白质复合物结构方面表现优异,特别是在病毒与宿主细胞相互作用研究中取得了重要发现,为抗病毒药物开发提供了新的靶点。一家公司利用ai技术开发了一种新的个性化医疗平台。该平台整合了患者的基因组数据、电子病历和生活方式数据,通过ai模型进行综合分析,提供个性化的病人情况分析。
3、截至目前,已有多篇文献指出人工智能可以对脱发实行早期分类的有效性。2018年文献报道人工智能机器学习方法可对患者是否患有脱发进行识别判断。2021文献报道机器学习用于区分斑秃。2024年有文献报道使用深度学习方法对脱发以及其他头皮疾病形成早期分类模型。
4、依据传统方法,在对样本cfrna进行传统生物信息学分析之后,得出的结果往往需要人为判断,依靠积累经验来对结果进行判断,结果未必准确可靠,具有一定的主观人为性。因此,本发明针对传统方法的不足之处做出适当调整,提出一种基于机器学习模型的cfrna雄性激素脱发早筛方法及系统。
技术实现思路
1、为解决上述技术问题,本发明提出了一种基于机器学习模型的cfrna雄性激素脱发早筛方法及系统,以解决上述现有技术存在的问题。
2、为实现上述目的,本发明提供了一种基于机器学习模型的cfrna雄性激素脱发早筛方法,包括:
3、对样本集提取rna得到rna数据集;
4、基于所述rna数据集构建文库;
5、对所述文库进行质检和ngs测序得到测序数据;
6、对所述测序数据进行生物信息学分析得到显著差异基因;
7、将所述显著差异基因作为随机森林模型的输入特征建立预测模型,将新的样本信息输入所述预测模型得到样本对应的受试者的脱发风险。
8、可选地,基于所述rna数据集构建文库的过程包括:
9、基于片段化和去除rrna缓冲液对提取的rna进行片段化、rrna去除得到第一样品;
10、对所述第一样品进行cdna合成、添加接头得到第二样品;
11、对所述第二样品进行文库扩增制备文库。
12、可选地,获取第二样品的过程还包括产物纯化,其中,产物纯化的过程包括:
13、平衡纯化磁珠,将所述纯化磁珠加入添加接头的第一混合液中并混匀孵育得到第二混合液;
14、对所述第二混合液进行离心移除上清后加入乙醇洗涤、干燥得到第三混合液;
15、向所述第三混合液加水,混匀静置,离心后移取上清得到第二样品。
16、可选地,对所述测序数据进行生物信息学分析的过程包括:
17、对所述测序数据进行质控得到高质量测序数据;
18、将所述高质量测序数据与人类基因组数据进行比对得到比对数据;
19、统计所述比对数据中每个基因的测序读数数目,生成基因计数数据;
20、对所述基因计数数据进行差异表达分析得到显著差异基因。
21、可选地,将所述高质量测序数据与人类基因组数据进行比对的过程包括:
22、基于人类基因组参考序列和注释文件构建基因组索引;
23、将高质量测序数据与所述基因组索引进行比对得到比对数据。
24、可选地,对所述基因计数数据进行差异表达分析的过程包括:
25、读取基因计数数据并进行预处理得到预处理数据;
26、基于voom函数对所述预处理数据进行变换和归一化得到归一化数据
27、基于lmfit和ebayes函数对所述归一化数据进行线性建模提取显著差异基因。
28、本发明还公开了一种基于机器学习模型的cfrna雄性激素脱发早筛系统,包括:样本收集模块、rna提取模块、文库制备模块、高通量测序模块、生物信息学分析模块和人工智能分析模块;
29、其中,所述样本收集模块收集脱发组样本和健康组样本;
30、所述rna提取模块用于提取样本的rna数据;
31、所述文库制备模块用于基于所述rna数据制备文库;
32、所述高通量测序模块用于基于所述文库获取测序数据;
33、所述生物信息学分析模块用于提取所述测序数据的显著差异基因;
34、所述人工智能分析模块基于所述显著差异基因预测受试者的脱发风险。
35、本发明还公开了一种计算机终端设备,包括:
36、一个或多个处理器;
37、存储器,与所述处理器耦接,用于存储一个或多个程序;
38、当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现一种基于机器学习模型的cfrna雄性激素脱发早筛方法。
39、本发明还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现一种基于机器学习模型的cfrna雄性激素脱发早筛方法。
40、与现有技术相比,本发明具有如下优点和技术效果:
41、本发明中的生物学实验方法,cfrna微量提取建库方法与传统rna提取建库方法相比具有更高的定性合成功率。
42、本发明利用机器学习,构建一个可以预测潜在发病的高危人群的早期筛选模型。利用模型可以降低传统单生物信息学分析加人为主观判断验证的不准确性,一定程度减少人为因素干扰,提高了检测结果的可信度及准确性,因此,本发明涉及的模型具有一定通用的方法,并且该模型性能更好,成本低,周期短。
1.一种基于机器学习模型的cfrna雄性激素脱发早筛方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于机器学习模型的cfrna雄性激素脱发早筛方法,其特征在于,基于所述rna数据集构建文库的过程包括:
3.根据权利要求2所述的基于机器学习模型的cfrna雄性激素脱发早筛方法,其特征在于,获取第二样品的过程还包括产物纯化,其中,产物纯化的过程包括:
4.根据权利要求1所述的基于机器学习模型的cfrna雄性激素脱发早筛方法,其特征在于,对所述测序数据进行生物信息学分析的过程包括:
5.根据权利要求4所述的基于机器学习模型的cfrna雄性激素脱发早筛方法,其特征在于,将所述高质量测序数据与人类基因组数据进行比对的过程包括:
6.根据权利要求4所述的基于机器学习模型的cfrna雄性激素脱发早筛方法,其特征在于,对所述基因计数数据进行差异表达分析的过程包括:
7.一种基于机器学习模型的cfrna雄性激素脱发早筛系统,其特征在于,包括:样本收集模块、rna提取模块、文库制备模块、高通量测序模块、生物信息学分析模块和人工智能分析模块;
8.一种计算机终端设备,其特征在于,包括:
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-6中任一项所述的基于机器学习模型的cfrna雄性激素脱发早筛方法。