本发明属于高通量测序中宏基因组学测序领域,具体涉及一种基于nextflow病原体基因组系统发育自动化分析方法和系统。
背景技术:
1、在病原体防控和生物医学研究中,了解病原体的遗传多样性和进化关系对于疾病的预防、溯源及疫苗开发至关重要。传统的病原体基因组系统发育分析过程繁琐,需要手动处理大量测序数据,且易产生人为误差。随着高通量测序技术的发展,病原体基因组数据的获取变得更加快速和高效,但相应的数据处理和分析也变得更加复杂。近年来,生物信息学工具和框架在数据分析中发挥了重要作用。
2、cn106886689a公开了一种用于微生物基因分析的生物信息学管线和注释系统,提出可以基于snakemake工作流组织生物信息学管线。snakemake虽然提供了工作流的定义和执行,但通常需要用户具备一定的编程技能,并且对于动态任务调度和多环境执行的适应性存在限制。
技术实现思路
1、为了解决现有技术存在的不足,本发明提供一种基于nextflow病原体基因组系统发育自动化分析技术。
2、本发明的技术方案为:
3、一种基于nextflow病原体基因组系统发育自动化分析方法,所述方法基于nextflow工作流,包括如下步骤:
4、步骤一、创建病原体参考基因组数据库;
5、步骤二、数据预处理;对高通量测序获得的原始数据进行预处理、过滤和质控,得到洁净数据;
6、步骤三、序列比对与组装;
7、将预处理后的序列数据与宿主参考基因组进行比对,提取出病原体的基因组序列信息;其中,对得到无法比对到人类参考基因组的的序列后,进行从头组转,获得完整的病原体基因组序列;
8、步骤四、家系分型;
9、对提取出的病原体基因组序列信息进行分析,确认病原体的家系分型;
10、步骤五、整合多样本结果
11、利用nextflow的自动化管理,将所有样本的进行家系分型分析,并将结果进行整合;
12、步骤六、系统发育分析;基于整合后的遗传信息,构建病原体的系统发育树;
13、步骤七、结果输出与可视化。
14、根据本发明的一实施例,所述步骤一中,利用python爬虫技术从公共数据库中爬取并整合病原体参考基因组数据,创建所述的病原体参考基因组数据库。
15、根据本发明的一实施例,所述步骤二中,在过滤过程中,序列中定义低质量碱基百分比阈值为30、保留质量大于20、去除含有10个及以上n碱基的序列。去除含有大量不确定性(n碱基)的序列和排除测序错误低质量的数据,减少了对计算和存储资源的无效占用,保留了更可能代表真实生物学特征的高质量管理序列,从而增强了研究结果的生物学意义。
16、根据本发明的一实施例,所述步骤四中,在分型过程中,重比对后按照序列相似度进排序,若样本序列于其中的分型相似度高达99.9%,则认定其为该分型。
17、根据本发明的一实施例,所述步骤六中,在系统发育分析过程中,基于nj法构建全基因组发育树。
18、根据本发明的一实施例,所述步骤七中,运用html技术构建基础布局框架,然后将可视化结果嵌入其中,实现数据的实时更新功能。
19、本发明的另一方面,还提供了一种基于nextflow病原体基因组系统发育自动化分析系统,包括:nextflow工作流框架,设置于所述框架下的病原体参考基因组数据库模块、数据预处理模块、序列比对模块、序列组装模块、病原体家系分型分析模块、nextflow多样品分型整合模块、系统发育分析模块、结果输出与可视化模块;
20、所述病原体参考基因组数据库模块存储为常见的病原体参考基因组数据,可持续更新和扩展;
21、所述数据预处理模块可对高通量测序获得的原始序列数据进行预处理,并对其进行过滤;
22、所述序列比对模块可将预处理后的序列数据与宿主参考基因组进行比对,提取出病原体的基因组序列信息;
23、所述序列组装模块可对序列进行组装,以获得完整的基因组序列;
24、所述病原体家系分型分析模块模块可对病原体基因组序列进行家系分型,确定不同样本之间的遗传关系和亲缘关系;
25、所述nextflow多样品分型整合模块可将所有样本的家系分型结果进行整合,形成一个包含所有样本遗传信息的数据库;
26、所述系统发育分析模块可基于整合后的遗传信息,构建病原体的系统发育树;
27、所述结果输出与可视化模块可将系统发育分析的结果进行输出和可视化展示。
28、根据本发明的一实施例,所述数据预处理模块中,过滤时,序列中定义低质量碱基百分比阈值为30、保留质量大于20、去除含有10个及以上n碱基的序列。
29、根据本发明的一实施例,所述病原体家系分型分析模块,可对重比对后的样本按照序列相似度进排序,若样本序列于其中的分型相似度高达99.9%,则认定其为该分型。
30、根据本发明的一实施例,所述系统发育树分析模块基于nj法构建全基因组发育树。
31、与现有技术相比,本发明具有以下有益效果:
32、本申请的分析方法,基于nextflow工作流,可以简化复杂计算流程的定义,降低编程难度,用户友好。而且nextflow动态任务调度系统上优化了资源利用率和处理速度。原生容器技术集成,简化了环境配置,增强了工作流的可移植性和可重复性。
33、本发明将nextflow应用于病原体基因组系统发育分析,可以实现病原体基因组测序数据的自动化处理和分析,包括数据预处理、序列比对、组装、家系分型、系统发育树构建等关键步骤。可以实现多样本数据的并行处理,确保数据处理的准确性和高效性,能够高效、准确地揭示病原体基因组的遗传多样性和进化关系,为疾病的预防、控制和溯源提供科学依据。另外结合相应参数的调控,提高了分析效率,降低了人为误差,对公共卫生和生物医学研究具有重要意义。
1.一种基于nextflow病原体基因组系统发育自动化分析方法,其特征在于,所述方法基于nextflow工作流,包括如下步骤:
2.根据权利要求1所述的方法,其特征在于,所述步骤一中,利用python爬虫技术从公共数据库中爬取并整合病原体参考基因组数据,创建所述的病原体参考基因组数据库。
3.根据权利要求1所述的方法,其特征在于,所述步骤二中,在过滤过程中,序列中定义低质量碱基百分比阈值为30、保留质量大于20、去除含有10个及以上n碱基的序列。
4.根据权利要求1所述的方法,其特征在于,所述步骤四中,在分型过程中,重比对后按照序列相似度进排序,若样本序列于其中的分型相似度高达99.9%,则认定其为该分型。
5.根据权利要求1所述的方法,其特征在于,所述步骤六中,在系统发育分析过程中,基于nj法构建全基因组发育树。
6.根据权利要求1所述的方法,其特征在于,所述步骤七中,运用html技术构建基础布局框架,然后将可视化结果嵌入其中,实现数据的实时更新功能。
7.一种基于nextflow病原体基因组系统发育自动化分析系统,其特征在于,包括:nextflow工作流框架,设置于所述框架下的病原体参考基因组数据库模块、数据预处理模块、序列比对模块、序列组装模块、病原体家系分型分析模块、多样品分型整合模块、系统发育分析模块、结果输出与可视化模块;
8.根据权利要求7所述的系统,其特征在于,所述数据预处理模块中,过滤时,序列中定义低质量碱基百分比阈值为30、保留质量大于20、去除含有10个及以上n碱基的序列。
9.根据权利要求7所述的系统,其特征在于,所述病原体家系分型分析模块,可对重比对后的样本按照序列相似度进排序,若样本序列于其中的分型相似度高达99.9%,则认定其为该分型。
10.根据权利要求7所述的系统,其特征在于,所述系统发育树分析模块基于nj法构建全基因组发育树。