本公开总体上涉及计算机科学的改进,这些改进应用于任何可以受益于基因、表型和/或dna/rna的研究的行业。更具体地而非排他地,本公开涉及基因组甲基化数据的基因组词框架分析。
背景技术:
1、本文提供的背景描述为本公开提供了上下文。当前署名的发明人的工作以及在提交时可能并未原本取得现有技术资格的描述的各方面既非明确地也非隐含地承认为现有技术。
2、dna序列不仅携带有关如何构建蛋白质的信息,还携带有关生物体生存和繁殖的调控信息,包括但不限于控制染色质行为的表观遗传信息。
3、许多疾病与许多表型的存在尚不明确。这是因为基因的表型外显率和表达度因存在于一种遗传背景与另一种遗传背景中的修饰等位基因的不同组合而变化。
4、因此,本领域需要一种装置来解决在基因组的核苷酸序列中叠加一种以上结构化语言的可能性。
技术实现思路
1、以下目标、特征、优点、方面和/或实施例并非穷尽性的,并且不限制整个公开内容。没有单个实施例需要提供各个和每个目标、特征或优点。本文公开的任何目的、特征、优点、方面和/或实施例可以全部或部分地彼此集成。
2、本公开的主要目标、特征和/或优点是改进或克服本领域中的缺陷。
3、本公开的另外的目标、特征和/或优点是提供针对通用编程语言或统计编程语言的扩展程序。在实施例中,所述扩展程序包括分析dna序列片段上的甲基化信号的算法。在实施例中,这些dna序列的特征在于(i)甲基化信息和(ii)每个甲基化胞嘧啶周围的物理化学信息。在实施例中,所述算法包括一个或多个函数,该一个或多个函数能够对所述dna序列的选定区域集合估计距离矩阵;对该选定区域集合进行层次聚类分析;将所述选定区域集合分组为指定数量的簇;以及将来自这些簇的多个dna序列比对成甲基化基序。
4、在一些实施例中,该扩展程序是用r统计语言编写的。
5、本公开的另外的目标、特征和/或优点是减少计算量。例如,可以将通过甲基化分析识别的差异甲基化基因(glm)整合到基因网络中,经由蛋白质与蛋白质相互作用网络分析和加权相关性网络分析来识别网络枢纽(hub)。基于dmp和dmg先前知识的加权相关性网络分析迄今为止还没有先例。
6、本公开的另外的目标、特征和/或优点是提供计算机化启发法(heuristic)。在一些实施例中,该计算机化启发法包括关于甲基化胞嘧啶的高阶dna碱基相互依赖性;以及统计上非随机的碱基分布。
7、根据本公开的一些方面,该启发法可以包括(1)对其上(基因主体上或启动子区域上)携带至少一个dmp的每个基因估计的信息散度(id)的统计量(总和、平均值或密度等);(2)主成分分析(pca),其中在下游分析中考虑携带整个样本方差的1%或更多的前k个成分;(3)计算携带表示为pc的向量的成对基因相关性的相关性矩阵;(4)分析网络的相关性矩阵;以及(5)每个基因对表型区分的贡献,其是根据累积方差占该基因携带的整个样本方差的分数来评估的。
8、根据本公开的一些附加方面,其中id选自由以下各项组成的组:海林格(hellinger)散度/距离、j散度、总变异距离等。
9、根据本公开的一些附加方面,pca可以与‘986专利中描述的pcalda函数一起应用。因此,将基因表示为pc的k维向量,其中每个坐标的平方携带了对于处理与对照组区分的向量贡献(在方差方面)。相关性矩阵可以在数学上等同于(在信息方面)加权相关性网络(wcn)。
10、根据本公开的一些附加方面,如对网络所做的那样来分析wcn,该网络可以是ppi网络。从wcn检索到的新知识源自原始甲基化数据,并且它不依赖于我们对网络中呈现的基因的信念或生物学知识。将来自wcn和ppi网络的结果与识别的一致的关系和对表型的表观遗传基因贡献进行了比较。
11、根据本公开的一些附加方面,该启发法进一步包括将量值计算为表示为k个pc的向量的基因的欧几里得范数(euclidean norm)。
12、本公开的又另外的目标、特征和/或优点是选择性地构建基序文库。例如,可以识别所有dmg中的甲基化基序,它们为构建基序文库提供了原材料。这些文库则可以充当构建植物科学和生物医学研究应用的预测模型所需的基本数据集。
13、本文公开的基因组词框架和基因组甲基化数据可用于多种应用。例如,此类基于gwf的模型预测可用于识别和治疗自闭症、癌症和其他受益于早期诊断的疾病的患者。所述模型还可以帮助提供进一步的理解,以发现(1)目前尚不明确的表型和(2)似乎由遗传和环境因素引起的多因素疾病(诸如糖尿病和酗酒)的原因。
14、基因组词框架分析的视觉呈现可以自动且直观地配置,以便快速向解释者传达含义。因此,本文公开的至少一个实施例可以包括独特的美学外观。这样的实施例中包括的装饰方面可以帮助人们进一步理解基因组甲基化数据与物理世界中的应用(例如表型)之间的潜在关系。
15、可以实施促进dna甲基化基序文库的使用、制造、组装、维护和修复的方法,从而实现部分或全部前述目标。
16、本公开的另外的目标、特征和/或优点是提供用于分析dna序列片段上的甲基化信号的方法。在一些实施方案中,该方法包括对dna序列的区域进行层次聚类分析;将选定区域集合按层次分组为指定数量的簇;比对来自所述簇的潜在dna序列基序;并对经编码的甲基化和物理化学信号应用数字信号处理。
17、文库的创建和维护可以进一步纳入自动化、启发式分析过程中,不断细化和改善关于甲基化胞嘧啶的dna碱基相互依赖性,直到它们实现统计上非随机的碱基分布。
18、在阅读以下附图的简要和详细描述之后,这些和/或其他目标、特征、优点、方面和/或实施例对于本领域技术人员将变得显而易见。此外,本公开涵盖未明确公开但可通过阅读本公开而理解的方面和/或实施例,至少包括:(a)所公开的方面和/或实施例的组合和/或(b)未显示或描述的合理修改。
1.一种针对通用编程语言或统计编程语言的扩展程序,所述扩展程序包括:
2.根据权利要求1所述的扩展程序,其中所述扩展程序是用r统计语言编写的。
3.根据权利要求2所述的扩展程序,其进一步包括用另一种编程语言获得的数字信号处理(dsp)工具。
4.根据权利要求3所述的扩展程序,其中所述另一种编程语言是c++、python或matlab。
5.根据权利要求3所述的扩展程序,其进一步包括:
6.根据权利要求5所述的扩展程序,其中所述编码是基于群结构。
7.根据权利要求6所述的扩展程序,其中所述群结构是阿贝尔群。
8.根据权利要求1所述的扩展程序,其中所述选定区域集合被分组成至少100个簇的群。
9.根据权利要求1所述的扩展程序,其中具有少于十个区域的簇被弃除。
10.根据权利要求1所述的扩展程序,其中使用通过对数期望算法进行的多重序列比较来比对所述多个dna序列。
11.根据权利要求5所述的扩展程序,其进一步包括:
12.根据权利要求1所述的扩展程序,其中所述甲基化基序经进一步分组以用于下游分析。
13.根据权利要求12所述的扩展程序,其中使用聚类算法对所述甲基化基序进行进一步分组。
14.根据权利要求13所述的扩展程序,其中所述聚类算法是基于距离的k中心点聚类算法。
15.根据权利要求1所述的扩展程序,其进一步包括:
16.根据权利要求15所述的扩展程序,其中所述编码是基于群结构。
17.根据权利要求16所述的扩展程序,其中所述群结构是阿贝尔群。
18.根据权利要求15所述的扩展程序,其进一步包括:
19.根据权利要求18所述的扩展程序,其中所述功率谱分析是小波功率谱分析(wps)。
20.根据权利要求19所述的扩展程序,其进一步包括:
21.一种计算机化启发法,其包括:
22.根据权利要求21所述的计算机化启发法,其中所述高阶dna相互依赖性和所述碱基分布得自于对dna序列的区域进行至少一个层次聚类的分析以及将来自簇的多个dna序列比对成甲基化基序。
23.一种用于分析dna序列片段上的甲基化信号的方法,所述方法包括:
24.根据权利要求23所述的方法,其中所述选定区域集合被分组成至少100个簇的群。
25.根据权利要求23所述的方法,其中具有少于十个区域的簇被弃除。
26.根据权利要求23所述的方法,其中所述经编码的甲基化和物理化学信号是基于群结构编码的。
27.根据权利要求26所述的方法,其中所述群结构是阿贝尔群。
28.根据权利要求23所述的方法,其中使用通过对数期望算法进行的多重序列比较来比对所述潜在dna序列。
29.根据权利要求23所述的方法,其进一步包括:
30.根据权利要求29所述的方法,其中通过使用基因组词框架(gwf)r程序包来应用所述dsp。
31.根据权利要求30所述的方法,其中所述gwf r程序包包括一种或多种聚类算法。
32.根据权利要求30所述的方法,其进一步包括导出所述gwf r程序包以用不同编程语言的其他dsp工具进行分析。
33.根据权利要求32所述的方法,其中所述不同的编程语言是c++、python或matlab。
34.根据权利要求23所述的方法,其进一步包括:
35.根据权利要求23所述的方法,其进一步包括:
36.根据权利要求23所述的方法,其进一步包括:
37.根据权利要求36所述的方法,其中所述疾病是自闭症或癌症。
38.一种用于分析遗传数据的计算机化启发法,其包括:
39.根据权利要求38所述的计算机化启发法,其中所述id选自由以下各项组成的组:海林格散度/距离、j散度和总变异距离。
40.根据权利要求39所述的计算机化启发法,其中所述id是j散度。
41.根据权利要求38所述的计算机化启发法,其中所述pca与函数一起应用,使得基因被表示为pc的k维向量,并且进一步地,其中每个坐标的平方携带在对治疗与对照组区分的方差方面的向量贡献。
42.根据权利要求38所述的计算机化启发法,其中所述pca与pcalda函数一起应用。
43.根据权利要求38所述的计算机化启发法,其中所述相关性矩阵包括加权相关性网络(wcn),其中分析所述wcn和所述网络,并且所述网络是蛋白质与蛋白质相互作用(ppi)网络。
44.根据权利要求43所述的计算机化启发法,其进一步包括将来自所述wcn和所述ppi网络的结果与识别的一致的关系和对所述表型的表观遗传基因贡献进行比较。
45.根据权利要求38所述的计算机化启发法,其进一步包括计算为表示为k个pc的向量的基因的欧几里得范数的量值。
46.根据权利要求38所述的计算机化启发法,其中所述网络涉及一种或多种生物过程。
47.一种减少计算量的方法,所述方法包括:
48.根据权利要求47所述的方法,其中所述网络枢纽经由蛋白质与蛋白质相互作用(ppi)网络分析和加权相关性网络(wcn)分析来识别。
49.根据权利要求48所述的方法,其进一步包括将来自所述wcn和所述ppi网络的结果与识别的一致的关系和对表型的表观遗传基因贡献进行比较。
50.根据权利要求47所述的方法,其中所述网络枢纽涉及一种或多种生物过程。
