基于双端测序的碱基识别方法、测序数据质量评估方法、程序产品及设备与流程

专利2025-04-20 30

本发明涉及基因，特别涉及一种基于双端测序的碱基类别识别方法、基于双端测序的测序数据质量评估方法、计算机程序产品及计算机设备。

背景技术：

1、在双端测序中，如果一个插入片段(insert fragment)的长度小于测序长度/读长(read length)的两倍，在插入片段中间位置会发生重叠。此重叠区域中，每一个碱基被检测两次。在重叠区域内，测序仪对于同一个插入片段的每个碱基实际上检测了两次。在现有技术中如果碱基的两次检测结果相同，那么检测出的碱种类基即为正确碱种类基，若碱基的两次检测结果不相同，将该位置突变频率或等位基因频率(allele frequency)大于等于99％的碱基作为该位点的正确碱基类型，即该方法认为样本中基因组上所有的位点都为纯合的。这也与常识不符，因为即便是一个健康人类基因组中有大量的杂合位点，以标准hg001na12878人类基因组为例，其至少有二百万个杂合位点。如果样本为非健康组织，例如肿瘤或包含遗传病的样本(流产胎儿组织等)，杂合位点数量会更高。使用现有技术的碱基类别识别方法将无法确定杂合位点的正确碱基种类，因为在基因组内的杂合位点位置，没有大于等于99％突变频率的碱基。因此，若碱基的两次检测结果不相同，将该位置突变频率或等位基因频率(allele frequency)大于等于99％的碱基作为该位点的正确碱基类型，无法适应基因组内的杂合位点位置。

2、在高通量测序中，测序仪对于每一个检测到的碱基(base call)，除了输出该碱基的种类，还会输出一个质量值，称为该碱基质量分数(quality score)，又称q值(q score)，每一个碱基对应一个碱基质量分数，碱基质量分数值体现了测序仪对该碱基识别的错误率的估计。测序仪输出碱基准确质量分数值非常重要，因为几乎所有针对高通量测序数据的下游分析都依赖于碱基质量分数值。包括数据质量控制，序列比对，变异检测(短插入缺失，拷贝数，结构变异)等等的算法都基于对碱基质量分数值运算。但事实上碱基质量分数值的输出过程是首先测序仪收集来自传感器检测某一碱基的光信号或电信号，然后通过信号强度和碱基质量分数值对应的经验关系推断出对应的碱基质量分数值。由此可见，测序仪并不能直接计算碱基识别的错误率，而只能估计出碱基质量分数值，即在测序完成后，能从测试文件中读取每个碱基的碱基质量分数是每个碱基的估计碱基质量分数。这导致了大部分情况下测序仪输出的碱基质量分数值并不能准确地反映识别错误率，因此需要一种数据质量检验技术检验测序仪输出的测序数据的质量。

3、现有的数据质量检验技术中都默认测序仪输出的这两个信息，即碱基的种类及碱基质量分数是真实的，所以不检测测序结果fastq文件中碱基质量分数值(即报告碱基质量分数值)本身的准确性和稳定性，同时也不检测测序结果fastq文件中的测序碱基种类(即报告碱基种类)的错误率和偏好性的检测。测序碱基种类发生检测错误(又称错检或mismatch，即与真实碱基种类不匹配)，是一种常见的现象，因此，现有技术中无法准确评估测序数据质量是否符合要求，会影响后续测序数据的使用。

技术实现思路

1、为了解决现有存在的技术问题，本发明实施例提供一种基于双端测序的测序数据质量评估方法及设备，能准确识别碱基类别及能较准确评估测序数据质量是否符合要求。

2、第一方面，提供一种基于双端测序的碱基类别识别方法，包括：获取双端测序文件，并从所述双端测序文件中获取每条测序片段对应的第一序列数据及第二序列数据；其中，第一序列数据是从测序片段的第一端向第二端测序得到的碱基序列数据，第二序列数据是从测序片段的第二端向第一端测序得到的碱基序列数据；基于每条测序片段对应的第一序列数据及第二序列数据，确定每条测序片段的重叠区域；针对所述重叠区域中的各个碱基位置，从所述第一序列数据中获取各个所述碱基位置分别对应的第一碱基种类及第一碱基种类对应的估计碱基质量分数，从所述第二序列数据中获取各个所述碱基位置分别对应的第二碱基种类及第二碱基种类对应的估计碱基质量分数；针对每一所述碱基位置，基于所述碱基位置对应的所述第一碱基种类和所述第二碱基种类的比较结果、以及所述第一碱基种类对应的所述估计碱基质量分数与所述第二碱基种类对应的所述估计碱基质量分数与预设质量分数阈值的比较结果，确定所述碱基位置对应的正确碱基种类。

3、第二方面，提供一种基于双端测序的测序数据质量评估方法，包括基于本申请任一实施例所述的基于双端测序的碱基类别识别方法，确定每条测序片段的所述重叠区域中各个碱基位置对应的正确碱基种类；针对每条测序片段，从所述双端测序文件中获取所述重叠区域中碱基的碱基信息；基于所述重叠区域中碱基对应的正确碱基种类、以及所述重叠区域中碱基的碱基信息，评估所述双端测序文件中的测序数据质量。

4、第三方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现本申请任一实施例所述的基于双端测序的碱基类别识别方法、或，实现本申请任一实施例所述的基于双端测序的测序数据质量评估方法。

5、第四方面，提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行本申请任一实施例所述的基于双端测序的碱基类别识别方法、或，执行本申请任一实施例所述的基于双端测序的测序数据质量评估方法。

6、本申请实施例通过从双端测序文件中，获取同一测序片段的第一序列数据及第二序列数据，通过同一测序片段的第一序列数据及第二序列数据能够确定出重叠区域中各个所述碱基位置分别对应的第一碱基种类、第一碱基种类对应的估计碱基质量分数、对应的第二碱基种类及第二碱基种类对应的估计碱基质量分数，然后基于所述碱基位置对应的所述第一碱基种类和所述第二碱基种类的比较结果、以及所述第一碱基种类对应的所述估计碱基质量分数与所述第二碱基种类对应的所述估计碱基质量分数与预设质量分数阈值的比较结果，确定所述碱基位置对应的正确碱基种类，从而能够准确识别重叠区域中的碱基种类；并基于每个碱基对应的正确碱基种类、碱基位置对应的测序碱基种类、拟合碱基质量分数中的至少一种，评估双端测序文件中的测序数据质量，由于能够基于至少一种较准确的碱基信息用于评估测序数据质量，从而能准确评估测序数据质量是否符合要求。

技术特征：

1.一种基于双端测序的碱基类别识别方法，其特征在于，包括：

2.如权利要求1所述的基于双端测序的碱基类别识别方法，其特征在于，所述针对每一所述碱基位置，基于所述碱基位置对应的第一碱基种类和所述第二碱基种类的比较结果、以及所述第一碱基种类对应的所述估计碱基质量分数与所述第二碱基种类对应的所述估计碱基质量分数与预设质量分数阈值的比较结果，确定所述碱基位置对应的正确碱基种类，包括：

3.一种基于双端测序的测序数据质量评估方法，其特征在于，

4.如权利要求3所述的基于双端测序的测序数据质量评估方法，其特征在于，所述基于所述重叠区域中碱基对应的正确碱基种类、以及所述重叠区域中碱基的碱基信息，评估所述双端测序文件中的测序数据质量，包括：

5.如权利要求3所述的基于双端测序的测序数据质量评估方法，其特征在于，所述碱基信息至少包括从双端测序文件中获取的各个碱基的估计碱基质量分数、与所述估计碱基质量分数关联的候选特征；所述基于所述重叠区域中碱基对应的正确碱基种类、以及所述重叠区域中碱基的碱基信息，评估所述双端测序文件中的测序数据质量，还包括：

6.如权利要求5所述的基于双端测序的测序数据质量评估方法，其特征在于，所述基于每个碱基数据组对应的拟合碱基质量分数，评估所述双端测序文件中的测序数据质量，包括：

7.如权利要求5所述的基于双端测序的测序数据质量评估方法，其特征在于，所述基于每个碱基数据组对应的拟合碱基质量分数，评估所述双端测序文件中的测序数据质量，还包括：

8.如权利要求5所述的基于双端测序的测序数据质量评估方法，其特征在于，所述基于所述重叠区域中碱基的碱基信息，从所述候选特征中确定与所述估计碱基质量分数关联度满足预设条件的显著性特征，包括：

9.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1或2所述的基于双端测序的碱基类别识别方法、或，实现如权利要求3至8中任一项所述的基于双端测序的测序数据质量评估方法。

10.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1或2所述的基于双端测序的碱基类别识别方法、或，执行如权利要求3至8中任一项所述的基于双端测序的测序数据质量评估方法。

技术总结
本发明公开一种基于双端测序的碱基识别方法、测序数据质量评估方法、程序产品及设备，所述方法包括：获取双端测序文件，并从所述双端测序文件中获取每条测序片段对应的第一序列数据及第二序列数据；基于每条测序片段对应的第一序列数据及第二序列数据，确定每条测序片段的重叠区域；并基于从所述第一序列数据中获取的各个碱基位置分别对应的第一碱基种类和所述第二碱基种类的比较结果，以及获取的第一碱基种类对应的所述估计碱基质量分数与所述第二碱基种类对应的所述估计碱基质量分数与预设质量分数阈值的比较结果，确定所述碱基位置对应的正确碱基种类。

技术研发人员：姚天然,王谷丰,包原野,赵陆洋
受保护的技术使用者：深圳赛陆医疗科技有限公司
技术研发日：
技术公布日：2024/12/17

转载请注明原文地址:https://xbbs.6miu.com/read-23641.html