基于自监督变分自编码器的单细胞多样品混样测序拆分方法和设备

专利2026-06-26 5

本发明属于高通量测序中单细胞测序领域，具体涉及一种基于自监督变分自编码器的单细胞多样品混样测序拆分方法和设备。

背景技术：

1、近年来，高通量测序技术的飞速发展使得测序成本急剧下降，从而帮助基因测序在生命科学研究以及临床领域得以广泛应用。不过和普通群体测序相比，目前单细胞测序文库的构建仍然是一个较为繁琐的过程，测序的成本仍然较高，单个样本的测序费用通常超过万元，但在许多的生物信息学的分析中却需要有较多的实验重复，一次实验往往需要对多个样品进行测序。同时，由于测序技术的原因，单细胞测序会存在一定比例的双细胞。随着许多高通量测序平台的发展，其通量不断提高，单次测序单个样本容易造成资源的浪费。因此，将多个样品混样测序可以有效的降低实验成本，并且减少批次效应。目前，主要有两种方法对混样测序数据进行拆分。一种主要基于生物标记，即在混样前使用样本特异的条形码标记该样本细胞，之后根据条形码进行拆分，但该方法容易破坏样品、对实验加入额外干扰等缺点；另一种是基于样本本身遗传上的差异，使用计算机算法进行拆分，不需要进行而外的实验，但该方法目前现有的方法存在部分需要提供单样本基因型、扩展性差以及只使用某一简单的机器学习算法等问题。

技术实现思路

1、为了解决基于生物标记的多样本混样测序拆分技术和现有的数据拆分算法的不足以及提高单细胞测序数据中的双细胞的识别的问题，本发明提出一种基于深度学习自监督变分自编码器的单细胞多样品混样测序拆分技术。

2、本发明的技术方案为：

3、一种基于自监督变分自编码器的单细胞多样品混样测序拆分方法，包括以下步骤：

4、s1.识别混样测序数据中的所有潜在的变异，并对潜在变异进行过滤，保留其中的snp位点，筛选出候选snp；

5、s2.对各个细胞在候选snp处的基因型进行统计，得到各个细胞在候选snp处的基因型种类；

6、s3.将稀疏矩阵转为单细胞基因型矩阵，对矩阵中各个细胞的snp进行过滤、筛选以及数据填充，最后进行编码，构建单细胞基因型矩阵；

7、s4.构建变分自编码器模型，对单细胞基因型矩阵进行训练和重构；

8、s5.使用训练好的模型，得到各个细胞的隐变量；

9、s6.对各个细胞的隐变量进行无监督聚类，得到与样本数相等的细胞簇；

10、s7.基于聚类的结果，计算各个细胞与所属细胞簇的相似性，识别并删除双细胞，完成对单细胞多样品混样测序数据的拆分。

11、进一步地，所述步骤s1中，在识别变异过程中，先保留碱基质量大于30、至少两个reads中出现、覆盖度超过40、使用最佳的3个等位基因和比对质量值超过30的候选snv位点，再过滤出其中的snp，作为候选的变异位点。由于测序数据通常会存在一些假阳性位点，可能是测序错误或是dna损伤等因素造成的，通过筛选碱基质量超过30的碱基以及覆盖度超过40的位点，可以有效的减少假阳性的发生以及获得高质量的变异位点，同时通过比对质量的筛选也可以更好地找出变异位点的真实位置，通过上述参数筛选得到的snp位点，相较于较低的筛选阈值，可以有效提高后续分析的质量、减少假阳性，为下游分析的有效性和准确性奠定基础。

12、在一具体实施例中，步骤s1中使用freebayes软件，筛选出混样测序数据中，碱基质量大于30、至少两个reads中出现、覆盖度超过40、使用最佳的3个等位基因和比对质量值超过30的候选snv位点。之后使用vcftools对snv位点进行过滤，只保留其中的snp位点，对于碱基的缺失、插入以及多碱基的变异位点删除掉。

13、步骤s2中，根据提供的变异位点，统计各个细胞的变异位点分为统计表达量和基因型，与统计表达量相比，使用的基因型统计，可以有效的较少后续模型训练时的数据量，提高模型训练效率以及节约计算资源。同时使用基因型表示变异位点，与使用连续值的表达量相比，可以使模型训练具有更好的健壮性，受极端值和异常值的影响较小。

14、在一具体实施例中，步骤s2使用vartrix软件，根据参考基因组，统计各个细胞在候选snp处的基因型，使用0表示缺失、1表示与参考基因组相同、2表示参考基因组不同和3表示该位点杂合。

15、进一步地，所述步骤s3中，将在99％的细胞中均缺失的snp以及80％的细胞中均相同的snp位点过滤掉，再根据矩阵的缺失程度，通过计算各个细胞之间的相似程度，选择最相近的20个细胞进行填充，得到最终的单细胞基因型矩阵。通过将缺失过多以及大部分细胞中都相同的变异位点删除，可以降低后续模型训练时矩阵的稀疏程度，由于这些特征通常可以信息少，删除之后可以减少数据维度，提高训练效率、帮助模型专注于真正有信息量的特征，减少过拟合以及减少对模型训练时的干扰，提高模型性能。同时，矩阵经过编码，可以消除不同类别的基因型之间由于符号而产生的距离上的差别。

16、在一具体的实施例中，步骤s3使用r语言的seurat软件包，将vartrix软件得到的稀疏矩阵转为一个行为细胞，列为snp的单细胞基因型矩阵，之后再将在99％的细胞中均缺失的snp以及80％的细胞中均相同的snp位点过滤掉。最后，再根据矩阵的缺失程度，通过计算各个细胞之间的相似程度，选择最相近的20个细胞进行填充，再根据不同的基因型对矩阵进行编码，将0、1、2和3，分别编码为(0，0)、(1，0)、(0，1)和(0.5，0.5)，此时就得到的后续模型训练的最终单细胞基因型矩阵。

17、进一步地，所述步骤s4中，使用构建的单细胞基因型矩阵，每个细胞作为一个训练样本，每个snp为一个训练的特征，构建变分自编码器模型，将数据划分为训练集、验证集和测试集后进行模型的训练，所述变分自编码器模型由编码器、采用层和解码器构成，编码器由卷积层和全连接层构成，解码器由反卷积层和全连接层构成；编码器将输入的数据转为的隐变量空间的均值和方差，传入采样层，采样层接受编码器传入的均值和方差，在隐变量空间随机采样，得到隐变量，解码器接受来自采样层到的隐变量，根据隐变量对数据进行重构；除了输出层使用sigmoid激活函数，其他的层采用elu激活函数，模型的损失函数由重构损失和正则化损失构成，即二元交叉熵和kl散度，分别用于衡量原始数据和重构数据的差异以及隐变量和正态分布的差异；隐变量的维度设置为4。在设置模型的结构时，将卷积层放于编码器的最前端，可以使模型有效的学习单细胞基因型矩阵中的潜在信息，更好的提取细胞中的信息。通过设置重构损失和正则化损失，可以更好的对数据进行优化、防止过拟合，提高模型的泛化能力。

18、在一具体的实施例中，步骤s4使用python的tensorflow和keras构建变分自编码器模型，模型由编码器、解码器和采样层构成，使用snp作为模型训练时的特征，每个细胞作为一个训练的样本。编码器由卷积层和全连接层构成，解码器由反卷积层和全连接层构成。编码器将输入的数据转为的隐变量空间的均值和方差，传入采样层，采样层接受编码器传入的均值和方差，在隐变量空间随机采样，得到隐变量，解码器接受来自采样层到的隐变量，根据隐变量对数据进行重构。除了输出层使用sigmoid激活函数，其他的层采用elu激活函数，模型的损失函数由重构损失和正则化损失构成，即二元交叉熵和kl散度，分别用于衡量原始数据和重构数据的差异以及隐变量和正态分布的差异。隐变量的维度设置为4，之后将60％的细胞划分为训练集、20％的细胞为验证集，剩下的20％的细胞做测试集。最后，使用adam优化器进行模型的训练。进一步地，所述步骤s5中，将单细胞基因型矩阵输入到训练好的模型中，将编码器的输出传入到采样层中进行采样，得到各个细胞的隐变量。

19、进一步地，所述步骤s6中，使用tsne算法对得到的隐变量矩阵进行降维和可视化，将维度降到2维，最后，再使用kmeans算法进行聚类，得到与样本数相同的细胞簇。

20、在一具体实施例中，使用tsne算法的时候，学习率为200，困惑度为30，用于找出较优的隐变量的分布。在使用kmeans算法的时候，会进行10次的初始化尝试，在没有大量提高计算开销的情况下提高算法收敛到全局最优的概率。如果初始化尝试的次数太少，可能导致算法收敛到局部最优解，导致聚类结果的可靠性变差，同时导致聚类结果不稳定。

21、进一步地，所述步骤s7中，根据聚类的结果，统计各个细胞簇的基因型比例，再计算各个细胞与所属类的相似程度，相似程度小于3倍标准差的，标记为双细胞并删除，循环该过程，直到没有发现新的双细胞，最后得到最终各个细胞簇的细胞以及双细胞。在删除双细胞的时候，根据的是相似性是否超出3倍标准差，可以较好的适应各个含有不同比例双细胞的数据，不需要提前知道各个数据集中的双细胞的百分比。此时得到各个细胞簇以及双细胞，将各个细胞簇的细胞对应的数据从混样数据中提取出来，即可实现数据拆分以及双细胞的删除。

22、此外，为实现上述目的，本发明还提供了一种基于自监督变分自编码器的单细胞多样品混样测序拆分系统，包括：

23、候选snp筛选模块，用于识别混样测序数据中的所有潜在的变异，并对潜在变异进行过滤，保留其中的snp位点，从而筛选出候选snp；

24、snp的基因型统计模块，用于对各个细胞在候选snp处的基因型进行统计，得到各个细胞在候选snp处的基因型种类；

25、单细胞基因型矩阵构建模块，用于将稀疏矩阵转为单细胞基因型矩阵，对矩阵中各个细胞的snp进行过滤、筛选以及数据填充；

26、细胞隐变量表示模块，用于构建变分自编码器模型，对单细胞基因型矩阵数据进行训练和重构；并利用训练好的模型，对各个细胞的隐变量进行表示；

27、无监督聚类模块，用于对各个细胞的隐变量进行无监督聚类，得到与样本数相等的细胞簇，

28、识别拆分模块，用于计算各个细胞与所属细胞簇的相似性，识别并删除双细胞，最终完成对单细胞多样品混样测序数据的拆分。

29、此外，为实现上述目的，本发明还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于自监督变分自编码器的单细胞多样品混样测序拆分方法。

30、此外，为实现上述目的，本发明还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的基于自监督变分自编码器的单细胞多样品混样测序拆分方法。

31、与现有技术相比，本发明具有以下有益效果：

32、当需要对多个样品进行单细胞测序分析时，传统单细胞测序成本较高，若采用基于生物标记的多样品混合测序拆分，虽然可以有效降低实验成本，但该技术仍有不稳定性，容易破坏样品、对细胞额外干扰。基于计算机算法的方法有的需要提供单样本基因型、有的扩展性差以及只使用某一简单的机器学习算法等。本发明基于深度学习算法，通过相应的处理流程，经过训练可以得到一个稳定性、效率以及数据拆分效果均较好的模型。该模型可以利用样本自身的遗传信息、不需要提供单样本的基因型，同时具有良好的可扩展性，可以有效地对数据进行拆分，进一步降低实验成本。

33、在进行多样本的单细胞测序数据分析的时候，传统的单样本的单细胞测序成本高，同时存在批次效应。虽然使用多样本混样测序技术可以有效降低单样本的测序成本，但现有的数据拆分方法，如基于生物标记的方法容易破坏样品、对实验加入额外干扰，采用本发明的拆分方法可以利用样品自身的基因型特异性，高效的对单细胞多样品混合测序进行拆分，并且进一步降低实验成本。本发明的适用对象包括针对正常样品、肿瘤样品以及细胞系样品的单细胞测序实验。

技术特征：

1.一种基于自监督变分自编码器的单细胞多样品混样测序拆分方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于自监督变分自编码器的单细胞多样品混样测序拆分方法，其特征在于：所述步骤s1中，在识别变异过程中，先保留碱基质量大于30、至少两个reads中出现、覆盖度超过40、使用最佳的3个等位基因和比对质量值超过30的候选snv位点，再过滤出其中的snp，作为候选的变异位点。

3.根据权利要求1所述的基于自监督变分自编码器的单细胞多样品混样测序拆分方法，其特征在于：所述步骤s3中，将在99％的细胞中均缺失的snp以及80％的细胞中均相同的snp位点过滤掉，再根据矩阵的缺失程度，通过计算各个细胞之间的相似程度，选择最相近的20个细胞进行填充，得到最终的单细胞基因型矩阵。

4.根据权利要求1所述的基于自监督变分自编码器的单细胞多样品混样测序拆分方法，其特征在于：所述步骤s4中，使用构建的单细胞基因型矩阵，每个细胞作为一个训练样本，每个snp为一个训练的特征，构建变分自编码器模型，将数据划分为训练集、验证集和测试集后进行模型的训练；

5.根据权利要求1所述的基于自监督变分自编码器的单细胞多样品混样测序拆分方法，其特征在于：所述步骤s5中，将单细胞基因型矩阵输入到训练好的模型中，将编码器的输出传入到采样层中进行采样，得到各个细胞的隐变量。

6.根据权利要求1所述的基于自监督变分自编码器的单细胞多样品混样测序拆分方法，其特征在于：所述步骤s6中，使用tsne算法对得到的隐变量矩阵进行降维和可视化，将维度降到2维，最后，再使用kmeans算法进行聚类，得到与样本数相同的细胞簇。

7.根据权利要求1所述的基于自监督变分自编码器的单细胞多样品混样测序拆分方法，其特征在于：所述步骤s7中，根据聚类的结果，统计各个细胞簇的基因型比例，再计算各个细胞与所属类的相似程度，相似程度小于3倍标准差的，标记为双细胞并删除，循环该过程，直到没有发现新的双细胞，最后得到最终各个细胞簇的细胞以及双细胞。

8.一种基于自监督变分自编码器的单细胞多样品混样测序拆分系统，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1～7任一项所述的基于自监督变分自编码器的单细胞多样品混样测序拆分方法。

10.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述权利要求1～7任一所述的基于自监督变分自编码器的单细胞多样品混样测序拆分方法。

技术总结
本发明涉及一种基于自监督变分自编码器的单细胞多样品混样测序拆分方法和设备。所述方法包含步骤：S1.筛选候选SNP；S2.统计各细胞在候选SNP处的基因型；S3.构建单细胞基因型矩阵；S4.构建变分自编码器模型；S5.使用训练好的模型，得到矩阵各个细胞的隐变量表示；S6.对各个细胞的隐变量进行无监督聚类；S7.基于聚类的结果，计算各个细胞与所属细胞簇的相似性，识别并删除双细胞，最终完成对单细胞多样品混样测序数据的拆分。采用本发明技术可以有效利用各个混样样品之间自身特异的基因型差异信息，对单细胞多样品混合测序进行拆分。本发明的适用对象包括针对正常样品、肿瘤样品以及细胞系样品的单细胞测序实验。

技术研发人员：徐斯文,魏澳嘉,陆紫箫,陈品静,伍晓凤
受保护的技术使用者：广东药科大学
技术研发日：
技术公布日：2024/12/17

转载请注明原文地址:https://xbbs.6miu.com/read-31917.html