本发明涉及分子生物学,尤其涉及密码子优化的方法。
背景技术:
1、密码子是信使rna(mrna)上特定的三个相邻核苷酸序列,它们决定了氨基酸的种类,进而决定了蛋白质的序列。密码子优化,也被称为密码子工程或密码子适应,是一种通过改变基因序列中的密码子使用情况,以优化基因在特定宿主中的表达效率的技术。
2、密码子优化的方法主要包括计算机模拟优化、实验筛选优化和基于大数据的深度学习方法等。其中,计算机模拟优化通过算法预测最优密码子组合,实验筛选优化则通过实验手段比较不同密码子组合的表达效率,而基于大数据的深度学习方法则利用大规模生物信息学数据训练模型,预测最优密码子。优化策略上,可以根据宿主细胞的密码子偏好性,对基因序列进行局部或全局的密码子替换,以实现表达效率的提升。当前,已经有很多公司在网页上都挂出了自动密码子优化的工具。
3、现有的密码子优化工具主要是通过it算法进行某个特定细胞的gc含量、密码子使用频率、mrna二级结构、rna酶的剪接位点、rna稳定反式作用元件的优化,从质粒层面提高蛋白的表达量,其下游主要是针对重组蛋白方向的应用:1)质粒转染细胞,表达的蛋白进行wb、elisa等鉴定实验;2)质粒转化宿主(如大肠杆菌、酵母、昆虫或者哺乳动物细胞等),大量诱导表达蛋白,纯化蛋白,获得蛋白产品。并且,it算法提供的往往是唯一的密码子优化后的序列,不方便客户进行筛选。
4、可见,现有的密码子优化技术在提高基因表达效率方面取得了显著成效。然而,该技术也存在一定的局限性。例如,it算法仅输入唯一序列,不能够提供更多的选择方案;不同的宿主细胞对密码子的偏好性存在差异,因此优化的结果可能因宿主细胞的不同而有所差异;并且,it算法输出的序列大多仅依赖于cai值对序列的优劣进行判断,但cai值高的序列在实际操作中往往并不能表现朱良好的表达效果。
技术实现思路
1、有鉴于此,本发明要解决的技术问题在于提供密码子优化的方法,以期进一步提高表达量。
2、本发明中,所述密码子优化的方法,包括:
3、根据宿主的密码子偏好性获得蛋白质的编码核酸序列,然后调整所得序列中的gc含量、重复序列、二级结构和/或自由能,获得优化后的编码核酸;
4、所述gc含量包括:编码核酸全长gc含量和单位长度范围内的gc含量。
5、本发明的方法是根据设定的参数进行密码子的替换,可将海量的密码子排序方案缩减至只有几十种,甚至几种的密码子排序方案,优化后的序列可以通过实验筛选获得高表达蛋白的dna序列。
6、核酸序列中的gc含量是指鸟嘌呤(g)和胞嘧啶(c)所占的比例。本发明的方法,不仅调整全长范围内的gc含量,还对序列中局部的gc含量进行控制,当局部gc含量过高则对该部分的密码子进行替换。通过对局部gc含量和全长gc含量的双重控制,可以更进一步降低目的基因在dna复制时需要的能量,降低因高gc或者低gc序列产生的能量需求,从而提高mrna的稳定性,进而提高蛋白的产量。
7、本发明中,所述局部gc含量即单位长度范围内的gc含量,指的是在特定长度的核酸序列片段中,g和c所占的比例。例如,本发明中所述单位长度范围内的gc含量为长度10bp~100bp内的gc含量。作为优选,为长度20bp~50bp内的gc含量。更优选的,为长度30bp以内的gc含量。以单位长度为10bp为例,所述单位长度范围内的gc含量指的是序列中1~10bp、2~11bp、3~12bp……n~n+9bp(以此类推)范围内的gc含量。在一个待优化序列中,所述单位长度为10bp~100bp中的至少一种,例如,其长度可为10、20、30、40、50、60、70、80、90或100bp中的至少一种。
8、一些实施例中,所述单位长度范围内的gc含量为20%~95%。作为优选,gc含量为26%~63%或为40%~83%。一些具体实施例中,所述单位长度范围内的gc含量为26%~63%或为43%~80%,或为46~83%,或为40%~80%。
9、一些实施例中,所述全长gc含量高于宿主种属总的gc含量占比的0%~15%。
10、一些具体实施例中,以所述宿主为人类细胞为例,调整全长gc含量为52.27%~67.27%,作为优选,以人类细胞为宿主,密码子优化方法调整全长gc含量为56%~63%;
11、另一些具体实施例中,以所述宿主为食蟹猕猴细胞为例,调整全长gc含量为49.64%~64.64%。作为优选,以食蟹猕猴细胞为宿主,全长gc含量为54%~61%。
12、核酸序列中的重复序列是指在编码蛋白的核酸序列中不同位置出现的相同或对称性序列片段。如果蛋白的氨基酸序列中存在重复片段,则编码核酸很可能也存在相应的重复序列。而此前的优化方法较少关注优化后核酸序列中的重复序列。本发明中,将最长的重复序列控制在30bp以内,可以提高目的基因在dna复制时的稳定性,降低了目的基因在复制时出现的因同源重组或其他原因导致的片段丢失。本发明实施例中,所述重复序列的长度不大于30bp,作为优选,所述重复序列长度不大于20bp。
13、核酸二级结构涉及dna双螺旋及rna折叠。rna的二级结构是指单链rna分子在空间上折叠所形成的三维空间结构,通常表现为发卡型的单链结构,单链回折形成局部小双螺旋,也称茎环结构或球环结构。避免rna二级结构的产生有利于蛋白翻译更准确高效的进行,也更有利于mrna更准确高效的发挥其生理活性。本发明中,对二级结构的调整包括减少连续碱基配对区域。
14、mrna自由能是指在特定条件下,mrna分子从一种构象转变为另一种构象时,所吸收或释放的能量。它反映了mrna结构稳定性的高低,是评价mrna折叠状态及功能的重要因素。密码子优化后的核酸序列用于蛋白的表达或mrna转染试剂的制备,因此,本发明对优化序列的自由能进行调整。所述自由能的调整包括使序列的最小自由能为最低自由能的80%~100%。例如,使序列的最小自由能为最低自由能的85%~95%,具体实施例中,所述序列的最小自由能是最低自由能的80%~85%、85%~90%、90%~95%或95%~100%。
15、本发明中,所述调整包括:依次使用密码子偏好性第二、第三、第四占比的密码子替换使用第一占比的密码子,使用频率占比第一、二、三、四的密码子在编码核酸的全长中的百分比依次为:40%~100%、0%~50%、0%~25%、0%~15%。
16、一些具体实施例中,所述宿主为人类细胞,所述调整包括使:
17、phe的密码子中,uuu的使用频率为1%~25%,uuc的使用频率为75%~99%;
18、leu的密码子中,cug的使用频率为86%~99%,cuc的使用频率为1%~10%,uua的使用频率为0%~1%,uug的使用频率为0%~1%,cuu的使用频率为0%~1%,cua的使用频率为0%~1%;
19、ile的密码子中,auu的使用频率为5%~25%,auc的使用频率为75~94%,aua的使用频率为0%~1%;
20、val的密码子中,guu的使用频率为0%~5%,guc的使用频率为5%~15%,gua的使用频率为0%~1%,gug的使用频率为79%~95%;
21、ser的密码子中,ucu的使用频率为0%~20%,ucc的使用频率为10~25%,uca的使用频率为0%~1%,ucg的使用频率为0%~1%;agu的使用频率为0%~1%,agc的使用频率为52%~90%;
22、pro的密码子中,ccu的使用频率为20%~50%,ccc的使用频率为44%~72%,cca的使用频率为0%~8%,ccg的使用频率为0%~6%;
23、thr的密码子中,acu的使用频率为0%~1%,acc的使用频率为50%~78%,aca的使用频率为20%~48%,acg的使用频率为0%~1%;
24、ala的密码子中,gcu的使用频率为3%~20%,gcc的使用频率为73%~90%,gca的使用频率为0%~6%,gcg的使用频率为0%~1%;
25、tyr的密码子中,uau的使用频率为1%~25%,uac的使用频率为75%~99%;
26、his的密码子中,cau的使用频率为1%~15%,cac的使用频率为85%~99%;
27、gln的密码子中,caa的使用频率为1%~15%,cag的使用频率为85%~99%;
28、asn的密码子中,aau的使用频率为5%~30%,aac的使用频率为70%~95%;
29、lys的密码子中,aaa的使用频率为1%~25%,aag的使用频率为75%~99%;
30、asp的密码子中,gau的使用频率为3%~35%,gac的使用频率为65%~97%;
31、glu的密码子中,gaa的使用频率为10%~35%,gag的使用频率为65%~90%;
32、cys的密码子中,ugu的使用频率为15%~40%,ugc的使用频率为60%~85%;
33、arg的密码子中,cgu的使用频率为0%~1%,cgc的使用频率为1%~8%,cga的使用频率为0%~1%,cgg的使用频率为44%~72%,aga的使用频率为15%~50%,agg的使用频率为1%~8%;
34、gly的密码子中,ggu的使用频率为0%~5%,ggc的使用频率为65%~98%,gga的使用频率为1%~20%,ggg的使用频率为1%~10%。
35、此外,起始密码子为aug;终止密码子为uaa、uag或uga,trp的密码子为gu u。
36、本发明的方案中,可以根据尝试不同密码子使用下的蛋白表达量获得适用于该宿主的密码子使用频率。如前所述密码子使用频率为经过大量的优化后获得,研究表明,相对于现有技术中依据人类密码子天然的使用频率进行密码子优化的方案而言,经过调整使编码核酸中的密码子使用频率符合如上百分比,能够更有效的提高蛋白的表达效果,获得更多蛋白。当宿主为其他生物来源的细胞时,密码子使用频率与上述数据不同,需要针对特定物种进行优化。本发明所述方法中,根据宿主的密码子偏好性获得蛋白质的编码核酸序列的步骤包括:获取待优化的氨基酸序列,并确定需要优化的种属方向;获取自然界中对应种属的的密码子使用频率表;按照调整后的密码子表,将待优化的氨基酸序列进行随机分布优化,获得编码核酸序列。
37、在本发明所述的方法中,如果经过密码子的调整,gc含量、重复序列、二级结构和/或自由能仍无法达到如前所述的标准,则对根据宿主的密码子偏好性获得蛋白质的编码核酸序列进行调整。此处所述的调整包括降低筛选标准,放宽密码子的使用频率范围,以确保后续为了得到合适的分析结果能够有更多的密码子选择。
38、在本发明所述的方法中,还包括将优化后的序列进行将翻译,并比对翻译后的蛋白序列与目标蛋白序列是否一致的步骤。
39、进一步的,本发明提供了一种密码子优化的系统,其包括实现如前所述方法的模块。
40、更进一步的,本发明还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如前所述方法的步骤。
41、更进一步的,本发明还提供了一种密码子优化的电子设备,其包括存储介质、处理器及存储在存储介质中的计算机程序,所述处理器执行所述计算机程序以实现如前所述方法。
42、更进一步的,本发明还提供了生物材料,其包括如下i)~v)中至少一种:
43、i)、如前所述方法优化获得的核酸;
44、ii)、含有i)所述核酸的表达单元;
45、iii)、质粒载体,含有i)所述的核酸,或含有ii)所述的表达单元;
46、iv)、mrna,其含有5’端帽状结构和i)所述的核酸,或含有5’端帽状结构和ii)所述的表达单元;
47、v)、宿主细胞,其包括其基因组中整合有i)所述的核酸,或其基因组中整合有ii)所述的表达单元,或其转化或转染iii)所述的质粒载体。
48、本发明中,
49、编码鸡卵清蛋白的核酸具有如seq id no:1~4任一项所示的序列;
50、或在seq id no:1~4任一项所示的核酸序列中,经取代、缺失、添加和/或替换1个或多个碱基且编码鸡卵清蛋白的核酸序列;
51、或与如前所述的核酸序列具有至少80%同一性的核酸序列。
52、本发明对鸡卵清蛋白的编码核酸密码子优化,获得了四种版本的优化序列。所得的核酸序列是ova在宿主中表达量相比野生型和其他对比例有显著提高,由这些核酸制备获得的mrna能够具有良好的转染效率,将其转入细胞,特别是293t细胞中能够获得更高的表达量从而更好的模拟人体免疫系统的免疫反应。
53、本发明中,
54、编码cre重组酶的核酸具有如seq id no:10~13任一项所示的序列;
55、或在seq id no:10~13任一项所示的核酸序列中,经取代、缺失、添加和/或替换1个或多个碱基且编码cre重组酶的核酸序列;
56、或与如前所述的核酸序列具有至少80%同一性的核酸序列。
57、本发明对cre重组酶进行了4种版本的密码子优化,所得的cre重组酶蛋白表达量相比野生型和其他对比例有显著提高,由这些核酸制备获得的mrna转染试剂能够具有良好的转染效率,将其转入细胞,特别是293t细胞中能够更有效的发挥cre重组酶系统的作用。
58、本发明中,
59、编码高斯荧光素酶的核酸具有如seq id no:15~18任一项所示的序列;
60、或在seq id no:15~18任一项所示的核酸序列中,经取代、缺失、添加和/或替换1个或多个碱基且编码高斯荧光素酶的核酸序列;
61、或与如前所述的核酸序列具有至少80%同一性的核酸序列。
62、高斯荧光素酶在应用于人属的hek293t细胞时,表达效率不高,发明者自主研发了人工密码子优化方法,通过优化野生型高斯荧光素酶dna序列中的相同氨基酸的不同密码子占比、gc含量、序列重复性等,高表达高斯荧光素酶版本的dna序列。密码子优化后的表达效果比野生型序列的高1.4-16.2倍。
63、本发明中,
64、编码北美萤火虫荧光素酶的核酸具有如seq id no:23~24任一项所示的序列;
65、或在seq id no:23~24任一项所示的核酸序列中,经取代、缺失、添加和/或替换1个或多个碱基且编码北美萤火虫荧光素酶的核酸序列;
66、或与如前所述的核酸序列具有至少80%同一性的核酸序列。
67、本发明实施例的萤火虫荧光素酶蛋相比野生型、其他对比例在细胞实验中白表达量提高了2~201倍,在小鼠实验中有明显的荧光亮度提高,大大提升了萤火虫荧光素酶作为报告基因的应用价值。
68、本发明中,
69、编码spcas9的核酸具有如seq id no:33~37任一项所示的序列。
70、或在seq id no:33~37任一项所示的核酸序列中,经取代、缺失、添加和/或替换1个或多个碱基且编码spcas9的核酸序列;
71、或与如前所述的核酸序列具有至少80%同一性的核酸序列。
72、本发明技术方案中提供的crispr/cas9蛋白表达量相比野生型,或其他对比例提高了4-8倍,具有更高的基因编辑效率,因此能够大大提升cas9蛋白在基因编辑的应用价值。
73、本发明中,所述至少80%同一性包括:至少85%同一性,至少90%同一性、至少95%同一性、至少96%同一性、至少97%同一性、至少98%同一性、至少99%同一性、至少99.5%同一性、至少99.6%同一性、至少99.7%同一性、至少99.8%同一性或至少99.9%同一性。
74、与野生型相比,本发明实施例中优化获得的序列表达量存在显著性的提高。与现有技术中其他优化的方案相比,本发明实施例中优化获得的序列的表达量也存在显著性的提高。
75、本发明提供的表达单元,其包括如前所述的核酸和启动子。
76、针对不同的表达载体,本发明所述的表达单元中还包括其他元件,例如,增强子、终止子和/或核定位信号。
77、一些实施例中,所述启动子选自述启动子为真核生物启动子,原核生物启动子,本发明对此不做限定。例如,所述启动子为t7启动子、cmv启动子、cag启动子、ef1a启动子、pgk启动子、u6和h1启动子、efs启动子、cbh启动子、sffv启动子、mscv启动子、sv40启动子、ubc启动子、或tre启动子。
78、一些实施例中,所述增强子选自sv40增强子、cmv增强子、sv-1增强子、rosa26增强子、ef1α增强子、hare5增强子、ubc增强子、ef1a增强子、pgk增强子、cagg增强子、copia增强子、或act5c增强子。
79、一些实施例中,所述终止子选自t7噬菌体终止子、t0噬菌体终止子、λ噬菌体终止子、sv40终止子、cmv终止子、rrnb终止子、bgh终止子、hgh终止子、或rbglob终止子。
80、一些实施例中,所述核定位信号为sv40 nls,其氨基酸序列为pkkkrkv,所述核定位信号位于启动子与如前所述的核酸之间。
81、一些实施例中,所述表达单元自5’端至3’端依次包括启动子、5’utr、kozak、如前所述的核酸、3’utr、polya尾巴和限制性酶切位点。一些具体实施例中,所述polya尾巴的长度为110bp。
82、本发明提供的质粒载体,其包括骨架载体和如下i)~ii)中至少一项:
83、i)、如前所述的核酸;
84、ii)、如前所述的表达单元。
85、本发明所述的质粒载体用于核酸的扩增、保藏、转化和/或转染,本发明对此不做限定。本发明所述的质粒载体可为环状亦可为线性,本发明对此亦不做限定。本发明对所述核酸和/或表达单元在质粒载体的插入位点不做限定,作为优选,其可插入在质粒载体的多克隆位点处,也可插入其他区域。一些实施例中,其为克隆载体、表达载体、单纯疱疹病毒载体、逆转录病毒载体、慢病毒载体、腺病毒载体或腺相关病毒载体。例如,所述克隆载体为puc系列质粒载体、pbr322质粒载体、pgem系列质粒载体、pet系列质粒载体、ye ast系列质粒载体或gateway质粒载体等。例如,所述腺相关病毒载体为raav载体,其血清型包括aav1、aav2、aav5、aav6、aav8或aav9。一些实施例中,以逆转录病毒载体为pmrvac载体作为案例,进行表达验证,其效果优于其他载体。
86、进一步的,本发明提供了一种mrna,其包括5’端帽状结构和如前所述的核酸,或包括5’端帽状结构和如前所述的表达单元。
87、本发明中,所述mrna的包括依次连接的5’utr、kozak,如前所述的核酸、3’utr、polya尾巴和限制性酶切位点。
88、本发明中,对所述5’utr、3’utr或kozak的序列不做限定。
89、所述polya尾巴的长度为50~200bp,例如,其可为50bp、100bp、110bp、120bp、130bp、140bp、150bp或200bp。或者,polya的长度也可为如前两个点值之间的任意中间值。
90、所述限制性酶切位点的序列在如前所述质粒载体中的重复次数为一次,在发明实施例中,采用sap i作为质粒线性化的酶切位点,除此之外,其他任意能够使质粒线性化的限制性内切酶位点都可以使用。
91、进一步的,所述mrna的制备方法,其包括将如前所述的质粒载体线性化后,经加帽、纯化制得。
92、具体的,mrna的制备方法包括,将如前所述的质粒载体经限制性内切酶消化后,加入加帽酶等加帽所需原料,于37℃加帽反应1h;然后经层析纯化后获得mrna样品,除菌过滤备用。
93、更进一步的,本发明还提供了宿主细胞,其转化或转染如前所述的质粒载体,或其基因组中整合有如前所述的核酸,或其基因组中整合有如前所述的表达单元。
94、本发明中,所述宿主为人体细胞或哺乳动物细胞。除此之外,所述宿主还可以为原核微生物或真核微生物。所述真核生物宿主包括但不限于酵母菌、昆虫细胞,所述原核生物宿主包括但不限于大肠杆菌。例如,所述宿主为大肠杆菌的bl21(de3)、bl21(de3)pl yss、dh5α、jm109、jm110、top10、hb101、xl1-blue。所述人体细胞为293t细胞。
95、更进一步的,本发明还提供了宿主细胞的构建方法,其包括以如前所述的mrna和脂质对细胞进行处理。本发明实施例中,所述的处理包括转染和/或转化。
96、本发明还提供了如前所述宿主细胞经培养获得的产物。
97、更进一步的,本发明还提供了重组蛋白的制备方法,其包括,
98、获得如前所述方法优化后的核酸分子后,将所述核酸分子引入宿主细胞后,经过培养获得含有重组蛋白的产物。
99、更进一步的,本发明还提供了mrna转染制剂或疫苗的制备方法,其包括:获得如前所述方法优化后的核酸分子后,将所述核酸分子与载体连接,线性化后,经加帽、纯化后包封,获得mrna转染制剂或疫苗。
100、本发明提供了密码子优化的方法,其根据密码子类型与数量、局部gc含量、局部重复序列、mrna二级结构、mrna自由能等参数对密码子进行替换,优化后的序列可以通过实验筛选获得高表达蛋白的dna序列。本发明方法下游主要是ivt mrna方向的应用:优化后的dna序列构建到载体中,质粒线性化后作为模板,进行体外转录mrna,以及mrna包封进lnp或者偶联其他分子的lnp中,在293t细胞(不局限于293t细胞)或者小鼠中有明显的蛋白表达提高。
1.密码子优化的方法,包括:
2.根据权利要求1所述的方法,其特征在于,所述单位长度范围内的gc含量为10bp~100bp内的gc含量;作为优选,为20bp~50bp内的gc含量。
3.根据权利要求2所述的方法,其特征在于,所述单位长度范围内的gc含量为20%~95%;作为优选,gc含量为26%~63%或为40%~83%。
4.根据权利要求1所述的方法,其特征在于,所述全长gc含量高于宿主种属总的gc含量占比的0%~15%。
5.根据权利要求4所述的方法,其特征在于,
6.根据权利要求1所述的方法,其特征在于,所述重复序列的长度不大于30bp,作为优选,所述重复序列长度不大于20bp。
7.根据权利要求1所述的方法,其特征在于,所述二级结构的调整包括减少连续碱基配对区域。
8.根据权利要求1所述的方法,其特征在于,所述自由能的调整包括使序列的最小自由能为最低自由能的80%~100%。
9.根据权利要求1~8任一项所述的方法,其特征在于,所述调整包括:依次使用密码子偏好性第二、第三、第四占比的密码子替换使用第一占比的密码子,使用频率占比第一、二、三、四的密码子在编码核酸的全长中的百分比依次为:40%~100%、0%~50%、0%~25%、0%~15%。
10.根据权利要求9所述的方法,其特征在于,所述调整包括,使:
11.一种密码子优化的系统,其特征在于,包括实现权利要求1~10任一项所述方法的模块。
12.一种密码子优化的电子设备,其特征在于,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现权利要求1~10任一项所述方法。
13.一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1~10任一项所述方法的步骤。
14.生物材料,其包括如下i)~v)中至少一种:
15.重组蛋白的制备方法,其包括,
16.mrna转染制剂或疫苗的制备方法,其包括:获得权利要求1~10任一项所述方法优化后的核酸分子后,将所述核酸分子与载体连接,线性化后,经加帽、纯化后包封,获得mrna转染制剂或疫苗。