作者:樊鹏程, 贾正平, 马骏, 王荣
【关键词】 siRNA设计 基因沉默 RNA干涉 序列分析
研究基因功能的方法之一是减少或消除其在细胞中的表达。RNA干扰 (RNA interference, RNAi) 技术可以研究一个单独基因的作用, 其效应因子为小干扰RNA(small interfering RNAs, siRNA)分子[1]。并非所有针对某基因不同位置碱基所设计的21个碱基siRNA都有相似基因沉默效率, 针对同一mRNA内不同位置随机设计的siRNA表现明显不同活性[2]。siRNA沉默效率主要取决于21个碱基序列的合理设计, 如何设计针对目的基因的高效特异性siRNA是基因沉默的关键。使用生物信息学、 计算机辅助手段选择最佳siRNA正成为研究的热点[3, 4]。
1 siRNA设计规则研究
借助生物信息学手段以选择最佳siRNA, 可使用一些筛选模型优化寡核苷酸序列性质, 诸如G/C比例, 碱基变化以及序列中重复碱基数目。
1.1 siRNA反义链5′末端碱基设计 RNA诱导沉默复合体(RNAinduced silencing complex, RISC)形成的起始过程为一个解旋酶介导的siRNA末端解链过程。siRNA中一末端碱基配对越松散, 该末端越易被RISC解开。预测高效siRNA存在较松散的5′反义末端[5], 可在siRNA反义链同RISC结合时引导其识别目的mRNA序列。若siRNA正义链5′末端为松散碱基配对, 则可能导致非目的基因的沉默。
1.2 siRNA正义链设计 为确定siRNA的特异性, Reynolds等系统地测定了针对萤火虫荧光素酶和人胞溶质蛋白B基因各197个碱基区域分别设计的各90个siRNA的沉默效率[2]。结果显示高效siRNA至少有超过3个A/U在15和19之间(正链末端的第1个碱基定义为位置1); A/U在19位, 该规则反映siRNA同自然发生的miRNA过程相类似; 正义链位置3存在一个A, 该结果支持miRNA同siRNA过程存在相似的蛋白机制的假说; A/U在10位, 提示激活的RISC可能是在距离5′末端10到11个碱基位置针对mRNA发生作用。正义链19位不为G或C; 正义链13位不为G。
1.3 G/C比例 复含G/C的序列较富含A/T的序列更易形成稳定的双链, 因此在一个序列中不应同时存在超过7个G/C配对, 且同一序列中4个或更多的G因为易形成交连复合体而应被排除。测定dsRNA两末端的自由能及稳定性, 结果表明依19个碱基设计的siRNA, 其G/C配对比例不宜超过36.8%[5]。
1.4 siRNA目的位置二级结构预测提高siRNA效率 siRNA双链末端不同热力学稳定性, 提示哪条链会进入RISC中。Heale等应用双链末端稳定性计算方法研究二级结构在siRNA设计中的作用, 发现双链末端稳定性对于沉默效果预测影响占60%, 二级结构预测可改善siRNA位点预测效率, 80%的非作用位点可以通过二级结构预测来排除。
1.5 内部重复序列 因包含内部重复序列或回文序列的siRNA可能形成潜在内部发卡结构或折叠结构, 降低了siRNA有效浓度及沉默效力, 故siRNA设计时应避免内部重复序列。
2 通过非目的位点错配寻找高效siRNA
优化siRNA序列来实现同非目的基因的最小错配, 以最小化非目基因沉默。siRNA序列较短, 按照同非目的位点最少存在3个以上的错配, 一般有4至5个相邻的序列符合条件。故BLAST搜寻经常忽略了非目的候选物, 而现有的准确搜寻方法执行时间太长。Yamada等[6]开发的高效siRNA算法, 能准确快速地列出对于任意人类基因siRNA序列的潜在杂交位点, 优于传统计算方法。
3 高活性siRNA筛选算法、 模型研究
3.1 自组装图形技术 Takasaki等[7]将自组装图形技术和统计显著性差异分析用于筛选高活性siRNA序列, 使用评分作为基因沉默效率的衡量。分析了针对12个基因中的172个siRNA序列, 并同其他已报道的评分方法做了比较, 结果其评分同基因沉默水平明显相关。
3.2 热力学及结构特征优化神经网络模型的建立 建立可信的siRNA模型对于功能基因组研究十分必要, 通过分析siRNA热力学参数及相关性分析, 优化得到的神经网络模型能够有效预测不同浓度siRNA沉默效率[8]。该模型仅需较少siRNA序列参数即可预测siRNA沉默效率, 减少了计算量。
4 siRNA在线设计
Amhion, Dharmacon, Qiagen等公司网站及Whitehead siRNA Selection Web Server, siDirect和DEQOR等在线软件支持siRNA设计。Whitehead siRNA设计服务器集成已公布的设计规则, 为使用者提供21个碱基siRNA信息, 双链RNA热力学稳定性, G/C含量, 及其他可能对siRNA干涉效果产生影响的特征参数。OptiRNAi软件工具, 通过植入的Blast搜索引擎来优化siRNA结合目标序列的特异, 是一款高效、 界面友好的RNAi搜索工具[9]。siDirect在线siRNA设计系统, 用于计算高效且对于哺乳动物细胞有着最大特异性的siRNA序列。通过列举出BLAST搜索可能忽略的潜在的杂交候选物, 避免对非目的基因的沉默。支持以任意碱基序列作为搜索项输入, 并很快返回候选siRNA, 提供较广泛的哺乳动物RNAi应用, 包括功能基因及治疗相关基因的沉默。其网址为 http: //design.RNAi.jp/。BLOCKiTTM RNAi Designer使用专利算法允许RNAi Designer选择独特靶序列, 明显提高目的基因沉默效率, 其网址为: www.invitrogen.com/rnai。siSearch是Chalk等开发的一款siRNA设计软件, 目前的版本为1.7。该软件通过分析针对92个基因的、 有效的siRNA 398条, 应用氢键的能量分布规律进行设计。其界面友好, 可将序列通过在线服务器直接提交进行设计: http: //sisearch.cgb.ki.se/。Matveeva等[10]通过相关性分析, 对双链稳定性, 核苷酸位置依赖活性, 总G/C比例作为输入参数, 进行线性回归, 根据回归结果设计了siRNA scale程序。并比较了siRNA scale同BioPredsi, ThermoComposition, DSIR3个程序的siRNA预测效率。siRNA scale预测siRNA同BioPredsi接近, 优于其他程序。目前多数基于网络的siRNA设计程序需要单独输入每个序列, 使大型批量分析难以实现, 且非目标位置的搜寻也受到限制。Batch RNAi selector通过执行WUBLAST, FASTA, SSEARCH同源搜索程序来改善siRNA筛选的特异性, 并确定可能导致非目的基因沈默的siRNA候选序列, 同时引入了siRNA评分及siRNA内部稳定性计算结果, 该程序可免费下载,运行平台为Linux[11]。Support vector machines使用限制性优化筛选模型, 利用已公布的2200个siRNA中被预测的最为有效的572个序列, 包括其热力学性质、 同目的mRNA序列的可接近程度及自身发卡结构性质[12]。该工具可改善90%的活性siRNA位点预测, 网址为http://optirna.unl.edu/。法国枫丹白露生物计算中心服务器结合siRNA序列基本性质来预测siRNA效率, 并通过大型siRNA序列数据库训练和测试, 能直接提供相关生物学性质, 网址为http://cbio.ensmp.fr/dsir。siRNA Scan程序能够识别可能沉默非目的基因的siRNA序列, 并通过定量反转录PCR实验验证, 结果显示其预测非目的基因沈默的准确率接近50%。故该程序能够帮助筛选更好的转录后基因沉默的siRNA结构[13]。siRNArules为奥斯陆大学分子神经生物研究中心开发的一个siRNA沉默效率预测软件, JAVA语言编写, 源代码开放, 其访问网址为http: //sourceforge.net/。siVirus为一款抗病毒siRNA设计软件, 主要针对高分叉病毒高度保守序列设计。其设计目标为同病毒结构活性相关的保守区域, 故可能对高度变异病毒亦有效。其对于HIV和HCV及SARS等病毒的siRNA筛选均验证有效, 网址为http: //siVirus.RNAi.jp/。siRNAs为明尼苏达大学神经科学学院建立的经实验验证有效的哺乳动物siRNA数据库, 可为研究者研究开发可信的siRNA设计规则提供支持[14]。目前该数据库提供了来自1200个研究的超过4100个详细注释的siRNA序列, 其访问网址为http: //siRecords.umn.edu/siRecords/。
5 结语
siRNA序列的设计优劣将直接影响RNAi效果, 合理设计的siRNA序列能够提高基因沉默的效率。siRNA所含碱基序列、 dsRNA双链末端的稳定性、 目的mRNA上相应序列的二级结构及siRNA同RISC的结合均同RNAi过程有关。通过生物信息学、 计算机辅助手段来优化siRNA设计以提高RNAi效率成为行之有效的手段。有人提出设计针对每个人类基因的siRNA文库, 以找到基因治疗中的新靶点[15]。siRecords数据库即为已建立的siRNA数据库之一, 其中包含了经实验验证的针对1518个基因而设计的3277条siRNA记录[16]。目前的研究多集中在不同角度、 不同方向的siRNA设计研究, 数据库样本尚不够大。针对已有实验数据的高效siRNA序列信息而建立的综合数据库将成为siRNA设计的有效解决方法。
参考文献
[1] Dykxhoorn DM, Novina CD, Sharp PA. Killing the messenger: short RNAs that silence gene expression[J]. Nat Rev Mol Cell Biol, 2003, 4(6): 457-467.
[2] Reynolds A, Leake D, Boese Q, et al. Rational siRNA design for RNA interference[J]. Nat Biotechnol, 2004, 22(3): 326-330.
[3] 陈 凌, 郑祥雄. CD40发夹siRNA真核表达载体构建及其对CA46细胞CD40表达的影响[J]. 细胞与分子免疫学杂志, 2005, 21(2): 163-166.
[4] 陈杰斌, 许从峰, 虞 勇, 等. CVB3VP1 siRNA对CVB3复制的抑制作用[J]. 细胞与分子免疫学杂志, 2006, 22(3): 306-309.
[5] Gong D, Ferrell JE. Picking a winner: new echanistic insights into the design of fective siRNAs[J]. Trends Biotechnol, 2004, 22(9): 451-454.
[6] Yamada T, Morishita S. Accelerated offtarget search algorithm for siRNA[J]. Bioinformatics, 2005, 21(8): 1316-1324.
[7] Takasaki S, Kawamura Y, Konagaya A. Selecting effective siRNA sequences based on the selforganizing map and statistical techniques[J]. Comput Biol Chem, 2006, 30(3): 169-178.
[8] Shabalina SA, Spiridonov AN, Ogurtsov AY. Computational models with thermodynamic and composition features improve siRNA design[J]. Bioinformatics, 2006, 7(1): 65-68.
[9] Cui W, Ning J, Naik UP, et al. OptiRNAi, an RNAi design tool[J]. Comput Methods Programs Biomed, 2004, 75(1): 67-73.
[10] Matveeva O, Nechipurenko Y, Rossi L, et al. Comparison of approaches for rational siRNA design leading to a new efficient and transparent method[J]. Nucleic Acids Res, 2007, 35(8): 63-73.
[11] Iyer S, Deutsch K, Yan X, et al. Batch RNAi selector: a standalone program to predict specific siRNA candidates in batches with enhanced sensitivity[J]. Comput Methods Programs Biomed, 2007, 85(3): 203-209.
[12] Ladunga I. More complete gene silencing by fewer siRNAs: transparent optimized design and biophysical signature[J]. Nucleic Acids Res, 2007, 35(2): 433-440.
[13] Xu P, Zhang Y, Kang L, et al. Computational estimation and experimental verification of offtarget silencing during posttranscriptional gene silencing in plants[J]. Plant Physiol, 2006, 142(2): 429-440.
[14] Ren Y, Gong W, Xu Q, et al. siRecords: an extensive database of mammalian siRNAs with efficacy ratings[J]. Bioinformatics, 2006, 22(8): 1027-1028.
[15] Matsumoto S, Miyagishi M, Taira K. Genomewide sreening by using smallinterfering RNA expression libraries[J]. Methods Mol Biol, 2007, 360: 131-142.
[16] Gong W, Ren Y, Xu Q, et al. Integrated siRNA design based on surveying of features associated with high RNAi effectiveness[J]. Bioinformatics, 2006, 27(7): 516-536.