作者:董乃平 李洪东 梁逸曾
【摘要】 SEQUEST与Mascot为目前蛋白组学分析研究中使用最为广泛的蛋白质库搜索工具。尝试将Mascot与SEQUEST搜索结果进行比较,进而采用不同多变量判别方法对二者的搜索结果进行判别分析,以降低其结果的假阳性率。通过对Mascot与SEQUEST搜索结果进行比较,发现所得结果差异很大;利用多变量判别分析方法对Mascot及SEQUEST搜索结果进行判别分析,可有效提高SEQUEST结果中假阳性结果与正确结果之间的区分能力。对于Mascot搜索结果,采用多变量判别分析方法仍无法显著降低其假阳性结果,利用Decoy库搜索结果进行估计时亦存在导致错误估计的风险。
【关键词】 蛋白质库搜索算法, 串联质谱, 多变量判别分析, Decoy蛋白质序列库
1 引 言
在复杂蛋白质样品的定性定量分析中,质谱技术已日益成为最重要的分析方法之一[1~3]。混合蛋白质样品由特定蛋白酶酶解得到多肽混合物,进入液相色谱(LC)分离,经一级质谱检测获得分离后多肽分子离子信息,从其中选择若干分子离子,每一个分子离子经碰撞诱导解离(Collision Induced Dissociation,CID)得二级质谱(MS/MS)谱图,获得该分子离子的碎片离子信息。对MS/MS谱图进行解析,即可得多肽离子的序列信息,反推得该多肽所属蛋白质序列,从而完成蛋白质定性。为了使高通量LCMS/MS数据得到快速有效分析,采用蛋白质库搜索以定性蛋白质成为当前蛋白组学研究中最主要的方法[4]。该方法主要有3种方式:一是肽质量指纹图谱(Peptide Mass Fingerprint, PMF)库搜索,二是利用MS/MS数据对蛋白质库进行匹配搜索,三是肽序列标签查询。然而如何快速有效分析高通量MS/MS数据,准确定性样品中的蛋白质,仍然是蛋白组学研究中必须解决的一个问题[5]。本文仅对MS/MS数据搜索蛋白质库所得到的匹配结果进行了研究。
目前常用的数据库搜索算法主要有SEQUEST[6],Mascot[7],X!tandem[8],OMSSA[9],Phenyx[10]等。这些算法的应用使MS/MS数据快速分析进而鉴定蛋白质成为可能。但是,由于各种搜索工具本身存在的缺陷[11],及蛋白质数据库构建的不完善[12],使得采用蛋白质数据库搜索的方法可能得到大量假阳性结果,导致高误判率。为消除或减少假阳性结果的影响,一些统计学方法被应用于其中,包括基于机器学习的模式识别方法[13,14],基于统计模型的概率估计方法[15],以及基于结合不同MS/MS分析工具鉴定多肽的方法 [16,17]等。这些统计学方法对搜索结果虽可有所改善,但由于错误结果的得分与正确结果的得分之间存在交叉,从而限制了这些方法的应用 [18]。因此,在蛋白质组学的蛋白质定性分析过程中,需要发展更有效的方法,使其具有更高的可靠性。
本研究在对Mascot与SEQUEST搜索结果进行比较分析的基础上,采用Lasso(Least absolute shrinkage and selection operator)[19],偏最小二乘线性判别分析算法(PLSLDA)和支持向量机[20](SVM) 等在化学计量学中得到广泛使用的判别分析算法,分别对Mascot及SEQUEST搜索结果进行挖掘分析;同时,也采用翻转(Decoy)蛋白质库搜索结果对Mascot搜索结果进行错误发现率(FDR)估计。
2 实验部分
2.1 数据采集
数据集下载自http://regisweb.systemsbiology.net/PublicDatasets/[21]。该数据将18种标准蛋白质混合样品经8种LCMS/MS仪器,包括(两种线性离子阱(Linear ion traps)、两种3D 离子阱(3D Ion traps)、两种QTOF(Quadrupole timeofflight)和两种MALDITOFTOF检测所得,是一组难得的进行蛋白组学分析研究的标准数据。本研究取3D离子阱的LCMS/MS (Thermo Electron LCQ DECA)所采集数据进行分析。SEQUEST搜索结果数据由Klimek等搜索H.influenzae数据库所得[21]。10次重复实验共得到60700个搜索结果,正确匹配结果数为15247个。
Mascot(www.matrixscience.com)的搜索结果由同一组LCMS/MS数据搜索SwissProt (SwissProt 55.5)蛋白质数据库得到。Mascot为其在线免费的搜索引擎,搜索参数:多肽质量误差限为±3,MS/MS碎片质荷比误差限为±1,蛋白质酶为胰蛋白酶(Trypsin),数据导出时pvalue&<0.05,导出格式为csv格式。所有的参数与John等所提供的一致, 搜索共得10482个结果,正确匹配结果为1258个。
2.2 变量选择
SEQUEST搜索结果存于html文件中,按照输出结果的参数,选取 (1) dM:实际母离子与理论母离子之间的质量差;(2) Xcorr:理论质谱与实际质谱之间通过交叉相关 (Crosscorrelation) 计算所得分值;(3) dCn:最高得分与第二得分值之间的差值,并经归一化所得,即(Xcorr1-Xcorr2)/Xcorr1;(4) Sp:实验质谱与理论质谱匹配所得分值;(5) RSp:Xcorr为最高值时对应的Sp在所有结果中序号;(6) MatchIonRatio:实验质谱与理论质谱相同碎片离子数与理论质谱碎片离子总数的比值;(7) MH:母离子质量。7个参数作为变量进行判别,鉴于10次重复实验得到的都为同一模型[21],因此训练集采用2次重复实验所得的搜索结果,共12087个样本,其中正确匹配样本数为3123;测试集采用1次重复实验而得的搜索结果,共5889个样本,其中正确的匹配结果个数为1390。
Mascot搜索结果由csv格式导出,基于导出的结果,选取 (1) pep_rank:显示的结果在所有结果中的序号;(2) pep_exp_mz:实际的母离子质量;(3) pep_delta:实际母离子质量经转化后与理论计算所得到母离子质量之差;(4) Score:实验质谱与理论质谱的匹配得分;(5) Evalue:对Score进行显著性估计所得期望值;(6) pep_num_match: 理论质谱与实际质谱相同碎片离子个数;6个参数作为变量进行研究。训练集采用8次重复实验得到的搜索结果,共8548个样本,其中正确匹配个数为1063;训练集采用两次2次重复实验得到的搜索结果,共1934个样本,其中正确匹配结果个数为195。
3 结果与讨论
3.1 Mascot搜索结果与SEQUEST搜索结果的比较
Mascot及SEQUEST搜索结果的统计数据见表1。由表1可见,Mascot所得到的搜索结果个数远少于SEQUEST。在每一组搜索结果中,Mascot所得的正确结果数也远低于SEQUEST搜索所得,当采用其它数据集(由Klimek等 [21]发布的另外两组LCQDECA数据,结果未列出)进行搜索,亦发现了类似现表1 10次重复试验的MS/MS数据分别用Mascot以及SEQUEST搜索所得到的统计结果由此可见,采用不同的打分函数对质谱匹配进行打分时,所得到的结果之间差异很大。虽Mascot正确搜索结果中有超过80%与SEQUEST正确搜索结果相符,但由于Mascot得到的结果远少于SEQUEST得到的结果,导致两种搜索算法得到的结果很难统一,在利用不同的搜索工具对蛋白质库进行搜索以验证搜索结果是否可靠时,难以得到一个综合的量化评价指标[22]。表2 Mascot与SEQUEST搜索结果的比较
3.2 蛋白质库搜索结果的判别分析
为降低搜索结果中的假阳性结果,对SEQUEST与Mascot搜索结果分别采用SVM,Lasso,LassoPLSLDA以及PLSLDA进行判别分析,并将判别分析结果与工具本身提供打分进行比较,结果见表3。从表3的结果可看出,以FDR及第二类错误率(以真当假)为标准,SVM,PLSLDA,及LassoPLSLDA所得结果都明显优于SEQUEST本身提供的得分计算所得结果。因此,采用多参数的方法进行分类可以有效消除假阳性的影响。接受者操作特性曲线(Receiver Operating Characteristic curve, ROC 曲线)的面积 (Area Under ROC Curves, AUC)是蛋白组学研究中常用的表征算法对样本进行判别分析能力的一种方式。当AUC=1时, 表明该算法可以对样本进行完全区分。图1和图2分别示出了SEQUEST和Mascot搜索结果的ROC曲线及其对应得分分布图。由图1a可见,对于SEQUEST搜索结果,SVM,LassoPLSLDA,PLSLDA皆可有效降低假阳性结果,且结果改善明显,而对于Mascot搜索结果,判别分析算法虽可有效提高ROC曲线的面积,但却得到了很高的第二类错误率 (参见表3,&>0.7);对Mascot的得分分布进行详查(见图2b),发现正确结果的得分分布完全被错误结果的得分所包含。表3 利用不同的算法对Mascot及SEQUEST搜索结果进行判别分析所得到的结果
3.3 Decoy蛋白质序列库匹配结果估计FDR
Decoy库(Decoy Database)是将所需搜索的目标蛋白质序列库(Target Protein Database)中的氨基酸序列进行随机排列或反转而构建的虚假蛋白质序列库。Elias等[23]详细讨论了如何由decoy库搜索结果来估计目标蛋白质库搜索结果的FDR值。Kll等[18]则对SEQUEST搜索decoy库的结果估计FDR值进行了统计特性讨论,并提出利用错误结果百分率 (Percentage of incorrect targets, PIT)对估计得到的FDR值进行校正,发现在同一FDR阈值条件下经校正后可得更为可信结果。在认为搜索Decoy库所得结果全部为错误的前提下,假设在目标蛋白质库的搜索结果中得到大于得分域值St的结果数为Nnorm(t),Decoy库的搜索结果中大于该得分域值的结果数为Ndecoy(t),则可以利用Ndecoy(t)来估计Nnorm(t)结果的错误率,即
FDR≈2×Ndecoy(t)/(Ndecoy(t)+Nnorm(t))
当确定结果中允许出现的错误率,如FDR=0.01,即允许结果中出现1%的错误时,就可根据ScoreFDR曲线来估计得分域值St,从而得到可信结果。Decoy库的概念自提出以来得到了较为广泛的应用。 图3 利用Mascot搜索得到的Score得分估计FDR得到的随Score变化曲线
Fig.3 FDRScore curves estimated by Mascot search results
1. decoy库搜索结果经PIT校正得到的FDRScore曲线(FDRScore curves estimated by using decoy database search results with correction via PIT); 2. decoy库搜索结果估计得到的FDRScore曲线(Estimated by using decoy database search results);曲线3:实际FDRScore曲线(Curve 3: true trends of FDR)。
图3为decoy库搜索结果对Mascot结果进行估计所得的FDR值随得分Score变化曲线图,并与真实的及经过PIT校正而得的FDRScore变化曲线进行比较。由图可见,在利用decoy库搜索结果对Mascot结果进行FDR估计及对其进行校正之后的曲线与真实变化曲线有非常大的偏差,从而导致错误估计。
4 结 论
本研究比较了Mascot与SEQUEST所得的结果,再采用不同算法对搜索结果进行判别分析,考察了decoy库搜索结果对Mascot结果的估计。本研究对3D离子阱LCMS/MS所得到的数据进行分析,可得如下结论:(1)利用SEQUEST算法进行搜索可得较Mascot更好的结果; (2) 采用PLSLDA,LassoPLSLDA,SVM等多参数判别分析算法也可有效降低SEQUEST结果中假阳性的影响。但在Mascot结果中,判别分析算法也可有效提高判别能力,却无法降低假阳性结果的影响; (3) 采用蛋白组学中常用的decoy库搜索结果估计也将存在得到错误结论的风险。因此,开发更加有效的算法或发展新的思路,才有可能使蛋白质得到有效可靠的鉴定。目标蛋白组学[24]的提出可能为解决这些问题的提供一些新思路。
参考文献
1 Aebersold R, Mann M. Nature, 2003, 422: 198~207
2 Aebersold R, Goodlett D R. Chem. Rev., 2001, 101: 269~295
3 Blackstock W P, Weir M P. Trends in Biotechnology, 1999, 17(3): 121~127
4 Peng YongBo(彭咏波), Ma YongPing(马永平), Ding ShiJia(丁世家), Xia YongPeng(夏永鹏), Qiu ZongYin(邱宗荫). Chinese J. Anal. Chem.(分析化学), 2009, 37(3): 319~324
5 Nesvizhskii A, Vitek O, Aebersold R. Nat. methods, 2007, 4(10): 787~797
6 Eng J K, McCormack A L, Yates III. J R. J. Am. Soc. Mass. Spectrom., 1994, 5: 976~989
7 Perkins D N, Pappin D J C, Creasy D M, Cottrell J S. Electrophoresis., 1999, 20: 3351~3567
8 Duncan D T, Craig R, Link A J. J. Proteome. Res., 2005, 4(5): 1842~1847
9 Geer L Y, Markey S P, Kowalak J A, Wagner L, Xu M, Maynard D M, Yang X Y, Shi W Y, Bryant S H. J. Proteome. Res., 2004, 3: 958~96410 Colinge J, Masselot A, Giron M, Dessingy T, Magnin J. Proteomics., 2003, 3: 1454~1463
11 Tabb D L, Friedman D B, Ham AJ L. Nat. Protoc., 2006, 1(5): 2213~2222
12 Lubec G, AfjehiSadat L. Chem. Rev., 2007, 107: 3568~3584
13 Baüczek T, Buciński A, Ivanov A R, Kaliszan R. Anal. Chem., 2004, 76: 1726~1732
14 Anderson D C, Li W Q, Payan D G, Noble W S. J. Proteome. Res., 2003, 2(2):137~146
15 Moore R E, Young M K, Lee T D. J. Am. Soc. Mass. Spectr., 2002, 13: 378~386
16 Alves G, Wu W W, Wang G H, Shen R F, Yu Y K. J. Proteome. Res., 2008, 7(8): 3102~3113
17 Kapp E A, Schütz F, Connolly L M, Chakel J A, Meza J E, Miller C A, Fenyo D, Eng J K, Adkins J N, Omenn G S, Simpson R J. Proteomics., 2005, 5(13): 3475~3490
18 Kll L, Storey J D, MacCoss M J, Noble W S. J. Proteome. Res., 2008, 7: 29~34
19 Tibshirani R. J. R. Statist. Soc. B, 1996, 58(1): 267~288
20 Vapnik V N. The Nature of Statistical Learning Theory. 2nd ed. New York: Springer. 2000
21 Klimek J, Eddes J S, Hohmann L, Jackson J, Peterson A, Letarte S, Gafken P R, Katz J E, Mallick P, Lee H, Schmidt A, Ossola R, Eng J K, Aebersold R, Martin D B. J. Proteome. Res., 2008, 7: 96~103
22 Searle B C, Turner M, Nesvizhskii A I. J. Proteome. Res., 2008, 7: 245~253
23 Elias J E, Gygi S P. Nat. Methods., 2007, 4(3): 207~214
24 Deutsch E W, Lam H, Aebersold R. EMBO Reports., 2008, 9(5): 429~434