考察如样本的重复性、分析精度、空白等。这方面的知识详见第2、14、15章。 根据研究对象、目的和采用的分析技术不同,所需的样品提取和预处理方法各异。如采用NMR的技术平台,只需对样品做较少的预处理即可分析。对体液的分析,大多数情况下,只要用缓冲液或水控制pH和减少黏度即可。采用MS进行“全”成分分析时,样品处理方法相对简单,但不存在一种普适性的标准化方法,依据的还是“相似相洁原则”,脱蛋白后代谢产物通常用水或有机溶剂(如甲醇、己烷等)分别提取[31],获得水提取物和有机溶剂提取物,从而把非极性相和极性相分开,以便进行分析。对于代谢轮廓分析或靶标分析,还需要做较为复杂的预处理,如常用固相微萃取、固相萃取、亲和色谱等预处理方法。用气相色谱或气相色谱-质谱联用时,常常需要进行衍生化,以增加样品的挥发性。由于特定的提取条件往往仅适合某些类化合物,目前尚无一种能够适合所有代谢产物的提取方法。应该根据不同的化合物选择不同的提取方法,并对提取条件进行优化。具体方法可见第11、14、15章。
由于代谢组学一次分析很多样品,样品不可能一天采集完成,因此,样品保
存问题也应注意,最好是保存在-80℃。COMET项目表明[6],尿样保存在-40℃冰箱中,至少9个月内没有发现变化。但在18个月后,发现TCA循环中的中间产物有轻微的变化。而血浆在-80℃下保存6个月,在NMR谱上没有发现明显的变化。
1.1.2 代谢组数据的采集
完成样本的采集和预处理后,样品中的代谢产物需通过合适的方法进行测
定。代谢组学分析方法要求具有高灵敏度、高通量和无偏向性的特点,与原有的各种组学技术只分析特定类型的化合物不同,代谢组学所分析的对象的大小、数量、官能团、挥发性、带电性、电迁移率、极性以及其他物理化学参数的差异很大。由于代谢产物和生物体系的复杂性,至今为止,尚无一个能满足上述所有要求的代谢组学分析技术,现有的分析技术都有各自的优势和适用范围[32~36]。最好采用联用技术和多个方法的综合分析。色谱[37]、质谱[32]、NMRM、毛细管电泳[39,40]、红外光谱[41,42]、电化学检测[43]等分离分析手段及其组合都出现在代谢组学的研究中。其中色谱-质谱联用方法兼备色谱的高分离度、高通量及质谱的普适性、高灵敏度和特异性,NMR特别是1H-NMR以其对含氢代谢产物的普适性
而成为最主要的分析工具。
NMR(见第6章):NMR是当前代谢组学研究中的主要技术,NMR的优势
在于能够对样品实现无创性、无偏向的检测,具有良好的客观性和重现性,样品不需要繁琐处理,具有较高的通量和较低的单位样品检测成本。此外,1H-NMR对含氢化合物均有响应,能完成样品中大多数化合物的检测,满足代谢组学中的对尽可能多的化合物进行检测的目标。NMR虽然可对复杂样品如尿液、血液等进行非破坏性分析,与质谱法相比,它的缺点是检测灵敏度相对较低(采用现有成熟的超低温探头技术,其检测灵敏度在纳克级水平)、动态范围有限,很难同时测定生物体系中共存的浓度相差较大的代谢产物;同时,购置仪器所需的投资也较大。
为了提高NMR技术的灵敏度,研究者们采用了增加场强、使用低温探头和
微探头的方法。针对分辨率的问题,使用了多维核磁共振技术和液相色谱-核磁共振联用(liquidchromatography-nuclearmagneticresonance,LC-NMR)。Daykin等[44]在研究中采用色谱技术,利用LC-NMR联用对心血管疾病患者血中的脂蛋白代谢产物进行了检测。Nicholson研究小组[45,46]采用近年来新发展的魔角旋转(magic angle spinning,MAS)技术,让样品与磁场方向成54.17°旋转,从而克服了由于偶极耦合(dipolar coupling)引起的线展宽、化学位移的各向异性。应用MAS技术,研究者能够获得高质量的NMR谱图,样品中仅加入少量的D2O 而不必进行预处理,样品量只需约10mg。基于NMR技术的代谢组学方法已广泛地应用于药物毒性[47~49]、基因功能[50,51]以及疾病的临床诊断[9,51,52]。
质谱(见第2~5章):相对于NMR灵敏度低、检测动态范围窄等弱点,MS
具有较高的灵敏度和专属性,可以实现对多个化合物的同时快速分析与鉴定。随着质谱及其联用技术的发展,越来越多的研究者将色谱-质谱联用技术用于代谢组学的研究[32,53,54]。GC-MS方法的主要优点包括较高的分辨率和检测灵敏度,并且有可供参考、比较的标准谱图库,可以用于代谢产物定性。但是GC不能直接得到体系中难挥发的大多数代谢组分的信息,对于挥发性较低的代谢产物需要衍生化处理,预处理过程繁琐。GC-MS常用于植物和微生物代谢指纹分析[53~56],如Fiehn等[12]采用GC/MS研究拟南芥(Ar-abidopsis)的基因型及其表型的关系,Styczynski等[55]对大肠杆菌的代谢产物进行了详细的分析。LC-MS避免了GC-MS
中繁杂的样品前处理,由于其较高的灵敏度和较宽的动态范围,已被越来越多地用于代谢组学研究[57~59]。它非常适合于生物样本中复杂代谢产物的检测和潜在标志物的鉴定。LC-MS的代谢组学研究通常采用反相填料、梯度洗脱程序。但对于体液样品特别是尿样,含有大量的亲水性代谢产物,这些代谢产物在反相色谱上不保留或保留很弱。最近研究者们使用亲水反应色谱(hydrophilic interaction chromatography,HILIC)[60]:解决亲水性物质的弱保留问题。新的分析技术如超高效液相色谱/高分辨飞行时间质谱技术[61,62]、毛细管液相色谱-质谱联用技术
[63]
、傅里叶变换离子回旋共振技术[64,65]等也被用于代谢组学研究以提高代谢产物
的检测灵敏度和通量。为解决通常液相色谱只能分离疏水性代谢物(反相色谱)或亲水性代谢物(亲水性色谱,HILIC)的问题,我们专门发展了一个柱切换二维液相系统[66~68],采用2根液相色谱柱(反相色谱柱和亲水作用色谱柱),通过阀切换实现了一次进样同时检测亲水和疏水代谢产物,解决了复杂生物样品中亲水性和疏水性代谢产物的同时检测问题。
1.2.3数据分析平台
代谢组学得到的是大量、多维的信息。为了充分挖掘所获得数据中的潜在信
息,对数据的分析需要应用一系列的化学计量学方法。在代谢组学研究中,大多数是从检测到的代谢产物信息中进行两类(如基因突变前后的响应)或多类(如不同表型间代谢产物)的判别分类[12,69],以及生物标志物的发现[59,70,71]。数据分析过程中应用的主要手段为模式识别技术,包括非监督(unsupervised)学习方法和有监督(supervised)学习方法(见第7章)。
非监督学习方法用于从原始谱图信息或预处理后的信息中对样本进行归类,
并采用相应的可视化技术直观地表达出来,不需要有关样品分类的任何背景信息。该方法将得到的分类信息和这些样本的原始信息(如药物的作用位点或疾病的种类等)进行比较,建立代谢产物与这些原始信息的联系,筛选与原始信息相关的标志物,进而考察其中的代谢途径。用于这个目的的方法没有可供学习利用的训练样本,所以称为非监督(unsupervised)学习方法。主要有主成分分析(principalcomponents analysis,PCA)[59,72]、非线性映射[73]、簇类分析[74]等。有监督学习方法用于建立类别间的数学模型,使各类样品间达到最大的分离,并利用建立的多参数模型对未知的样本进行预测。在这类方法中,由于建立模型时有
可供学习利用的训练样本,所以称为有监督学习。这种方法经常需要建立用来确认样品归类(防止过拟合)的确认集(validation set)和用来测试模型性能的测试集(test set)。应用于该领域的主要是基于PCA、偏最小二乘法(partial least squares,PLS)、神经网络的改进方法,常用的有类模拟软独立建模[10,75]和偏最
75,76]小二乘法-判别分析(PLS-discriminant analysis, PLS~DA)、正交(O)-PLS[77,78]。
作为非线性的模式识别方法,人工神经元网络(neutral network,ANN)技术[79]也得到广泛应用。PCA和PLS-DA是代谢组学研究中最常用的模式识别方法。这两种方法通常以得分图(score plot)获得对样品分类的信息,载荷图(loading plot)获得对分类有贡献变量及其贡献大小,从而用于发现可作为生物标志物的变量。此外,在数据处理和分析的各阶段,对数据的质量控制和模型的有效性验证也需引起足够的重视[80~82]。
应该强调,由上述分析仪器导出的元数据(metadata),不能直接用于模式
识别分析[83],还需对数据进行预处理,将元数据转变为适合于多变量分析(主要是模式识别)的数据形式,使相同的代谢产物在生成的数据矩阵中由同一个变量表示,所有的样品具有相同的变量数。最后用于模式识别的数据为二维矩阵数据形式,行代表样品或实验数目,列表示相应的单个测定指标(通常为代谢物的信号强度等)。仪器的微小波动及样品pH和基体的变化会引起NMR中化学位移的改变,色谱-质谱方法中流动相组成、柱温的微小变化、梯度的重现性及其柱表面的状态变化常导致保留时间的差异。在模式识别前,需对谱图实行峰匹配(或称峰对齐),使各样本的数据得到正确的比较。主要的数据预处理包括滤噪、重叠峰解析(deconvolution)、峰对齐、峰匹配、标准化和归一化等。在实际操作中,并不是这些步骤都需要进行,而是根据实际情况,只做其中几种预处理(表1-1)。相比之下,HPLC的保留时间重复性比GC要差一些,峰匹配要相对困难。我们发展的“多区域可变保留值窗口”的峰对齐算法[90],不仅可用于HPLC,也可用于GC代谢组学的峰匹配[99]。关于这方面的详情,有兴趣的读者可参看第2~5章的内容,也可查看表1-1中的文献。
1.2.4代谢组学数据库
代谢组学分析离不开各种代谢途径和生物化学数据库。与基因组学和蛋白质
组学已有较完善的数据库供搜索、使用相比,目前代谢组学研究尚未有类似的功能完备的数据库[100]。一些生化数据库[101~105]可供未知代谢物的结构鉴定或用于已知代谢物的生物功能解释,如连接图数据库(Connections Map DB)、京都基因与基因组百科全书(KEGG)、METLIN、HumanCyc、EcoCycmetacyc、BRENDA^LIGAND、Meta-Cyc、UMBBD、WIT2、EMP项目,IRIS、AraCyc、PathDB、生物化学途径(Ex-PASy)、互联网主要代谢途径(main metabolic pathways on Internet,MMP)、Duke 博士植物化学和民族植物学数据库、Arizona大学天然产物数据库等,其中IRIS、Ara-Cyc分别为水稻和拟南芥的有关数据库。表1-2给出了其中的一些网址,可供读者参考。
理想的代谢组学数据库应包括各种生物体的代谢组信息以及代谢物的定量
数据,如人类代谢组数据库(http://www.hmdb.ca)[22]中的那样。但实际上,这方面的信息非常缺乏。一些公共数据库对各种生物样本中代谢物的结构鉴定也非常有用,如Pubmed化合物库、ChemSpider数据库等(表1-2),后者包含有1650万个化合物的结构信息,可供网上检索。
1.3 代谢组学的应用
代谢组学自从出现以来,引起了各国科学家的极大兴趣,广泛地应用于各个领域[6],如疾病诊断、药物开发、植物代谢组学、营养科学[106,107]和微生物代谢组学等方面的研究中。详细的情况请见后面各章,这里只做简单归纳。
1.3.1 药物研发
药物研发领域,尤其是西方的药物研发主要沿用靶向研发策略,“致使90%
的药物仅对30%~50%的患者有效”,即50%~70%的患者不但未从所接受的药物治疗中受益,反而要承担其所带来的副作用。鉴定出有效的具有生理和临床意义的标志物作为廉价、快捷的筛选对特定人群有效或有毒药物的方法,已成为大家的共识。事实上,由于药物开发成本的提高,新药发现-开发环节中的消耗变成了制药工业所面临的巨大挑战之一。任何能快速、经济、有效地预测药物对特定人群的潜在毒性的工具,毫无疑问地都会被重点关注。
代谢组学在疾病动物模型(包括转基因动物)的确证、药物筛选、药效及毒
性评价、作用机制和临床评价等方面有着广泛的应用[101~104](详见第13章)。Nicholson研究小组[104,105,108,109]利用基于NMR的代谢组学技术,在药物毒性评价
百度搜索“70edu”或“70教育网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,70教育网,提供经典教育范文代谢组学方法与应用(许国旺)张强(3)在线全文阅读。
相关推荐: