代谢组学方法与应用(许国旺)张强(6)

来源:网络收集 时间:2025-09-14 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xuecool-com或QQ:370150219 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息

志物的结构鉴定也是目前代谢组学研究的重点和难点问题之一,由于缺乏标准的可通用的质谱数据库,基于LC-MS技术在代谢组学研究中的应用在一定程度上受到了制约。理论上讲,LC-MS~NMR可提供较好的关于组分结构的信息[162],但仪器复杂、操作繁琐、灵敏度和通量急需改进和提高。功能完善的代谢产物数

[163]据库的构建及代谢组学研究的标准化(http://msi-workgroups.sourceforge.net/)

等问题已越来越受到关注[164]。与其他组学一样,如何克服瓶颈从大量的代谢产物中找出特异性的生物标志物(特别是低丰度的标志物)是决定此技术能否在药物和临床领域广泛应用的一个重要因素。陈列毛细管电泳技术的出现推动了基因组学的发展,2D凝胶电泳和2D液相色谱质谱技术促进了蛋白质组学的发展。从目前来看,代谢组学还没有类似的可通用的新技术出现。现今之下,多种分析技术的集成是主要的技术平台。例如,我们在进行“胰岛素抵抗人群”标志物的研究中[165],提出了关于生物标志物发现和识别的一套新方法(图1-6),包括LC-MS指纹分析、多变量数据分析发现可能的生物标志物,FT/MS测定精确质量,通过微制备、MS/MS碎片信息、气相色谱保留指数及文献检索和合成同位素化合物等识别和确认代谢标志物等。据此不仅可发现可能的生物标志物,而且可确定它们的结构,异构体也可区分。这一方法对基于液质联用的代谢组学发展具有强大的促进作用。

由于一次分析不能获得所有代谢产物的信息,生物问题又要从多个侧面进行

理解,因此,体液代谢组学研究与细胞生物学和动物模型数据和知识的整合[166]、不同代谢组学方法(如UPLC-TOF-MS与NMR[I67])的整合、不同样品(尿、血、组织等)代谢组学数据的整合[1,168~170]、代谢组学数据与其他组学数据如与转录组[171,172]、基因组[173~175]、蛋白质组[176,177]間及与几种组学数据的整合[105,178~181]、代谢组学与计算生物学的整合[149]、构建代谢网络[172,182~186]和代谢流动态变化的数学模型等在代谢组学研究领域内有着广泛的发展前景,也是下一步研究的重点。作为例子,图1-7给出了老鼠服用肝毒药物后不同时间点不同体液和器官中代谢产物的变化,从中可知与时间相关的毒性效应。图1-8(见彩版)给出了一个关于APOE*3-Leideri转基因老鼠的集成生物学研究结果[178],这样的网络图对快速识别早期标志物及生理过程的关键组分非常有用。

在应用方面,代谢组学要生存和发展,必然要有特色,要从表型着手回答其

他组学不能回答的生物问题。代谢物组代表了即时的体内外刺激物的总和分析,患者体内药物的表型(药物的体内分布、功效、治疗的失败和毒性),可以通过尿液、药物代谢产物或者数以千计的内源小分子化合物的代谢轮廓来监测。特异性模式可在临床效应出现之前显示个体对药物毒性反应的易感性。这样,代谢组学可能帮助医生实现患者的个性化治疗,避免中毒并降低药物的不良反应。医生也可根据患者的表型来分析患者的病程并制订治疗方案[187]。因此药物代谢组学

[188,189]

在个性化药物治疗和其他医学方面有很大的发展空间[190]。

另一方面,人体是真核细胞与原核细胞组成的“超级生物体”[191],很多因

素影响人体的代谢(图1-9)[161,192,193],并可用代谢组学进行研究。在正常情况下,肠道菌群之间存在着复杂的动态平衡关系,对生命体的多种生理功能乃至生命活动至关重要,肠道菌群实际上参与了人体的生理生化、病理和药理过程,形成了人类代谢网络中重要的组成部分[161]。大多数非感染性疾病如癌症、2型糖尿病、心血管疾病等从某种意义上讲,都是由于肠道菌群异常引起的。共生菌通过与肝脏和免疫系统的相互作用,直接影响人体的健康和参与药物的代谢。从某种意义上,中药其实是通过调节人体的整体环境,调节人体肠道菌群的代谢情况来治疗疾病的。建立考虑共生菌群代谢作用的新的中药研发平台,构建带有人体菌群的动物模型,实现宿主遗传特性和菌群结构的标准化非常有意义。肠道菌群微生态学和代谢组学的结合很可能成为推进中医药现代化和国际化的一把金钥匙。

第7章代谢组学研究中常用的化学计量学方法

代谢组学采用各种分析手段(包括色谱、电泳、质谱、核磁等)对体液或组织中低 分子质量的代谢物进行尽可能的全面分析,得到的是大量的、多维的分析数据。如何充 分抽提所获数据中的潜在信息,并将其与生物体的生物学特性进行关联,进而用于了解 和发现生物学规律,是代谢组学研究的最终目的。在对数据的分析过程中需要应用一系 列的化学计量学方法[1]。

化学计量学[2,3]是一门化学分支学科,它应用数学和统计学方法(借助计算机

技术),设计和选择最优的测量程序和实验方法,并且通过解释化学数据而获得

最大限度的信息。在分析化学领域中,化学计量学通过应用数学和统计学方法,用最佳的方式获取关于物质系统的有关信息。

化学计量学的研究内容已经相当广泛,如统计学方法、最优化方法、信号处

理、因子分析、曲线分辨、数据校正、模型化与参数估计、结构与活性、数据库及其应用、模拟识别、人工智能等。

模式识别(pattern recognition)是化学计量学的重要组成部分,是数据信息

挖掘的主要方法之一。在代谢组学的研究中,大多数情况是要从检测到的代谢产物信息中进行两类(如基因突变前后的响应)或多类(如杂交后各不同表型间代谢产物)的判别分类,因此在数据分析过程中应用的技术也主要集中在模式识别技术上。

另一方面,随着代谢组学的不断发展,已经获得了大量的基础数据,同时随

着各种组学技术的不断交叉,系统生物学应运而生,生物信息学技术的重要性也日益突现。生物信息学是一门生物技术和信息学技术融合的学科。不同的人对其有不同的理解,但按照其最基本的形式,生物信息学定义为“有效地组织生物信息,进行逻辑化的查询和利用”。这一定义包括了两层含义,一是对海量数据的收集、整理与服务,也就是管理好这些数据;另一个是从中发现新的规律,也就是利用好这些数据。它与化学计量学有所重叠,但侧重点略有不同。

基因组学的发展导致了生物学数据量的大爆炸,促进了生物信息学的长足发

展。早期的生物信息学研究工作是对基因组研究相关生物信息的获取、加工、储存、分配、分析和解释。各种组学技术的发展大大扩展了生物信息学的应用。

生物信息学面临的新挑战包括:通过组学技术平台进行复杂的数据整合;通

过基因组、转录组、蛋白质组和代i射组对传统遗传学和生物表型进行直接的联系。在代谢组学方面主要的研究内容是构建和完善特定生物体系的代谢数据库,使之能与现有的基因、蛋白质的数据库相关联,进一步推动和完善系统生物学。

本章将系统地介绍代谢组学研究中的数据预处理、化学计量学方法(主要是

模式识别)以及信息学研究(数据库、专家系统)。

7.1数据预处理方法

7.1.1原始数据矩阵的获得

由分析仪器产生的谱图信号,在采用适当的方法去除噪声、干扰、基线飘移

等因素后,通过数据提取,可用一组参量(矢量)来表征。对于不同的分析手段,去除噪声、干扰、基线飘移的方法不尽相同,技术及方法相对已非常成熟,在此不再做过多的介绍。

数据提取方法可分为两类:

第一类主要应用于色谱及其联用技术,采用峰的积分结果作为变量,进行提

取,其他样品通过保留时间或质量数进行峰匹配,对于样品间保留时间的漂移情况下的峰匹配见第4章,最终获得原始数据矩阵。通常可采用拟合和其他峰拆分算法对重叠峰进行解析,以提高定量的精度。

第二类方法主要应用于核磁、红外等波谱处理,也可用于液质联用数据,采

用等间距的切片(slice,用于一维谱图)或切块(bin,用于二维谱图)对谱图区间进行拆分,对区间内的信号积分作为变量。这尽管降低了分析结果的分辨率,但在一定程度上降低了谱图漂移引起的匹配错误问题。该方法对不同的样本谱图采用相同的间距,对应位置的积分结果进行匹配,从而获得数据矩阵。

数据提取后形成一个n×m的原始数据矩阵:

同一谱图采用两种数据提取方法的结果比较见图7-1。

式中,n为变量数;m为样本数。

7.1.2 自变量筛选

就理想状态而言,如果每个变量都具有一定的判别能力,且不相关,维数的

提高可以使模式识别的能力得到增强。但如果特征变量相互相关,多余的自变量不但没有优势,而且可能干扰分类判断,并可能导致模型的不稳定。对原始数据矩阵进行必要的自变量筛选,有利于模式识别的成功。

自变量筛选方法可参考文献[3]。以下介绍一种重要的自变量特征提取方法—

—Fisher权重。该方法对于已知分类的样本可以容易地辨别出变量对分类的贡献大小。

式中,mi1和mi2分别为类1和类2的i变量的均值;Vi1和Vi2分别为类1和类2的i变量方差。权重越大,表明该变量对分类的贡献越大,应优先选用。当然,那些明显不属于样本本身特性的变量同样也应予以去除,如溶剂、内标以及外源性代谢产物等。

7.1.3数据的标度化及滤波

在经过变量筛选后,模式识别分类计算之前,应采用合适的数据预处理方法:标准化、标度化(scaling)及滤波(filtering)[4];模式空间中样本代表点分布结构改变,更有利于分类运算。

数据的标准化通常应用于尿样,24h尿液收集较为困难,个体饮食上的差异

导致单次尿样中代谢物的总体浓度存在较大差异,可能最终导致模式识别的失败,因此需要对其进行标准化。常见的标准化方法包括归一法和校准法。

将单一样本的所有信号进行归一化处理,可以在一定程度上校准尿样由于总

体浓度导致的偏差。但问题是显而易见的,如果只有其中几个组分的浓度发生变化,标准化处理会使其他变量受到影响,偏离实际情况。另一种是采用尿中的肌苷对尿样信号进行校准(采用比值代替实际信号强度),该方法可以较好地体现实际代谢的情况,但不适合于那些由于疾病因素可能导致的肌苷值不正常的样品。

常用的标度化方法种类较多,对于不同类型的样本应选择合适的标度化方

法,以便获得理想的分类结果,常见的标度化方法有: 式

1)范围标度化(range scaled)

,",

百度搜索“70edu”或“70教育网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,70教育网,提供经典教育范文代谢组学方法与应用(许国旺)张强(6)在线全文阅读。

代谢组学方法与应用(许国旺)张强(6).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.70edu.com/fanwen/1047340.html(转载请注明文章来源)

相关推荐:

Copyright © 2020-2025 70教育网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:370150219 邮箱:370150219@qq.com
苏ICP备16052595号-17
Top
× 游客快捷下载通道(下载后可以自由复制和排版)
单篇付费下载
限时特价:7 元/份 原价:20元
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:xuecool-com QQ:370150219