3.2共出现频率分析
文献挖掘有不同层次的分析单元,如单词、短语、句子、摘要或者全文。对于实体共出现频率而言,以句子为最大分析单元式最合理的选择。如果两个实体对象同时出现在一个句子中,那么就称为实体共出现,而这两个实体称为共出现实体。通过文本挖掘方法处理大批的文献,提取得到共出现实体,统计它们的总数并计算出实体共出现频率。如果两个实体对象的共出现频率很高,表明这两个实体对象经常被同时提及,这暗示着这两个实体对象之间存在关联的可能性较高。相反,如果实体对象的功出现频率很低那么这两个实体对象之间存在关联的可能性就较低。实验主要针对蛋白质实体.因此只讨论蛋白质一蛋白质实体的共出现频率。
3.3关系挖掘通过计算共出现实体在所有句子中的出现频率,提取关联实体。根据设定不同的最低共出现频率阈值,得到不同可靠程度的存在关联的实体数据,从而发现最有可能存在关联的蛋白质一蛋白质实体对象。
4实验
4.1实验数据集
本实验以从MEDLINE中随机新选的2000篇摘要为语料,实验数据统计见表1。
4.2实验结果
实验采用条件随机域模型进行实体识别,通过计算共出现频率形成候选实体对。实验结果详见表2。其中,“过滤”指忽略低于指定频率的共出现实体.在这里,指定频率为5。
5结束语
随着数据挖掘和文本挖掘技术的进步,生物医学文献挖掘在生物信息中的应用越来越广泛。以知识发现为目的的文献挖掘以分为提取知识、整合知识以及推导知识。文献挖掘在寻找蛋白质相互作用、发现疾病相关的基因以及注释基因功能等方面得到广泛应用。本文首先识别出蛋白质实体,形成实体列表,然后统计共出现频率,形成候选实体对,从而发现最有可能的实体关联。
实验采用基于实体识别的共出现频率统计模型,该方法过程简单,不需要领域专家的直接参与。由于实体在句中具有特定的义,因此,如果模型能够融合部分语义特征,进行实体关联动词统计,进而进行共出现频率与关联动词相结合的分析。这是我们今的研究方向。
百度搜索“70edu”或“70教育网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,70教育网,提供经典计算机基于生物医学文献的蛋白质关系发现(2)在线全文阅读。
相关推荐: