基于组合分类器的生物命名实体识别

进修社 人气:2.01W

论文摘要: 生物命名实体识别是一项非常重要和基础的生物医学文本挖掘技(略)键的一个步骤,只有正确地识别出生物命名实体,才能有效地完成基因标准化、生物事件抽取以及蛋白质-蛋白质交互关系抽取等更加复杂的工作.生物医学命名实体包括(略)、DNA、RNA等,通常有着复杂的结构,对于这些实体的鉴别和分类是非常富有挑战性的.机器学习方法例如CRF、MEMM和SVM已经广泛的应用于从已标注的语料中学习识别出生物医学命名实体.然而,生物命名实体识别系统的性能仍然没有普通命名实体识别系统的好.(略)高生物命名实体识别的性能,研究者提出了合并多个分类器结果的多分类器方法. 本文主要研究基于组合分类器的生物命名实体识别方法,实验是在BioCreAtIvE 2GM的训练语料和测试语料上进行的.本文主(略)下两点: ⒈构建单一分类器模型 本文利用不同的分类模型、不同的分类方法和特征集构建了六个不同的机器学习模型,并对每种模型采用的`特征集,特征抽取方法,以及训练过程进行了详细介绍. (略)提高最大熵方法的识别性能,本文采用TBL方法对最大熵的标注结果进行了纠错处理.实验结果显示纠错处理在很大程...

基于组合分类器的生物命名实体识别

Biomedical Named Entity Recognition (Bio-NER) is (omitted)ly important and fundamental task of biomedical text mining, and is also a critical step for biomedical text mining, only when(omitted)ies are correctly i(omitted)could other more complex tasks, such as, gene normalization, biomedical eve(omitted)tion and protein-protein interaction extraction, be performed effectively. Biomedical named entities include mentions of proteins, genes, DNA, RNA, etc which oft(omitted)omplex structures, but it is cha...

目录:

摘要 第4-5页

Abstract 第5-6页

1 绪论 第9-16页

·研究背景与意义 第9-10页

·研究现状 第10-14页

·本文主要研究内容 第14页

·本文组织结构 第14-16页

2 机器学习模型 第16-25页

·支持向量机模型 第16-18页

·最优分类超平面 第16页

·核函数 第16-17页

·SVM多分类问题扩展方法 第17-18页

·最大熵模型 第18-20页

·条件随机场模型 第20-24页

·CRF的无向图结构 第21-22页

·CRF与势函数 第22-23页

·CRF的参数估计 第23-24页

·本章小结 第24-25页

3 单一分类器的构建 第25-40页

·实验语料及语料的预处理方法 第25-26页

·有效的特征信息 第26-28页

·不同单一分类器的构建 第28-38页

·基于条件随机场的生物命名实体识别 第29-32页

·基于支持向量机的生物命名实体识别 第32-34页

·最大熵方法的生物命名实体识别 第34-38页

·本章小结 第38-40页

4 基于组合分类器的生物命名实体识别方法 第40-46页

·组合分类器方法 第40-43页

·后处理 第43-45页

·本章小结 第45-46页

5 实验与结果分析 第46-54页

·单个分类器实验结果 第46-47页

·组合分类器方法的识别结果 第47-52页

·集合并/交操作方法实验结果 第47-49页

·投票方法实验结果 第49-50页

·叠加方法实验结果 第50-51页

·结果比较与分析 第51-52页

·错误分析与总结 第52页

·本章小结 第52-54页

结论 第54-55页

参考文献 第55-58页

攻读硕士学位期间发表学术论文情况 第58-59页

致谢 第59-61页