一、三种生物医学文献数据库各自的优势(论文文献综述)
吴纪龙[1](2021)在《中医药大数据资源数据仓库构建及处方分析应用研究》文中进行了进一步梳理中医药学凝聚着深邃的哲学智慧和中华民族几千年的健康养生理念,在长期的临床诊疗实践中积累了丰富且宝贵的资源,这些资源种类繁多、数据量巨大并广泛分布于整个中医药领域,如何充分整合、利用及管理这些数据资源是中医药面临的难题。中药处方是中医药学理、法、方、药的重要组成部分,是在辨证论治的基础上选药配伍形成,基于大规模临床数据,发现治疗疾病的有效核心处方和潜在药物配伍可有效辅助临床决策支持。但当前仍然较多的采用传统方法对中医药数据进行存储和计算,这种方式扩展性不高且容易达到瓶颈。针对该问题,本文将有效结合大数据技术、机器学习及复杂网络等算法,对海量临床数据进行分布式挖掘,本文主要包括以下内容:(1)基于CDH(Cloudera’s Distribution Including Apache Hadoop)大数据平台,完成了对中医药大数据资源数据仓库的构建。首先,提出了一种自上而下和自下而上相结合的体系结构,使数据仓库的逻辑结构更加的清晰。同时,将多源数据采集到HDFS,分析其数据特点和相互之间的联系,设计了主题域模型和多维数据模型。然后,采用Spark、Hive QL等技术开发了ETL任务并通过Dolphin Scheduler配置了ETL工作流,完成了多源数据到数据仓库的映射,当前数据仓库包含的记录条数近3.4亿条,数据量约351GB。最后,采用Kylin针对方药主题构建了数据立方体,进行了多维OLAP分析示范研究。该数据仓库具有多源数据整合及数据处理等功能,具备Web多维分析和数据挖掘功能。(2)基于中医药大数据资源数据仓库,完成了对中医临床有效处方的分布式挖掘工作。首先,从数据仓库中抽取出慢阻肺病患者的临床诊疗数据形成数据集市。然后,根绝患者的治疗情况分为有效组和无效组,采用倾向性评分匹配方法消除两组间的混杂偏倚,针对有效组人群,提取其处方信息构建药物配伍网络并通过多尺度骨干网络算法提取核心药物子网,通过药物富集分析方法进行有效处方(P<0.05)发现,发现了165个有效处方,其有效比达到了80.88%,可作为治疗慢阻肺病的核心处方。最后,通过条件互信息法挖掘出有效药症知识。(3)开展了中药方剂配伍规律的分布式挖掘研究。为高效挖掘中药方剂中的关联规则,本文提出了一种分布式Charm算法,该算法基于Spark框架下,有效解决了传统方法挖掘效率低及内存溢出的问题。针对关联规则数量较多的问题,本文提出了一种分布式压缩算法,得到了更少的且更具代表性的关联规则,实验表明,得到的关联规则在临床上具有非常好的指导意义。
钟灵玥[2](2021)在《基于深度学习的实体关系抽取研究与应用》文中认为实体关系抽取是自然语言处理领域中处理非结构化文本的重要方法,能够从非结构化文本中提取出有效的实体对和关系,形成(头实体,关系,尾实体)的关系三元组结构,进一步生成实体关系网络,是搭建知识图谱及后续拓展研究的技术基础。生物医学领域存在大量的非结构化文本,同时业界对这些文本的分析处理也有浓厚的兴趣,因此本文选择该领域作为应用场景。随着深度学习技术的发展,基于深度学习的实体关系抽取方法较传统的特征提取方法取得了更好的成绩。然而,训练深度学习模型需要大量标注数据,但目前实体关系抽取领域普遍存在标注数据偏少的问题,现有的模型也存在实体提取和关系抽取两个子任务间联系较弱、对重叠三元组处理效果欠佳的问题。本文针对上述问题,进行了相应的研究与改进。针对缺乏标注数据的问题,本文首先借助远程监督方法,利用知识库自动生成数据标签,再使用提出的RLDN-RL模型对生成的标注数据集进行降噪处理,从而达到优化数据集质量的目标。本文选择CTD和Open KG生物医学知识库,并从Pub Med生物医学文献数据库获取非结构化文本,然后对齐到知识库中的三元组,自动获取标签。由于使用远程监督方法生成的标注数据集中存在大量噪声,本文采用基于规则和强化学习的方法分别对标注数据集中的负样例和正样例进行降噪处理,获得更高质量的自动标注数据集。针对实体提取和关系抽取两个子任务间联系较弱、模型处理重叠三元组效果欠佳的问题,本文提出了TagRE系列模型,采用联合抽取方法和重新定义子任务的方式加以处理。TagRE模型使用联合抽取的方法,同时抽取句子中的实体和关系,避免了将两个任务分隔开而导致的子任务间缺乏关联的问题。该模型还重新划分了子任务的分割方式,采用先提取句子中的头实体,再根据不同的关系类型预测尾实体的方式实现三元组的抽取。以对不同的关系类型分别建模的方式,从原理上优化了模型对重叠三元组的抽取效果。基于上述数据来源获取的结构化三元组信息,本文设计并构建了生物医学知识图谱,以图形化的界面展示所有三元组,并搭建了实体关系查询与关系三元组预测模块,为科研工作人员及医学工作者的研究和工作提供了便利。
张慧(Helena H Zhang)[3](2020)在《优质论文之计量特征及学科差异研究》文中认为测评学术论文的质量和数量是两种完全不同的价值取向,二者无法相互替代。对学术论文的质量评价是一种质性判断,属于定性评价,理应通过同行评议来进行,但在同行评议实行过程中出现了诸如评审人员主观因素和人际因素影响、评审过程缺乏客观有效性且效率低下等问题,限制了同行评议的进一步发展。对学术论文的数量评价则属于定量分析,这方面的研究主要运用引文分析方法,其中最重要的实践则为科研评估工作。定量化的研究可以摆脱定性评价中人为因素及社会环境的影响,但在实践过程中也不可避免地受制于量化测度的选择以至过度依赖甚或滥用,且部分造成了学术工作中不端行为的产生。为打破科研评价中片面、过度、扭曲依赖SCI相关指标的局面,教育部和科技部于2020年2月20日印发了《关于规范高等学校SCI论文相关指标使用,树立正确评价导向的若干意见》的文件,此文件的发布积极推动了定性与定量相结合的综合评价研究。基于以上背景,并结合相关研究,本文研究尝试综合考虑学术论文质与量的测评,基本研究思路为在预先保证学术论文品质的前提下,选取优质论文数据集对其量化特征以及学科间差异进行探究。出于此目的,本文将研究聚焦于诺贝尔奖获奖者的论文集上,优质论文包含两部分,分别为诺贝尔奖获奖者的关键论文和关键论文集,关键论文用于优质论文计量特征的挖掘及学科适用性的探讨,关键论文集则用于更大范围优质论文集上计量特征在不同学科之间的差异比较。研究所涉及学科包括诺贝尔奖物理学、化学、生物医学和经济学。本文最具特色研究为方法论部分构建的优质论文中的两种特殊计量模式——“天鹅群”模式和“伴随睡美人”模式,并在不同优质论文数据集中对这两个模式进行了实证探索,主要结论为:(1)“天鹅群”模式在诺贝尔奖四个学科优质论文中均可适用,且所占比例最低在30%左右,在关键论文中整体占比要高于关键论文集。同“睡美人”模型,“天鹅群”模式也是聚焦于人类科学历史上重要发现的计量模式的研究,且存在比例远高于“睡美人”;(2)依据“天鹅群”指数可将“天鹅群”模式分为三种类型,在各学科关键论文集中,“类型2”的“天鹅群”实例占比最多,其次为“类型3”,在各学科关键论文中的此结果略有差异;(3)在诺贝尔奖四个学科中,“伴随睡美人”模式在经济学和物理学中出现比例较高,化学和生物医学中则相对很低,且“伴随睡美人”实例中存在“获奖者聚集”现象。(4)区别于单纯定量挖掘“睡美人”文献的研究,“伴随睡美人”模式可作为一种综合论文质与量测评的挖掘“睡美人”文献的方法加以应用;(5)随优质论文数据集扩大,其论文品质有所下降,即关键论文集论文品质不如关键论文优质。研究结果表明,在降低论文品质之后“天鹅群”模式和“伴随睡美人”模式比例也有所下降。本文研究为综合论文质与量测评研究的初步探索,且研究思路有别于已有相关研究的思路,希望本文内容的探索可为相关研究提供启发,本文挖掘的优质论文计量特征可为未来定量化评价论文品质的相关研究及科研评估工作提供参考。
狄亚超[4](2020)在《基于深度学习的文献信息抽取及在脑连接研究中的应用》文中研究指明近年来,神经科学领域正在快速发展,利用各类光学成像技术对神经解剖学结构和功能进行研究也成为热门的课题。随着互联网技术的进步,研究成果多以非结构化电子文本的形式存储在大量科学文献中,因此利用先进的自然语言处理、光学字符识别、知识图谱等技术,大规模自动化地从神经科学文献中抽取结构化信息,能够极大地促进研究人员对领域内研究内容的掌握和研究现状的认识。然而,神经科学领域现有的信息抽取系统多采用基于规则和传统机器学习的方法,抽取结果受人工制定规则和特征工程的影响较大,抽取精度难以满足科学研究的需求。相较而言,生物医学领域的信息抽取系统多采用基于深度学习的方法,既省去了繁琐的人工参与,又通常具有更好的抽取效果和更强的泛化性能,因此一个自然的思路是将生物医学领域的信息抽取技术延伸到神经科学领域。本文针对神经科学领域信息抽取数据集的特点,设计了相应的预处理方法使得先进的信息抽取技术能够用在神经科学领域,然后在实体抽取和关系抽取两个子任务上分别训练、测试并遴选深度学习模型,接着与文献获取及预处理、结果后处理和可视化分析组合,构建了相应的信息抽取工具,用于实际从大规模的神经科学文献中高效自动化地抽取知识。文章以脑连接信息抽取为例,首先用金标准数据集验证了抽取模型的可靠性:其中对于实体抽取任务,基于深度学习的基准模型能够取得与传统脑区实体抽取模型相当的结果,加入多任务学习或迁移学习知识构造的模型还能进一步提高召回率和增强泛化能力;对于关系抽取任务,迁移预训练模型并与不同标注形式相组合的方法相较传统最好的脑连接关系抽取模型,抽取结果的F1值提升了超过20%,解决了后者精度太低难以用于大规模文献抽取的问题。接着利用构建的信息抽取工具直接从神经科学文献摘要中抽取脑连接关系,通过内部任务和外部任务的测试验证了工具的有效性。综上,本文建立了基于深度学习的神经科学信息抽取方法并应用在脑连接研究中,弥补了传统信息抽取方法的不足,可用于直接从文献中大规模地抽取脑连接信息。在数据集可用的情况下,可以很容易推广到抽取其他类型的神经科学知识,为进一步构建神经科学知识图谱提供了可能。
王也[5](2020)在《生物医学领域实体关系抽取研究》文中指出生物医学文献和生物医学数据库是生物医学领域知识的主要来源,生物医学文献和数据库中的生物医学实体关系是领域知识的一种表现形式。实体关系将文献中抽象的语义信息转变为结构化的实体信息,不仅方便生物医学领域研究人员对领域知识的获取,还可以实现生物医学信息的自动化处理,推动生物医学领域研究工具的开发及医疗领域的信息化发展。因此,生物医学领域的实体关系抽取是将生物医学领域知识结构化和发现新生物医学知识的重要方法。目前研究工作主要集中在海量生物医学文献中抽取实体关系方法研究,而从生物医学结构化知识中抽取实体关系方法的研究还没有得到广泛的关注。本文以生物医学实体关系抽取为研究主线,研究生物医学文献主题关系模型,抽取文献主题相关的实体关系,进而构建生物医学知识网络,在知识网络上实现基于链路预测的生物医学实体发现方法和基于图神经网络的生物医学实体发现方法,从结构化生物医学数据库中发现实体隐性关系。本文主要的研究内容包含以下几部分:第一,针对当前抽取生物医学实体关系与文献主题相关性不足的问题,研究实现文献主题关系抽取方法,通过建立主题分布模型和实体关系抽取模型,从特定文献中抽取与主题相关的生物医学文献主题关系。文献主题关系是与某一文献主题相关的、从这篇文献中抽取的生物医学实体关系。传统海量文献中抽取生物医学实体关系的方法不能确定文献主题与抽取实体关系之间的主题相关性。本文提出主题实体在文献中的空间分布模型,将文献的主题信息转化成实体空间分布属性,赋予文献中所有生物医学实体主题概率值。将此模型与基于模式的实体关系抽取方法结合,获得文献主题关系抽取模型。文献主题关系抽取模型抽取的实体关系与对应的文献主题相关。文献主题关系对应文献就是它们实体关系的证明。文献主题关系与文献的关联关系可以用于建立面向实体关系的文献检索模型。实验结果表明,与传统的生物医学实体关系抽取方法相比,文献主题关系抽取模型抽取实体关系准确度相似,同时还能实现文献主题的发现。第二,针对生物医学多类型实体知识库信息量有限和生物医学知识库中实体关系抽取研究较少的问题,研究多类型实体知识网络的构建方法和实体知识网络上的实体隐性关系抽取方法。建立生物医学知识网络,并实现基于链路预测的实体关系抽取方法,从生物医学知识网络中抽取实体隐性关系。以疾病实体和基因实体为例,研究单类型实体的多个数据库数据的融合方法,建立单类型实体知识网络。引入实体关系数据库和文献主题关系,利用实体关系映射建立不同类型生物医学实体之间的关联关系,进而实现多个单类型实体数据库信息的融合,构建多类型实体知识网络。生物医学知识网络包含融入的多类型实体的属性特征和关系信息。实体知识网络中的连通路径连接可能存在实体关系的实体,这些实体之间的潜在关系是实体隐性关系。设计实现生物医学知识网络中基于链路预测的实体隐性关系发现方法。实验结果证明生物医学知识网络中实体隐性关系确实存在,通过实体隐性抽取方法获得实体关系,并通过最新的生物医学文献加以验证。第三,针对生物医学知识网络中实体关系抽取研究较少和文献中实体抽取较少利用外部领域知识的问题,设计实现基于图神经网络的生物医学实体关系发现方法,使用本文构建的生物医学知识网络,建立孪生图神经网络模型,发现生物医学知识网络中的生物医学实体隐性关系,辅助实体关系抽取。生物医学知识网络是多类型生物医学实体数据库,目前对这一类知识库中的实体关系抽取方法研究较少,因此生物医学知识网络中包含大量待发现的实体关系。同时,利用生物医学领域知识作为外部信息,从文献中抽取实体关系的方法模型很少,而领域知识含有的信息对实体关系抽取有重要参考价值。本文利用孪生网络结构和图神经网络构建生物医学实体关系发现方法,学习实体在生物医学知识网络上的空间特征和语义特征,并利用学习的实体特征进行实体关系判断,实现生物医学知识网络中的实体关系发现。通过引入文献中实体的位置向量,结合图神经网络中实体特征,判断文献中实体关系的存在。实验结果表明,生物医学知识网络实体关系发现方法的准确率和性能,优于基于链路预测的实体关系发现方法等其它实体关系发现方法。
陈东华[6](2020)在《面向决策支持的医学文本语义分析方法研究》文中进行了进一步梳理随着医疗信息化的快速发展,医疗信息系统中存储着各类医疗数据的体量不断增长,海量异构医疗数据的分析成为推动医疗健康领域管理决策支持的挑战。医学文本信息是推动该领域相关研究的重要数据基础。患者的电子病历中包含了大量症状、诊断、病程、会诊等文本信息,充分利用这些包含丰富临床医学知识的医学文本对医疗健康领域决策支持非常重要。然而,当前这些有价值的医学文本却难以有效地应用在实际医院管理、临床决策支持、个人健康管理、公共卫生决策等实际场景中,原因包括:非结构化医学文本无法精准结构化、医学文本丰富的语义信息致使难以分析、医学文本信息无法脱离具体的医学情境、不一致的医疗信息标准导致信息交换困难、不同医疗机构之间共享数据机制的缺失等。这些问题的根源在于医学文本是特殊的专业领域语言,不仅具有各类语义信息,还包含丰富医学领域知识。有效的医学文本语义分析成为解决这些难题的关键技术。当前语义分析研究更多地是研究面向通用领域的自然语言处理技术,相关技术虽然在方法上进行创新,却无法结合医学场景和领域知识推动医学文本语义的分析,致使无法为机器学习乃至深度学习模型提供高质量训练数据集,降低决策的质量。同时,海量医疗文本在分布式计算环境的分析和处理也成为利用这些数据分析决策的障碍和挑战,现有研究遇到了方法和性能上的瓶颈。本博士研究依托国家自然科学基金重点项目“大数据驱动的智慧医疗健康管理创新”(编号:71532002),在充分对国内外理论和技术文献综述基础上围绕着面向决策支持的医疗文本语义分析相关方法进行研究,研究内容包括医学场景下的文本语义分析、医疗信息标准化、领域知识建模、机器学习和大数据分析等方法,解决当前医疗信息行业中海量医学文本数据挖掘和分析的难题,为大数据时代下我国医疗信息化发展提供借鉴。研究内容和结果如下:(1)基于自然语言处理的医学文本结构化和标准化方法首先分析现有中文和英文电子病历中存在的医学文本特征和信息结构,建立基于N-Gram的医学文本语义模型。然后,针对非标准化的医学叙述性文本,研究具体的医学文本分析任务,对医学文本进行分词、词性标注、语义关系提取等分析,提出针对中文病历文本的自动结构化处理方法;结合医学场景的语义和语境知识,以中文超声检查报告分析为例,对该类文本关键信息进行分解、标注和重组。结果表明,基于语义分析的医学文本分析方法在医学文本结构化、分词、标注等文本分析任务的性能得到明显提升。(2)基于领域知识库的医学文本语义分析和知识发现方法首先研究医学领域的相关知识库,并分析这些知识库在医学文本数据挖掘和知识发现上的应用前景。然后,为了解决医学文本语义相似度计算方法,提出一种基于加权Levenshtein距离和N-Gram的文本相似度计算方法。为了解决医学概念相似度计算的问题,提出基于UMLS的医学文本相似度和相关性度量的计算方法。结果表明,在融入医学文本语义特征和领域知识库中医学概念文本定义信息后,基于文本相似度和相关性计算的医学文本分析任务能更好地满足实际需求。最后,针对医院中计算机辅助ICD编码的决策支持场景,融合Word Net语义知识库,提出一种基于语义分析的计算机辅助ICD-11编码方法,提高患者诊断信息编码的精确度和ICD编码员的工作效率。(3)面向决策支持的海量医学文本分析方法及应用案例研究在研究内容(1)和(2)基础上研究面向海量医学文本分析的方法和应用案例,并提出大数据分析性能自动优化方法。首先,研究面向具有复杂结构的医学文本的主题建模方法,分析相关机器学习算法在不同场景的应用特点;然后,针对海量医疗文本数据的分析,创新地提出基于Map Reduce分布式计算模型的医学文本处理方法,并以医疗数据的关联操作和自动编码等应用场景,对提出的分布式医学文本分析方法性能进行实验和分析。最终,提出基于无导数优化理论的Map Reduce性能自动调优方法,解决了海量医学文本分析方法在分布式计算环境运行的方法设计和性能自动优化的关键问题。
冯靖焜[7](2020)在《面向生物医学领域的篇章关系抽取算法研究》文中研究指明作为前沿热门交叉学科,生物医学领域涵盖了包括生物学、生命科学、医学和计算机科学等多个学科的专业知识,该领域的研究也因此得到了研究者的广泛关注。最近几年,研究者在生物医学领域取得了非常大的研究进展,该领域专业文献的数目也随之呈指数增长,进而导致研究者在获取所需信息时通常需要翻阅大量的文献。因此,通过文本挖掘技术,从生物医学领域的无结构专业文献中抽取有价值的生物医学信息对于推动该领域的研究而言具有重要意义。关系抽取是生物医学信息抽取的关键任务之一。目前主流的关系抽取技术普遍是基于句子级别的,即主要关注于抽取同一句子中的两实体关系。在篇章关系抽取任务中,关系中的两个实体不再处于同一句中,而是横跨多个句子,从整体上对概念级的关系进行表示,相比句子级关系抽取具有更大的难度。基于此,本文首先提出一种基于多示例学习的方法来进行篇章级别的生物医学实体关系抽取。该方法根据多示例学习思想,为每个候选实体对构造多个关系示例,有效缓解了单示例方法在进行句间关系抽取时由于单示例可能存在噪音而损害模型性能的问题,与可比较的主流方法相比,该方法获得了最好的性能表现。另外,生物医学领域的人工标注数据规模通常较小,这会导致模型训练不够充分,进而影响系统的关系抽取性能。针对该问题,本文在引入远程监督的同时,提出一种融合领域知识的方法来进行关系抽取。该方法首先通过远程监督将现有知识库和生物医学文献对齐,生成了大量标注数据,进而扩大了训练集,在一定程度上增强了模型的学习能力。同时,该方法对领域知识的融合进行了初步探索,通过将领域知识信息与文本语义信息融合,来进一步对系统的关系抽取性能进行改善。实验结果表明,该方法可明显提升系统的性能表现。最后,语言模型预训练方法在众多自然语言处理任务上都获得了先进结果,这引起了研究者的广泛关注。为了探索预训练语言模型在生物医学关系抽取任务上的表现,本文在现有关系抽取模型的基础上引入预训练语言模型。即首先通过大规模无标注的生物医学数据对语言模型进行预训练,然后将语言模型的文本表示当作特征加入到关系抽取模型中,最后输出关系预测结果。实验结果表明,融合了预训练语言模型的关系抽取方法获得了明显的性能提升。
崔志刚[8](2020)在《基于本体的肺癌遗传信息融合知识库构建和知识发现》文中研究表明目的:肺癌是发病率和死亡率增长最快,对人群健康和生命威胁最大的恶性肿瘤之一。WHO网站公布的数据显示,2015年全世界癌症导致880万人死亡,其中因肺癌致死169万人,占整个癌症死因的近20%,排在第一位。肺癌的遗传与变异研究一直是相关领域专家的研究热点。截至2019年3月,在医学文献数据库Pubmed中,与肺癌有关文献超过10万条。随着肺癌相关数据和知识的不断积累,为肺癌的相关数据挖掘研究提供了良好的知识基础。信息管理在卫生事业管理活动中发挥的的作用越来越大。生物医学信息的高效管理和组织不仅能为相关研究提供知识基础和支持,也能为相关领域带来经济效益。为了更加有效的对肺癌文献数据和基因表达数据进行组织、管理,实现知识获取与知识利用,本研究在有效整合现在数据信息的基础上,从非结构化文本中抽取肺癌相关生物学实体以及疾病类型、遗传信息与临床信息之间的联系模式;从表达数据库中获取基因表达、临床特征等信息。然后利用本体论和语义网络知识对多种来源数据进行无缝整合,构建肺癌遗传融合信息知识库,以实现高效组织管理肺癌相关的遗传信息知识,并对遗传与变异等信息进行细粒度注释。知识库可为相关领域研究人员提供知识服务和决策支持,通过将遗传信息与肿瘤调查和预防等信息进行融合,为肺癌筛检、发病风险因素等公共卫生和流行病学研究的开展提供精准的知识基础和数据支持;通过建立遗传信息与肿瘤发生发展、诊断、治疗和预后等信息的联系,为肺癌相关临床研究方案的制定提供决策支持。同时知识库通过基于数据的推理科进行预测肺癌基因调控网络、关键基因等数据挖掘。本研究分为三部分,分别是肺癌遗传信息和临床特征信息数据的挖掘与整合、肺癌遗传信息融合本体知识库构建、应用本体知识库知识基于语义技术构建肺腺癌CASC8基因语义网络和相互作用网络。研究对象与方法:本研究的研究对象主要是是肺癌相关文献数据和基因表达数据,文献数据是从Pubmed中下载;基因表达数据下载自TCGA的LUAD和LUSC项目。研究所需词典数据下载自公共权威数据库。miRNA与mRNA、lncRNA靶向作用数据取自miRWalk和lncBase数据库。在数据挖掘与整合阶段,本研究通过相关文献的文本挖掘,从非结构化文本数据中识别肺癌相关的生物医学实体,包括肺癌类型、临床相关信息(肿瘤调查、诊断、肿瘤病理过程、治疗、预后)、基因和变异等类信息,并从中抽取出各生物医学实体之间的关系。利用生物信息学方法对肺癌相关基因表达数据进行分析,从表达数据中找到肺腺癌和肺鳞状细胞癌的差异表达基因、共表达基因,并对差异表达基因进行生存分析。文本挖掘的过程包括词表构建、语料库准备、分词、词性标记、句法分析、命名实体识别、实体关系抽取。本研究共构建了5词表,分别是疾病、mRNA、miRNA、lncRNA和临床信息词表。研究使用的软件工具包括Python3.7、Stanford coreNLP、Putator等。采取基于词典结合语法规则的方法进行命名实体识别,同时结合一体化生物医学命名体识别工具Pubtator的疾病、基因和变异信息识别结果进行交互验证;实体关系抽取过程采取依存图分析结合路径分析的方法从文本中提取“实体+动词+实体”三元组。本研究使用R软件完成基因表达数据的预处理和后续分析过程。分析过程主要包括利用DEseq2包对表达数据进行校正;使用edgeR包进行基因差异表达分析,使用pheatmap绘制热图;利用WGCNA包对差异表达基因执行WGCNA分析;对差异基因进行Kaplan-Meier曲线单因素生存分析;利用Cytoscape构建ceRNA网络。完成数据挖掘和整合后,在知识库构建阶段本研究遵循本体构建“五准则”,使用“七步法”来完成本体知识库的构建,使用OWL结合RDF和RDFS进行知识表示。知识库构建的软件包括使用Protégé进行本体模型构建;使用MySQL、D2RQ、Apache Jena TDB数据库软件实现本体数据管理;使用Apache Jena进行本体数据的整合和推理。最后本研究利用PHP脚本语言开发肺癌遗传信息本体知识库查询界面,基于链接数据构建CACS8基因的语义网络和基因相互作用网络并据此进行分析和注释。结果:1.数据来源结果。本研究共从Pubmed共下载文献数据107718篇。从TCGA数据库的LUAD项目下载RNA-seq数据515例、microRNA-seq数据513例;LUSC项目下载RNA-seq数据501例、microRNA-seq数据478例。2.文本挖掘结果。分析语料库包括句子文本981396条。命名实体识别过程共识别实体989136个,在与Pubtator下载数据整合清洗后得到实体595694个。按在句子范围内共现进行筛选按后共得实体关系51661对,其中基因与临床关系对30532个,基因与变异4786个,基因与肺癌类型11771个,变异与肺癌类型1750个,变异与临床信息2822个。利用依存句法图分析得到“实体-关系动词-实体”三元组49032个。3.基因表达数据分析结果。经过差异表达分析在LUAD项目中共发现mRNA差异基因2501个,其中上调1958个、下调543个;lncRNA差异基因1503个,其中上调1296个、下调207个;miRNA差异基因共118个,其中上调98个、下调20个。在LUSC项目中共发现mRNA差异基因3488个,其中上调2318个、下调1170个;lncRNA差异基因1687个,其中上调1425个、下调262个;miRNA差异基因共170个,其中上调143个、下调27个。按照log-rank检验p<0.05的显着性水平对差异基因进行筛选,LUAD共有541个mRNA、120个lncRNA和13个miRNA与OS相关;LUSC共有774个mRNA、335个lncRNA和19个miRNA与OS相关。构建LUAD差异表达基因ceRNA网络包括mRNA、miRNA、lncRNA节点39、23、120个,包括lncRNA-miRNA关系对506对,miRNA-mRNA关系对50对;LUSC差异表达基因ceRNA网络包括mRNA、miRNA、lncRNA节点55、28、722个,包括lncRNA-miRNA关系对4532对,miRNA-mRNA关系对68对。4.本体构建过程。构建数据库和映射文件将关系数据库内容转换为RDF数据,通过数据转换共得到2755697条三元组数据。利用Protégé进行本体知识库建模,主要概念包括基因、变异、疾病类型、临床信息、分句文本、关系动词。基因概念除mRNA、miRNA、lncRNA几个子类外,按照基因的表达情况及其与临床信息、肺癌类型的相关关系定义基因子类。肺癌类型概念根据肺癌的病理学分型进行分类,并按照实际疾病类型概念进行了类别层次设置。临床信息概念的子类分别是诊断、肿瘤调查、疾病病理过程、治疗、预后。定义分句文本和关系动词概念可对生物实体来源和“实体-动词-实体”三元组进行表示。知识库的实体类别间的关系主要包括基因、变异、疾病类型、临床信息之间的相关关系,实体与生物医学文本的关系,miRNA、mRNA、lncRNA各自的共表达关系,miRNA与mRNA/lncRNA的靶向关系。在本体模型中定义了6种属性,分别是实体类别相关属性、miRNA靶向作用属性、mRNA与lncRNA反向作用属性、基因共表达属性、实体位置属性、文本包含属性。将本体模型与三元组数据合并后定义推理规则对本体模型进行验证,将基因进行了重新的分类。在应用实例部分,使用SPARQL查询从知识库中获取CASC8基因在肺癌中的分类、表达和关系情况,同时获得其相互作用基因和变异情况,其相关共表达lncRNA73个、靶向差异表达miRNA16个、相关ceRNA网络mRNA127个、变异1个(rs10505477)。相关基因中诊断类基因21个、肿瘤调查类基因13个、治疗类基因76个。同时利用查询信息构建CASC8基因语义网络和基因相互作用网络。结论:1.本研究使用基于词典结合规则的方法对肺癌相关非结构化文献数据进行文本挖掘,成功对肺癌相关生物医学实体进行识别;并利用共现分析、依存句法图分析结合路径分析的方法实现实体间的关系的抽取。2.通过使用自顶向下和自底向上的方法构建肺癌遗传信息本体知识库,在对非结构化文献数据的文本挖掘和对TCGA肺癌项目基因表达数据的生物信息学分析的基础上,整合了已有的基因相互作用知识,同时结合本体顶层建模,实现了肺癌相关遗传和临床特征等知识的完整的无缝整合。3.利用知识库进行基于数据的推理后,将基因按照临床特征信息和表达情况进行了重新分类,实现了对肺癌相关基因与变异信息的细粒度注释。4.通过知识库查询系统的构建实现了知识库信息的查询和可视化显示。研究人员可以利用肺癌知识库查询界面获取基因在肺癌相关基因的注释信息、表达情况和相互作用信息。5.专家应用反馈显示肺癌本体知识库能为肺癌相关的流行病学研究、临床研究在科研选题和结果注释等方面提供知识服务和决策支持。6.以CASC8为例展示了肺癌知识库相关知识的查询过程,获得的基因相互作用网络为相关机制的研究提供潜在的理论基础。
高金贺[9](2019)在《基于生物医学语义数据的药物-疾病相互作用关系预测研究》文中研究表明药物研发耗时费力成本高昂,药物重利用是解决问题的重要途径,其中药物-疾病的关系预测是药物重利用中的研究热点。早期的方法主要是基于文本挖掘的关系链接预测的相关方法,但是无法考虑疾病的潜在机制。为了更好地处理和分析疾病机制中的复杂关系,网络模型被应用到药物-疾病相互作用关系预测研究上。现有的基于网络模型的关系预测方法虽然考虑了复杂关系的整体性,但却忽略网络中的节点差异性。另一方面,现有模型大都采用是以药物为中心,靶标为线索的思路,无法全面分析致病机制。与此同时,大部分评估方法缺乏在多种疾病上的验证及结果评价。针对以上问题,本文以疾病为中心致病因素为线索,综合考虑所有与疾病具有致病语义关系的基因和蛋白质实体,对复杂致病语义关系进行量化,提出了一种基于量化语义关系计算的药物-疾病相互作用关系预测方法(QSRCPM)。基于同样的思路,考虑网络节点的差异性,本文提出了致病贡献网络模型及基于该网络模型的药物-疾病相互作用关系预测方法(CCNPM)。该方法提出了基于Page Rank的节点贡献值的概念,以此来体现节点的差异性,通过致病贡献网络模型进行药物-疾病相互作用关系预测。在此基础上,针对数据来源的置信度的问题,提出了一种基于节点置信度的网络节点中心度算法(NC-Page Rank),建立了基于节点置信度的致病贡献网络的药物-疾病预测方法(CCNNCPM)。同时,本文还分别为上述三种方法各设计了两种预测结果排序的策略,即基因优先排序和蛋白质优先排序策略。最后本文对提出的QSRCPM,CCNPM,CCNNCPM三种药物-疾病相互作用关系预测方法,分别采用生物医学文献数据集对帕金森病、乳腺癌和阿尔兹海默病进行了药物-疾病相互作用关系预测实验,并对实验结果进行了比较与评估。实验结果表明三种方法在药物-疾病相互作用关系预测任务中都表现出的较好的性能,以疾病为中心致病因素为线索的药物-疾病相互作用关系预测方法具有较好的通用性和扩展性。
罗凌[10](2019)在《生物医学文本挖掘若干关键技术研究》文中研究指明生物医学文献作为学术研究成果的主要载体,现已成为重要的生物医学领域资源,为研究提供了丰富的知识来源。结合领域需求,采用有效的文本挖掘技术从海量生物医学文献中自动快速、准确地获取相关信息,将对生命科学领域的研究产生极大的推动作用。而基于传统机器学习的文本挖掘方法受浅层模型表示能力的限制,提升空间变得相对有限。近年,随着基于神经网络的深度学习研究的兴起,深度学习在语音、图像和文本处理上都取得了突破性进展,展示出了潜在的应用价值。为此,本文围绕基于深度学习方法的生物医学文本挖掘关键技术,从生物医学文本分类、命名实体识别和关系抽取三个任务展开了研究。对于生物医学文本分类任务,首先针对在小规模的生物医学领域训练数据上神经网络方法无法充分发挥其优势的问题,提出了一种神经网络集成的文本分类方法。该方法通过引入相关数据预训练模块来提升神经网络模型性能,并利用逻辑回归模型对多个神经网络模型结果进行集成。另一方面,针对目前大多数神经网络方法未考虑领域知识的问题,提出了一种知识增强的自注意力卷积神经网络方法,通过多通道网络结构来充分利用领域知识。实验表明,该方法能够有效利用生物医学实体和概念信息提升神经网络模型分类性能。对于生物医学实体识别任务,针对句子级别实体识别方法存在全文标注不一致的问题,提出了一种基于注意力机制的文档级化学药物实体识别方法。该方法通过引入注意力机制来捕获文档级别的全局信息。在化学药物实体识别数据集上实验表明,该方法能够有效缓解全文标注不一致的问题,其性能达到了国际先进水平。另一方面,针对现有中文实体识别工作常常直接沿用英文的处理方式,忽略了中文特殊性的问题,提出了汉字笔画ELMo模型。利用汉字笔画信息进行中文语言模型预训练,来学习上下文相关且包含汉字内部结构信息的中文字向量。在中文电子病例实体识别任务上实验表明,加入笔画ELMo向量能够明显提升模型性能。对于生物医学关系抽取任务,针对目前流水线方法存在错误传播和无法充分利用子任务间相关信息的问题,提出了一种生物医学实体和关系联合抽取方法。该方法通过提出新的标注策略和抽取规则考虑了生物医学领域存在大量重叠关系的特性,并利用神经网络模型进行端到端的联合学习,充分利用实体和关系之间的相互依赖信息。实验表明该方法获得了比目前先进的流水线方法更好的结果,并能有效抽取重叠关系。
二、三种生物医学文献数据库各自的优势(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、三种生物医学文献数据库各自的优势(论文提纲范文)
(1)中医药大数据资源数据仓库构建及处方分析应用研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 引言 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 本文主要工作 |
1.4 论文组织结构 |
2 相关研究方法 |
2.1 大数据相关技术 |
2.1.1 Apache Hadoop |
2.1.2 Apache Hive |
2.1.3 Apache Spark |
2.1.4 Apache Kylin |
2.1.5 Apache Dolphin Scheduler |
2.2 临床数据挖掘相关方法 |
2.2.1 倾向性评分匹配 |
2.2.2 药物配伍网络构建 |
2.2.3 多尺度骨干网络算法 |
2.2.4 药物集富集分析方法 |
2.2.5 互信息熵 |
2.3 关联规则挖掘方法 |
2.3.1 关联规则基本概念 |
2.3.2 关联规则挖掘过程 |
2.3.3 Apriori算法 |
2.3.4 FP-Growth算法 |
3 中医药大数据资源数据仓库研究及构建 |
3.1 中医药大数据资源数据仓库概述 |
3.1.1 数据仓库技术概述 |
3.1.2 中医药数据来源 |
3.2 中医药大数据资源数据仓库体系结构 |
3.3 中医药大数据资源数据仓库构建的准备工作 |
3.3.1 大数据平台搭建 |
3.3.2 中医药源数据分析思路 |
3.4 中医药大数据资源数据仓库数据模型设计 |
3.4.1 数据模型设计原则 |
3.4.2 主题域数据模型 |
3.4.3 多维数据模型 |
3.5 中医药大数据资源数据仓库命名规范 |
3.5.1 库名命名规范 |
3.5.2 表名命名规范 |
3.5.3 字段名命名规范 |
3.6 中医药大数据资源数据仓库ETL过程 |
3.6.1 数据抽取 |
3.6.2 数据处理 |
3.6.3 ETL任务配置 |
3.6.4 ETL任务结果 |
3.7 方药主题多维OLAP分析 |
3.8 本章小结 |
4 中医临床有效处方分布式挖掘方法研究 |
4.1 方法概述 |
4.2 慢阻肺数据集市构建 |
4.2.1 患者用药过程数据表设计 |
4.2.2 倾向病例匹配结果表设计 |
4.2.3 药物配伍网络结果表设计 |
4.2.4 核心药物子网结果表设计 |
4.2.5 药物富集分析结果表设计 |
4.2.6 药症相关性分析结果表设计 |
4.3 分布式分析方法设计与实现 |
4.3.1 分布式假设检验实现 |
4.3.2 消除混淆因素和样本均衡处理 |
4.3.3 分布式药物配伍网络构建 |
4.3.4 分布式核心药物子网提取 |
4.3.5 分布式药物富集分析 |
4.3.6 分布式药症相关性分析 |
4.4 实验结果 |
4.4.1 实验数据分析 |
4.4.2 分布式倾向病例匹配结果 |
4.4.3 分布式药物配伍网络结果 |
4.4.4 分布式核心药物子网结果 |
4.4.5 分布式药物富集分析结果 |
4.4.6 分布式药症相关性分析结果 |
4.5 本章小节 |
5 基于关联规则的中药方剂配伍规律分布式挖掘研究 |
5.1 频繁闭项集挖掘 |
5.1.1 频繁闭项集相关概念 |
5.1.2 Charm算法 |
5.2 分布式Charm算法 |
5.2.1 数据预处理 |
5.2.2 通过等价类划分数据集 |
5.2.3 分布式阶段 |
5.2.4 汇总阶段 |
5.3 频繁闭项集的分布式压缩算法 |
5.3.1 数据预处理 |
5.3.2 频繁闭项集压缩 |
5.3.3 分布式实现过程 |
5.4 实验与结果分析 |
5.4.1 实验数据描述 |
5.4.2 分布式Charm与传统Charm挖掘效率比较 |
5.4.3 分布式关联规则挖掘结果 |
5.4.4 分布式压缩频繁闭项集结果 |
5.5 本章小结 |
6 总结与展望 |
6.1 工作总结 |
6.2 未来展望 |
参考文献 |
作者简历及攻读硕士学位期间取得的研究成果 |
学位论文数据集 |
(2)基于深度学习的实体关系抽取研究与应用(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 基于联合抽取的实体关系抽取 |
1.2.2 基于远程监督的实体关系抽取 |
1.3 本文主要研究内容 |
1.4 论文结构安排 |
第二章 实体关系抽取的相关理论和技术 |
2.1 深度学习技术研究 |
2.1.1 词的向量表示 |
2.1.2 注意力机制 |
2.1.3 Transformer和 BERT |
2.2 知识图谱技术研究 |
2.2.1 知识图谱的基本概念 |
2.2.2 知识图谱的构建 |
2.2.3 知识图谱的应用 |
2.3 本章小结 |
第三章 基于远程监督的数据集构建及去噪方法研究 |
3.1 基于远程监督的数据集构建 |
3.1.1 数据来源与关系定义 |
3.1.2 命名实体识别 |
3.1.3 关系标注 |
3.2 基于强化学习的数据集去噪方法 |
3.2.1 负样例优化 |
3.2.2 深度强化学习框架 |
3.2.3 词向量与实体向量生成 |
3.2.4 基于CNN的关系分类器 |
3.2.5 基于策略梯度的实例选择器 |
3.3 实验结果与分析 |
3.3.1 训练及优化方法 |
3.3.2 实验设置 |
3.3.3 评价指标 |
3.3.4 对比实验分析 |
3.4 本章小结 |
第四章 基于联合抽取的实体关系抽取方法研究 |
4.1 基于联合抽取的实体关系抽取方法 |
4.1.1 基于参数共享的方法 |
4.1.2 基于联合解码的方法 |
4.2 指针网络 |
4.3 基于指针网络的实体关系联合抽取方法 |
4.3.1 基本思想与模型框架 |
4.3.2 基于BERT的 Encoder结构 |
4.3.3 基于级联的Decoder结构 |
4.3.4 损失函数 |
4.4 实验结果与分析 |
4.4.1 实验设置及评价指标 |
4.4.2 对比实验分析 |
4.5 本章小结 |
第五章 生物医学知识图谱的设计与实现 |
5.1 系统设计 |
5.2 主要功能模块及工作流程 |
5.2.1 数据预处理模块 |
5.2.2 模型维护模块 |
5.2.3 数据存储模块 |
5.2.4 知识图谱可视化模块 |
5.2.5 模型参数更新 |
5.2.6 知识库更新 |
5.3 应用展示 |
5.4 案例分析 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 本文工作总结 |
6.2 后续工作展望 |
致谢 |
参考文献 |
攻读硕士学位期间取得的成果 |
(3)优质论文之计量特征及学科差异研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 研究问题与技术路线 |
1.3 研究方法与创新之处 |
第2章 文献述评:学术论文质与量之不同测评研究 |
2.1 学术论文的同行评议研究 |
2.2 学术论文的计量分析研究 |
2.3 综合学术论文质与量测评的研究 |
第3章 方法论 |
3.1 优质论文的界定及相关概念 |
3.2 基础模型:“天鹅”模型 |
3.3 特殊引文模式:从“天鹅”到“天鹅群”(Swan Group) |
3.4 伴随引文模式:“天鹅群”中的“伴随睡美人”(Associated-Sleeping-Beauty) |
3.5 研究数据 |
3.6 本章小结 |
第4章 优质论文中“天鹅群”探索 |
4.1 诺贝尔奖物理学学科关键论文中的“天鹅群” |
4.2 诺贝尔奖化学学科关键论文中的“天鹅群” |
4.3 诺贝尔奖生物医学学科关键论文中的“天鹅群” |
4.4 诺贝尔奖经济学学科关键论文中的“天鹅群” |
4.5 本章小结 |
第5章 优质论文中“睡美人”及“伴随睡美人”探索 |
5.1 “睡美人”测度 |
5.2 实证研究:关键论文中的“睡美人”及“伴随睡美人” |
5.3 本章小结 |
第6章 优质论文计量特征的学科比较:关键论文集中“天鹅群”及“伴随睡美人”探索 |
6.1 诺贝尔奖不同学科关键论文集基础数据概况 |
6.2 诺贝尔奖不同学科关键论文集的“天鹅群”模式探索 |
6.3 诺贝尔奖不同学科关键论文集中“睡美人”及“伴随睡美人”探索 |
6.4 本章小结 |
第7章 总结与展望 |
7.1 优质论文计量特征的学科差异分析 |
7.2 本文小结与主要贡献 |
7.3 研究不足与展望 |
参考文献 |
致谢 |
作者在攻读博士期间主要研究成果 |
(4)基于深度学习的文献信息抽取及在脑连接研究中的应用(论文提纲范文)
摘要 |
Abstract |
1.绪论 |
1.1 研究背景与意义 |
1.2 信息抽取的国内外研究现状 |
1.3 本文主要研究内容 |
1.4 论文的组织结构 |
2.神经科学领域实体抽取 |
2.1 实体抽取可行性分析 |
2.2 基于深度学习的实体抽取技术 |
2.3 实体抽取结果对比与分析 |
2.4 本章小结 |
3.神经科学领域关系抽取 |
3.1 关系抽取可行性分析 |
3.2 基于深度学习的关系抽取技术 |
3.3 关系抽取结果对比与分析 |
3.4 本章小结 |
4.神经科学文献信息抽取工具及在脑连接研究中的应用 |
4.1 大规模文献信息抽取可行性分析 |
4.2 大规模文献信息抽取过程 |
4.3 抽取工具测试与结果评估 |
4.4 本章小结 |
5.总结与展望 |
5.1 本文主要工作 |
5.2 工作展望 |
致谢 |
参考文献 |
附录1 文章中实现部分功能的代码示例 |
(5)生物医学领域实体关系抽取研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 信息抽取 |
1.2.2 命名实体识别 |
1.2.3 命名实体关系抽取 |
1.2.4 生物医学领域实体关系抽取 |
1.3 本文主要研究内容 |
1.4 本文组织结构 |
第2章 相关工作简介 |
2.1 相关算法简介 |
2.1.1 生物医学实体关系抽取 |
2.1.2 实体关系类数据库构建 |
2.1.3 图神经网络与孪生网络 |
2.2 相关资源简介 |
2.2.1 MEDLINE数据库 |
2.2.2 PubMed文献索引 |
2.2.3 基因关联数据库 |
2.2.4 生物医学本体 |
2.2.5 语法分析工具 |
第3章 生物医学文献主题关系抽取 |
3.1 文献主题关系抽取模型 |
3.1.1 生物医学实体识别 |
3.1.2 基于模式的实体抽取 |
3.1.3 主题发现和主题分布模型 |
3.1.4 文献主题关系抽取及评价函数 |
3.2 基于实体关系的文献检索方法 |
3.3 实验结果与分析 |
3.3.1 实验设置 |
3.3.2 实验分析 |
3.4 本章小结 |
第4章 基于链路预测的生物医学实体关系发现 |
4.1 生物医学知识网络构建 |
4.1.1 基因相似网络和疾病相似网络 |
4.1.2 基因-疾病知识网络 |
4.2 实体关系发现方法及模型 |
4.3 实验结果与分析 |
4.3.1 实验设置 |
4.3.2 实验分析 |
4.4 本章小结 |
第5章 基于图神经网络的生物医学实体关系发现 |
5.1 生物医学知识网络中实体关系发现 |
5.1.1 生物医学实体特征 |
5.1.2 基于图神经网络的实体特征聚合模型 |
5.2 生物医学文献中实体关系发现 |
5.2.1 生物医学实体位置嵌入 |
5.2.2 基于位置嵌入的实体特征聚合模型 |
5.3 实验结果与分析 |
5.3.1 实验设置 |
5.3.2 实验分析 |
5.4 本章小结 |
第6章 总结与展望 |
参考文献 |
作者简介及攻读学位期间公开发表的论文 |
攻读学位期间参与的科研项目 |
致谢 |
(6)面向决策支持的医学文本语义分析方法研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 引言 |
1.1 研究背景及研究意义 |
1.2 研究内容及关键问题 |
1.3 研究创新点 |
1.4 技术路线 |
1.5 章节安排 |
2 文献综述和相关方法 |
2.1 文献综述 |
2.1.1 医学文本分词方法 |
2.1.2 医学文本结构化方法 |
2.1.3 语义分析和医学概念抽取 |
2.1.4 基于医学文本的决策支持 |
2.2 相关数据与方法 |
2.2.1 医学领域知识库 |
2.2.2 机器学习方法 |
2.2.3 大数据分析方法 |
2.2.4 评估方法和指标 |
2.3 本章小结 |
3 基于自然语言处理的医学文本结构化和标准化方法 |
3.1 医学文本特征和语义复杂性分析 |
3.1.1 医学文本数据的来源和特征 |
3.1.2 医学文本分析的N-Gram语言模型 |
3.1.3 医学文本语料库的使用及影响分析 |
3.2 基于医学文本语料库的文本结构化方法 |
3.2.1 基于字典的机械分词和N-Gram分词方法研究 |
3.2.2 基于序列标注的医学文本分词方法研究 |
3.2.3 基于语义理解的医学文本分析方法研究 |
3.3 中文超声检查报告文本分析和性能评估 |
3.3.1 专家辅助的超声检查报告文本标注方法 |
3.3.2 超声检查报告的文本结构化方法 |
3.3.3 超声检查报告的文本语义分析方法 |
3.3.4 标注系统的性能评估方法 |
3.3.5 标注系统的整体性能测试与分析 |
3.4 本章小结 |
4 基于医学领域知识的医学文本语义分析和知识发现方法 |
4.1 面向医学文本的语义相似度计算方法 |
4.1.1 语义关系与文本特征提取方法 |
4.1.2 基于加权Levenshtein距离和N-Gram的文本相似度计算方法 |
4.1.3 评估方法和实验分析 |
4.2 基于UMLS的医学概念相似度和相关性计算方法 |
4.2.1 医学文本语义相似度计算方法 |
4.2.2 医学文本语义相关性计算方法 |
4.2.3 相关方法的测试和分析 |
4.3 基于语义分析的计算机辅助ICD-11编码方法 |
4.3.1 相关知识库 |
4.3.2 ICD-11编码语义模型 |
4.3.3 ICD-11编码规则建模方法 |
4.3.4 ICD-11候选编码相关性计算方法 |
4.3.5 相关方法的测试和分析 |
4.4 本章小结 |
5 面向决策支持的海量医学文本分析方法及应用案例研究 |
5.1 医学文本主题建模和知识发现方法 |
5.1.1 基于LDA的医学文本主题建模方法 |
5.1.2 知识约束下医学文本主题建模和预测方法 |
5.1.3 相关方法性能的对比分析 |
5.2 基于大数据分析的典型医学文本分析方法设计和分析 |
5.2.1 基于Map Reduce模型的大规模数据集连接方法 |
5.2.2 基于Map Reduce模型的大规模文档相似度计算方法 |
5.3 面向医疗大数据分析的HADOOP性能自动调整优化方法 |
5.3.1 Hadoop性能自动调优框架设计方法 |
5.3.2 基于无导数优化理论的Hadoop最优参数搜索方法 |
5.3.3 典型Map Reduce算法性能调优和实验分析 |
5.4 本章小结 |
6 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
作者简历及攻读博士学位期间取得的研究成果 |
学位论文数据集 |
(7)面向生物医学领域的篇章关系抽取算法研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景 |
1.2 研究现状 |
1.2.1 生物医学实体关系抽取研究现状 |
1.2.2 语言模型研究现状 |
1.3 本文工作 |
1.4 本文结构 |
2 相关知识与技术 |
2.1 相关算法 |
2.1.1 单词的向量表示 |
2.1.2 神经网络 |
2.2 实验数据集 |
2.3 评价指标 |
3 基于多示例学习的篇章级关系抽取 |
3.1 引言 |
3.2 方法 |
3.2.1 预处理阶段 |
3.2.2 关系抽取阶段 |
3.2.3 后处理阶段 |
3.3 实验与讨论 |
3.3.1 实验数据和设置 |
3.3.2 包大小对模型性能影响实验 |
3.3.3 策略及特征消融实验 |
3.3.4 方法性能对比实验 |
3.3.5 噪声及错误分析 |
3.4 本章小结 |
4 融合领域知识的远程监督关系抽取 |
4.1 引言 |
4.2 方法 |
4.2.1 远程监督 |
4.2.2 知识表示 |
4.2.3 关系抽取 |
4.3 实验与讨论 |
4.3.1 实验数据和参数设置 |
4.3.2 知识嵌入向量的初始化方法实验 |
4.3.3 注意力机制影响实验 |
4.3.4 方法性能对比实验 |
4.4 本章小节 |
5 基于预训练语言模型的关系抽取 |
5.1 引言 |
5.2 方法 |
5.2.1 预处理阶段 |
5.2.2 预训练阶段 |
5.2.3 关系抽取阶段 |
5.3 实验与讨论 |
5.3.1 实验数据和参数设置 |
5.3.2 ELMo融合方式对模型性能影响实验 |
5.3.3 ELMo类型对模型性能影响实验 |
5.3.4 方法性能对比实验 |
5.4 本章小节 |
结论 |
参考文献 |
攻读硕士学位期间发表学术论文情况 |
攻读硕士学位期间软件着作权申请情况 |
攻读硕士学位期间参加学术评测和获奖情况 |
攻读硕士学位期间参加科研项目情况 |
致谢 |
(8)基于本体的肺癌遗传信息融合知识库构建和知识发现(论文提纲范文)
摘要 |
Abstract |
英文缩略语 |
研究内容概述 |
第一部分 :肺癌遗传与临床特征信息的数据挖掘与整合 |
1 前言 |
2 材料和方法 |
2.1 数据来源与获取 |
2.2 数据清洗与分析 |
2.3 肺癌遗传信息整合数据库构建 |
3 结果 |
3.1 数据获取结果 |
3.2 文本挖掘结果 |
3.3 基因表达分析结果 |
3.4 数据库构建 |
4 讨论 |
5 结论 |
第二部分 :肺癌基因信息融合本体知识库构建 |
1 前言 |
1.1 本体与知识库简介 |
1.2 国内外生物医学本体研究现状 |
2 研究方法和工具 |
2.1 本体构建原则和过程 |
2.2 本体建模语言 |
2.3 本体构建的软件工具 |
3 本体构建过程 |
3.1 本体模型构建 |
3.2 实例与模型合并 |
3.3 知识推理与知识库验证 |
4 总结与讨论 |
第三部分 :本体知识库应用实例——基于语义技术构建CACS8基因在肺癌中的语义网络和相互作用网络 |
1 前言 |
2 材料与方法 |
2.1 数据来源 |
2.2 知识库查询界面构建 |
2.3 基因信息查询和相互作用网络构建过程 |
2.4 领域专家知识库应用反馈 |
3 结果 |
3.1 CASC8 基因SPARQL查询结果 |
3.2 CASC8基因语义网络及可视化 |
3.3 CASC8基因相互作用网络、注释及可视化 |
3.4 专家反馈结果 |
4 讨论 |
5 结论 |
本研究创新性自我评价 |
参考文献 |
综述 |
参考文献 |
攻读学位期间取得的研究成果 |
致谢 |
个人简历 |
(9)基于生物医学语义数据的药物-疾病相互作用关系预测研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景和意义 |
1.2 研究内容与主要贡献 |
1.3 论文组织结构 |
第2章 相关研究综述 |
2.1 药物-疾病相互作用关系预测 |
2.2 药物-疾病相互作用关系预测研究综述 |
2.2.1 基于化学结构的药物-疾病相互作用关系预测 |
2.2.2 基于计算机方法的药物-疾病相互作用关系预测综述 |
2.3 本章小结 |
第3章 基于生物医学语义关系量化的药物-疾病关系预测方法 |
3.1 QSRCPM框架描述 |
3.1.1 致病基因和蛋白质集合内语义关系量化 |
3.1.2 致病基因和蛋白质集合间语义关系量化计算 |
3.1.3 药物与基因及蛋白质集合间语义关系量化计算 |
3.1.4 药物集合排序 |
3.2 基于语义关系的量化计算方法 |
3.3 QSRCPM的药物-疾病预测实验 |
3.3.1 实验数据与实验过程 |
3.3.2 实验结果 |
3.4 本章小结 |
第4章 基于致病贡献网络的药物-疾病关系预测方法 |
4.1 CCN模型原理 |
4.2 CCN框架描述 |
4.2.1 基于语义规则的数据过滤 |
4.2.2 基于图数据库构建CCN网络 |
4.2.3 基于CCN网络的贡献值算法 |
4.3 基于CCN的药物-疾病关系预测流程 |
4.4 CCNPM的药物-疾病预测实验 |
4.4.1 实验数据与实验过程 |
4.4.2 实验结果 |
4.5 本章小结 |
第5章 基于节点置信度的致病贡献网络的药物-疾病关系预测方法 |
5.1 节点置信度 |
5.2 基于文献的NC-PageRank算法模型 |
5.3 基于NC-PageRank的药物-疾病相互作用关系预测方法 |
5.4 CCNNCPM的药物-疾病预测实验 |
5.5 本章小结 |
第6章 实验结果评估及分析 |
6.1 实验数据 |
6.2 实验设计 |
6.3 结果对比与评估 |
6.3.1 QSRCPM与 CCNPM的实验对比 |
6.3.2 CCNPM与 CCNNCPM的实验对比 |
6.3.3 CCN模型的时间切片评估 |
6.3.4 排序方法对比 |
6.4 实验结果的文献证据支持 |
6.4.1 帕金森病实验结果的文献证据支持 |
6.4.2 乳腺癌实验结果的文献证据支持 |
6.4.3 阿尔兹海默病实验结果的文献证据支持 |
6.5 本章小结 |
第7章 总结和展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
附录 A:实验中的CCN网络图 |
附录 B:实验推荐药物列表 |
发表论文和参加科研情况说明 |
致谢 |
(10)生物医学文本挖掘若干关键技术研究(论文提纲范文)
摘要 |
ABSTRACT |
主要符号表 |
1 绪论 |
1.1 研究背景与意义 |
1.2 国内外相关工作研究进展 |
1.2.1 生物医学文本分类研究进展 |
1.2.2 生物医学命名实体识别研究进展 |
1.2.3 生物医学关系抽取研究进展 |
1.3 本文主要研究思路与内容 |
2 生物医学文本分类 |
2.1 引言 |
2.2 相关工作 |
2.3 基于神经网络集成的生物医学文本分类方法 |
2.3.1 文本预处理 |
2.3.2 特征表示 |
2.3.3 神经网络模型 |
2.3.4 模型集成 |
2.3.5 实验与分析 |
2.4 融合领域知识的生物医学文本分类方法 |
2.4.1 领域知识向量表示 |
2.4.2 知识增强的自注意力卷积神经网络模型 |
2.4.3 实验与分析 |
2.5 本章小结 |
3 生物医学命名实体识别 |
3.1 引言 |
3.2 相关工作 |
3.2.1 化学药物实体识别 |
3.2.2 注意力机制 |
3.2.3 中文命名实体识别 |
3.3 基于注意力机制的文档级化学药物实体识别方法 |
3.3.1 特征表示 |
3.3.2 BiLSTM-CRF模型 |
3.3.3 Att-BiLSTM-CRF模型 |
3.3.4 实验与分析 |
3.4 基于笔画ELMo的中文电子病历命名实体识别方法 |
3.4.1 基于笔画的中文ELMo模型 |
3.4.2 额外特征 |
3.4.3 神经网络模型 |
3.4.4 实验与分析 |
3.5 本章小结 |
4 生物医学实体和关系联合抽取 |
4.1 引言 |
4.2 相关工作 |
4.3 基于神经网络的生物医学实体和关系联合抽取方法 |
4.3.1 标注策略 |
4.3.2 抽取规则 |
4.3.3 特征表示 |
4.3.4 端对端实体关系抽取模型 |
4.4 实验与分析 |
4.4.1 实验设置 |
4.4.2 标注策略和抽取规则对模型性能的影响 |
4.4.3 ELMo向量对模型性能的影响 |
4.4.4 与其他方法性能对比 |
4.4.5 结果样例分析 |
4.5 本章小结 |
5 结论与展望 |
5.1 结论 |
5.2 创新点 |
5.3 展望 |
参考文献 |
攻读博士学位期间科研项目及科研成果 |
致谢 |
作者简介 |
四、三种生物医学文献数据库各自的优势(论文参考文献)
- [1]中医药大数据资源数据仓库构建及处方分析应用研究[D]. 吴纪龙. 北京交通大学, 2021(02)
- [2]基于深度学习的实体关系抽取研究与应用[D]. 钟灵玥. 电子科技大学, 2021(01)
- [3]优质论文之计量特征及学科差异研究[D]. 张慧(Helena H Zhang). 南京大学, 2020(09)
- [4]基于深度学习的文献信息抽取及在脑连接研究中的应用[D]. 狄亚超. 华中科技大学, 2020(01)
- [5]生物医学领域实体关系抽取研究[D]. 王也. 吉林大学, 2020(08)
- [6]面向决策支持的医学文本语义分析方法研究[D]. 陈东华. 北京交通大学, 2020(03)
- [7]面向生物医学领域的篇章关系抽取算法研究[D]. 冯靖焜. 大连理工大学, 2020(02)
- [8]基于本体的肺癌遗传信息融合知识库构建和知识发现[D]. 崔志刚. 中国医科大学, 2020(01)
- [9]基于生物医学语义数据的药物-疾病相互作用关系预测研究[D]. 高金贺. 天津大学, 2019(01)
- [10]生物医学文本挖掘若干关键技术研究[D]. 罗凌. 大连理工大学, 2019(06)