设为首页收藏本站

 找回密码
 注册

QQ登录

只需一步,快速开始

BCM 门户 IT世界 资料备录 查看内容

电子病历命名实体识别和实体关系抽取研究综述

2014-7-31 08:00| 发布者: John| 查看: 56| 评论: 0|原作者: 杨锦锋, 于秋滨, 关毅, 蒋志鹏|来自: 自动化学报

摘要: h2 { margin-top: 0.18in; margin-bottom: 0.18in; direction: ltr; line-height: 173%; text-align: justify; page-break-inside: avoid; }h2.western { font-family: "Cambria",serif; font-size: 16pt; }h2.cjk { ...

电子病历(EMRElectronic Medical Record)是指医务人员在医疗活动过程中,使用医疗机构信息系统生成的文字、符号、图表、图形、数据、影像等数字化信息,并能实现存储、管理、传输和重现的医疗记录[1],是由医务人员撰写面向患者个体描述医疗活动的记录. 通过分析电子病历,能挖掘出大量与患者密切相关的医疗知识,这种认识早已获得共识[2]. 比如,某患者电子病历中,“头CT检查显示腔隙性梗死”. 在这句话中,“头CT”是检查手段,“腔隙性梗死”是疾病,这二者在电子病历信息抽取研究中被称为命名实体,这两个实体间的关系是“头CT”证实了“腔隙性脑梗死”的发生,或者说“腔隙性脑梗死”可以通过“头CT”这种检查手段得到确认. 从电子病历里自动挖掘这些知识就是要自动识别电子病历文本中与患者健康密切相关的各类命名实体以及实体间的关系[3],电子病历命名实体识别和实体关系抽取是电子病历信息抽取研究的主要内容,该研究在医学信息学(Medical Informatics)中用于临床决策支持(CDS Clinical Decision Support)研究服务于医疗专业人员[4],同时在用户健康信息学(Consumer Health Informatics)中支持用户健康状况建模和个性化医疗健康信息服务研究服务于普通患者和用户[5]. 中文领域的临床决策支持系统早在上世纪90年代初就已经展开了研究[6].

电子病历是重要的医疗临床数据,不仅包含了医生的专业知识,而且与患者的健康状况密切相关. 由于电子病历这种双重特性,电子病历命名实体和实体关系识别研究成为命名实体识别研究在医疗领域的重要拓展,同时也是是电子病历信息抽取的重要研究内容,该课题的研究吸引了国内外越来越多研究者的关注. 本文在接下来的部分首先分析电子病历文本的重要特点,概述命名实体识别和实体关系抽取的任务和研究思路,然后分别详细阐述电子病历命名实体研究的三个任务以及各自的研究方法,接着介绍国内外主流的评测会议以及现有的资源建设情况,最后对本文工作进行总结并展望电子病历命名实体和实体关系识别研究的发展趋势.


2中文电子病历命名实体和实体关系语料构建

杨锦锋, 关毅, 曲春燕, 何彬, 于秋滨, 刘雅欣. 中文电子病历命名实体和实体关系标注体系及语料库构建. 软件学报审稿中


电子病历文本目前主要包括出院小结、病程记录、医患协议、超声报告等。其中,出院小结和首次病程记录是电子病历中最重要的两类自由文本,也是我们主要关注的两类文本。

通过分析电子病历, 医生针对患者的诊疗活动可以概括为: 通过检查手段(做什么检查)发现疾病的表现(什么症状), 给出诊断结论(什么疾病), 并基于诊断结论, 给出治疗措施(如何治疗). 从这个过程可以看出, 医疗活动主要涉及四类重要信息: 检查、症状、疾病和治疗. 这四类信息在UMLS中也具有明确对应的语义类型定义. 中文病历中对患者症状和检查结果的描述占有相当大的比重, 因此在中文电子病历命名实体识别研究中, 有必要把疾病和症状分开, 并且定义疾病和症状的之间关系. 中文电子病历命名实体识别主要研究以下几类实体的识别:

第一类实体是疾病, 泛指导致患者处于非健康状态的原因(不包括不良生活习惯), 或者医生根据患者的身体状况做出的诊断. 疾病是可以治愈或改善的.

第二类实体是疾病诊断分类, 一般紧跟一个具体的疾病,是疾病的一个具体分类,比如“高血压, 极高危组”中的“极高危组”.

第三类实体是疾病的表现, 在本研究中称为症状, 泛指疾病导致的不适或异常感觉和显式表达的异常检查结果. 虽然这两类症状都是疾病表现, 但又明显不同, 因此症状细分为两个子类: 自诉症状和异常检查结果.

第四类实体是检查手段, 在本研究中简称为检查, 泛指为了得到更多的由疾病导致的异常表现以支持诊断而采取的检查设备、检查程序、检查项目等.

第五类实体是治疗手段, 在本研究中简称为治疗, 泛指为了治愈疾病、缓解或者改善症状而给予患者的药物、手术等.

另外, 医生在描述患者的疾病和症状时, 通常都表达出不同的确定程度, 这是诊断过程中的重要信息, 比如肯定发生的、肯定不发生的(否认的)、可能发生的等等. 这些信息在本规范中称为疾病和症状的修饰信息. 患者曾经历过的治疗信息或者明确否认的既往治疗史也是临床诊断的重要信息, 因此, 针对治疗类实体, 也要识别修饰信息. 修饰信息的识别是电子病历命名实体识别研究独有的任务.

中文电子病历实体关系抽取研究主要关注这六类实体关系的抽取: 治疗和疾病之间的关系, 比如治疗施加于疾病; 治疗和症状之间的关系, 比如为缓解症状而施加的治疗; 检查和疾病之间的关系, 比如检查证实疾病; 检查和症状之间的关系, 比如检查发现症状; 疾病和症状之间的关系, 比如疾病导致症状; 疾病和疾病诊断分类之间的关系, 该关系表示疾病的进展程度. 实体及实体之间的关系如图1所示.

1 医疗实体分类及实体间关系

实体的识别、疾病、症状和治疗的修饰识别、实体关系抽取,共同构成电子病历信息抽取研究的三个核心任务。

本文在调研了国内外电子病历命名实体和实体关系标注语料库构建的基础上, 结合中文电子病历特点, 提出适合中文电子病历的命名实体和实体关系的标注体系, 在医生的指导和参与下, 制定了命名实体和实体关系的详细标注规范, 构建了标注体系完整、 规模较大且一致性较高的标注语料库. 语料库包含病历文本992, 命名实体标注一致性达到0.922, 实体关系一致性达到0.895.

早期版本的标注规范可以从这个链接访问:http://wi.hit.edu.cn/dev/YuLiao/NER.pdf

电子病历命名实体识别和实体关系抽取研究综述.pdf


鲜花

握手

雷人

路过

鸡蛋

相关阅读

手机版|小黑屋|BC Morning Website ( Best Deal Inc. 001 )  

GMT-8, 2025-10-25 00:21 , Processed in 0.799907 second(s), 17 queries .

Supported by Best Deal Online X3.5

© 2001-2025 Discuz! Team.

返回顶部