基于电子病历（EMR）的大数据知识挖掘

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

CTO老王

2020-12-24

0 评论 7330 浏览 17 收藏

12 分钟

编辑导语：随着互联网的不断发展，互联网医疗信息化也不断完善，如今电子病历也已经广泛运用了，用账号进行登录有助于病例的查找；本文作者分享了关于基于电子病历（EMR）的大数据知识挖掘，我们一起来学习一下。

随着医疗机构信息化建设的大力推进，电子病历数据持续的海量增长，针对电子病历数据的知识挖掘也应运而生；电子病历记录了病患就诊的全过程，包含数字、图像、文本等多种数字化信息。

项目从电子病历应用场景出发，根据完整的医疗活动过程中不同的角色，分别从临床医疗、教学科研、管理部门和病患四个角度进行需求分析；明确电子病历的功能定位，挖掘出电子病历中潜在的医学规则和模式；一方面为医务人员临床诊断中提供决策支持，另一方面方便向大众普及病症知识，为疾病防治与健康医疗模式带来改变。

一、核心技术

1）隐私数据处理

电子病历中包含患者的全部信息，对电子病历的信息抽取涉及到患者隐私，因此需要将患者身份信息隐藏，仅保留研究相关的诊断信息，以保护患者基本权益不受侵犯。

2）主数据目录（分词、词性、同义词、相似词）

首先保障数据的完整性、一致性与唯一性，自动分词和词性标注是文本挖掘的基础，分词和词性算法的优劣直接决定了文本挖掘的效果。

首先融合权威词表、官方标准，通过网络尽可能完整地收录医学词汇，构建医学词典，避免分词错误；同时构建词性标注集合，确保适应电子病历的词性体系；并结合基于统计和机器学习的分词和词性算法，对未登录词进行识别，提升电子病历分词和词性效果；构建电子病历分词和词性标准，为后续电子病历的挖掘奠定基础。

抽取规则：多种表达式（业务活动、时间轴、病种、科室、地名等）

为了实现对电子病历数据的有效组织和分析，基于电子病历信息库，在传统机器学习模型上，使用基于七分位词位标注集和复杂语言特征模板的条件随机场，从电子病历的文本中抽取实体。

基于深度学习模型，在人工标注电子病历实体数据的基础上，构建RNN、LSTM、LSTM-CRF和BERT等深度学习实体抽取模型。

在上述所构建的两类实体抽取模型的基础上，完成对电子病历中实体的抽取；在本部分不仅完成对实体的抽取任务，而且会对所构建的实体抽取模型的整体性能进行纵向和横向的对比，以确定最适合电子病历实体抽取的模型；构建电子病历的实体标注规范，并形成针对电子病历的实体抽取模型。

例如：时间轴。

电子病历具有显著地时序性：病症在不同诊疗阶段具有明显的差异；病人生命体征受时间规律影响；流行病的环境因素中时间因素也是重要的组成部分。

除了电子病历生成时间、修改时间等显示时间外，病历中的隐式时间点及时间段推断也是研究的重难点，对电子病历时间维度上的研究也是电子病历挖掘的重中之重。

基于Hadoop大数据平台搭建全文检索引擎，实现海量结构、非结构化数据的高效存储和检索，提供更快、更优用户体验。

主要步骤包括：

命名实体识别，即在文本中找到关键词，并能与文中所指的概念对应起来；如在某一文本中，不仅能通过基因符号识别出这个基因，也可以通过同义词，或以往名称识别出该基因。
信息抽取，基于语言结构的先验知识（如自然语言中的主、谓、宾三元结构），通过自然语言处理方法，抽取出特定的动词或名词。
信息存储，将抽取到的信息（数据）加载并转存到标准化数据模型中，形成以患者为中心、医院临床信息系统（HIS、EMR、LIS、PACS等）无缝、连续和可互操作的集中式医疗大数据平台；该过程中的数据抽取、转化、加载称之为数据仓库（extract-transform-load, ETL）技术。