本站小编为你精心准备了白血病数据预处理过程中的关键问题参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
摘要:为研究得出吸烟是否成人白血病发病危险因素的明确结论,在某大型三甲医院的电子病历系统中,收集成人白血病病人的病历资料,从海量数据中严格筛选符合科研要求的数据以解决样本小的问题,并对相关数据进行预处理以进行数据挖掘。着重介绍了在数据预处理过程中存在的病人隐私保护、病例重复、数据不规范等关键问题,并对其解决思路进行了探讨。
关键词:白血病;吸烟;数据挖掘;数据预处理
1概述
白血病是造血系统的恶性肿瘤,是国内十大高发恶性肿瘤之一,占肿瘤发病率的第六位,已成为临床研究和治疗的重点对象[1]。目前医学界普遍认为白血病的发病机制与感染、放射、化学和遗传等因素有关,但其确切病因至今尚未明确[2]。吸烟被广泛认为是多种疾病的危险因素,卷烟烟气中含有多种致癌性物质,主动吸烟和被动吸烟均对健康有害。早在20世纪中后期,在美国退伍军人进行的一项前瞻性死亡率研究表明,吸烟者中白血病的死亡率有明显增加,并且与吸烟总数有剂量反应关系[3]。英国研究人员认为烟草中的苯、铅等有害物质可引起人体免疫系统的细胞受损和血细胞的基因变异,从而导致白血病,但在国内,近年来关于吸烟和白血病两者关系的研究结论仍存在较大的争议,兰州大学进行的一项关于白血病危险因素的研究,并未发现主动、被动吸烟与白血病的发生有明显的相关[4]。复旦大学的另一项关于成人急性髓细胞白血病发病危险因素的研究,也未发现危险性增加,可能研究的样本小有关[5]。计算机技术日新月异,数据库管理系统在各个行业的应用也在不断地发展和深入,人们逐渐被大量数据包围,却难以找到自己所需要的信息,于是近年来出现了数据挖掘技术。数据挖掘是指从大量数据中挖掘有趣模式以及知识的过程[6]。随着医院信息系统(HospitalInformationSystem,HIS)[7-8]、医学影像系统(PictureArchivingandCommu-nicationSystems,PACS)[9]、电子病历(ElectronicMedi-calRecord,EMR)[10]等信息系统在各级医疗机构的应用,产生了大量的医疗数据,包括病人的个体信息、症状、检查结果、疾病诊断、医嘱、病程及治疗方案等,为医学数据挖掘提供了基础。把数据挖掘相关技术和方法应用到医学领域,挖掘出隐含在其中的、有价值的规则、信息或者知识,运用于医生诊断、治疗疾病、促进健康等方面,具有极大的辅助作用,如何更好地进行医学数据挖掘是研究的热点。探讨了使用Weka挖掘白血病与基因的关系,也有文献[12]根据血常规检验的结果并结合临床信息进行数据挖掘,预测各型白血病发生率,提高血常规数据对白血病初筛作用的价值。综上所述,国内已有探讨吸烟与白血病的关系研究的文献报道[4-5],也有探讨数据挖掘在白血病研究的文献报道[11-12],但尚未见有基于数据挖掘研究吸烟与成人白血病的关系研究的中文文献报道,且国内对于吸烟是否成人白血病的危险因素仍然存在分歧,值得进一步进行研究和探讨。
2数据挖掘过程
为研究得出吸烟是否成人白血病发病危险因素的明确结论,课题组从某大型三级甲等医院于2012年上线的电子病历系统中,收集了成人白血病病人的资料,对相关数据进行整理,从海量数据中严格筛选符合科研要求的数据以解决样本小的问题,并使用数据挖掘方法挖掘出吸烟与成人白血病发病之间的关系,为吸烟人群预防白血病提供明确的参考,用于健康宣教及白血病预防等,降低白血病的发病率,减轻社会的负担。
3存在的关键问题
在进行数据挖掘前,需要进行大量的准备工作,一个重要步骤就是对收集到的数据进行预处理,数据预处理通常要大量的时间。在整个数据准备过程中,存在以下关键问题:
3.1病人隐私保护
隐私权是公民的一项不可剥夺的权利,尊重和保护病人的隐私是医护人员应尽的职责和义务,同时也是构建和谐医患关系的必要条件[13]。在进行科研活动的过程中,如何严格做好病人的隐私保密工作是摆在我们面前的一个重要问题。
3.2病例重复
课题组在电子病历系统中提取白血病病人信息时,是通过诊断和时间范围来查询数据的,由于白血病病人需要定期进行化疗,一年内要多次重复住院,重复住院病人的多次住院记录都会提取出来,就造成了病例重复的问题。
3.3数据不规范
课题组已经从医院的电子病历系统中收集了部分成人白血病病人的数据,但由于医生的习惯、病人较多而问诊时间短等原因,导致医生对同一个病的名称或同一字段的录入格式不统一,对同一情况的描述存在差别等情况出现。例如,对于诊断同为“急性髓细胞白血病”的病历,由于有的病人有多个诊断,需要录入序号,并且由于临床治疗需要进行分型,导致有些录入的是“1、急性髓细胞白血病M4a”,有的则是“1.急性髓细胞白血病M5b型”,但计算机则认为这是不同的疾病,因为计算机识别的是二进制的字符,显然这些名称的二进制格式是有区别的,这样就无法进行数据挖掘工作。
4解决思路探讨
针对上述问题,课题组经过研究讨论,得出了以下解决思路:
4.1病人隐私保护
获取病人信息需严格按照有关规定,遵循严格的信息提取流程,科研数据提取必须经科研人员申请、主管部门审核同意并授权后提取,只提取科研需要的信息,对于姓名、身份证号码、住址、联系方式等敏感信息,如不影响科研结果则不进行收取,如果在需要对病人进行随访等情况必须要提取相关信息,必须严格做好保密工作,不得随意公开。
4.2病例重复
提取了病人信息后,导入数据库中后通过结构化查询语句(StructuredQueryLanguage,简称SQL)进行二次筛选,以病人住院号(病人唯一标识)及其首次住院时间为条件获取病人首次住院的信息,以去掉重复的病例,详细语句如下:selectdistinct*fromdbo.Cases_All,(select登记号,min(就诊日期)as就诊日期fromdbo.Cases_Allwhere年龄>=18groupby登记号)bwheredbo.Cases_All.登记号=b.登记号anddbo.Cases_All.就诊日期=b.就诊日期orderbydbo.Cases_All.登记号
4.3数据不规范
必须通过数据预处理的方式,在数据仓库中通过SQL语句将这些诊断统一修改成同一个名称并去掉多余的序号等信息。
5结语
下一步课题组将对数据处理后的结果进行数据挖掘,得出结论后进行临床验证,明确吸烟与成人白血病发病之间的关系。上述的解决方法只是为了达到科研目的而采取的措施,对以后的数据挖掘研究项目起到一定的参考作用,具体问题还需结合科研项目的实际情况进行分析,期望能起到抛砖引玉的作用,引来更多同行介绍更好的解决方案。另外,如果要从根本上解决这些问题,需要多部门的共同努力,例如对于数据不规范问题,需要卫生主管部门牵头制定统一标准和录入规范,各级医疗机构高度重视,严格执行,以确保数据的统一性。
参考文献
[1]周及红,刘东,李彤.改善骨髓微环境与脂质体药物相结合干预白血病的实验研究[J].中国实验诊断学,2014,18(08):1233-1234.
[2]黄锐,闫雷.利用Weka挖掘白血病与基因的关系[J].中华医学图书情报杂志,2015:24(1):50-54,60.
[3]林密.美国退伍军人中的白血病与吸烟嗜好[J].国外医学情报,1988:400.
[4]陈文材.白血病危险因素及住院费用变化趋势研究[D].兰州:兰州大学,2015.
[5]王星.成人急性髓细胞白血病发病危险因素的病例对照研究与Meta分析[D].上海:复旦大学,2011.
[6]吕国义.医院PACS系统发展趋势研究[J].中国卫生质量管理,2015,22(06):92-94.
[7]黄锐,闫雷.利用Weka挖掘白血病与基因的关系[J].中华医学图书情报杂志,2015,24(1):50-54,60.
[8]赵华,李代渝,蒋大勇.血常规数据挖掘对白血病的初筛作用[J].泸州医学院学报,2013,36(3):251-254.
[9]俞萍,任国琴,吴静,华敏峰.急诊病人隐私保护策略的实施及效果评价[J].护理研究,2015,29(07):881-883.
作者:刘存德;蒙华;刘德健 单位:广西医科大学第一附属医院计算机管理中心