本站小编为你精心准备了大数据时代的循证医学论文参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
循证医学(EvidenceBasedMedicine,EBM)是一门重视证据制作的学科,其基础是数理统计学,它要求随机对照实验(RandomizedControlledTrail,RCT)的样本及环境一致。在现有条件下,由于样本的差异性和稀少性,很难满足EBM的RCT要求。例如,要达到敏感度90%、特异度85%、显著水平0.05、允许误差0.05,需要采集的正负样本分别达552例及783例。为了弥补样本不足而导致的证据可信问题,Meta分析试图综合不同研究人员的研究结果。但是,样本的时空及环境差异仍然使Meta分析结果备受质疑。
只有在同一时间同一地区大量采集样本,才有可能满足RCT随机对照实验的样本要求。RCT样本问题可望在大数据时代得到解决,随着泛在随时采集样本的大数据时代的到来,以及不间断采集医疗数据的可佩戴设备出现,样本数据的稀缺等问题将随巨量数据消失。而随着新型大数据分析挖掘工具的出现,特别是深度学习技术的不断发展和应用,证据及其结论的准确可信性必将大大提高。目前,深度学习识别5749个人脸的精度已达99.15%,其准确程度已经超过人眼和大脑。因此,深度学习必将为循证医学带来一场新的革命。本文将分析循证医学在数据证据获取、分析、制作等方面所面临的挑战,介绍医疗大数据时代的数据采集、整合、分析和处理方法,介绍面向医疗大数据的深度学习技术自动提取疾病特征的原理和方法,以及医疗大数据及基于云计算的深度学习对循证医学所带来的各种变革。面向大数据的深度学习将特征提取与决策分析过程合二为一,大大降低了医生在临床及医学研究中应用循证医学的劳动强度。结合医疗大数据、云计算和深度学习的循证医学,将克服过去数据证据稀少、偏颇、失信、不公、过时等不足,将具有更加广阔的推广应用前景和发展动力。
1循证医学与数据证据
循证医学,简之就是“遵循证据的医学”,又被称为实证医学。循证医学重视医生的临床经验,即传统意义上的经验医学,同时又强调诊断、治疗等决策应在临床证据最为符合病症的基础上作出[1]。在循证医学的创立、发展与传播方面,英国的科克伦(ArchiebaldL.Cochrane)、美国的费恩斯坦(AlvanR.Feinstein)以及萨克特(DavidL.Sackett)做出了重大贡献,成为循证医学的奠基人。科克伦强调大规模随机临床试验的重要性。他认为只有在大规模临床试验中使用随机分组策略,才能避免因样本分组而产生的选择性偏差,保持对照组和试验组样本的背景因素平衡,从而才能做出最终正确的比较与评价。他建议及时将切实医学证据传播给使用者,接受专家评估并对可信度进行适当分级,以使医学证据能被及时整理、归纳与更新。费恩斯坦奠定了现代流行病学的数理统计与逻辑基础。从1970年到1981年,他在美国《临床药理学与治疗学》杂志(ClinicalPharmacologyandTherapeutics)上,以“临床生物统计学”(ClinicalBiostatistics)为题连续发表了57篇论文,将数理统计学和逻辑学导入到临床流行病学,科学系统地建立了临床流行病学的有关理论体系。萨科特则为循证医学的传播与发展做出了巨大贡献。他发起并主编了与循证医学有关的两本著名杂志:《美国内科医师学会杂志俱乐部》和《循证医学》。
1997年,他还主编出版了《循证医学》一书,该书被译为多种文字并在世界上广为传播。正是在《美国内科医师学会杂志俱乐部》上,加拿大盖亚特(rdonH.Guyatt)于1991年首次提出了循证医学一词[3]。从循证医学与数理统计和逻辑学的渊源,便可以看出循证医学注重证据的内涵。它是一门非常强调证据制作的学科,同时又非常重视医学证据的传播和评估,这正是它区别于以往医学的特点。通过评估产生可信证据,通过传播发挥证据价值。医生在诊断与治疗过程中,不仅基于经验直观判断,而且结合证据科学决策,更加客观地进行诊断与治疗。短短十多年的时间,在世界各国医学研究与临床实践中,循证医学得到了广泛深入的应用。科克伦最初创建的世界循证医学协作网已经包括约50个专业协作小组,所收集的医疗证据几乎覆盖所有临床医学领域。1996年,我国华西医科大学建立了中国循证医学中心,并于1999年正式加入世界循证医学协作网;2001年,中国循证医学中心创办了《循证医学》杂志,发表在各类杂志的循证研究论文达45842篇。但是,循证医学也有其面临的问题,如对证据进行科学评价等问题。临床证据目前还没有完整、科学的定义,证据评价标准及推荐级别尚未完全统一,不同国家不同疾病的证据质量分级不尽相同。而且,随着人类对疾病认识的加深以及诊疗手段的革新,评价标准还会随这些因素的变化而变化。
循证医学的基础是数理统计学,要求RCT的实验样本及环境一致,以便排除个体差异及环境干扰,但这在现有条件下近乎不可能实现。号称大规模随机对照实验的样本偏少,对照组和试验组难有条件一致的个体,环境随时间空间变化造成实验对照控制困难。目前,大规模的医学样本采集困难,几百个样本已经算是比较大的样本了;而根据统计理论如要达到90%的敏感度,至少需要约1300个的数据样本。为了克服RCT样本不足的问题,Meta分析方法得到了广泛应用:通过综合已有研究多个样本集的结果,可以推得大规模样本集的综合结果。Meta分析取得了很多有价值的研究成果,但是,Meta分析的基础也是数理统计学,其运用的前提是样本及实验环境一致,正是在这一点上它备受质疑。首先,不同样本集的权重控制难于完全公正,因为其实验环境难于恰当评价和把控,实验结果难免有过度包装和偏颇之嫌。Meta分析存在的另一个问题是:它所依赖的数据往往不是最新的即时案例,制作的证据可能因环境与气候的变化而失去应用价值。总之,循证医学所面临的问题包括:证据的稀缺性、偏倚性、可靠性、及时性、公正性,以及环境的一致性等方面的问题。由于证据的一致性和及时性存在问题,基于历史数据进行Meta分析备受质疑。2014年,《英国医学杂志》在名为《循证医学濒临破产》的文章中指出[5]:循证医学的证据属于间接证据,基础建立在已经发表的研究文献上,利益冲突容易影响证据的公正性,证据环境与临床决策环境存在距离;循证医学助长了过度诊断、过度治疗,并可能存在沦落为利益集团代言人的危险。
2大数据对循证医学的影响
大数据(Bigdata)又称巨量或海量数据,是指数据规模巨大以至在合理时间内,无法通过当前主流软件工具,获取、处理、分析以便决策的结构复杂的数据[6]。大数据如下具有4V特点:Volume(巨量)、Velocity(瞬速)、Variety(多样)、Value(价值)。巨量是指已经不能再用GB(即1024MB)和TB(即1024GB)为单位,来衡量大数据的存储容量或规模,而要以PB(即1024TB)、EB(即1024PB)乃至ZB(即1024EB)为单位来计量数据容量。在巨量的医疗大数据中,各种条件的样本都会存在,因此,证据的稀缺已经不是问题。瞬速是指兼具方向的快速变化,即数据随时间和空间快速变化。大数据中的样本通常是全空间的、多维度的、全时间的及瞬时变化的。由于大数据地域环境广,数据样本量巨大、正反样本齐全,证据的“制作”已不再必要,而是随时随地客观地存在。瞬速性通过可佩戴健康监测设备体现,这为及时获取病患信息提供了极大便利。多样是指数据的种类繁多、结构复杂、因果并存、甚至同一数据表现出不同形式。数据的多样性对数据的理解和分析是一个巨大挑战,但同时也为样本分析结果的验证带来便利。因此,在医疗大数据环境下,不仅随时可以采集样本进行分析处理,还能对分析得到的结果马上进行验证,从而能够保证医学证据的可靠与可信。
价值是指相比小规模、历史数据而言,大数据具有更高的研究和使用价值。由于任意时刻任意地点都有大量样本,样本的稀缺性和及时性已经不是问题,这为医学研究扫清了采样障碍;同时由于样本丰富冗余多样,也为研究结果的验证提供了便利;大数据除具有巨量历史数据外,还有不同地域环境的巨量即时数据,这使循证决策更具应用价值和时效性。大数据将首先改变医学数据的采集方式。大数据的形成往往依靠自动采集技术,随着可佩戴监测设备如iWatch等的出现,医学数据的采集及积累速度将出现爆炸性的增长。以往的数据同大数据相比,如同沧海之一粟。且以往的数据往往靠手工采集完成,普遍存在稀缺、偏倚、可靠、及时、公正等问题,这样采集的证据必然会影响医学研究的结论。基于手工证据进行决策,其结论未必准确及时公正可靠。医疗大数据不间断地在不同地点同时采集,不仅包含历史数据以及即时数据,甚至还可能包含未来需求信息,例如,ogle就是通过人们对感冒药品的搜索来预测流感的。大数据的出现将改变医学数据的管理方式。在网络数字化高度发达的今天,尽管已经出现了电子病历,但纸张病历在数据管理中仍然重要。然而,纸张病历有其固有缺陷,如容易破损或丢失、整理归档的周期过长、借阅的时间成本极高、研究采样的工作量巨大等等。伴随大数据出现的数据融合技术能将不同医院的电子病历整合在一起,并同可佩戴健康监测设备的数据及时集成,大大减少了电子病历的整理、借阅和数据采集时间,这不仅对病人的疾病诊断和预警监控更加有利,同时也对医生的临床及医学研究更有帮助。通过语音和可视眼镜等现代化的数据浏览设备,医生在查房间隙就能获知下一病人既往病情,从而能大大减少医生的劳动强度,使医生有更多时间治疗病人,有更多的时间进行医学研究。
大数据的出现将改变医学数据的分析方式。以往在收集样本数据以后,通常使用SAS或SPSS等软件,对采集的数据进行统计分析,发现相关病因或建立决策模型。这些软件受计算能力及内存容量的限制,只能处理样本量不大的数据,并且处理的数据维数有限,例如,SPSS不能超过40维,而医疗大数据的维数成千上万。通过手工或统计软件的计算方法,将无法满足医疗大数据的分析需要。
当维数超过30个致病因素时,可能要考虑230种因素组合,普通统计软件已无法计算和处理,必须依靠内存及速度“无限”的云计算。必须研究与开发基于大数据和云计算的分析与挖掘技术如深度学习技术,使其能够自动完成高维病因数据的分析与主要病因的提取。总之,医疗大数据的采集、整合、分析、处理、研究完全靠人工完成已极其困难,没有利用云计算的统计分析软件也难于完成医疗大数据的分析和处理。在大数据时代,必须借助深度学习等技术完成医疗大数据的分析和挖掘。虽然医疗大数据能够弥补数据样本的不足和不公,但只有借助更为先进的分析工具和软件,才能为循证医学带来进一步的变革和发展。
3大数据对循证医学的变革
证据制作是循证医学的核心,证据能为医生的诊治提供参照,因此,循证医学得到了快速发展。但是,矛盾、偏颇、过时的证据也使循证医学备受质疑。首先是证据及其结论存在大量的矛盾,使人们对循证医治的结果产生怀疑;其次是证据偏颇使其成为利益代言人的工具;其三是证据时过境迁使医治达不到预期效果。而医疗大数据的出现恰好能够弥补以往证据采集与制作的不足。首先,医疗大数据使证据的稀缺问题得到解决;其次,随大数据广泛汇集的医生及病人评价,可有效避免证据成为利益代言人的工具;其三,可穿戴等自动采集设备可保证证据的时效性。这将有助于循证医学同中医的结合。中医的治疗过程通常比西医长,其证据采集及疗效评估存在很大问题,而随着可穿戴健康监测设备等技术的发展,长期持续采集治疗证据及疗效将不再困难,从而有助于循证医学在中医等领域发展壮大。此外,随大数据兴起的先进数据分析与挖掘技术,将对循证医学起到巨大的推进作用。临床决策分析评价是确定循证治疗方案的关键步骤,现有的决策分析评价模型包括决策树、Markov过程等一系列模型,这些模型在面临高维大数据时力不从心,难于继续提供较高的决策精度,使医生对医治方案是否有效失去信心。随着大数据深度学习技术的出现,病因的分析和提取已完全自动化,且大大降低了建立决策分析模型的工作量,提高了治疗方案的决策精度。对于任何疾病诊治方案,考虑的疾病致病因素越多,即证据或特征维数越多,得到的参考信息就越多,诊治的准确性就会相应提高。但是,医生在遇到大量高维的证据数据时,往往面临从中选择少数有效证据的难题。例如,假定要考虑30个致病因素或检验指标,建立决策模型就要考虑230种因素组合,从中筛选一个最优因素组合作为模型输入的工作量是巨大的。因此,要得到由若干最优证据构建的最佳决策分析模型,医生们所投入的研究精力可想而知。
筛选最优因素组合是医生们最费精力的工作,目前这项工作可以被深度学习自动完成了。深度学习最早由Hinton等人在2006年提出,它是一种无监督的特征学习和提取技术,它通过低层特征的组合构建更加抽象的高层特征。2012年,Lecun等人利用卷积神经网络真正实现了高效的多层深度学习。传统的神经网络学习只有单向认知过程,通常只包含一个隐含层,因层数较少而被称为浅层学习。深度学习则包含认知和生成两个过程,并且每个过程都包含多个隐含层,其模型的总体框架如图1的虚框部分所示。如图1所示,深度学习的“输入层”可以理解为各种致病因素以及各种检查化验结果,例如遗传环境因素以及肝功全套指标等;自底向上的箭头表示认知过程,自顶向下的箭头表示生成过程,即深度学习由两个互逆的过程构成;认知权重向量WnT和生成权重向量Wn表示深度模型的知识。原始“输入层”经“隐含层H0”认知得到输出,输出又经“隐含层h0”生成得到新“输入层”,如果原始“输入层”和生成的“输入层”完全一致,则说明认知产生的输出是完全正确的。根据信息论的有关理论,学是会产生损失,新旧输入不可能完全一致。因此,只要两者近乎一致就可以了。认知和生成权重同隐含层的每个输出相关联,wake-sleep深度学习算法用于双向调节权重:(1)利用下层输入和认知权重向量WiT产生输出表示,然后使用梯度下降法调节生成权重向量Wi;(2)利用输出表示和生成权重向量Wi产生输入表示,然后使用梯度下降法调节认知权重向量WiT。通过逐层学习最终得到顶层的认知和生成权重向量WnT、Wn。在深度学习完成后,如果要建立决策分析模型,只需将顶层输出即自动提取的特征,作为分类模型如支持向量机的输入,并用类别标记如肝硬化分级训练支持向量机,就可以得到用于决策分析的精确分类模型,分类模型如图1的虚框外部所示。2014年,香港中文大学汤晓鸥教授领导计算机视觉研究组(mmlab.ie.cuhk.edu.hk),开发了一个名为DeepID的深度学习模型,在LFW数据库上识别5749个人脸的准确率已达99.15%,其精细和准确程度已经超过了人眼和大脑。医疗大数据及深度学习必将为循证医学带来一场新的革命。不仅数据缺失、偏颇以及过时等问题会被迎刃而解,而且证据收集、制作以及诊治方案的决策都将会自动化,这将扩大循证医学在所有领域包括中医等领域的应用范围,大大降低医生在证据制作、治疗方案决策与疗效评估等方面所付出的精力,推动循证医学向更深更广更加现代化的方向发展。
4总结
医疗大数据带来的变革将是全方位的,它不仅为医学研究和证据制作带来便利,同时也将促进中医等替代和补充医学的发展。作为大数据采集的一项关键技术——便携式/可佩戴健康数据自动采集技术,将大大提高医疗数据采集以及证据制作的效率,解决中医等疗效数据需要长期采集观测的难题,弥补循证医学存在的证据偏颇、不公、过时等缺陷,促进循证医学更加客观、公正、可靠地在临床治疗中应用。在循证医学的证据评估以及利用方面,伴随大数据出现的云计算能够提高证据分析与处理的效率,大大节省医生临床应用和医学研究所需要花费的时间;面向大数据的深度学习能够从浩瀚的高维医疗数据中,自动完成疾病致病因素及环境因素等的筛选与提取工作,并能建立精度远远超过人脑的决策分析模型,从而大大提升医生建立和应用循证治疗方案的信心,有助于循证医学被各科医生更加广泛地接受和应用。尽管深度模型包含更多的隐含层,其学习时间要远远长于浅层学习,但两种模型的决策时间相差不大,因此,这并不妨害深度模型的有效应用。特别值得一提的是,深度学习将证据提取与决策分析两个过程合二为一,大大降低了医生在临床及医学研究中应用循证医学的劳动强度。基于大数据、云计算和深度学习的循证医学,由于能够降低劳动强度、提升工作效率、提高决策精度,因而将具有更加广阔的应用前景和发展方向。
5展望
大数据和云计算时代的到来,将推进循证医学的研究和发展,并为其提供深度学习等先进手段。医疗大数据将不再稀少、偏颇、过时以及不公,将避免循证医学成为利益代言人的工具;便携式/可佩戴健康设备作为大数据自动采集数据的工具,将有助于解决循证医学证据采集的难题,促进循证医学在包括中医在内的更广领域推广应用;自动整理大数据的数据融合技术、以及自动提取证据并建立决策模型的深度学习技术,将大大提高医学证据提取及医治方案决策分析的效率,推动循证医学被临床医生及研究者更加广泛地接受和应用。总之,大数据/云计算和深度学习将为循证医学带来一个崭新的春天。
作者:马光志 张晓祥 周彬 左秀然 聂庆华 单位:华中科技大学医学图像信息研究中心 华中科技大学附属同济医院 华中科技大学附属协和医院 武汉市中心医院 武汉侨亚百老汇信息技术有限公司