前言:我们精心挑选了数篇优质数据分析分析技术文章,供您阅读参考。期待这些文章能为您带来启发,助您在写作的道路上更上一层楼。
[关键词]数据仓库联机分析处理多维数据分析
中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)1110077-01
一、引言
联机分析处理(Online Analytical Processing,OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的,OLAP是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入地观察。OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。
二、OLAP的多维数据结构
数据在多维空间中的分布总是稀疏的、不均匀的。在事件发生的位置,数据聚合在一起,其密度很大。因此,OLAP系统的开发者要设法解决多维数据空间的数据稀疏和数据聚合问题。事实上,有许多方法可以构造多维数据。
(一)超立方结构。超立方结构指用三维或更多的维数来描述一个对象,每个维彼此垂直。数据的测量值发生在维的交叉点上,数据空间的各个部分都有相同的维属性。
这种结构可应用在多维数据库和面向关系数据库的OLAP系统中,其主要特点是简化终端用户的操作。超立方结构有一种变形,即收缩超立方结构。这种结构的数据密度更大,数据的维数更少,并可加入额外的分析维。
(二)多立方结构。在多立方结构中,将大的数据结构分成多个多维结构。这些多维结构是大数据维数的子集,面向某一特定应用对维进行分割,即将超立方结构变为子立方结构。它具有很强的灵活性,提高了数据的分析效率。
一般来说,多立方结构灵活性较大,但超立方结构更易于理解。超立方结构可以提供高水平的报告和多维视图。多立方结构具有良好的视图翻转性和灵活性。多立方结构是存储稀疏矩阵的一个更有效方法,并能减少计算量。因此,复杂的系统及预先建立的通用应用倾向于使用多立方结构,以使数据结构能更好地得到调整,满足常用的应用需求。
许多产品结合了上述两种结构,它们的数据物理结构是多立方结构,但却利用超立方结构来进行计算,结合了超立方结构的简化性和多立方结构的旋转存储特性。
三、OLAP的多维数据分析
多维数据分析是指对以多维形式组织起来的数据采取切片、切块、旋转和钻取等各种分析动作,以求剖析数据,使最终用户能从多个角度、多侧面地观察数据仓库中的数据,从而深入地了解包含在数据中的信息、内涵。多维分析方式迎合了人们的思维模式,因:
(一)切片。定义1:在多维数组的某一维上选定一维成员的动作成为切片,即在多维数组(维1、维2、....维n,变量)中选一维:维i,并取其一维成员(设为“维成员vi”),所得的多维数组的子集(维1,...维成员vi,...,维n,变量)称为在维i上的一个切片。
按照定义1,一次切片一定是原来的维数减1。所以,所得的切片并不一定是二维的“平面”,其维数取决于原来的多维数据的维数,这样的切片定义不通俗易懂。下面给出另一个比较直观的定义。
定义2:选定多维数组的一个二维子集的动作叫做切片,既选定多维数组(维1、维2、....维n,变量)中的两个维:维i和维j,在这两个维上取某一区间或者任意维成员,而将其余的维都取定一个维成员,则得到的就是多维数组在维i和维j上的一个二维子集,称这个二维子集为多维数组在维i和维j上的一个切片,表示为(维i和维j,变量)。
按照定义2,不管原来的维数有多少,数据切片的结果一定是一个二维的“平面”。从另一个角度来讲,切片就是在某个或某些维上选定一个维成员,而在某两个维上取一定区间的维成员或全部维成员。从定义2可知:
1.一个多维数组的切片最终是由该数组中除切片所在平面的两个维之外的其它维的成员值确定的。
2.维是观察数据的角度,那么切片的作用或结果就是舍弃一些观察角度,使人们能在两个维上来集中观察数据,因为人的空间想象力有限,所以,对于维数较多的多维数据空间,进行数据切片是十分有意义的。比照定义1,我们可以将切片的这两个定义联系起来,对于一个n维数组,按定义1进行的n-2切片的结果,就必定对应于按定义2进行的某一次切片的结果。
(二)切块。定义1:在多维数组的某一维上选定某一区间的维成员的动作称为切块,即限制多维数组在某一维的取值区间。显然,当这一区间只取一个维成员时,即得到一个切片。
定义2:选定多维数组的一个三维子集的动作称为切块,即选定多维数组(维1、维2、....维n,变量)中的三个维:维i、维j、维r,在这三个维上取某一区间或任意的维成员,而将其余的维都取定一个维成员,则得到的就是多维数组在维i、维j、维r上的三维子集,我们称这个三维子集为多维数组在维i、维j、维r上的一个切块,表示为(维i、维j、维r,变量)。切块与切片的作用与目的是相似的。
(三)旋转。旋转既是改变一个报告或者页面的维方向。例如:旋转可能包含了交换行与列;或是把某一个行维移到列维,或是把页面显示中的一个维和页面外的维进行交换(令其成为新的行或者列的一个)。
(四)钻取。
钻取处理是使用户在数据仓库的多层数据中,能够通过导航信息而获得更多的细节性数据,钻取一般是指向下钻取。大多数的OLAP工具可以让用户钻取至一个数据集中有更好细节描述的数据层,而更完整的工具可让用户随处钻取,即除一般往下钻取外,随处钻取还包括向上钻取和交叉钻取。
(五)多视图模式。人们发现,获取相同的信息,图形显示所带来的直观性有时是简单的数据表所无法提供的。一个OLAP系统,应当采取多种不同的格式显示数据,使用户能够获得最佳的观察数据的视角。
四、结语
随着数据仓库的发展,OLAP也得到了迅猛的发展。数据仓库侧重于存储和管理面向决策主题的数据,而OLAP则侧重于数据仓库中的数据分析,并将其转换成辅助决策信息。OLAP的一个重要特点是多维数据分析,这与数据仓库的多维数据组织正好形成相互结合、相互补充的关系。将有助于我们解决数据处理中的复杂问题。
参考文献:
[1]彭木根,数据仓库技术与实现,电子工业出版社,2002.9.
1计算机大数据分析中云计算技术作用分析
云计算技术可以给提供计算机数据传递与共享的条件,融合软硬件数据保存,促进计算机处理工作更好的开展。云计算技术可以给用户提供良好的网络环境与保存空间,处理数据传递环节的各项问题。与传统大数据分析技术相比,云计算计算可以提高大数据分析质量。人们借助云计算技术获得云终端的数据,切实满足人们对于数据的需求。现阶段计算机市场形成完善的结构体系,围绕云计算技术推动计算机大数据分析工作的开展,奠定后期云计算技术发展的基础。目前,人们生活中全面运用云计算技术,基于云计算技术研发的服务器及操作系统方便人们处理各类信息技术。同时,云计算技术数据保存有着较强的安全性,极小可能出现数据丢失情况,满足人们的实际需求,直接体现出云计算技术的优势。优化云计算环境下计算机的数据处理中心,就可以不断提升计算机的云计算能力,让云计算不仅为网络信息所用,还在计算机网络安全中发挥极为重要的作用。目前,计算机的使用人群更为注重的是在高速发达的信息社会,自己的信息,也就是使用计算机网络的安全性能是否能得到保障,这时候考验的就是云计系统的完善性。目前存在的最主要计算机安全问题就是黑客问题和系统漏洞问题。系统漏洞这一人为因素可以通过不断检索进行漏洞的发现和修补,面对黑客的攻击,能够做的就是防患于未然,不断地升级和优化系统,最终达到完善的数据处理效果。
2云计算技术下计算机大数据分析面临的问题
2.1网络技术安全
由于相关技术的不断发展,云计算环境下的网络安全技术正在朝着稳定和成熟的方向发展,但在具体的应用过程中依然表现出一定的网络安全问题,因此用户在使用过程中应该做好相关的应对工作。网络安全问题具体表现在用户在使用信息传输的过程中,一旦出现服务性中断问题,难以保证数据的安全性,启动被动保护模式的情况使信息的安全性更加难以保障,这也成为云计算模式下的网络技术安全中的重点问题,一旦得不到及时有效的解决,用户在使用过程中就会受到不同程度的威胁。
2.2网络环境安全
网络环境安全是保证网络正常使用,信息传输质量有保证的重要前提,一旦网络环境存在不安全因素,将会引发病毒的入侵和黑客的攻击。因此网络环境安全也是云计算技术价值得以发挥的重要前提。计算机在使用过程中如果长期受到病毒的困扰和黑客的威胁,将会降低人们对计算机的信赖性,甚至在工作和生活中将会在网络环境安全方面投入更多的成本。
3计算机大数据分析中云计算技术的具体应用
3.1数据传输安全分析
在云计算的作用下,云安全含义逐渐形成,具体来说,云安全主要指在用户借助云计算技术来实现计算机大数据分析时,让数据安全性得到了保证。用户端数据和数据安全往往呈现出正比关系,随着应用群体数量的增多,涉及的计算机数据范畴将不断扩充,假设计算机遭受病毒的攻击,可以在云计算技术的作用下实现病毒的拦截,以此让计算机数据安全性得到保证。从云计算技术自身角度来说,其提供的各个服务均是由IaaS基础设施级服务以及PaaS平台级服务两项内容构建而成。首先,IaaS基础设施级服务其作用在于,可以给用户提供对应的服务,也就是对各个计算机基础设备进行操作和应用,其中包含了CPU处理、数据保存、数据传递等。其次,PaaS平台级服务则是指,把云计算中各个服务器及开发环境当作服务,通过PaaS平台用户能够结合自身需求实现对应操作流程的部署和应用。
3.2监督数据资源共享
网络资源在传输过程中遭遇到的安全威胁是用户时时刻刻关注的问题,因此在具体的工作和管理中,需要提高云计算网络安全技术的应用程度,通过不断创新安全模式,完善相应的防护体系,从而有效消除安全性问题,提升数据传输的安全性和稳定性。具体在应用过程中,可以借助云计算技术的优势,对数据传输的整个路径进行监控,保证传输通道环境的安全性,一旦出现问题及时进行预警,有效预防黑客的攻击,降低网络安全事故发生的概率。对此,有关部门应该提高重视程度,同时完善相应的监督管理制度,采用科学的管理方式,实现预期的监测目标。
3.3提高数据使用安全
计算机用户本身的安全意识也是当前需要关注的重要方面,为了进一步提升用户数据信息和计算机系统的安全系数,需要重视身份认证工作的提升,具体可以使用实名制的方式进行认证处理,从而不断提升整个网络结构的安全性。对于网络应用过程中涉及到的安全问题,可以通过实名追踪的方式进行可疑目标锁定,从而有效控制恶意攻击情况的发生。但在应用过程中也需要重视假人名情况的出现,提高网络数据信息窃取的预防水平。计算机网络环境算是一种相对开放的环境,在使用过程中会面向大量的用户,通过重视用户的身份认证,可以有效避免用户对数据的非法访问。同时在使用者进行计算机登录和使用的时候,需要对用户名和密码进行核实。按照权限的不同,确保数据库信息的安全有效性。通过对数据库信息加密处理,可以确保数据库信息的安全性。这种加密处理可以在原有数据信息的基础上进行算法的处理改进,使用者可以通过自身的权限获取想要了解的信息,如果没有解密方式,不法分子将会难以获取数据的原始信息。
3.4网络安全等级防护
在云计算环境下的安全管理中心具备系统管理、安全管理和安全审计等功能,能够满足不同云计算环境下不同安全等级的保护要求,并且通过服务层的安全保护框架,实现对不同等级云服务客户端的安全保护,为使用者提供安全可靠的资源访问服务。在访问云服务商时,用户可通过通信网络、API接口和Web服务方式访问云服务器,但是用户终端系统的安全防护不在网络安全等级保护框架体系内。在保护框架体系内,资源层和服务层安全是云计算环境安全保护的重点,资源层包括物理资源安全和虚拟资源安全,应按照安全设计要求构建资源层安全保护框架。云计算环境下的网络安全等级保护要针对不同等级云计算平台确定不同的安全目标,一般情况下安全保护等级最低为二级,并根据安全目标和等级要求实施安全设计步骤,具体包括:第一步,根据云平台的租户数量和业务系统情况确定云计算安全保护标准,制定云计算平台的安全保护策略,以避免在云计算平台上发生安全事件;第二步,细化安全技术要求,针对安全计算环境、安全区域边界、安全通信网络以及安全管理中心制定出相应的安全保护策略;第三步,根据云计算功能框架中的各层功能和保护要求,制定安全技术机制,使其满足云计算功能框架的安全保护要求。在完成云计算环境下的网络安全等级保护设计之后,还应增加虚拟化安全、镜像安全、接口安全等安全控制点,并采用访问控制技术、身份识别技术等安全防护技术,实现与云计算平台上各功能层次的对接,提出各层的安全保护措施。
3.5重视相应程序开发
网络安全应用程序需要随着技术的进步和人们生活和工作的需要进行逐步提升,从而及时对病毒程序进行开发和处理,确保计算机系统可以敏锐捕捉到病毒的活动迹象,提升自身的防御能力。通常情况下,对于计算机的服务,内网隐蔽处理,可以提升网站平台的访问速度,可以避免不安全网址带来的不良效应,从而为计算机的安全防御提供一定的屏障。在计算机数据的使用中,由于安全性威胁导致的数据丢失问题,可以通过备份和恢复改善。这种恢复性功能也可以保证数据的一致性和完整性。通常由逻辑备份、动态备份以及静态备份等几种情况。计算机黑客数量增多,净化网络环境显然存在较大难度,但通过必要的防范措施依然可以在数据库信息的保护中起到关键作用。而使用防火墙保护工具就能很好的为计算机网络提供一种安全保障。通过防火墙,可以在一定程度上防止黑客的侵害。
关键词 数据挖掘 基因序列 生物信息学 遗传疾病 患病家族连锁分析
在生物信息学的成果的理论基础之上,通过统计的方法查找未知的生物化学功能的疾病基因的位置。这个方法预先通过患病家族连锁分析,再推断包含这些基因的染色体区域片段,然后检查该区域来寻找基因[1]。
数据挖掘在DNA数据分析的发展状况
现今所采用的是分子生物学与微电子技术相结合的核酸分析检测技术[2]。DNA芯片技术的基本原理是将cDNA或寡核昔酸探针以105~106位点/cm2>/sup>的密度结合在固相支持物(即芯片)上,每个位点上的cDNA或寡核昔酸探针的顺序是已知的,将该探针与荧光标记的待测样品DNA,RNA或cDNA在芯片上进行杂交,然后用激光共聚焦显微镜对芯片进行扫描,并配合计算机系统对杂交信号做出比较和检测,从而迅速得出所需的信息。
基因数据挖掘常用的方法:①核酸与蛋白质比较的预测分析:蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系。进一步的比对是将多个蛋白质或核酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域、位点和profile,从而探索导致它们产生共同功能的序列模式。此外,还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架;把蛋白质序列与具有三维结构信息的蛋白质相比,从而获得蛋白质折叠类型的信息。②针对核酸序列的预测方法:针对核酸序列的预测就是在核酸序列中寻找基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。在此过程中,确认一段DNA序列是一个基因需要有多个证据的支持。一般而言,在重复片段频繁出现的区域里,基因编码区和调控区不太可能出现;如果某段DN段的假想产物与某个已知的蛋白质或其他基因的产物具有较高序列相似性的话,那么这个DN段就非常可能属于外显子片段;在一段DNA序列上出现统计上的规律性,即所谓的“密码子偏好性”,也是说明这段DNA是蛋白质编码区的有力证据;其他的证据包括与“模板”序列的模式相匹配、简单序列模式如TATA Box等相匹配等。
案例分析
疾病是由于基因的片段内的某个位置存在或发生改变而引起的,也就是发生突变。能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。对基因的数据挖掘,就是对这些突变位置的寻找,并且找出该位置与所有者身患的疾病之间的关系。
方法的选择:笔者在设计中选用单纯的DNA序列进行比较,基因在计算机的表示和存储时,可以使用一条很长的字符串来表示基因的某一条序列,使用文件的形式进行对基因工作者的提取成果创建一级数据库,使用文件修整的方法进行数据的清洗,以满足数据在二级数据库中的一致性。同时在文件比较过程中,生成某两个数据文件的差异状况,保存在二级数据库库中,进一步的操作是对差异的位置的某个类型所占的比例。最后通过事先的对患者患病信息的统计得到的某种疾病在群中所占的比例,与其相比较,如果这两个比例相等,则可以认为这个位置的某个类型引起疾病的发生。从医学院得到一些基因片段文件信息和患者(所有者)患病情况。
系统的实现:基因片段在计算机中以文件形式存储,用文件名标识其所有者(源体)。片段起始地址和长度信息和所有患者患病情况保存在本机数据库中。在程序测试过程中,将片段复制成40份,对其中部分文件的序列进行稍作修改,对所有患者的患病状况进行稍作修改,以创造测试环境。显示在与基因数据挖掘软件同在一根目录下的序列文件的集合。
其中一个文件所存储的基因信息,见图1。
启动统计程序界面,单击清空数据库中的临时用表数据,将数据库中有可能的杂音信息去掉。并对其中的所有文件进行统计前片段剪切,使所有片段的起始地址和长度都相同,避免发生序列移位。
没有进行片段剪切之前,浏览文件所存的片段信息,片段剪切完成之后,设置进行比较操作的甲、乙组的文件添加,因为本次测试只检验片段中的一块区域(文件中片段的所有信息),所以在起始序号那里添加为0,终止序号那里添加为175。这样则可以保证统计文件的所有信息都被统计。
单击结果显示按钮,可以见到程序以表格和条形图标方式。可以看到1、3、5、12、14、16、18、13、31、34、87、94、139、166位置的条形段较高。说明在这些接受统计的片段中,在上面提到的位置处存在的差异较大,与某遗传疾病的关联的可能性就越大。
如果用户想要在初步统计结果的基础上,按照数据库中所有者的疾病状况进行详细统计的话,单击菜单栏的详细统计按钮,选择按疾病详细统计,则将弹出窗口。
选择弱视,输入,则在文本框中显示与其关联的位置为1、3、5、12、14、16、18、13、31、34、87、94、139、166。
由此,用户可以根据本系统所给出的预测对弱视遗传疾病与序列中的特定位置,选择适当算法进行进一步的计算及检验,证明预测结果是否符合关联理论。数据挖掘方法体系中的智能聚类的相关技术则可较好的解决类别数判定、结果验证等问题。
结 论
对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法而言,都要复杂得多。从分析算法上讲,需要一些新的和好的算法;但技术和软件还远没有达到成熟的地步,因此需要不断探索及研究。
参考文献
1 黄诒森.生物化学[M].北京:人民卫生出版社,2002:29-37.