美章网 精品范文 大数据开发的过程范文

大数据开发的过程范文

前言:我们精心挑选了数篇优质大数据开发的过程文章,供您阅读参考。期待这些文章能为您带来启发,助您在写作的道路上更上一层楼。

大数据开发的过程

第1篇

关键词:大数据;软件工程;群体软件;关键技术

一、大数据时代软件服务工程与群体软件工程

所谓软件服务工程,就是将服务作为主要目标,在应用时需要根据变化不断通过虚拟的手段与分布式手段进行应用,而这种应用方法不仅能够使得软件更加虚拟化,同时也能强化其操作性,与此同时,更能有效解决动态变化与分布变化情况[1]。软件工程在发展过程中能够在大数据领域、云计算中得到更加广泛应用。在网络化、服务化等大环境影响下,软件工程可以得到更好的开放空间。工程师利用数据信息交互、学术交流等多种方式开展合作,对软件进行开发,建设更加具有性价比的软件系统。在软件开发中,目前十分成功的就是开源软件,开源软件的合作模式与结构都是当前学术界最看重的,然而当前常规研究方式却未能实现较大突破。很多学者开始尝试利用网络分析方法对数据进行有效分析,在一些规模较大的开发项目的开发人员中,外围开发者占据绝对优势,并且模块化特征更加明显。和群体软件工程相比,开源软件有较弱的发展态势,而群体软件工程主要是倡导利用众包形式进行开发。

二、大数据时代众包软件服务工程

(一)创新发展态势

众包软件服务工程作为国际各国都密切重视的一种流式数据处理与集密数据处理方式,特别是在服务中对产生的各项数据尤为重视,如何才能将这些密集型数据的存储设施、平台、价值分析等作为服务对象,是当前大数据软件工程在研究过程中的难点与重点部分。从最开始的服务消费,到后来的众包服务开方,随后再到软件平台管理,运营方都由在线流式数据和离线密集型数据组成。当前开发者版本级别达到GB级别,众多用户数据能够达到PB级别,在线沟通数据更是能达到TB级别,利用直接推送功能可以左右软件服务时间,对软件产生关键性作用与影响[2]。

(二)软件生产开发、运营与管理

密集型数据,因为他们本身固有的动态分布形式、动态交互、复杂演化、动态分配、价值隐藏等,都能够体现大数据的最原始行驶情况。从本质角度来看,这些数据仅仅是用于描述内容模量,但是没有具体含义,并且缺乏语义化作用。想要对其进行创新,必须打破原有的研究方法与思维,将密集数据作为主要材质课题,并且将其看作是研究的主体,在主体领域,大数据所在流域与主体专家需要制造,传播大量的数据。他们不仅是大数据的群体用户,还是最主要的消费者,同时也担任着运营和管理的作用,能够将群体智慧汇到一起,逐渐形成系统化的领域和主体知识。将这些知识作为核心与基础,对研究密集型数据相对应的信息学过程与生命周期进行研究,并且及时推送相应的服务期限,研究数据内容的相关语义和标志,最终赋予其相应的矢量。组织主体部分构建价值服务机制与知识体系,在研究和互通过程中,利用操作式管理方式将关键技术应用在密集型数据上,这些都能展示出众包软件工程发展内容。

三、大数据背景下关于信息处理技术发展情况

与传统数据形式相对比可知,在大数据时代下能够实现各项数据相互联系,并且这些相互关联的结构,能够利用当前所有的框架,对数据进行及时且有效的处理。将硬件作为基础,通过该基础搭建的网络存在相应局限性,并且制约了网络的性能和发展,因此需不断探索与创新网络架构技术,以此实现大数据技术的提高。在日后发展过程中,计算机网络必须为其提供开放式的结构与传输功能,将计算机网络信息处理与软件基础、硬件基础分开使用,随后对网络架构进行定义。相关网络软件使得我国网络技术朝着更高水平发展,随着大数据时代的不断深入,计算机能够实现网络、硬件、软件融为一体,并且产生出新的网络结构,能够为大数据时展提供重要理论与实践意义。这种形式不仅能够突破传统计算机在处理信息时因为网络所带来的限制,同时也能使计算机处理技术开发与应用形式打破单一情况,逐渐朝着多元化方向不断发展。

四、结语

综上所述,随着我国大数据时代的到来,社会各领域都将受到大数据思想和创新技术的影响。大数据对人们的生活方式产生深刻影响,因此将大数据作为当前一种最新兴的网络技术。

参考文献:

第2篇

关键词:大数据;软件工程;软件服务工程;第四范式

自上个世纪90年代初,信息高速公路在美国提出以来,历经近30年的发展演进,信息技术发展突飞猛进,信息化领域的新技术、新词语层出不穷,诸如IT技术、互联网技术、大数据技术、区块链技术、人工智能等。并且对人们的生产、生活方式产生了深刻的影响,认为现在进入了大数据时代、万物互联时代、智能化时代等。笔者认为,一直以来,其中除了硬件的发展,还有两个关键因素同样值得关注,一是数据,其是基础和目的;二是软件,其是方法和工具。唯如此,才能实现在软件生命周期即设计、开发、运行、优化,实现与大数据生命周期即获取、清洗、集成、分析、呈现等的互动。[1]换言之,现在来说,就是大数据和软件工程,二者助推了信息技术的发展,同时也是信息化的产物,在大数据时代背景下,研究软件工程技术的应用,对于经济社会的发展有着十分重要的意义。

1大数据和软件工程简述

1.1大数据简述

沃尔玛的“啤酒与尿布”是众所周知的大数据经典案例,大数据已经是当今信息社会炙手可热、耳熟能详的词汇,而且已形成共识,即人类已经进入大数据时代。上个世纪80年代初,《第三次浪潮》一书风行全世界。该书作者美国社会思想家阿尔文托夫勒就在文中将人类社会发展划分为三次浪潮,即以“农业文明”为主导的第一次浪潮,以“工业文明”为主导的第二次浪潮,以“信息化”为主导第三次浪潮。[2]其中首次提出了“大数据”(BigData)一词,并且,以“第三次浪潮的华彩乐章”这样的用词对其进行热情的讴歌。[3]全球著名咨询公司麦肯锡于2011年5月了《大数据:创新、竞争和生产力的下一个前沿》报告,公认此报告宣告了大数据时代的到来。由于大数据概念的提出源于不断的发展实践,其本身并没有严格、权威的定义。通常认为,大数据的大即大数据集的规模一般应达到10TB左右,现在已经达到了PB级的数据量。维基百科称“大数据”是这样一个术语,即其是用以描述用传统的数据处理应用软件无法完好处理的庞大的或者复杂的数据集。但“大数据”这一概念并不仅仅指数据规模的庞大,还包括对这些数据对象的处理以及应用活动。IBM提出大数据通常具有“5V”特征:Volume(数据体量大)、Variety(数据类别多样)、Velocity(处理速度快)、Veracity(数据真实性高)、Volume(数据价值高)。[4]大数据技术分类并分平行关系,而是呈纵向、层级状结构,详见图1所示。

1.2软件工程简述

软件工程本身并没有严格、权威的定义。并且,也是直到20世纪60年代初才出现了“软件”一词,于此之前,更多的是程序的概念,后来人们认识到与程序相关的文档也有着相当重要的作用,才有了“软件”一词的出现。软件发展至今天,已经远远不是程序个体或者程序员合作的方式能够完成的,即使能够完成,也会是效率低下、程序运行可靠性差,或者说根本就无法完成。于是,在1968年召开的大西洋公约学术会议上提出了软件工程的概念,简单理解,就是以工程的方法来进行软件系统设计、开发、运行、维护、优化等技术的总和,进一步言之,就是用“计算机科学、数学管理科学等原理,以工程化方法制作软件的工程”,属于一门交叉学科。[5]通常认为其包含有四个要素:(1)软件工程目标;(2)软件工程范型;(3)软件工程过程;(4)软件工程原则。

2大数据与软件工程的结合方式

宏观上讲,软件工程是比大数据更为宽泛的概念,大数据的技术与应用被软件工程所涵摄。如图1所示意,虽然大数据的各项技术与应用属于垂直领域,而软件工程牵涉的是横向领域,更加关注软件产品及软件系统工程上的实现及其管理。但是,大数据无论是其产品还是其系统的完成与落地,都离不开软件工程方法论的支持。换言之,软件工程的方法与技术贯穿于大数据的开发与应用,大数据也只是在软件工程发展过程中出现的概念。软件工程开发具有综合性,其应用渗透于各个学科和领域,大数据的技术与应用当然是软件工程所关注和研究的对象,或者说大数据技术的每一环节都离不开软件工程的支持。大数据应用的基础是要依赖数据链条的完整性,采用相应的算法于海量的数据中进行规律分析,算法要依据相应的实际环境进行相应的升级,遵循开发的基本原理,充分调整数据分布,从而在研究过程中将大数据技术与软件工程方法结合起来。并在开放的环境中通过网络与通信技术实现数据的共享,在此过程中,软件技术和水平亦能得到进一步的提高。在二者相互作用渗透的过程,软件效率得到提高,软件效益得以提升,从而实现客户需求的最大化。在软件开发过程中,还需要有必备的硬件和软件的支撑,来支持相应的数据流,随着数据流的增长,对于硬件和软件就会有更高的要求。工程技术人员在对数据流进行分析研究的同时,专家学者还会对在线服务进行研究。但是,数据流是重点,包括对数据流的使用方法的研究,对支撑数据流的软件和硬件的研究。另外,从软件工程开发角度看,无论是在服务端还是在用户端,软件的运行当然会产生大量的数据流,都将产生大量的数据信息,这些数据流对于软硬件的使用寿命有着决定性的影响。因此,在软件工程的开发中,对于海量数据产生的环境下,更有必要做好数据流的管理,要高度重视数据流的分析研究,并且对于原始数据进行深入的研究也应该引起重视,以期延长软件的使用周期。[6]

3大数据时代的软件服务工程

软件服务工程即所谓的面向服务的软件工程,强调的是其相对于传统软件工程的扩展。近些年来得到了很快的发展,已经成为当今时代的主流社会需求之一,服务功能已经是软件开发的基本原则。另一方面,也可以将其直观理解为“软件(Software)+服务(Service)+工程(Engineering)”三个方面的交叉融合,或者软件工程与服务工程两者的融合等。其内涵可以理解为研究面向服务的软件工程原则、软件工程方法以及软件工程技术,同时利用相应的软件服务设施和平台,开发较高水平的软件服务系统。[7]软件开发者根据需求变化,在社会实际实用中,以面向服务作为主要建设目标。在开发的初期就要首先搭建好软件的框架,充分利用编程语言、构思好编程思路,确保开发软件能够提供可靠的服务应用,保障软件运行时的稳定与可靠。在实际的服务过程中,要求开发者运用分布式应用程序,以虚拟操作的方式提供用户相应的服务。在应用中,融合大数据技术,能够实现对数据进行编程,达到软件互操作的效果,并提高对数据的主动协调。软件工程开发工程师可以对数据信息共享,实现各种学习交流,对软件进行协同开发,并结合用户的反馈,对软件系统进行优化处理,提高软件的性价比。近年来,开源软件是较为成功的软件习作模式,但是,其采用常规的研究方法,应用价值还不是很高。与开源软件相比,群体软件工程属于一种分布式软件开发模型,能够依靠网络进行任务分配,并能实现创造性的查询,通过众包形式的开发,解决开发过程中的难题。并且,在整个开发过程中,众包开发可以贯穿其全过程。所谓众包,一如其字面含义,是一种分布式的生产开发模式和问题解决方案。通过该种方式,开源软件和商业软件均可通过网络进行任务和责任分配。[8]随着我国计算机科学技术的不断发展进步,软件工程技术也取得了长足发展,软件服务工程也支持得到拓展和延伸。在大数据时代背景下,我们应当加快大数据技术和软件工程技术的融合与创新,提升对海量网络数据进行编程处理的能力,提高软件的安全和效能,增强其稳定性和可操作性,进一步整合软件工程系统的集成度。

4数据密集型科研第四范式

图灵奖获得者、关系数据库研究专家詹姆士格雷(JamesGray)曾经从科学哲学的层面将人类科学研究模式总结划分为最初的实验科学阶段,之后的理论科学阶段,到通过模拟的方法进行的计算科学三个阶段,相对应地称之为科学研究的第一范式、第二范式、第三范式。但是伴随着模拟连同实验所产生的海量的数据,需要由软件处理这些由各种仪器或者模拟实验产生的海量数据,并将处理得到的信息和知识存储于计算机中。之后,科研人员只需要对这些存储于计算机中的少量数据进行分析研究,不再是直接通过仪器或者模拟进行研究。因而基于数据密集型科学研究独特的技术以及其显著的不同于以往研究的特点,詹姆士格雷在2007于其科研报告中提出了将这种数据密集型的科学研究模式从计算机科学类型中单独区分出来的思想,随之产生了一种被称之为第四范式的新的科研模式。该报告整理后题名“吉姆格雷论e-Science:一种科研模式的变革”,成为微软于2009的年首次全面对数据密集型数据进行描述的论文集《e-Science:科学研究的第四种范式》的开篇文章。[9]当前,相当多的计算机领域的专家学者对数据密集型科研第四范式予以了关注,并进行了相应的研究,探索出了相应的方式方法,第四范式的研究被认为是大数据时代背景下软件工程技术研发的关键。信息化的发展与渗透,导致一切的事物都在随之发生着变化。包括实验、理论分析和计算科学均在数据泛滥的影响下与之前大不相同,软件工程技术既要适应科研第四范式,又在其中扮演着更加重要的作用。传统范式下的目的与探索之间不能够很好地衔接,数据信息的应用效率难以保障,难以满足项目管理目标的实现。数据密集型科研第四范式下的技术以及理论相关内容,与大数据技术特别是其中的存储技术有着紧密的关联性,其待探索的空间和应用价值相当广阔,其数据信息研发急需相应的理论支撑,该范式下的软件工程技术应用模块,亦能够对其他范式下的数据信息进行分析,对于更好地实现数据的存储与处理,提升处理效率,有着重要的研究价值。在第四范式模式下,对集成密集型数据的软件服务价值进行评估是首要的,需要摒弃以往的数据统计方法,构建新的针对大数据进行信息统计和分析的方法,这对软件工程技术的发展起着重要的作用。在软件工程技术的研究中,应当更新传统理念,重视其对大数据的处理和分析能力,使软件产业呈现全新的面貌,从而亦能促进其对大数据的数据分析能力。在第四范式的基础上,亦能够更好地支持第三范式,甚至于第一范式。该范式研究在我国软件工程开发中还处于初级阶段,软件工程开发人员需在强化已有数据模型研究基础上,加速由第三范式向第四范式的转变,尽快实现其应用层面的服务价值。

第3篇

1大数据技术和软件工程技术

大数据技术事实上是将人类日常生活中产生的各种数字信息,将这些信息收集起来之后分类处理,设定不同类别的存储空间,按照类别存储。大数据技术从功能的角度出发可以划分为多个类别,诸如分析技术、机器学习技术、遗传算法技术、自然语音处理技术等。应用大数据技术分析,就是基于当前的科学技术发展起来的一种分析技术。它主要依靠现代科技手段发挥技术的作用,特别网络技术发挥着基础性的作用。整理基础数据,对数据信息进行分类整理,应用相应的计算机算法,将相似特性的数据划分为一类,最终得到大量的数据,应用大数据技术对这些数据进行分析。大数据分析应用于互联网行业中,所发挥的优势是有目共睹的,而且还不断地引入新技术,在软件工程技术中应用,对该技术的发展起到了促进作用[1]。

大数据时代,社会各个领域都已经实现了信息化发展,人们对软件工程的概念越来越熟悉。事实上,软件工程的历史始于20世纪的中期,其研究重点是软件技术和工程管理。将相关工程内容引入其中,使得工程系统化运行,其中所涵盖的研究内容包括软件的生命周期、软件工程设计、软件的技术维护等方面。因此,在软件设计的过程中,要控制好技术开发成本,保证工程质量,使其生命周期不断延长,不同项目的技术需求和用户的各种技术需求都能够得到满足。

2大数据背景下的软件工程基础

处于大数据时代环境中,软件工程的发展中关乎到不同的领域,需要高度重视。大数据技术具有专业性的特点,还具有很强的实用性价值。在软件工程技术的研究中,要从应用需求出发不断创新软件技术,对于传统的技术要不断摒弃,对软件工程的发展创造良好的客观条件。大数据技术环境下,软件工程基础是基于互联网技术建立起来的,对各种数据信息系统化管理,根据需要进行处理,对工业的发展非常有利[2]。在软件工程技术中,大数据的安全性问题是需要高度重视的,否则,就会对软件工程技术造成不良影响,引起严重的后果。

2.1软件服务工程

在软件工程的研究范畴中,软件服务工程的数量不断增多。软件工程服务化方向发展,就是发挥服务的作用,使其成为软件开发的基本原则,按照服务项目内容为用户展开服务。由于软件工程发展的主题有所,服务内容也要做出相应的调整,同城是对软件工程的进行技术维护。在具体的服务工作中,需要软件开发人员使用分布式应用程序,在管理工作中采用虚拟操作的方法为用户2019.08提供服务[3]。软件工程技术应用中,结合使用大数据技术,可以对网络数据进行编程,使得软件具有互操作性,对于数据主动协调,使其符合动态场景的变化节奏,软件系统的集成度有所提高。

2.2软件开源

软件开源更为注重用户对软件技术的体验。在对软件开源进行研究的过程中,采用常规的方法,虽然获得一定的成果,但是应用价值不是很高。一些研究人员在研究软件工程技术的时候,就是将软件开源作为突破口,将开发项目划分为多个模块,将每个模块分给指定的研究人员进行开发。

2.3群体软件工程

群体软件工程是通过网络的方式进行软件开发,具体的实施中采用工程众包的形式,使得软件开发技术发挥作用。群体软件工程是一个分布式软件开发模型,这个工程项目的运行中,可以通过网络实现,对各项任务进行分配,也可以进行创造性的查询,通过众包解决软件开发过程中遇到的一些困难和重要问题。同时,在软件工程开发过程中,软件工程可以在任何阶段通过众包进行开发[4]。

3大数据与软件工程技术的未来发展方向

3.1大数据与软件工程技术开放式的发展

大数据技术的主要前提是大量的数据流,需要技术不断地升级和创新,寻求开发的研究途径是非常必要的。计算机网络的发展意味着计算机可以在开放的环境中相互通信,共享数据资源,软件等信息的有效利用能力也会有所提升。通过网络运行可以增加利润,使得用户的各种需求得到满足,提高资源的利用率。

3.2大数据与软件工程技术融合到其他领域

软件工程技术在当今许多科学领域有着广泛的应用。由于软件工程技术给予各个领域非常大的帮助,从航空到生活中都发挥着软件工程技术的作用[5]。应用程序的运行,可以使用数据平台对信息进行收集并分析。比如,用户在进行股票交易的过程中应用大数据技术,可以使用软件工程技术构建数据模型,通过对数据模型的分析,预测股票的变化趋势。

4众包软件服务工程中的大数据技术

在软件开发过程中,必须有足够的硬件和软件基础来支持数据流,随着数据流的量逐渐增多,对硬件和软件就有了新的要求。专家学者在分析数据流的时候,还对在线服务进行了研究。数据流是重点内容,主要是对数据流的使用方法进行研究,对支撑数据流的软件和硬件进行研究[6]。从软件工程开发的角度而言,软件运行中都会产生大量的数据流,包括服务端、用户端等,都会有很多的数据信息产生,这些数据流对软件和硬件的使用寿命起到了决定性的作用。软件工程的开发中,要做好数据流的管理工作。有必要对原始数据进行深入的研究,为提高软件的使用寿命创造条件,对数据流的分析要高度重视[7]。

5密集型数据科研第四范式

第四种科学研究范式是指根据实际情况建立独立的科学研究方法,探索第四种范式的理论基础,以及大型数据存储设备在发展中的重要性。软件工程中,采用传统的大数据研究方法,大数据的有效分析是不可能的,大数据的研究还没有取得突破性的成果。因此,目前大多数软件不能在短时间内同时实现数据信息的存储、数据信息的传输和有效识别。在探索第四范式理论和研究方法的过程中,首先需要对集成大数据的软件服务价值进行估计,抛弃传统的大数据统计方法,建立新的大数据信息统计方法和分析方法[8]。此外,有必要从多个方面研究大数据的处理,对大数据信息进行管理并深入分析,讨论大数据的价值以及存在的可变性,这对软件工程的发展起着重要的作用。在研究软件工程技术的时候,必须更新传统的软件开发理念,重视软件处理和分析大数据能力的发展,使得软件产业呈现出新的发展面貌。

在当今大数据时代,软件工程技术的研究已经区域复杂。随着数据的指数的不断增长,软件技术对硬件设备数据处理能力产生一定的影响。因此,在对软件工程技术的研究中,就需要对大数据技术的特点进行研究,基于此研究软件工程技术,使得硬件设备的数据处理能力有所提高。在研发开发软件技术的过程中,要从应用领域的需求出发对大数据技术进行分析,在大数据开发理论的基础上创新软件开发理论,促进软件技术更好地发展。

参考文献