美章网 精品范文 数据分析的方法范文

数据分析的方法范文

前言:我们精心挑选了数篇优质数据分析的方法文章,供您阅读参考。期待这些文章能为您带来启发,助您在写作的道路上更上一层楼。

数据分析的方法

第1篇

关键词:数据分析应用率;分析应用点;四个层次;数据中心;仪表盘

中图分类号:N37 文献标识码:B 文章编号:1009-9166(2009)02(c)-0063-02

现代企业的决策往往是在整合大量信息资料的基础上制定出来的,对数据的理解和应用将是企业决策的基石。与传统的操作型应用相比,数据利用的应用建设难度更大,它是随着管理水平而发展,同时又取决于业务人员的主观意识,这就决定了以数据利用为核心的应用建设不可能一蹴而就,而是一个长期迭展的建设过程。从2003年起工厂开始全面推进数据分析应用工作,经历过曲折,同时也有收获。经过多年的努力,工厂的数据分析应用工作开始进入良性发展阶段,笔者认为有必要对工厂目前数据分析应用工作作一总结和思考。

一、工厂数据分析应用工作开展现状

工厂数据分析应用工作推进至今已有四五年的时间,从最初全面调研工厂数据量和数据分析应用状况,将数据分析应用率指标作为方针目标定量指标来考核,到后来将数据分析应用工作的推进重心从量向质转移,采用以项目为载体进行管理,着重体现数据分析应用的实效性,再到目前以分析应用的需求为导向,以分析应用点为载体,分层次进行策划。经过上述三个阶段,工厂数据分析应用工作推进机制得到了逐步的完善,形成了广度深度协同发展的信息资源利用管理框架。截止到目前,工厂数据分析应用率达到96%,四个层次的分析应用点共计100多个,数据分析应用工作在生产、质量、成本、物耗、能源等条线得到广泛开展,有效推动了工厂管理数字化和精细化。2007年,工厂开始探索细化四个应用层次的推进脉络,进一步丰富工厂信息资源利用框架,形成层次清晰、脉络鲜明、职责分明的信息资源利用立体化的推进思路。

1、第一层次现场监控层。第一层次现场监控层,应用主体是一线工人和三班管理干部,应用对象是生产过程实时数据,应用目标是通过加强生产过程控制,辅助一线及时发现生产过程中的异常情况,提高生产稳定性。例如制丝车间掺配工段的生产报警,通过对生产过程中叶丝配比、膨丝配比、梗丝配比、薄片配比、加香配比等信息进行判异操作,对异常情况通过语音报警方式提醒挡车工进行异常处理;例如卷包车间通过在机台电脑上对各生产机组的工艺、设备参数、实时产量、质量、损耗数据的监控,提高对产品质量的过程控制能力。第一层次应用以上位机和机台电脑上固化的监控模型为主,制丝车间每个工序、卷包车间每种机型的应用点都有所不同,为此我们建立了制丝车间以工序为脉络,卷包车间以机种为脉络的应用点列表,围绕脉络对第一层次应用点进行梳理,形成第一层次应用的规范化模板。制丝车间第一层次应用点模板包括工序名称、应用点名称、应用模型描述、应用对象、应用平台、异常处置路径等基本要素。卷包车间应用点模板横向根据机种分,纵向按上班及交接班、上班生产过程中、下班及交接班三个时间段分,通过调研分别列出挡车工针对每个机种在三个时间段分别要查看的数据和进行的操作。随着模板的扩充和完善,一线职工的知识、经验不断充实其中,第一层次应用点模板将成为一线工人和三班管理干部日常应用监控的标准,同时可以规避人员退休或调动带来的经验、知识流失的风险。2、第二层次日常管理分析层。第二层次日常管理分析层,应用主体是一般管理干部,应用对象是产质损、设备、动能等指标,应用目标是通过加强对各类考核指标的监控和分析,提高工厂整体的关键绩效指标水平。例如制丝车间的劣质成本数据汇总和分析,通过对车间内各类废物料、劣质成本的数据进行汇总、对比和分析,寻找其中规律及薄弱环节,并寻根溯源,采取措施,降低劣质成本。例如卷包车间的产量分析,通过对产量数据、工作日安排、计划产量进行统计和汇总,结合车间定额计划、作业计划和实际产量进行分析,寻找实际生产情况与计划间的差异,并分析原因。第二层次应用以管理人员个性化的分析为主,呈现出分析方法多样化、应用工具多样化的特点。但是万变不离其中的是每个管理岗位的管理目标以及围绕管理目标开展的分析应用是相对固定的,至少在短期内不会有太大的变化。为此我们建立了一份以重点岗位为脉络的应用点列表,围绕脉络对第二层次应用点进行梳理,形成第二层次应用的规范化模板。模板包括岗位名称、管理目标、应用点名称、应用描述、涉及主要考核指标、应用平台、应用频次、分析去向等基本要素。通过构建第二层次应用点模板,明确了每个管理岗位应用信息资源支撑管理目标的内容和职责。随着新的管理目标的不断提出以及应用的逐步深入,模板每年都会有更新和扩充。3、第三层次针对性分析应用层。第三层次针对性分析应用层,应用主体是项目实施者,应用对象是各类项目的实施过程,例如QC项目、六西格玛项目、质量改进项目,或针对生产中的特定事件进行的分析和研究。应用目标是通过应用数据资源和统计方法开展现状调查、因果分析、效果验证等工作,提高各类项目实施的严密性和科学性。第三层次的应用工具在使用初级统计方法的基础上会大量应用包括方差分析、回归分析、正交试验、假设检验、流程图等在内的中级统计方法。以QC活动为例,我们可以看出其实施过程无一不与数据应用之间有密切的联系[1]。近年来,在质量改进项目和QC项目的评审工作中已逐步将“应用数据说话、运用用正确合理的统计方法,提高解决问题的科学性”作为项目质量考核标准之一。而六西格玛项目实施的核心思想更是强调“以数据和事实驱动管理”,其五个阶段[2]D(定义)、M(测量)、A(分析)、I(改善)、C(控制),每个阶段都要求结合如FMEA(失效模式后果分析),SPC(统计流程控制),MSA(测量系统分析),ANOVE(方差分析),DOE(实验设计)等统计方法和统计工具的应用。4、第四层次主题性应用层。第四层次主题性应用层,应用主体是中层管理者,应用对象是专业性或综合性的分析主题,应用目标是通过专业科室设计的专题性分析模型或综合性分析模型,为中层管理层提供决策依据。工厂在实施了业务流程“自动化”之后,产生了大量的数据和报表。如何将工厂的业务信息及时、精炼、明确地陈述给中层管理层,以此来正确地判断工厂的生产经营状况,是摆在我们眼前的一个突出问题。大家都有开车的经验,司机在驾驶车辆的时候,他所掌握的车况基本上是来自汽车的仪表盘,在车辆行使的过程中,仪表盘指针的变化,告知汽车的车速、油料、水温等的状况,驾驶员只要有效地控制这些指标在安全范围之内,车子就能正常地运行。我们不妨将仪表盘的理念移植于工厂,建立工厂关键指标及运行管理仪表盘,将工厂的关键信息直观地列在上面,及时提醒各级管理人员工厂生产运营是否正常。

⑴关键绩效指标监控系统。对分布在各处的当前及历史数据进行统一展示,以工厂关键绩效指标为中心,支持统计分析和挖掘,可为中层管理者提供工厂关键绩效指标一门式的查询服务,使各业务部门寻找、阐释问题产生的原因,以有效监控各类关键绩效指标,及时采取改进措施,提高生产经营目标完成质量。⑵系统运行状态监控系统。通过数据采集、手工录入等各种渠道收集各类系统的运行状态,及时掌握故障情况,采取措施加以闭环,将因系统故障造成对用户的影响减至最小,确保各类系统的稳定运行和有效应用。通过建立系统运行状态监控系统,中层管理人员上班一打开电脑进入系统,就能了解到当天及上一天各类系统的运转情况,发生了什么异常,哪些故障已经得到解决,哪些故障还未解决。⑶第四层次主题性分析应用。在展示关键绩效指标和系统运行状态的基础上,由各专业科室思考专业条线上的分析主题,采用先进科学的理念和方法对数据进行分析和挖掘。近两年来,工厂充分发挥专业科室的优势和力量,相继设计和开发了工艺质量条线的六西格玛测评系统,设备条线的设备效能分析系统,还有质量成本核算与分析系统。通过这些分析主题的支持,工厂管理人员可以更方便快捷地了解质量、设备、成本等条线上的关键信息,及时采取相应措施,从而提升管理效率。

二、数据分析应用工作存在的不足及思考

工厂数据分析应用工作的推进方法从最初的采用数据分析应用率单个指标进行推进发展到目前按上文所述的四个层次进行推进,每个层次的推进脉络已经逐步清晰和明朗,但事物发展到一定的阶段总会达到一个瓶颈口,目前工厂数据分析应用工作存在的问题及措施思考如下:

1、从推进手段上要突破信息条线,充分发挥专业条线的力量。信息条线作为推进工厂数据分析应用的主管条线,其作用往往局限在技术层面上的支撑。虽然信息条线每年都会规划形成工厂数据分析应用整体的工作思路和具体的实施计划,但是无论从工厂层面还是从车间层面来讲,单纯依靠信息条线从侧面加以引导和推进,使得数据分析应用工作始终在业务条线的边缘徘徊,与产量、质量、设备、消耗、成本、动能等各个条线本身工作的结合度有一定的距离。所以工厂要进一步推进数据分析应用工作,调动起业务人员的积极性和主动性,突破现有的瓶颈,应该考虑如何调动起专业条线的力量。一是可以在年初策划应用点的时候要加强专业条线对车间业务自上而下的指导,引导管理人员加强对缺少数据分析支撑的工序、岗位/管理目标的思考;二是建立平台加强各车间同性质岗位之间的沟通与交流,均衡各个车间的数据分析应用水平和能力;三是对车间提交的分析报告给出专业性的指导意见。2、要加强对数据中心的应用。数据中心的建立可以使业务系统从报表制作、数据导出等功能中解放出来,专注于事务处理,将数据应用方面的功能完全交给数据中心来解决。目前,数据中心已建立了涉及产量、质量、消耗等各个条线的Universe模型,并对全厂管理干部进行了普及性的培训。但是从目前应用情况来看,还比较局限于个别管理人员,追寻原因如下:一是业务系统开发根据用户需求定制开发报表,业务人员通常习惯于从现成的报表中获取信息。如果要求业务人员使用数据中心工具自行制作报表模板,甚至可能需要将其导出再作二次处理,那么业务人员一定更倾向于选择第一种方式。二是近几年来人员更替较多,新进管理人员不熟悉数据中心应用,导致数据中心应用面受到限制。随着今后MES的建设,业务系统中的数据、报表、台帐和分析功能将有可能由业务用户自行通过集成在MES中的数据中心前端开发工具来访问和灵活定制。因此,要尽快培养工厂业务人员数据中心的应用能力,包括数据获取以及报表定制方面的技能。笔者认为应对方法如下:一是对于岗位人员变更做好新老人员之间一传一的交接和培训;二是适时针对新进管理人员开展集中培训;三是通过采用一定的考核方法。3、提高新增应用点的质量。工厂每年都会组织各部门审视第一、第二层次应用点列表,围绕重点工序和重点管理岗位调研有哪些应用上的空白点是需要重点思考的,以新增分析应用点的方式进行申报和实施。同时针对第三层次针对性分析应用,工厂也会要求部门以新增分析应用点的方式将需要数据支撑的项目进行申报。作为一项常规性工作,工厂每年都会组织部门进行应用点的申报,并按项目管理的思想和方法实施,事先确立各个应用点的应用层次、数据获取方式、实现平台,并对其实施计划进行事先的思考和分解,确定每一个阶段的活动目标、时间节点以及负责人员,每个季度对实施情况予以总结,并动态更新下一阶段的实施计划。该项工作从2005年起已经连续开展了三年,部门可供挖掘的应用点越来越少,如何调动部门的积极性,保持并提高应用点的实效性,我们有必要对新增分析应用点的质量和实施情况进行考评,考评标准为:一是新增分析应用点是否能体现数据应用开展的进取性、开拓性和创新性;二是新增分析应用点是否能切实提高管理的精细化和科学化水平;三是新增分析应用点是否能采用项目管理的思想和方法实施,按时间节点完成各项预定计划。

三、结束语。随着近几年来技术平台的相继成熟以及管理手段的逐步推进,工厂业务人员用数据说话的意识已经越来越强,但是要真正使工厂管理达到“三分技术、七分管理、十二分数据”的水平,还有很长的路要走,这既需要我们的业务人员从自身出发提高应用数据的水平和能力,同时也需要工厂从管理手段和管理方法上不断拓宽思路、创新手段,真正实现数据分析应用成为工厂管理的重要支撑手段。

作者单位:上海卷烟厂

参考文献:

第2篇

企业数据分析的编写,核心在于对数据的科学分析。数据分析除了要以档案为基础,遵循“全面、真实、客观、有效”的原则外,关键是要掌握和应用科学的分析方法,使数据分析应尽可能做到深入、准确,从而使我们对数据背后所隐含的问题、原因、趋势和规律的认识能更接近于真理。

企业数据分析编写过程中,常用的分析方法有对比分析法、趋势分析法、结构分析法和综合分析法等。本文结合工作实际,对如何运用这四种基本分析方法谈点想法。

对比分析法

所谓对比分析法,是指将两个或两组以上的数据进行比较,分析它们的差异性,从而揭示这些数据所代表的事物的发展变化情况和规律性。对比分析法是比较研究的一种方法,在企业数据分析中的应用十分普遍。它的特点是,通过比较分析,可以非常直观地看出企业某方面工作的变化或差距,并且可以准确、量化地表示出这种变化或差距是多少。

在实际应用中,企业数据的对比分析,一般有以下几种具体情况:

一是将企业当年的数据与历年(去年或前几年)的数据进行对比分析,目的是为了搞清楚与去年或前几年相比,企业某一方面或某些方面的发展变化情况。比如,某公司2006年利润100万元,2007年利润115万元,年增长率为15%。通过这种对比,我们就可以公司利润的变化情况有一个更直观、更清楚的认识。当然,在许多时候,这种对比分析不会局限在某一个数据,而是一组数据。比如,在对企业当年的利润与去年利润进行对比分析的同时,还可以将产量、销售量、销售额、成本、税金、市场占有量、占有率等指标进行对比分析,从而更全面了解掌握企业的发展现状。

二是将本单位数据与同行业(外单位、同行业平均水平)的数据进行对比分析,目的是为了搞清楚与外单位、同行业平均水平,本单位某一方面或各方面的发展水平处于什么样的位置,明确哪些指标是领先的,哪些指标是落后的,进而找出下一步发展的方向和目标。比如,2005年,某发电厂供电煤耗为340克/千瓦时,当年全国火电行业平均煤耗指标为310克/千瓦时,该发电厂的实际煤耗指标比全国火电行业平均煤耗多了30克/千瓦时。通过这样的对比分析,我们可以看出,该发电厂在能耗方面存在着比较突出问题,如何节能降耗应该成为企业下一步重点关注的一个工作内容,也是提高企业经济效益的一条重要途径。

为了一目了然地看出数据对比的直观效果,对比分析一般可用柱式图表表示。

趋势分析法

所谓趋势分析法,是指通过对某一个或几个数据在一定阶段的变化情况进行分析,从而发现该数据所代表事物的发展趋势和规律,并可进一步分析形成这种趋势的原因,为企业领导决策提供依据和参考。趋势分析法实际上是一种历史研究的方法,在企业数据分析的编写中,主要用来表示企业某一方面或某些方面的工作在一定时期内的发展趋势和规律。其特点是对某一时期的某一数据进行持续性考察,进而得出趋势性的结论。

一般说来,对数据进行趋势分析的结果不外乎以下四种情况:

一是某项数据的变化呈逐年加大的趋势,称为上升趋势。比如某企业利润额:2001年为150万元、2002年173万元、2003年220万元、2004年360万元、2005年500万元。从对这组数据的分析中可以得出结论:该企业的利润呈逐年上升的趋势。

二是某项数据的变化呈逐年减小的趋势,称为下降趋势。例某企业产品的市场占有率:2001年为30%、2002年24%、2003年15%、2004年9%、2005年6%。从对这组数据的分析中可以得出结论:该企业产品的市场占有率呈逐年下降的趋势,说明该产品的市场竞争力正在下降,企业应该对该产品进行升级换代,或者开发生产新的产品。

三是某项数据或上升或下降,每年都有较大变化,称为震荡趋势。比如某企业的经营成本:2001年为50万元、2002年83万元、2003年61万元、2004年46万元、2005年103万元。从对这组数据的分析中可以得出结论:该企业每年的经营成本变化较大,呈震荡趋势,说明企业在控制经营成本方面还要进一步采取措施。

四是某项数据几年来基本不变,或变化很小,称为稳定趋势。例如某企业的人均产值:2001年为60万元、2002年63万元、2003年61万元、2004年62万元、2005年63万元。从对这组数据的分析中可以得出结论:该企业的人均产值每年变化不大,呈稳定趋势。

为了更形象地看出数据在一定时期内的变化轨迹,对数据的趋势分析一般可以用曲线图表表示。

结构分析法

所谓结构分析法,就是通过分析数据的构成情况,即分析构成某一数据的各子数据的情况和权重,从而揭示构成某一事物的各方面因素在其中的作用大小和变化情况。结构分析法也是常用的企业数据分析方法,通过这一分析方法,有利于我们发现和把握事物的主要矛盾和矛盾的主要方面,对企业而言,可以据此确定工作重点或经营的主攻方向。

在实际工作中,当我们需要对企业的某一数据作深入分析时,常常需要用到结构分析法。例如我们分析某供电局利润的结构情况:2007年,企业利润为1000万元,其中主业占80%、三产占20%。这就是结构分析的方法,从中我们就可以清楚地知道,主业和三产对企业利润的贡献比例。在这个基础上,我们还可以作进一步的分析,在200万元的三产利润中:火电建设公司占35%、电力设计院占30%、电缆厂占15%、电表厂占10%、电杆厂占5%、宾馆占5%。从而我们可以看出火电建设公司和电力设计院两家对三产利润的贡献率达到了65%,是发展三产的主力军。从供电局的角度而言,抓好三产工作,重点是要抓好火电建设公司和电力设计院的工作。

为了直观地反映某一数据的构成情况,结构分析法一般采用圆饼图表来表示分析的结果。

综合分析法

在编写企业数据分析时,往往不是单一地使用一种数据分析方法,为了使数据分析更透彻、更深入,更多时候我们都需要采用综合分析的方法。所谓综合分析法,就是将以上两种或两种以上的分析方法结合起来使用,从而多角度、多层次地分析揭示数据的变化、趋势和结构情况,以增加数据分析的深度。

综合分析法在具体应用中,有以下几种情况:

一是对比分析与趋势分析相结合的方法。就是通过对两个或两组以上的数据在一定阶段的变化情况进行比较分析,从而发现数据所代表事物的发展趋势、差别和关系,并可进一步分析原因,为企业领导决策提供依据和参考。比如,我们可以使用这一方法来分析一定阶段企业利润和成本的变化和相互关系。再如,我们将“十五”期间本企业的利润指标与其他企业的利润指标进行比较分析,所应用的也就是对比分析与趋势分析相结合的方法。

二是对比分析与结构分析相结合的方法。就是对两个或两组以上的数据的构成情况进行分析比较,从而可以看出构成这两个或两组以上的数据的各种因素的差异性,以此剖析产生这种差异的原因,并提出相应的对策措施。比如,2006年,A供电局利润500万元,B供电局利润700万元。如果只采取对比分析的方法,我们获得的结论就是:“B供电局利润比A供电局多200万元”。结合结构分析:A供电局利润500万元中,主业为450万元,三产为50万元;B供电局利润700万元中,主业为560万元,三产为140万元。由此看出,A、B供电局在主业利润差距并不大,差距主要在三产上。因此,发展三产应成为A供电局利润增长的主要着力点。

三是趋势分析与结构分析相结合的方法。就是通过对构成某一数据的子数据在一定阶段的变化情况进行分析,从而揭示构成某一事物的各方面因素在其中的作用大小和变化趋势。比如,我们分析某企业一定阶段销售额及各种产品销售额的构成和变化情况,就可以使用这一方法。这样的分析既可以了解销售额的变化趋势,也可以全面掌握各种产品在销售额中的权重比例和变化趋势,从而知道哪些产品需要扩大生产,哪些产品需要减产或停产,什么时候需要开发新的产品。

第3篇

一、看数据分布

最简单的拆分方法就是不看平均值,看数据分布。因为凡 是“总和”或者“平均”类的统计数据都会丢失掉很多重要的信息。例如李嘉诚来我们公司参观,这一时间我们公司办公室里的“平均资产”就会因为李嘉诚一个人 被抬高到人均几亿身家。如果有人根据这个“平均资产”数据来判定说我们办公室的人都是豪华游艇的潜在顾客,这自然是荒谬的。

可实际上,我们每天都在做着类似的判断,比如当我们听到说顾客“平均在线时间”是3分34秒,就可能根据这个时间来进行业务决策,例如设置“停留时间超过3分34秒为高价值流量”,或者设置系统,在用户停留了3分34秒还没有下单的话就弹出在线客服服务窗口。我们设置这些时间点的根据是“平均停留时间”,在我们的想象里,我们的每个顾客都有着“平均的”表现,停留时间大致都是3分34秒,可实际上真正的顾客访问时间有长有短,差别巨大:

在一些数据中我们可以看得出来,访客平均停留在页面的时间非常的短暂,具体的也就是说,问需要在淘宝数据分析上面下工夫的,那么,究竟该怎么弄才能比较好的呢?这个就看个人是怎么想的了,这里也就不多说了。

再举一个例子,比如我们看到上个月平均订单金额500元/单,这个月也是500元/单,可能会觉得数字没有变化。可是实际上有可能上个月5万单都是400~600元,而这个月5万单则是2万单300元,2万单400元,5千单500元,5000单超过2500元 ——客户购买习惯已经发生了巨大变化,一方面可能是客户订单在变小(可能是因为产品单价下降,采购数量减少,或者客户选择了比较便宜的替代品),另一方面 出现了一些相对较大的订单(可能是中小企业采购,或者是网站扩充产品线见效了)。——看数据分布可以让我们更容易发现这些潜在的变化,及时的做出应对。

二、拆因子

很多时候我们很难直接从数据变化中分析出具体的原因,这时可以考虑拆分因子,将问题一步步细化找寻原因。

例如网站转化率下降,我们要找原因。因为“转化率”=“订单”/“流 量”,所以“转化率”下降的原因很可能是“订单量下降”,“流量上升”,或者两者皆是。按照这个思路我们可能发现主要的原因是“流量上升”和“订单量升幅 不明显”,那么

下面我们就可以来拆解“流量”的构成,例如拆成“直接访问流量”、“广告访问流量”和“搜索引擎访问流量”再看具体是哪部分的流量发生了变 化,接下来再找原因。这时我们可能看到说是搜索引擎访问流量上升,那就可以再进一步分析是付费关键词部分上升,还是自然搜索流量上升,如果是自然流量,是 品牌(或者网站名相关)关键词流量上升,还是其他词带来的流

量上升——假如最后发现是非品牌类关键词带来的流量上升,那么继续寻找原因——市场变化(淡季旺季之类),竞争对手行动,还是自身改变。假如刚好在最近把产品页面改版过,就可以查一下是不是因为改版让搜索引擎收录变多,权重变高。接下来再分析自己到底哪里做对了帮助网站SEO了(比如把页面导航栏从图片换成了文字),把经验记下来为以后改版提供参考;另

一方面还要分析哪里没做好(因为新增流量但是并没有相应增加太多销售),研究怎样让“产品页面”更具吸引力——因为对很多搜索引擎流量来说,他们对网站的第一印象是产品页面,而不是首页。

三、拆步骤

还有些时候,我们通过拆分步骤来获取更多信息。

举两个例子:

第一个例子:两个营销活动,带来一样多的流量,一样多的销售,是不是说明两个营销活动效率差不多?

如果我们把每个营销活动的流量拆细去看每一步,就会发现不一样的地方。营销活动B虽然和营销活动A带来了等量的流量,可是这部分流量对产品更感兴趣,看完着陆页之后更多的人去看了产品页面。可惜的是虽然看产品的人很多,最后转化率不高,订单数和营销活动 A一样。

这里面还可以再深入分析(结合之前提到的分析方法,和下一章要说的细分方法),但是光凭直觉,也可以简单的得出一些猜测来,例如两个营销活动的顾客习惯不太一样,营销活动 B的着陆页设计更好,营销活动 B的顾客更符合我们的目标客户描述、更懂产品——但是我们的价格没有优势等等这些猜想是我们深入进行分析,得出行动方案的起点。至少,它可以帮助我们

更快的累计经验,下次设计营销活动的时候会更有的放矢,而不是仅仅写一个简单report说这两个营销活动效果一样就结案了。(注:这是个简化的例子,实际上还可以分更多层)

第二个例子可能更常见一些,比如网站转化率下降,我们可以拆成这样的漏斗:

这样拆好之后,更能清楚地看到到底是哪一步的转化率发生了变化。有可能是访客质量下降,都在着陆页流失了,也可能是“购物车–>登录”流失了(如果你把运费放到购物车中计算,很可能就看到这一步流失率飙升),这样拆细之后更方便我们分析。

曾经有一个例子就是转化率下降,市场部查流量质量发现没问题,产品经理查价格竞争力也没问题——最后发现是技术部为了防止恶意注册,在登录页面加了验证码(而且那个验证码极度复杂),降低了“登录页面–>填写订单信息“这一步的转化率。

四、细分用户族群

很多时候,我们需要把用户行为数据拆分开,看不同族群的人有什么不同的表现,通过比较异同来获取更多的洞察。从实践出发,客户族群细分的方法主要有三种:

第4篇

[关键词]财政收入;GDP;面板数据

中图分类号:F01 文献标识码:A 文章编号:1006-0278(2013)02-024-01

在计量经济学中,我们一般应用的最多的数据分析是截面数据回归分析和时间序列分析,但截面数据分析和时间序列分析都有着一定的局限性。在实际经济研究当中,截面数据回归分析会遗漏掉数据的时间序列特征,例如在分析某年中国各省的GDP增长数据时,单纯的截面数据回归分析无法找出各省GDP随时间变化的特征,使得分析结果没有深度。而如果只用时间序列分析,则会遗漏掉不同截面间的联系与区别,例如在分析中国单个省市的GDP随时间增长的数据时,无法找出各个省市之间经济增长的联系与区别,因而同样无法满足我们的需要。而面板数据,是一种既包括了时间序列数据,也包括了相关截面数据的复合数据,是近年来用得较多的一种数据类型。

下面我们将基于2000-2009年中国各省GDP和财政收入的面板数据的实例来详细阐述面板数据的分析方法。

一、GDP与财政收入关系的经济学模型

财政收入是保证国家有效运转的经济基础,在一国经济建设中发挥着重要作用。随着中国经济发展速度的日益加快,财政收入不断扩大,而扩大的财政收入又以政府支出来调节和推动国民经济发展。正确认识财政收入与经济增长之间的长期关系,把握财政收入与经济增长之间的相互影响,发挥财政收入对经济发展的调节和促进功能,对于完善财税政策,深化财税体制改革,实现财政与经济之间的良性互动,具有重要的现实意义。文章就将从中国各省的面板数据出发研究,中国不同地域间财政收入和GDP之间的关系。

二、实证分析

(一)单位根检验

Eviews有两种单位根检验方法,一种在相同根的假设下的检验,包括LLC、Breintung、Hadri。另一种则是在不同根下的假设前提下,包括IPS,ADF-Fisher和PP-Fisher5。检验结果表明所有检验都拒绝原假设,因此序列GDP和CZSR均为一个2阶单整序列。

(二)协整检验

如果基于单位根检验的结果发现变量之间是同阶单整的,那么我们可以进行协整检验。协整检验是考察变量间长期均衡关系的方法。所谓的协整是指若两个或多个非平稳的变量序列,其某个线性组合后的序列呈平稳性。此时我们称这些变量序列间有协整关系存在。

在最终的结果中,Pedroni方法中除了rho-Statistic、PP-Statistic项目外都拒绝GDP和CZSR不存在协整关系的原假设,同样Kao和Johansen检验方法也都拒绝原假设,因此,上述检验结果表明,我国各省2000-20009年的GDP和财政收入面板数据间存在着协整关系。既然通过了协整检验,说明变量之间存在着长期稳定的均衡关系,其方程回归残差是平稳的,因此可以在此基础上直接对进行回归分析,此时假设方程的回归结果是较精确的。

三、建立模型

混合模型:如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。

我们根据混合模型的回归结果,得到财政收入和GDP之间的回归方程为:

CZSR=227.3123+0.103224*GDP

(26.47637)(0.002839)

R2=0.810995 F=1321.587

显然从模型的回归结构来看,R2的值达到了0.81,有了比较好的回归解释力,同时,GDP的回归系数为0.103224,表明各省的财政收入平均占到了国民收入的10.3%左右。

变系数模型:显然,在中国各省之间由于处在不同的地区,因而拥有不同的区位优势,那么各省的发展水平显然就不一样。正是由于这种不同的地方政策、管理水平、文化差异等会导致经济变量间出现一些关联性的变化,此时在进行模型回归的时候,我们就有必要考虑变系数模型。

在回归结果中,R2的值达到了0.97,比混合模型拥有更好的回归解释力,而在变系数模型回归结果中,GDP的回归系数大于0.5的只有、青海、宁夏三个省份,也就是说这三个省份的财政收入占到了GDP的50%以上,他们同处于经济并不是很发达的西部地区,由此可以看出,处在经济发达地区的财政收入占GDP的比重要低,而不发达地区则要高。

四、结论

通过以上的分析检验,我们发现针对于中国财政收入和GDP的面板数据,我们应建立起变系数模型,并通过模型分析,我们可以得出这样的结论,中国各省间由于存在着地域经济发展水平不同、管理水平不同以及国家的相关政策等诸多不同,造成了各省之间在财政收入以及国民收入上面存在着一定的差异。而回归结果也告诉我们,我国西部地区的财政收入占GDP的比例要明显高于东部地区,地区发展落后地区的财政收入占GDP的比例也要明显高于东部地区。因此,这为我们改善我国落后地区的经济发展提供了一定的新思路,就是对一地区的税收征收可以适当放缓,而将GDP中以前政府占用的部分归还于民众和企业,因为,按照发达地区的经验表明,财政收入所占比重过高,经济发展的活力或者就不会很高,对于进一步刺激财政收入的增加也没有任何帮助。因此,我们应该适度降低财政收入占GDP的比重,从而增加经济活力,使西部地区以及落后地区及早的跟上东部发达地区的发展步伐,从而消除我国经济发展的地域不平衡。

参考文献:

[1]谢识予,朱洪鑫.高级计量经济学[M].复旦大学出版社,2005.

[2]张晓峒.Eviews使用指南(第二版)[M].南开大学出版社,2004.

第5篇

关键词:基因调控网络;自组织图聚类;机器学习

中图分类号:TP274文献标识码:A文章编号:1009-3044(2008)15-20ppp-

The Research Content And Data Analysis Methods On the Gene Regulatory Networks

GUO Zhi-long1,2,JI Zhao-hua1,3,TU Hua-wei1,LIANG Yan-chun1

(1.College of Computer Science and Technology,Jilin University,Changchun 130012,China;2.Dalian Huaxin Software Corporation,DaLian 116000,China; 3.Inner Mongolia Xing'an Vocational and Technical College,Wulanhaote 137400,China)

Abstract:Gene regulatory networks,which reveals the complex phenomena of life from the view of the complex interactions of genes,is very important to understand the functional genomics for researchers.The article focuses on the research content and data analysis methods about gene regulatory networks.

Key words:gene regulatory networks;Self-organizing Map;machine learning

基因调控网络是计算机科学、数学、信息学向分子生物学渗透形成的交叉点,是运用生物信息学的方法和技术通过数据采集、分析、建模、模拟和推断等手段研究复杂的基因网络关系。作为一种系统的、定量的研究方法建立在包括分子生物学,非线性数学和程序算法设计等知识等基础上,运用生物信息学的方法和技术通过数据采集、分析、建模、模拟和推断等手段,整合已有的实验数据和知识,构建生物基因调控网络,从整体的层次,了解细胞的功能;从整体的角度,阐述基因参与的生物调控过程,在全基因组水平上以系统的、全局的观点研究生命现象及其本质,是后基因组时代研究的重要内容。

1 基因调控网络概念

基因调控网络本质上是一个连续而复杂的动态系统,即复杂的动力系统网络。

1.1 基因调控网络的定义

生物体任何细胞的遗传信息、基因都是同样的,但同一个基因在不同组织、不同细胞中的表现并不一样。一个基因的表达既影响其它的基因,又受其它基因的影响,基因之间相互促进、相互抑制,在特定的细胞内和时间下综合环境等因素这样的大环境中呈现活化状态,构成一个复杂的基因调控网络。

1.2 基因调控网络的特性:

基因调控网络是连续的多层次动力系统模型,具有稳定姓、层次性、复杂性、动态性等。

1.2.1 复杂性

生物具有大量的基因,诸多基因组成各个模块,不同的基因网络模块可以在不同层次上发生相互作用,同一个基因可能参与各种不同的分子机理,使得基因网络有着高度的复杂性。

1.2.2 层次性

基因调控网络具有一定层次结构,按照调控元件、motif、模块和整个网络的四层结构,将各个节点有规律的来接在一起。调控元件分为顺式(cis-)和反式(trans-)两种类型, 分别表示受调控基因的结合位点DNA 序列和结合在该序列上对基因起激活或者抑制作用的转录因子。Motif 和模块都是由基因集合构成的调控模式, 是分析网络局部特征和网络构成以及研究调控机理的重要结构。

1.2.3 动态性

生物过程是动态的,用来理解生物过程意义的基因调控网络自然就动态存在。基因调控网络是随着生物过程的动态发生而具有动态的特性,不同条件、不同时间的基因调控网络是不同的。

1.2.4 稳定性

基因调控网络的稳定性体现在生物体缓解突变的影响方面,功能上无关基因之间的相互作用可以抵抗系统突变;一个基因在突变中丧失的功能,有另外一个或更多具有相似功能的基因所补偿,以减弱该突变对表型造成的影响,保持生物进化中的稳定性。

1.2.5 功能模块性

基因调控相关的生物功能主要是通过网络模块来实现的,有适当尺度下的动力学特征和生物学功能解释的模块是由多个motif 构成的,实现相同功能的基因或蛋白质存在拓扑结构上是相关的。

1.3 基因调控网络研究的目的

通过对基因调控网络的研究,识别和推断基因网络的结构、特性和调控关系,认识复杂的分子调控过程,理解支配基因表达和功能的基本规则,揭示基因表达过程中的信息传输规律,清楚整体的框架下研究基因的功能。

2 基因调控网络研究内容

基因调控网络的研究是假设两个基因列谱相似,则这两个基因协作调控,并可能功能相近,有同样表达模式的基因可能有同样的表达过程。基因调控网络主要在三个水平上进行:DNA水平、转录水平、翻译水平。DNA水平主要是研究基因在空间上的关系影响基因的表达;转录水平主要研究代谢或者是信号转导过程决定转录因子浓度的调控过程;翻译水平主要研究蛋白质翻译后修饰,从而影响基因产物的活性和种类的过程。基因转录调控信息隐藏在基因组序列中,基因表达数据代表基因转录调控的结果,是转录调控信息的实际体现。

基因调控网络试图从DNA微阵列等海量数据中推断基因之间的调控关系,对某一物种或组织中全部基因的表达关系进行整体性研究。采用带有反馈回路的基因网络,首先是按照同步或反同步表达,以及表达强度的变化,系统地识别各基因的特点,再用聚类的方法将各基因归类,在此基础上构建基因调控网络,分析相关控制参数.利用其本身或调节位点或拓扑结构进行不同的研究。

3 基因调控网络研究数据分析方法

第6篇

Abstract:In view of the problems of the social survey data processing and analysis, this paper establishes the mathematical model of three dimensional matrix which is based on the three dimensional matrix.On the basis of the established three dimensional matrix model,we can use the properties of three dimensional matrix to deal it with a variety of mathematical methods, and use the hypergraph theory for further analysis. This enriches the method of the survey data processing greatly.

Key Words:Social survey data;Three-dimension matrix;Hypergraph

社会调查是了解各方面信息的重要途径之一,社会调查数据主要是通过调查问卷的方法得到的。由于社会调查数据的维数较高,加上人为主观因素,数据类型主要为二元变量、离散变量、序数变量等为主,所以对于社会调查数据的分析和处理大都基于统计学,只对单一题目进行统计学分析,其分析方法主要是基于题型进行处理的,对于题目和题目之间的关系很少关心[1]。许多数据挖掘算法因为种种限制无法在社会调查的数据分析中得到应用。因为方法的限制,所以现在很多社会调查只能验证事先想好的内容和假设,很少可以对高维数据进行相对复杂的回归分析处理。

根据以上存在的问题,该文建立了基于三维矩阵的数学模型,将单选题、多选题和排序题用向量形式进行表示,每一题定义为空间中的一个维度,从而所有的题目就可以构成一个N维空间。每份问卷的信息用一个M×N矩阵表示。这样表示可以将所有问卷内容当作一个整体,作为后续算法的基础。

1 社会调查数据的特点

通常情况下,社会调查数据特点如下。

(1)相关性。对于一个样本个体而言,它具有本身的多个特征,这些特征之间就具有一定的相关性。对于多个样本而言,个体与个体的特征之间具有相关性。如果样本随时间而变化,那么该样本在不同时刻的特征之间又具有相关性。因此,由于上述多个原因使得社会调查数据具有了复杂的相关性,传统的统计学调查难以解决这样的问题。

(2)离散性。因为社会调查数据是通过自填式问卷、网络调查数据库等方法得到,所以社会调查数据一般以离散变量为主,且这些数据之间只有标示作用,并没有严格的逻辑关系。

(3)模糊性。社会调查数据当中不可避免的会接触到各种表达方式和概念,因此,它具有模糊性。

因为由自填式问卷或结构式访问的方法得到的社会调查数据具有以上特点,所以在实际应用中基于统计学的处理方法只能笼统的显示数据的部分特性,如频数、离散程度等[2]。对于数据之间的关系只能分析出维数极少的大致的关系。

而且利用软件进行数据挖掘时,因为现有的软件中的数据挖掘算法对于数据类型和格式要求较高,所以能应用到的数据挖掘算法很少。就算是数据要求较低的关联分析,其结果也存在大量的冗余。因此,我们需要建立一个合适的社会调查数据的数学模型来完善原先的方法并使跟多的数据挖掘方法可以运用到其中,使得结果更准确。

2 社会调查数据的建模

研究中我们发现,三维矩阵可适用于社会调查数据的建模。

2.1 三维矩阵的定义

三维矩阵的定义:由n个p×q阶的矩阵组成的n×p×q阶的矩阵A称为三维矩阵,又称立体阵。Ak,i,j表示三维矩阵A的第k层,第i行,第j列上的元素。其中n,p,q分别表示三维矩阵的高度,厚度和宽度。

2.2 三维矩阵模型的建立

调查问卷的题目一般有三种类型:单选题、多选题和排序题。这三类题目都可以表示成向量的形式,其中每一道单选题、多选题可以表示成一个向量,排序题可以表示成多个向量组成的矩阵。对于单选题和多选题,可以按选项的顺序可以表示成一个向量,其中选中的项用“1”表示,未选中的项用“0”表示。对于排序题,可以表示成一个n×n的方阵,其中n表示该排序题的选项个数,。这样,每一题就可以定义为空间中的一个维度,从而所有的题目就可以构成一个N维空间。每份调查问卷的信息用一个M×N矩阵表示(M为题目的最大选项数),其在每一维上的选择称之为一个元素,这样每份问卷的信息就包括了N个元素。以第1,2,3题数据为例,其中第1题为单选题选择“B”,用向量表示为一个元素,第2题为多选题选择“ACE”,用向量表示为一个元素,第3题为排序题顺序为CBADEFIHG,用矩阵表示,每一个列向量是一个元素,如图1所示。

那么,假设有一问卷信息用一个大小为M×N的矩阵表示。K份的问卷信息就可以用K个大小为M×N的矩阵表示。将这K个矩阵叠加,形成一个三维矩阵。这个三维矩阵就是我们建立的三维矩阵数学模型,如图2所示。

在图2中我们看到,该三维矩阵数学模型有三个坐标轴,它们分别是题目,人数,选项。题目轴以每一道题为一个单位;人数轴以每一份问卷为一个单位;选项轴的刻度为A,B,C,D,E,F等题目选项,其个数为该调查问卷中选项最多的题目的选项个数。

在此基础之上,这样的三维矩阵具有以下性质。

(1)在题目轴中选取对应的题目,将三维矩阵面向竖切得到截面1(如图2中01所示),截面2表示每一道题所有人选择的信息。

(2)在人数轴中选取对应的人,将三维矩阵横切得到横截面1(如图2中02所示),横截面1表示对应的人选择所有题目的信息。

在得到三维矩阵后,可对它进行像素化处理,置1的元素用黑点代替,置0元素的则空白,在得到像素化三维矩阵后我们可以将三维矩阵沿着人数维度上向下投影,这样就可以得到一个具有浓黑不一的点的平面。通过这些点的浓度,可以知道每一选项选择的人数。接下来我们可用灰度级表示点的浓度,筛选出浓度大于一定程度的点,在此基础上进行后续算法处理。

上述三维矩阵数学模型具有数学三维矩阵的所有性质,可依据调查问卷的需求进行转置,加权、相乘、筛选等数学处理,另外在数学处理的基础上,采用超图理论可以大大丰富了调查问卷的处理方法。

3 基于超图算法的调查问卷分析技术

超图是离散数学中重要的内容,是对图论的推广[3]。超图是有限集合的子系统,它是一个由顶点的集合V和超边集合E组成的二元对,超图的一条边可以有多个顶点的特性,这与一般的图有很大不同。超图分为有向超图与无向超图两类,在无向超图的每条超边上添加方向后得到的有向二元对就是有向超图。超图在许多领域有广泛的应用。

大家可以利用无向超图表示每一道题的选择情况,先将这每一题的每一个选项设成一个节点,然后将三维矩阵从上向下投影,如果某一题的若干个选项同时被一个人选择,就用一条超边包围这些节点,那么选这些选项的人越多,投影得到的超边就越浓。这样就用超图表示了问卷中每道题的信息,可以进行聚类处理。

利用有向超图,可以将关联规则表示成有向超图的形式,在得到了关联规则后,设实际中得到的关联规则的形式为:,前项和后项都是由多个项组成的集合。该文定义一条关联规则由一条有向超边表示,有向超边的头节点表示关联规则的前项,有向超边的尾节点表示关联规则的后项。每条有向超边的头节点和尾节点均可以为多个,如此便成功表示了复合规则,从而可以使用相关算法进行冗余规则检测。

通过基于有向超图的冗余规则检测就可以将关联规则之间存在着的大量冗余检测出,减少挖掘资源的浪费,从而增加了挖掘结果的有效性。

传统的聚类方法都对原始数据计算它们之间的距离来得到相似度,然后通过相似度进行聚类,这样的方法对于低维数据有良好的效果,但是对于高维数据却不能产生很好的聚类效果,因为高维数据的分布有其特殊性。通过超图模型的分割实现对高维数据的聚类却能产生较好的效果。它先将原始数据之间关系转化成超图,数据点表示成超图的节点,数据点间的关系用超边的权重来表示。然后对超图进行分割,除去相应的超边使得权重大的超边中的点聚于一个类中,同时使被除去的超边权重之和最小。这样就通过对超图的分割实现了对数据的聚类。具体的算法流程如下。

首先,将数据点之间的关系转化为超图,数据点表示为超图节点。如果某几个数据点的支持度大于一定阈值,则它们能构成一个频繁集,就将它们用一条超边连接,超边的权重就是这一频繁集的置信度,重复同样的方法就可以得超边和权重。

然后,在基础此上,通过超图分割实现数据的聚类。若设将数据分成k类,则就是对超图的k类分割,不断除去相应的超边,直到将数据分为k类,且每个分割中数据都密切相关为止,同时保持每次被除去的超边权重和最小,最终得到的分割就是聚类的结果。

如图3所示是基于超图算法的选题型调查问卷的分析技术的流程图,主要包括4个主要部分,一是用向量表示调查问卷结果,二是将向量表示的调查问卷转化为三维矩阵数学模型表示调查问卷结果,三是使用超图算法进行优化,四是根据要求显示调查问卷结果。

第7篇

相关热搜:统计学  统计学原理

一、数据统计分析的内涵

数据分析是指运用一定的分析方法对数据进行处理,从而获得解决管理决策或营销研究问题所需信息的过程。所谓的数据统计分析就是运用统计学的方法对数据进行处理。在实际的市场调研工作中,数据统计分析能使我们挖掘出数据中隐藏的信息,并以恰当的形式表现出来,并最终指导决策的制定。

二、数据统计分析的原则

(1)科学性。科学方法的显著特征是数据的收集、分析和解释的客观性,数据统计分析作为市场调研的重要组成部分也要具有同其他科学方法一样的客观标准。(2)系统性。市场调研是一个周密策划、精心组织、科学实施,并由一系列工作环节、步骤、活动和成果组成的过程,而不是单个资料的记录、整理或分析活动。(3)针对性。就不同的数据统计分析方法而言,无论是基础的分析方法还是高级的分析方法,都会有它的适用领域和局限性。(4)趋势性。市场所处的环境是在不断的变化过程中的,我们要以一种发展的眼光看待问题。(5)实用性。市场调研说到底是为企业决策服务的,而数据统计分析也同样服务于此,在保证其专业性和科学性的同时也不能忽略其现实意义。

三、推论性统计分析方法

(1)方差分析。方差分析是检验多个总体均值是否相等的一种统计方法,它可以看作是t检验的一种扩展。它所研究的是分类型自变量对数值型因变量的影响,比如它们之间有没有关联性、关联性的程度等,所采用的方法就是通过检验各个总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。(2)回归分析。在数据统计分析中,存在着大量的一种变量随着另一种变量的变化而变化的情况,这种对应的因果变化往往无法用精确的数学公式来描述,只有通过大量观察数据的统计工作才能找到他们之间的关系和规律,解决这一问题的常用方法是回归分析。回归分析是从定量的角度对观察数据进行分析、计算和归纳。

四、多元统计分析方法

第8篇

【关键词】大数据 网络规划 用户价值 用户感知

doi:10.3969/j.issn.1006-1010.2015.10.004 中图分类号:TN929.53 文献标识码:A 文章编号:1006-1010(2015)10-0022-06

引用格式:李梅,杜翠凤,沈文明. 基于大数据分析的移动通信网络规划方法[J]. 移动通信, 2015,39(10): 22-27.

1 引言

随着移动通信网络的发展和移动互联网业务的增长,移动通信网络的各类相关数据呈爆炸式增长。借助大数据强大的数据处理能力和数据挖掘技术,通过分析用户行为、基于用户价值和用户感知规划设计网络,成为运营商提升网络竞争力的关键环节。

传统的移动通信网络规划需要借助海量的测试,分析总结网络存在的问题,再基于对市场和业务的经验预测,制定规划方案。该过程中,测试结果的普遍性和业务预测的准确性制约了规划方案的合理性,高昂的测试成本和冗长的测试工期影响了规划效率。

基于此,提出了基于大数据分析的移动通信网络规划方法,通过大数据工具分析海量数据,实现用户业务趋势预测、用户价值挖掘、用户感知评估分析,进而能够以用户为中心、面向具体业务场景展开通信网络规划。同时,该方法能够综合分析CQT(Call Quality Test,呼叫质量拨打测试)、DT(Drive Test,路测)等多种前端测试数据和信令数据、位置数据、用户业务信息等大量后台数据,克服单一数据分析的局限,不仅能够大规模降低测试成本、缩短方案制定时间,而且还提高了方案的科学合理性。

2 基于大数据分析的移动通信网络规划

体系

如图1所示,本文提出的移动通信网络规划体系可分为数据层、管理层、业务层和展示层,各层均与大数据密切相关。

2.1 大数据数据层

该层采用HDFS数据库和Hbase数据库管理通信网络相关的结构化、非结构化数据。数据主要来自于网管侧和计费侧,包括:核心网管数据、详单数据、网优平台数据、投诉数据、用户信息表等,这些数据经过预处理、算法处理后,按照标准数据格式存放在Hbase里面。

2.2 大数据管理层

该层基于Hadoop管理平台建立特定的数据预处理脚本和算法模型,实现对用户价值和用户感知数据的分析管理。

数据的预处理主要包括确实数据处理以及噪音数据处理。为分析用户价值和用户感知,本系统用到的大数据分析算法模型主要有层次分析法和聚类阈值法。

2.3 大数据业务层

该层是对用户价值和用户感知业务实施梳理与管理,对影响用户价值和感知业务的各维度进行分析并找出其关联关系。例如:用户价值与收入、终端、业务、套餐的各维度关联关系的梳理;用户感知与回落之间的关系梳理等。

2.4 大数据展示层

该层是以图表进行展示数据分析结果,辅助开展通信规划,重点是对用户价值与感知进行地理化展现、相关图表的输出。

3 用户价值与感知评价分析方法构建

3.1 用户价值评价体系构建

通信领域中的用户价值评估是一个多层次、多因素的问题,需要针对相关的业务构建评价指标体系,能够全面考虑用户的收入特征、层次结构、业务特征相互联系。

(1)建立用户价值评价体系结构模型――AHP分析法

采用AHP法评价用户价值时,首先是把用户价值进行梳理,建立出以业务为基础的层次结构模型,然后将用户价值分解成收入、套餐、业务和终端4部分。具体如图2所示:

用户价值评价模型的层次一般分为:

最高层:用户价值。

中间层:用户潜力和消费能力。

最底层:用户潜力包括用户的套餐指标与终端指标;消费能力包括用户的收入指标与业务指标。

基于以上的维度进行评分,可将评分落到各基站扇区,根据评分做出扇区化的图层,并将网络的价值扇区进行地理化呈现。

(2)确定用户价值评价模型各指标权重

以AHP法确定用户价值评价模型各指标的权重分为以下两步:

首先,构建递阶层次结构。如图2所示,目标层是用户价值,该层是建立评价模型的目的和追求的最终结果。一级指标层为{用户潜力,消费能力};二级指标层包括套餐、终端、收入、业务等。

其次,要建立判断矩阵。根据模型同一层级的相关指标体系指标可构造判断矩阵,将同一层次的指标元素按照其上层指标元素的重要性进行两两比较,判断相对重要程度。一般都会邀请通信专业人士和资深人员组成专家小组,依据他们的通信专业知识和研究经验进行评估,构造判断矩阵。

(3)综合权重计算用户价值

针对移动通信系统,服从一定社会(地理和逻辑)分布的具有不同消费能力、行为和移动特征的客户群体,在通信过程中形成的具有运营价值的业务活动区域叫做价值区域。

价值区域可以采用收入、终端、用户、业务(数据和语音)“四维度”,基于各自评分标准进行评分;将评分落到各基站扇区,再根据评分做出扇区化的图层,就可以将网络的价值扇区进行地理化呈现。

根据AHP法得出的权重以及各维度的评分标准,可以算出各小区的综合评分;再根据综合评分,可定义TOP30%为高价值扇区,TOP30%~TOP50%为中价值扇区,TOP50%~TOP80%为一般价值扇区,TOP80%以上为低价值扇区;最后,根据高低价值区域的评定,可以将网络的价值扇区进行地理化呈现。

该价值分析结果在规划中可进一步拓展到区域层面、微网格层面,从而实现网络建设目标精准定位,以更好地指导网络资源投放。

3.2 用户感知分析方法

(1)建立用户感知评价体系结构模型

如图3所示,与用户价值评价体系结构模型建立的方法相似,仍采用AHP分析法,用户感知评价模型可分为:

最高层:用户感知。

中间层:网络覆盖和网络质量。

最底层:网络覆盖主要为MR(Measurement Report,测量报告)覆盖指标;网络质量包括HSDPA(High Speed Downlink Packet Access,高速下行分组接入)用户速率与3G回落指标。

(2)确定用户感知评价模型各指标权重

与用户价值评价模型各指标权重计算方法相似。

首先,构建递阶层次结构。如图3所示,目标层是用户感知,该层是建立用户感知评价模型的目的和追求的最终结果。一级指标层为{网络覆盖,网络质量};二级指标层包括MR覆盖指标、HSDPA用户速率、3G回落指标等。

其次,建立判断矩阵。由专家根据经验确定权重。

(3)综合权重计算用户感知

用户感知可以采用MR覆盖指标、HSDPA用户速率、3G回落指标“三维度”,按照评分标准进行评分,再将评分结果落到各基站扇区,做出扇区化图层实现网络感知的地理化呈现。

3.3 价值与感知联合评估

为了更好地指导网络规划建设,可将用户价值分析方法和用户感知分析方法联合起来,建立4×3的价值与感知联合评估矩阵,针对不同矩阵中的网格分别制定对应的资源投放策略。

价值与感知联合评估矩阵中,不同网格的资源投放策略建议如表1所示(红色、绿色区域为重点投资区域)。

4 应用案例

在某运营商本地网的无线网络规划中,运用上述的分析方法对2014年6月的7 000万条语音原始详单、5亿条数据原始详单、238万条用户原始信息详单进行了大数据分析。

4.1 价值区域分析

(1)终端分布分析

网上现有用户约110万户,其中支持3G业务的终端56万户,占比50.7%,仅支持2G业务的终端54万户,占比49.3%;约一半用户终端不支持3G业务,3G终端使用者中有一半终端使用的是2G套餐。

(2)业务分布分析

现网用户的业务分布统计情况是:语音业务63%承载在2G网络上,37%承载在3G网络上;数据流量2G承载24%,3G承载76%。考虑到3G网络的业务体验更好,且网络资源更为丰富,应通过各种措施加快业务的迁移,促进2G/3G网络的融合发展。

(3)套餐分布分析

现有用户的套餐数据统计结果如图4所示:

从图4统计分布可知,低端用户贡献了61%的收入,但占用了73%的流量资源和65%的语音资源。低端用户单位收入消耗的网络资源更高,说明高流量不一定带来高收入;市场营销策略是影响用户规模、用户行为以及网络资源使用的主要因素,为此,建议规划与市场应紧密结合,以计划为先、网络先行,市场与建设互相配合、逐步推进。

(4)用户收入分布分析

从用户收入角度分析,结果如表2所示:

从表2统计分析可知,使用2G套餐2G终端ARPU(Average Revenue Per User,每用户平均收入)值低于2G套餐3G终端,3G套餐2G终端ARPU值低于3G套餐3G终端,3G套餐ARPU值整体高于2G套餐,3G终端ARPU值整体高于2G终端。

从以上“收入、套餐、终端、业务”四维度进行扇区化统计,各扇区统计结果如图5所示:

从图5统计分布可知,高价值小区数占比为30%,收入占比达到72%;中价值小区数占比为20%,收入占比达到16%;高/中价值全网小区数占比为50%,收入占比达到88%,高价值小区各维度占比均接近70%,各维度评估合理。

4.2 用户感知分析

(1)用户速率分析

网络单用户下载速率统计分布如图6所示:

从图6统计分布可知,全网速率大于1Mbps的扇区占比为90.3%,需重点关注低于1Mbps区域的速率改善。

(2)3G用户回落分析

3G用户回落指标统计分布如图7所示:

从图7统计分布可知,全网回落评估指标差的扇区占比为23.2%,需重点关注回落评估指标差的扇区的深度覆盖问题。

(3)用户感知MR覆盖分析

对MR数据中扇区级的RSCP(Received Signal Code Power,接收信号码功率)进行统计,其分布如图8所示:

从图8统计分布可知,全网MR覆盖指标差的扇区占比为20.87%,需重点关注MR覆盖指标差的扇区的深度覆盖问题。

4.3 价值与感知联合分析

综合以上价值区域及用户感知分析,按照专家法取定的权重对各维度指标进行综合评分,得到全网各小区的综合评估分析结果,统计各类小区占比如图9所示:

从图9统计分布可知,全网综合评估高/中价值扇区中感知中/差的扇区占比为34%,这部分区域将是本次规划中需要重点投入网络资源的区域。具体分布如图10所示:

5 结束语

综上所述,通过对现网用户的收入分布、终端分布、套餐、业务、用户感知等多维度分析,可精准定位高价值扇区及高价值区域,以进一步指导网络的精准化规划设计,引导投资的精准投放。除此之外,基于用户价值和用户感知的多维度分析还可以应用于市场营销、渠道规划等领域。

基于大数据的价值分析对运营商而言,是市场驱动、精细化管理的重要途径,有利于改变传统的经营模式,改善用户感知、增强自身竞争力,从而能够有效应对来自于虚拟运营和OTT业务的冲击。

参考文献:

[1] 黄勇军,冯明,丁圣勇,等. 电信运营商大数据发展策略探讨[J]. 电信科学, 2013(3): 6-11.

[2] 刘旭峰,耿庆鹏,许立群. 运营商获取移动互联网用户价值的策略研究[J]. 邮电设计技术, 2012(8): 9-12.

[3] 袁首. 多网协同下的电信无线网络规划方法研究[D]. 北京: 北京邮电大学, 2012.

[4] 曹艳艳. 3G无线网络规划[D]. 济南: 山东大学, 2005.

[5] 李勇辉. 大数据概念辨析及应对措施[J]. 互联网天地, 2014(1): 11-14.

[6] 龙青良,李巍,吕非彼. 基于用户感知的WCDMA无线资源效能评估方法研究[J]. 邮电设计技术, 2014(9): 33-39.

[7] 朱强. 3G无线网络规划和优化的探讨[J]. 通信世界, 2005(30): 57.

[8] 任毅. 3G无线网络规划流程[J]. 电信工程技术与标准化, 2005(11): 15-18.

[9] 郭金玉,张忠彬,孙庆云. 层次分析法的研究与应用[J]. 中国安全科学学报, 2008(5): 148-153.

第9篇

[关键词]探索性数据分析;职工平均工资;匹配变换

[中图分类号]G819[文献标识码]A[文章编号]1005-6432(2013)46-0099-02

1引言

探索性数据分析方法是一种新型的统计分析手段,近年来在许多行业得到了广泛的应用,并取得了明显成效。其强调了数据本身的价值,可以更加客观地发现数据的规律,找到数据的稳健耐抗模式,从而发掘出数据的隐藏信息。本文从职工平均工资的实际数据出发,利用探索性数据分析中的工具,直观地探索华东六省职工平均工资的规律,挖掘数据特征和有价值的信息。

2华东六省职工平均工资的描述性分析

职工平均工资指企业、事业、机关单位的职工在一定时期内平均每人所得的货币工资额。它表明一定时期职工工资收入的高低程度,是反映职工工资水平的主要指标。由于中国城市众多,各地经济发展水平有较大的差异,生活水平和生活质量也各有不同,为了缩小地理差异对研究数据的影响,得到较为准确和有意义的结果,这里只选用了2010年华东地区六个省的职工平均工资运用探索性数据分析方法做初步的描述性分析和研究,每个省选取了9个大城市。

为了更加简单直观地对比各个省市的数据,我们绘制了箱线图,如图1所示。对华东六省进行对比中,可以看到只有江西省和福建省是有离群值的,说明了这两省中存在着个别城市职工平均工资与同省其他城市相比特别大,其他几省的数据就不存在离群值。对于四分展布,可以得到大小关系,安徽>江苏>浙江>山东>福建>江西,可知安徽和江苏中城市的职工平均工资差异较大,福建和江西相比起来,则分布得更加集中。

图1华东六省2010年职工平均工资水平箱线图

综合对比各个省的中位数,可以发现江苏省平均职工工资水平最大,江西省最小,从经济上反映了地区经济发展差异,江苏紧靠上海,处在华东的中心,交通系统发达,同时,长三角江苏占了大部分,其靠海的地理优势给它带来了更多的经济发展机会,导致了职工工资水平中位数相差如此大。

同时可以直观地看出安徽省数据对称性最好,除了福建省数据呈现左偏趋势外,其他省都呈现右偏的趋势,其中江西省的数据最为严重,主要是受到了两个离群值的影响,为了使其更对称,我们运用探索性数据分析方法中的对称变换方法,在经过R软件的计算后,得到职工平均工资的对称性变换图,如图2所示。

图2江西省2010年职工平均工资水平对称性变换图

进行对称性变换后,运用R软件拟合曲线,得到:

由图3可以看出,在进行对称匹配变换之后,江西省的两个离群值消失了,数据变得更加集中,趋势也更加易于分析和研究。这样的数据会给分析带来便利,更加清晰和直观地表现出数据的本质特征。

图3江西省2010年职工平均工资水平匹配

3结论

使用探索性数据分析技术具有耐抗性和稳健性的特点,通过箱线图可以简单直观地看出数据间的差异,华东六省中浙江、江苏省职工平均工资较高,安徽、山东、福建省处于中间,江西省最低。安徽省的数据较为分散,同时数据比较对称,而江西省的数据有着极大的右偏性,在经过了对称、匹配变换后,仍然与华东地区其他省的数据有较大的差异,可能是由离群值太大造成的。

参考文献:

[1]李世勇,胡建军,熊燕,等2004年我国卷烟焦油量的探索性数据分析[J].烟草科技,2005(7):8-11

第10篇

【关键词】教师 大数据 数学模型 matlab 最小二乘法

【中图分类号】G64 【文献标识码】A 【文章编号】2095-3089(2015)06-0155-02

大数据,或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产[2]。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对那些含有意义的数据进行专业化处理。本文将以东北地区数学专业教师大数据为基础,通过“加工”实现数据的“增值”,使其为决策与预测服务。

一、东北地区数学专业教师大数据来源及准备

通过查阅资料与调查,收集到东北三省各高校数学教师相关大数据,包括教师教龄(?S年)、收入(?S元)、税收(?S元)和职业病情况等方面的实际数据。由于得到的数据信息量大,轻重各异,所以首先需要进行数据预处理,即清除异常数据、错误纠正、格式标准化等,再通过数据挖掘技术,利用一系列相关算法和数据处理技术从大量的数据中提取人们所需要的重要信息,也就是上面所提到的实现信息的“增值”,同时大大提高数据处理效率,下面具体介绍本项目所采用的模型和计算方法。

二、东北地区数学专业教师大数据分析与结果

收集并处理好教师教龄、收入、税收和职业病情况等方面的数据后,本文主要针对三个方面进行了详细的分析:

1.教师收入随年份的变化

(1)数据范围:1994年-2014年东三省各高校数学教师收入(单位:元);

(2)计算条件:matlab软件,最小二乘回归分析,高性能计算工作站;

(3)求解过程:年份作为自变量x,收入为因变量y,从总体上看,二者统计关系大致符合一元线性的正态误差模型[3],即对给定xi的有最小二乘一元线性回归公式yi=b0+b1xi+εi,其中:

b■=■, ■=■■x■b0=■-b■■, ■ =■■y■

其中εi是由变量可能的内在随机性、未知影响因素等随机扰动造成的误差。总之,它可看成是众多细小影响因素的综合代表。最后,由Matlab提供polyfit函数实现回归函数拟合[4];

(4)结果分析:计算结果表明,随着年份的增加,教师收入也在不断增加。估计的因变量的系数b1约为191,也就是说,每过一年,教师收入大致可增加近191元。

2.教师职业病情况与教龄的关系

(1)数据范围:1994年―2014年东三省各高校数学教师教龄(单位:年)、职业病情况;

(2)结果分析:首先利用matlab软件,以横轴为某年东三省数学教师教龄,纵轴反映相应教龄的平均职业病情况(为方便,规定越接近纵轴正方向,职业病越严重)利用matlab软件绘制图形[5],发现教师教龄越长,职业病也愈加严重。每一年的教师职业病情况均可绘制一张图表,通过将这11张图表的最高值(即每一年职业病的最高值)做比较,发现其趋势是先逐年下降,最后趋于稳定。

3.对教师专业发展阶段的研究

(1)数据范围:2014年东三省各高校数学教师收入、教龄、税收和职业病大数据;

(2)计算条件:IBM处理器、大数据挖掘分类算法;

(3)求解过程:用神经网络研究方法(即模拟生物上神经元工作的方法)。图中每个椭圆形节点接受输入数据,将数据处理后输出,输入层节点接受教师信息的输入,然后将数据传递给隐藏层,隐藏层将数据传给输出层,输出层输出教师专业发展处于哪一专业成熟阶段;

(4)结果分析:若将教师专业成熟过程分为三个阶段:形成期、发展期和成熟期。那么利用IBM处理器和以上算法,在所调查的教师中,约70%处于发展时期,是其基本适应教育教学工作的时期;约20%处于形成期,是形成良好心理素质和正确教育思想的关键时期;约10%处于成熟期,是掌握教学主动权,成为学校教学骨干的时期;

(5)研究意义:研究东三省高校数学教师专业发展成熟阶段,可以基本掌握教师资源结构,从而能够遵循不同发展阶段的不同特征、观念、心理、发展需求,制定相应教研活动、政策和制度,促进教师全面持续发展[6]。

三、结果讨论

1.数据呈现以上结果的原因

(1)随着国家科教兴国战略的深入实施,教师的工资和待遇将被逐步纳入国家工作人员统一管理,教师的收入将得到很大的提高。另一方面,数学能力的培养是学习各专业、走入各行业的基础,国家将加大数学知识的教育力度,进而数学专业教师所付出的辛苦也更加不可小觑,综合以上几个重要原因,教师收入随年份增加而增加也是符合经济理论的。

(2)教龄越长,职业病也越严重的依存关系,我们容易理解。但随着时间的推移,职业病的严重性呈现下降趋势正是反映了我国科技的革新:环境的改变、教学设备和教学技术的更新使得教师的课堂教学更加高效和轻松便捷,如多媒体、电子白板使得课堂不再“尘土飞扬”。

(3)在对教师专业发展阶段的研究中,处于专业发展时期的教师所占比例最高,达到近70%。实际上,他们多数处于青壮年的人生阶段,是社会的中坚力量,又曾在高等教育多样化与综合化的背景下受到过良好的教育,并具有较丰富的教学经验和紧跟新时代的创新思想,自然在专业发展的角度也占有较大比例。

2.合理的相关预测

大数据最有价值的特点就是其“预见性”。上述数值结果表明,在经济平稳发展和社会稳定的前提下,东三省数学专业教师的收入在未来的几十年依旧处于增长趋势,教师职业病总体减轻,专业发展越来越成熟,使得教师队伍整体素质越来越高,而未来教师的考核奖励制度也会变得更加严格和全面。

3.建议

(1)无论是对教师行业还是其他行业感兴趣,都要关注其变化,分析其形势及趋势,以便对此行业的认知更加科学合理。

(2)本文采用的大数据处理所用模型和方法,可以进一步推广到其它相关领域,使之成为研究大数据的更通用的工具。

本文利用matlab软件、最小二乘法模型及IBM处理器分析了东北地区数学专业教师大数据,得出的结果对于掌握该地区数学教师基本情况并预测其发展趋势有着重要的作用,还为热心同类问题的研究者提供高效的方法和技术。当我们不能有效处理所获取的大数据,它们就是一些平凡的数字和符号。如果我们能够很好地驾驭大数据,它们必定会为我们带来诸多的方便。

最小二乘法模型在处理大数据时有一定的优势[7],统计分析,神经网络算法和遗传算法都是处理大数据的有效方法,如果能将这些方法有机的结合起来,将更能获得许多满意的数值分析结果。当大数据超过计算条件的时空允许时,不仅耗时费力,甚至使得计算成为不可能,通常需要采用并行算法等高效计算手段。在高性能计算方面,我们并没有用到并行算法,如果能利用并行算法,所处理的数值结果容量会更大更有参考价值。

参考文献:

[1]蔡锁章主编.数学建模:原理与方法.北京:海洋出版社,2000.

[2]维克托迈尔舍恩伯格.大数据时代.浙江:浙江人民出版社,2012.

[3]吴翊,吴孟达,成礼智编著.数学建模的理论与实践.长沙:国防科技大学出版社,1999.

[4]张德丰编著.Matlab数值分析与仿真案例.北京:清华大学出版社,2011.10(21世纪高等学校规划教材计算机应用)IBSN 978―7―302―26254―1.

[5]杨德平等编著.Matlab基础教程.北京:机械工业出版社,2013.221世纪高等院校计算机辅助设计规划教材 ISBN 978―7―111―41023―2.

第11篇

关键词:数据分析人才;软件工程专业;计算思维能力;正情绪

0引言

Web技术的飞速发展产生了海量的用户生成内容,大量信息蕴藏其中,是潜在用户决策支持的有价值资源。如何挖掘海量用户生成内容催生了数据分析人才的市场需求。麦肯锡全球研究院报告预计,美国在2018年数据分析人才缺口将达到50%~60%,甚至可能更大。我国政府提出的“互联网+”行动计划,使得数据几乎渗透到每一个行业和业务职能领域。在大数据时代,具有丰富经验的数据分析人才需求倍增。

1数据分析人才必备的重要素质

数据分析人才能对行业已有数据进行统计、分析、预测,能为企业经营决策提供科学量化的分析依据。2007年,复旦大学首先在国内开始培养数据分析人才,随后香港中文大学、北京航空航天大学等高等院校也相继开设了相关课程。分析上述高校人才培养计划可知,数据分析人才应该系统地掌握数据分析相关技能(主要包括数学、统计学、数据分析、商业分析和自然语言处理等),应具有较宽的知识面、独立获取知识的能力及较强的实践能力和创新意识,是一种复合型专业人才。《中国大数据技术与产业发展白皮书》在数据人才一章中明确指出,数据分析人才的培养要从本科阶段开始,要注重运用算法分析问题、解决问题,由此可见,计算思维能力是数据分析人才必须具备的重要素质之一。

2计算思维能力培养现状

自2002年以来,我国计算机教育专家将计算思维能力归结为计算机专业人才必备的4大专业基本能力,并且强调计算思维能力是其他3项能力(算法设计与分析、程序设计与实现以及系统能力)的基石。那么,如何在大数据时代背景下,依托应用型本科软件工程试点专业建设,培养软件工程专业学生的计算思维能力,为社会输送高质量数据分析人才?计算思维能力的强弱主要表现为学生能否正确运用抽象与分解、递归、启发式等方法解决计算求解问题。训练学生的计算思维能力可在算法与数据结构以及算法设计与分析课程(以下简称算法类课程)的教学中进行,因而算法类课程是本科阶段培养数据分析人才的重要课程。

然而,在算法类课程的实际教学过程中,存在两个较为常见的问题:

(1)学生理论联系实际的能力薄弱。学生要达到灵活运用算法解决实际问题,必须掌握算法的核心思想,但由于算法类课程中许多概念抽象,一些经典算法较为复杂,在这两门课程的学习和实践中,能体会到理论学习意义和动手实践乐趣的学生很少。

(2)系统能力培养没有受到教师的足够重视。由于算法类课程相关的综合设计课内学时少,教师无法引导学生从系统的角度认知综合设计,并对其进行分析、开发与应用。

由此可见,在算法类课程的现有教学环节中,训练学生计算思维能力的机会较少,必须结合当前数据分析人才市场需求的发展趋势,重新审视算法类课程的定位和内容,以达到夯实学生计算思维能力的目的。

3在算法类课程教学中培养学生计算思维能力的方法

从整体上,一个较高层次的数据分析人才应该掌握7大版块的知识结构,分别是数据采集、数据存储、数据提取、数据挖掘、数据分析、数据展现以及数据应用。以数据分析人才驱动为导向,培养软件工程专业学生计算思维能力的算法类教学方法主要是把算法类课程中算法分析与设计的思想融入数据分析中,用数据分析中的实际需求驱动学生学习书本上抽象的理论知识。以7大版块中最重要的数据挖掘版块作为载体,在算法类课程教学中培养学生的计算思维能力。

3.1基于实际数据分析任务的实验项目设计

目前,国际权威学术组织IEEE International Conference on Data Mining(ICDM)已评选出数据挖掘的10大经典算法:C4.5、k-means、SVM、Apriori、EM、PageRank、AdaBoost、kNN、Navie Bayes和CART。在教学过程中,可以根据不同类型的应用问题,结合这些经典数据挖掘算法布置实验任务,对每一实验任务制定实现该任务的实验目的、实验要求、实验内容、实验步骤和预期实验结果,让学生清晰地理解并实现这些实验任务。

以2013级软件工程专业学生参加中国好创意的“互联网情绪指标和生猪价格的关联关系挖掘和预测”为例,说明实验项目的设计。

(1)实验目的:针对来自国内互联网的生猪历年消费者情绪数据,挖掘消费者情绪指标和生猪价格之间的关联关系。

(2)实验要求:采用Apriori算法,对近期国内五花肉价格及生猪价格进行预测。

(3)实验内容及步骤:首先,对原始的生猪数据清洗是分析消费者情绪与生猪价格之间的关联关系的第一个阶段,其目的是删除无关数据;其次,统计与消费者正面情绪或消费者负面情绪同时出现的相关指标,并根据自定义的最小支持度阈值获得正面情绪或负面情绪的频繁项集;最后,根据自定义的置信度对获得的频繁项集进行筛选,得到有意义的频繁项集。

(4)预期实验结果:解读最终得到的频繁项集,将挖掘的结果反馈到生猪养殖户,让其掌握生猪市场的供求关系。

个别有能力的学生还可以对以上内容进行拓展,从互联网大数据中找出其他一些具有参考价值的生猪价格预测先导指标。

实验任务的编码完成后,还要求学生从软件开发的角度撰写规范的项目报告,内容包括项目的需求分析、总体设计、详细设计、编码与测试等。教师可通过报告清楚了解学生是否有良好的计算思维能力。针对计算思维能力薄弱的学生,教师可以再布置另外的实验项目让其训练。例如,在“互联网情绪指标和生猪价格的关联关系挖掘和预测”实践项目中,要求项目报告中有目标场景、需求理解、方案创意说明、模型数据选取、数据分析、算法设计、实验设计、结果分析、原型系统介绍等。

3.2算法类课程教学内容拓展

由于本科阶段算法类课程的教学内容只涉及完成基于实际数据分析任务的基础知识,不包括数据挖掘算法,这就需要教师在算法类课程中拓展教学内容。因此,在教学过程中需要将经典的数据挖掘算法与算法类课程的理论知识巧妙融合。为此,教师需要详细分析实现每个数据分析任务需要的基本理论知识,然后按照书本相关内容的先后顺序串联起来并编写授课计划,体现算法类课程精华内容与实际数据分析任务的融合。为了保证学生对数据挖掘算法的深入理解,需要鼓励其利用课余时间广泛查阅相关资料,进行自主学习。

在2013级软件工程专业学生参加中国好创意的“互联网情绪指标和生猪价格的关联关系挖掘和预测”竞赛中,指导教师们利用课外时间给学生讲解关联规则挖掘算法的思想、原理、特点等。学生在学习关联规则挖掘算法的过程中进一步掌握了递归与分治思想、回溯法思想;理解了树型存储结构对关联规则挖掘算法性能的改进。通过这样的实践,参赛学生完成的作品清晰展示了他们在学习算法类课程中培养的计算思维能力。

3.3计算思维能力培养的跟踪

为了改进软件工程学生计算思维能力培养中可能存在的问题,收集应用于13级软件工程专业学生的实验项目、授课计划、项目报告、算法类课程的理论成绩与实践成绩。通过跟踪他们毕业设计的完成情况,分析曾在算法类课程上得到较好计算思维能力培养的学生的毕业设计情况,检验提出的方法。由于本研究的对象还没有进入毕业设计环节,故只进行算法类课程的理论成绩与基于实际数据分析任务的实验项目完成情况的分析。通过两门课程期末考试成绩可以看出,认真完成实验项目的学生理论考试成绩普遍高于不认真的学生,这充分说明基于实际数据分析任务的实验项目能有效改进目前算法类教学课程中存在的问题。

此外,还准备通过学院学生管理部门跟踪2013级软件工程专业学生的就业情况和用人单位的反馈意见,了解学生的专业能力,及时修改计算思维能力的培养方法,为探索应用型本科软件工程试点专业建设提供有力支撑。

3.4充分利用移动平台

为了让学生充分体验到算法类课程学习的成就感,在算法类教学过程中,要求学生以3~5人一组,形成一个团队,开发算法类课程教学App。该App的功能模块主要有算法类课程的教学资源、10种经典的数据挖掘算法讲解教案、基于数据分析任务的实验项目、学生作品展示区和交流区。课程结束后,学生对每一个团队开发的App进行互评,最终选用得分最高的课程教学App为下届的学生使用。由于有了这样的平台,教师和学生的沟通变得更加方便与及时,学生对算法类课程的学习不再受时空的限制。在移动终端普及的情况下,这种教学模式一方面能让学生充分利用课余时间,另一方面能营造一种学生之间良性竞争的学习氛围。尽管教学App的开发是学生计算思维能力培养的副产品,但也正是这种副产品给学生带来的成就感让学生在学习的过程中充满了正情绪,让计算思维能力的培养成为一个潜移默化的过程。

第12篇

关键词:大数据统计分析;经济管理领域;运用

统计应用作为数学的重要领域,在大多数情况下,数据被收集并且通过一定方法在系统中存储,重要策略被记录,并应用于其他领域。随着数据恢复方法和统计分析方法的逐步集成,大数据的统计数据分析方法在财务管理中变得越来越重要。面对当今全球化的压力和经济市场的激烈竞争,使用财务管理的统计整合是提高有效管理效率,优化资源分配和科学行为的有效步骤。通过市场经济的发展和经济水平的不断提高,数据集成和财务管理水平运用了大数据的统计分析。在建立大规模数据的经济增长政策时,技术在宏观经济研究中起着重要作用。大数据统计分析的作用正在增加,其在管理中的用途正在进一步扩大。显然,加强对经济发展大数据统计分析技术的使用对促进经济增长和提高管理效率非常重要。

一、大数据统计分析方法在经济管理领域运用的意义

为响应市场环境和公司治理内容的变化而促进使用公司治理统计数据的需求主要体现在两个方面:

(一)宏观经济方面发展有若干规律。为了寻找有关经济发展的规律,强大的数据分析技术在宏观经济学中的应用非常重要。一方面,大数据分析统计数据用于从宏观经济发展行业收集数据,对相关行业信息进行实证分析,并调查行业发展和行业问题。使用SPS,Stata和其他数据分析软件,中国拥有最重要的发展法;同时,发现工业发展规律,规范工业发展,开辟新的经济发展方式也很重要[1]。

(二)企业经营管理方面1.提升企业竞争力的必然要求当前,业务发展的竞争越来越激烈。竞争压力主要归因于国内市场经济带来的经济化以及国内市场竞争激烈加入的外国公司的影响。公司必须面对激烈的市场竞争。大众市场信息的统计分析将调整生产和管理策略,并为业务发展的战略调整作出有效的决策。2.提升企业管理水平的必然要求一方面,诸如运营管理、财务管理、风险管理和企业资源管理等相关任务变得越来越复杂。需要统计分析方法来对丰富的业务操作信息进行分类和汇总,为业务管理决策提供有效的信息。同时,企业需要不断满足产品和服务生产方向的政治要求。由于需要与相关部门合作,例如运营财务管理、规避财务风险,因此需要建立相关部门的统计数据,以提高决策效率[2]。

二、大数据统计分析方法在经济管理领域的运用

利用大数据的统计数据分析技术研究宏观经济发展政策,对促进行业发展至关重要。另一方面,如何获取有关复杂数据管理的重要信息,在业务流程和管理方面为公司制定有效的决策是重中之重。关键在于掌握财务管理的大数据分析方法,并使用大数据统计分析技术来分类和提供业务流程管理,隐藏的规则以及来自异常数据点的大量信息。为了应对突况,管理人员需要制订正确的决策计划。本文主要讨论宏观经济应用管理领域的统计数据分析方法,以及业务管理、财务管理、风险管理和管理的六个方面。如:

(一)宏观经济方面关于宏观经济产业的运作和发展有若干规律。为了找到宏观经济发展方法,统计分析技术对于稳定经济增长和调查潜在的经济危机很重要。当前,不仅学者,业务经理也开始了解计算机技术的使用,并开始通过统计分析来发现工业发展中的若干问题,学习工业发展的原理。为了找出答案,我们选择了相关的影响因素并采取了相应的行动,采取措施提高工业发展效率。

(二)企业运营管理方面通常,在日常工作程序和工作相关领域中存在某些特定的业务管理和操作规则。另一方面,通过将统计信息应用于业务的运营和管理,公司可以通过分析大数据的统计信息来获得规律。这将帮助公司节省一些资源,避免重复的任务并节省公司的业务资源。如果该政策是从科学的统计评估阶段得出的,则情况与正常情况不同的企业高管应仔细考虑潜在的风险。

(三)企业营销管理方面企业需要建立大型数据管理系统来收集有关企业提供的产品或服务的市场交易信息。因此,消费者的热点必须与受管理的信息系统对齐,以使其隐藏在协同交易信息中。确定消费者对需求的偏好并确定消费者需求。公司的主要产品和服务根据消费者的喜好运作,可以满足消费者的需求,替代市场上的非反应性产品和服务。同时,开发新产品和服务企业领导者可以提供有效的决策信息,并为消费者创建新的热点[3]。

(四)企业财务管理方面应用管理统计信息。它通过审查有关生产过程和运营的统计数据(尤其是财务数据),进行定性和定量分析,帮助评估相关活动,例如商业投资。财务管理是开展业务必不可少的部分,这对于减轻公司的财务风险和提高公司资源分配的效率至关重要。通过统计分析对商业经济数据进行分类和分析,可以为高管、投资者和其他相关利益相关者提供有效的决策信息。

(五)企业人力资源管理方面将统计应用于公司的人力资源管理,并使用统计分析技术结合公司业务管理部门的特征,选择适当的方法来提高效率。人力资源管理很重要,人才基本上是企业的无形资产,在部门保留相关的人力资源是业务发展的关键。回归站评估法用于预测企业发展的人力资源需求,动态分析法用于根据状态预测人力资源的变化。将这两个方面结合起来可以大大提高业务资源的效率。

(六)企业风险管理方面使用统计分析技术对业务流程中的大量业务信息进行分类和分析,发现隐藏的规则和数据差异。重要的是,业务主管需要进行预测,做出正确的决定,解决事件并发现潜在危险。意思是如果统计数据分析有些奇怪,则需要找出业务流程中具有的某些规则,因此业务主管需要寻找更多异常条件,尤其是财务管理,要注意关注状态的变化。另一方面,对公司财务信息进行统计分析是公司规避财务风险的有效手段之一。

三、完善大数据统计分析方法在经济

管理领域运用的措施在本文中,我们将了解如何从六个方面分析大数据的统计数据:宏观经济活动、业务管理、风险管理、财务管理、资源管理和财务管理人员。这被认为是财务管理数据大规模统计方法的一种改进。必须在三个方面进行现场应用:

(一)社会宏观经济层面尽管存在宏观经济法则,但根据过去的经验,由于缺乏安全可靠的数据和分析方法,宏观经济法则的分析则一直被认为是伪科学。大数据分析技术提供了探索宏观经济法则的机会,大数据技术使用数据创建系统,而使用许多信息技术的科学分析是宏观经济法研究中的重要一步。特别是,某些行业使用行业信息和对经济趋势预测的全面分析来帮助识别和克服复杂的工业发展挑战,可以提高宏观经济发展效率。

(二)企业经营管理层面在公司上载和数据受限的情况下,企业很难优化管理功能以提高性能[2]。由于业务经理的管理理念和管理水平受到限制,因此很难断定业务开发操作和管理流程是否存在问题。统计分析技术可用于计算和评估每个关键决策或业务战略适合性的有效性。如果由于大数据分析技术而导致预期的数据销量存在矛盾,该公司可以调整其总体战略并进行业务变更以优化管理理念。

(三)行业与行业之间存在着一定的鸿沟无论是快速消费品行业、食品行业还是大型公司,其经营理念和经济结构在公司治理方面都存在根本差异。统计数据分析技术使公司能够了解整个行业的消费者需求的性质,分析社会经济状况,能够了解共同的业务条件和业务发展情况,并优化或区分劣质产品。在某些情况下,此更改是提高产品价格的高级更改,如果消耗量和消耗品减少,则可以降低产品价格。产品必须能够升级以满足顾客需求。产品行业、食品行业或大型行业具有不同的经营理念和财务结构,还在进行公司管理。但是,各个行业的业务方向取决于消费者的需求。换句话说,公司开发了产品的功能并使产品的功能适应消费者的需求。对于公司而言,通过优化生产结构并提供更多定价和功能来说服更多消费者也很重要。

(四)企业财务管理层面财务管理贯穿公司治理的整个过程。公司财务管理非常有效,但是存在诸如财务管理的巨大风险之类的问题。对公司财务信息进行统计分析是防范财务风险的有效手段之一。公司需要管理其日常收入和支出,并进行大规模会计处理。企业可以使用大数据分析技术来监测财务管理功能并确保标准化业务的财务安全。利用统计分析技术和大数据,公司可以预测潜在的市场和行业风险,以提供最佳解决方案,还可以提供分析大数据的方法,可以跟踪异常并快速发现异常。

四、结语

本文首先从宏观经济方面、企业经营管理方面等两个方面对大数据统计分析方法在经济管理领域运用的意义进行了分析,然后从宏观经济方面、企业运营管理方面、企业营销管理方面、企业财务管理方面、企业人力资源管理方面以及企业风险管理方面等方面对大数据统计分析方法在经济管理领域的运用进行了分析,最后从社会宏观经济层面、企业经营管理层面、行业与行业之间存在着一定的鸿沟以及企业财务管理层面等方面提出了完善大数据统计分析方法在经济管理领域运用的措施。大数据分析技术被广泛用于宏观经济预测、业务管理和公司风险管理,它在优化公司治理和运营结构,有效改善公司治理以及提高公司统一性和核心竞争力等方面发挥着重要作用,可以使公司在激烈的市场竞争中有一席之地。

【参考文献】

[1]张琳.大数据统计分析方法在经济管理领域中的运用浅析[J].营销界,2019(38):291-292.

[2]杜珉.大数据统计分析方法在经济管理领域中的运用探析[J].山西农经,2019(12):27.

[3]陈雪琴.大数据统计分析方法在经济管理领域中的应用[J].山西农经,2019(5):37.

[4]陈文怡.大数据挖掘电力系统项目管理中理论的应用[C]//2018年6月建筑科技与管理学术交流会.

第13篇

【关键词】靶场遥测 数据处理 处理方法

数据处理的周期直接受到遥测数据参数提取和处理素的影响,这也是在靶场遥测数据领域一项重要的研究内容。本文将就此论题进行探讨,以求得到高效的处理方法。

1 遥测复杂数据帧的描述

遥测数据是二进制数据流,主要通过帧结构形式将多路数据进行记录,固定字节长度的文件信息是文件头。子帧中有专门的一路用于副帧和数字量,子帧参数字节和副帧有着相同的数据类型,但是有着不同的数字量参数字节,有着繁多的参数种类。如果数字量结构中相对导弹每个特征飞行时段都需要有一个分帧记录数据,一般分帧有四个,每个分帧可以分为A、B区,在A区不同分帧有着相同的记录参数,在B区记录参数各不相同,这种数字量则为遥测复杂数据帧。

2 大数据量处理

2.1 基于网络数据库的数据处理模式

遥测数据综合处理系统有多个设备组成,包括专用数据导入计算机、数据存储阵列、高性能客户机、交换机、高性能服务器。其中服务器需要配备两台,一台用于中心处理服务器,一台用于做数据存储服务器。中心服务器同时为多个用户提供计算服务,可以充分利用服务器硬件资源提高数据的处理速度。

遥测数据综合处理系统通过将C/S与B/S结合的方式方实现。C/S主要用于处理日常试验任务的数据、数据档案的归档和记录、数据的查询等工作;B/S架构主要用于管理任务、查询统计历史数据、上传下载打包的数据。

按照变化频率,可以将遥测参数分为速变参数和缓变参数。缓变参数有着复杂的记录格式,包括子帧、副帧、数字量等帧结构中都有所分布,如果导弹的型号不同,那么其参数信息表单也存在差异,所以更改频繁、使用单一是其主要的特点。所以,可以采用客户端软件对数据的质量进行检查和分录,由中心处理服务器实现分录数据的对接、平滑滤波和剔除野值。缓变参数处理操作步骤一般如下:

(1)用户通过客户端提供的数据下载功能将项目试验任务遥测数据下载到本地。

(2)对项目任务参数信息进行审核,如果该参数信息表单已经存在那么需要重新配置参数信息表单。

(3)在缓变参数处理软件中输入遥测数据及参数信息表单路径,然后上传到中心处理服务器,完成数据的对接,剔除野值,生成参数数据文件。

(4)上传生成的参数数据文件和参数信息表单,由数据存储中心进行保存。

(5)生成处理结果

用户通过客户端软件对测量数据质量检验报告进行预览,合格后可以打印。

在测量数据的子帧结构中,速变参数记录数据有着相对固定的格式,型号不同的导弹任务参数信息表单基本没有太大的差别,所以可以采用客户端软件实现数据的验证和截取。速变参数记录数据的处理步骤如下:

(1)上传参数信息表单,将数据分路指令发送给速变参数处理软件服务器。

(2)下载遥测数据文件,根据要求执行遥测数据文件质量检查等操作,并且保存到存储中心,将执行完毕的指令发送给客户端软件。

(3)用户通过客户端软件查看测量数据质量检查情况,如果不符合质量评定要求,发送数据对接信令,将不同测量数据的分路数据进行对接,生成参数数据文件并上传存储中心。

(4)用户通过客户端软件从存储中心下载相应的参数数据文件,进行选段采样、谱分析,生成谱图。

(5)用户通过客户端软件将最终参数数据文件保存到存储中心,发送报告生成指令,报告生成服务软件自动生成数据处理结果报告和测量数据质量检查报告,用户审阅通过后即可打印。

2.2 数据选取

随着遥测测量数据量的不断增加,数据的冗余性也逐渐加大。因此,将数据压缩技术应用于遥测数据处理中,在保持参数波形不失真的情况下降低数据处理量,从而达到提高数据处理效率的目的。目前,数据压缩方法很多,常用的主要有相对插值法、二次采样法、抛物线法和一阶扇形内插法,但从压缩比和参数波形保持两方面综合来看,一阶扇形内插法更具优势,具体内容在此不详细叙述,可参考《靶场遥测数据选取方法的比较分析》。

3 结束语

通过改变数据处理模式以及降低数据冗余性,掌握遥测数据记录特点和变化规律,将遥测大数据量处理问题予以解决,这对于靶场遥测数据处理上有着重要的意义。未来应当构建遥测综合处理系统,尽量满足大数据量处理的要求。希望本文提出的观点具有一定的参考价值。

参考文献

第14篇

【关键词】驾驶行为;油耗;大数据;绿色驾驶

A Method of Automobile Driving Behavior and Data Analysis

ZHANG Zhi-de

(Guangzhou Automobile Group Co.,Ltd.,Automobile Engineering Institute,Guangzhou Guangdong 510640,China)

【Abstract】A car bus data collection and analysis methods of environment,expatiates the bus signal correlation between performance and corresponding working principle of the electronic control module,each over a period of time the data to carry on the comprehensive analysis,put forward several kinds of conditions associated with economic driving model,and through the working condition of model reflects in a period of time correlation between vehicle fuel consumption and driving behavior,for the analysis of driving behavior to provide the reference basis.

【Key words】Driving behavior;Oil consumption;Big Data;Eco-driving

0 引言

随着近几年汽车销售和保有量的急剧增加,降低能源消耗与汽车排放的要求越来越严格。节能减排政策成为对应汽车领域能源问题和治理环境污染的主要措施之一。橄煊节能减排,各个汽车制造商都在积极研究新技术以对应能源与环境需求。其中车辆动力技术、道路条件以及汽车驾驶运用是目前影响汽车燃油消耗的三大主要因素。汽车的驾驶运用水平直接反应在汽车驾驶人员对于汽车燃油经济性掌控的关键环节。驾驶人员以较少的汽车燃油消耗实现车辆空间位置安全转移的驾驶行为就是目前我们所倡导的汽车节能驾驶。通过研究驾驶行为数据并进行分析提示,辅助提高驾驶技术、研究节能驾驶辅助系统有巨大的节能潜力。

狭义上的驾驶行为数据分析一般是以考虑经济性驾驶为基础研究对象和主要前提。通过对驾驶员控制油门、挡位和制动等相关操作,在不改变车辆动力结构前提下,计算一段时间的控制数据和车辆理想驾驶模型数据进行对比,提醒驾驶人员日常驾驶行动的统计结果,包括对操作车辆油门、挡位、制动的方式。并以此为依托进行驾驶习惯改进、驾驶操作辅助、“人―车―路”多环境协调,合理匹配车辆运动与道路条件、交通状态、车辆性能之间的关系,以满足节能减排的目的。

1 驾驶行为分析模型

车辆运行过程中主要存在四种行驶状态:怠速、加速(含启动)、减速、巡航。

图1是城市工况的不同行驶状态所占能耗比。由图1可知,加速(含启动)过程占比最大,达到38% ;其次是巡航过程,约为35%。这说明城市工况中,采用经济性的加速和巡航策略对降低能耗具有积极意义。经济性加速主要指以适宜的加速度、档位、油门开度等完成加速过程,尽量避免急加速工况的出现;经济的巡航策略主要指尽量把车速维持在经济车速区间。

根据一般驾驶工况,按照与能耗关联的行为可以得出以下几种行为模式:

1)急加速

在紧急加速过程中,燃烧室中燃油多、空气少,燃烧室内呈现缺氧状态,燃油不能够充分燃烧,导致油耗增加。

2)急减速

减速过程属于动能转换为热能的过程,合理的预判行车减速过程进行适宜的制动强度有利于充分利用车辆惯性,减少油耗;频繁的急减速会消耗较多的车辆动力装置产生的动能。

3)脱档滑行

汽车带档滑行,不踩油门,发动机管理系统EMS会切断供油利用惯性来维持运转;脱档滑行则需要一个怠速油耗。因此长距离滑行时采用脱档滑行会增加油耗。

4)打开车窗高速行驶

汽车以较高车速行驶时,打开车窗会增加整车的空气阻力系数,增加空气阻力,进而导致油耗提高。

5)换挡时的转速(高转换挡)

合理的控制档位,能保证发动机在不同的车速区间里均能维持在经济转速区域,有利于减少发动机的油耗。

6)长时间怠速

长时间的怠速状态会导致发动机做过多的无用功,导致油耗上升。

7)频繁变道和曲线行车

频繁变道超车使汽车经常加速、减速、制动,发动机工作不稳定,同时使汽车处于曲线行驶状态。汽车曲线行驶时,如汽车转弯,地面对轮胎将产生侧向反作用力、滚动阻力大幅增加,导致油耗上升。

1.1 急加速模式

当车辆加速度n_vehicleActSpeed>X1*,油门踏板开度n_emsGasPedalActPst>X2*(排除下坡导致的无油门输入加速),记录为一次急加速,急加速计数器Drastic_Acc_Counter++。

X1*为设定的加速度限值,考虑到不同车速区间内车辆提供的加速能力不一致,为获得更优的评价方法,在不同速度区间能选用不同的限值。加速度限值是车速的函数,车速越低限值越大。X2*为油门踏板开度限值可以设置为定值20%。

加速度限值函数 X1:

y=a■x+b■,x?缀(0,40]a■x+b■,x?缀(40,80]a■x+b■,x?缀(80,max)

1.2 急转弯模式

对于急转弯驾驶行为,为滤去低速工况下掉头等实际状况的影响,首先判断车速,车速当车速n_vehicleSpeed>20km/h时,再进行急转弯判断,判断方法如下:

1)当某时间区间内(如1s)车辆角速度均值n_averageSteeringAngleSpeed大于预设角速度X*时,记录为一次急转弯,急转弯计数器n_turnCounter++;

2)当车辆行车速度大于50km/h且一秒内方向盘转动角度大于 Y*时,记录为一次急转弯急转弯计数器n_turnCounter++;

3)当车辆转弯角度大于31°,且车辆行驶速度大于S时,记录为一次急转弯,例如:S取值范围为51km/h至60km/h,急转弯计数器n_turnCounter++;

注:X*为动态限制量,是一个和车速有关的函数,车速越大转角速度极限值X*越小。

Y*为动态限制量,是一个和车速有关的函数,车速越大转角极限值Y*越小。

如下:

X*=k■x+l■,x?缀(0,40]k■x+l■,x?缀(40,80]k■x+l■,x?缀(80,max),Y■=r■x+t■,x?缀(0,40]r■x+t■,x?缀(40,80]r■x+t■,x?缀(80,max)

其中:k1,k2,k3,l1,l2,l3,r1,r2,r3,t1,t2,t3为常数。

2 非经济驾驶行为数据统计

根据第一章节中的描述,对行程中不利于油耗降低的驾驶行为(急驾驶、急减速、急转弯、怠速过长等)进行记录,并将每次行程的结果保存在存储区中作为历史数据。统计界面的默认界面为本次行程的驾驶行为统计(如图2左图);通过操作驾驶者可以进入历史统计界面,该界面内驾驶者可以观察本次驾驶行程中各驾驶行为发生次数与历史行程的对比(如图2右图)。

3 不同平均车速下的历史综合油耗统计

实际驾驶过程中不同路况下的油耗差异性很大,例如:高速公路驾驶中高速行驶发动机运行在经济区域占比较大,油耗较低;而城市道路驾驶过程中,车流量较大、交通灯数量多,车辆处于中低速区域比例较大,油耗较高。仅仅从平均油耗进行对比,有时不能正确反映驾驶者驾驶习惯。平均车速能较为有效的反应出道路工况,因此可以以行程的平均车速进行区间划分,历史油耗对比时仅对比同一区间内的油耗,可将平均车速划分为低速行驶区域(0~40km/h)、中速行驶区域(40~80km/h)、高速行驶区域(V≥80km/h),加入行程平均车速的考虑因素再做燃油消耗的统计。

4 方法总结

通^统计与经济驾驶关联的几种模式进行算法设计,可以将驾驶行为转化为可以具体量化的数据结果。基于数据有限分析和样本量,数据累计历史等前提下,可以通过模型进行一些可视化的输出结果。并以此作为驾驶人员辅助驾驶和行为提醒的基本数据。当然如果该模型能基于大数据后台平台,通过建立复杂的算法模型和自学习模型。可以更多的分析驾驶人员、同类车型、相似工况环境等。并以此为基础逐步影响驾驶人员的驾驶习惯,建立起良好的驾驶行为。

【参考文献】

第15篇

关键词:环境监测数据;评价;分析;方法

中图分类号:TE08文献标识码: A

前言

环境监测的数据不仅是我国对于生态研究和环境质量现状最主要的工作,也是我国治理生态环境和环境污染的根本。因此,要加强对于环境监测数据的研究工作。

一、 监测数据综合分析的目的和作用

环境监测是科学性很强的工作,它的直接产品就是监测数据。监测工作质量好坏直接反映在数据的质量,准确、可靠、有效、可比的环境监测数据是环境科学研究工作的基础,是环境管理的依据。一个环境监测站每年可提供成千上万的监测数据,但这些数据本身是孤立的、离散的,必须从不同的目的和作用出发,把环境监测所获得的资料、数据,通过不同的途径和方法分类、统计、转化、汇总,找出其本质的东西,获取环境管理所要求的各种综合数据。

环境监测数据综合分析的目的是完成监测数据、信息资料向环境质量定性化和定量化结论的转变,通过监测数据、信息资料的深加工与自然环境、社会经济发展等诸因素的综合分析,实现为污染防治决策和环境建设决策提供科学依据。环境监测数据综合分析是环境监测过程中重要工作环节,也是最终环节。一般来说,环境监测综合分析技术的水平高低,代表着监测站技术水平的高低,也决定着监测站在环境管理中的地位和作用。

二、目前我国大部分地区的空气质量检测数据

备注:部分城市环境空气质量指数(AQI)数据来源:中国环境监测总站网站,全国城市空气质量实时平台2013年1月12日21时―22时更新数据。

三、 监测数据综合分析的方法

在对环境质量进行综合评价或对区域环境污染状况进行评价时,都是以一定数量的监测数据和资料为依据的。这些数据和资料包括环境要素的监测数据、环境条件数据、污染源调查监测数据、现场调查数据和实测数据等等。环境监测综合分析采用的方法很多,并在不断完善和发展,通常采用的分析方法有统计规律分析、合理性分析、效益分析等。

(一)统计规律分析

统计规律分析中包括了对环境要素进行质量评价的各种数学模式评价方法,也就是应用数理统计方法,模糊数学方法和适用于不同环境要素的数学、物理方程等方法,对监测数据资料进行剖析,解释,做出规律性的分析和评价。该分析方法主要应用于环境调查、环境规划或课题、环评等比较大的工作中。

(二)合理性分析

由于影响环境要素变化的因素十分复杂,而用于综合分析的监测数据资料有限,所以需要结合环境要素的各项条件和污染源参数,理论结合实际分析其合理性。应考虑到环境要素之间的相互影响,监测项目之间的相关和对比关系,全面分析其合理性,这样才能提供准确、可靠、合理的监测数据。如何合理的分析数据,可以从以下几个方面判断:

1、 通过项目之间的相关性来分析

监测项目多种多样,有机的、无机的都有,但是物质本身具有相互关系,两个或两个以上的项目监测数据往往存在一种固定关系,这就为我们分析单个已实行质量控制措施的监测数据正确与否提供了依据,对一些例行监测数据,可做出直观的判定。例如,氟含量与硬度之间的关系。F与Ca、Mg形成沉淀物容积度较小,因此,在中性、弱碱性水溶液中,如氟含量在(mg/L)级,则其氟含量与Ca、Mg含量呈明显负相关,即与硬度值呈负相关,所以高氟区内的水质监测结果中硬度监测值一般较低。如果氟含量较高,同样硬度监测值也很高,数据就要重新分析。再如COD、BOD5和高锰酸盐指数之间的关系。根据COD、BOD5和高锰酸盐指数的概念,COD是指用强氧化剂,在酸性条件下,将有机物氧化成CO2与H2O所消耗的氧量;BOD5是指在水温为20e的条件下,微生物氧化有机物所消耗的氧量;高锰酸盐指数是在一定条件下,用高锰酸钾氧化水样中的某些有机物及无机物还原性物质,由消耗的高锰酸钾量计算相当的氧量;结合其实际的测定过程,对于同一份水样三者的监测结果,应存在以下规律: COD > BOD5, COD>CODMn。

三氮与溶解氧也存在一定的关系。环境中氮的存在形式根据环境条件的变化而发生变化,尤其受水体中溶解氧的质量浓度影响,一般溶解氧高的水体硝酸盐氮的质量浓度高于氨氮质量浓度,反之氨氮质量浓度高于硝酸盐氮质量浓度,亚硝酸盐氮质量浓度与之无明显关系。

二氧化硫与氮氧化物之间的关系:对于以煤为主要燃料的煤烟型污染区域,其大气环境中二氧化硫体积质量大于氮氧化物,一般为氮氧化物的2~6倍。在以汽油、柴油为燃料的区域内,如马路边,交通繁忙而居民少的区域,氮氧化物体积质量则大于二氧化硫。

综上所述,物质之间存在的相互关联性对综合分析监测数据的合理性起着至关重要的作用,它直观的体现出数据在分析过程是否存在分析误差,可以在第一时间分析出数据是否合理,为进一步综合分析数据提供了准确依据。

2、 通过掌握的资料对监测值进行判定

对现有的数据进行综合分析,首先要了解采样地点的本底值范围,特别是例行监测或者是年度监测计划。这种工作一般情况下都是连续性的,一年或是几年,数据可比性比较好,对同一点位的数据,如个别项目变化较大,可以先将该值列为可疑数值,然后进行合理性分析。

进行合理性分析,首先要了解是否有新的污染源介入,其次是采样全过程有无异常,包括水质的颜色,气味、流量的大小等。与以往数据进行比对,采样是否规范,采样的容器是否达到可用标准等。再次是实验室分析,如查找显示剂保存时间是否过期,标准曲线是否及时绘制,分光光度计是否调零等等。对于气体来说,还要考虑采样时的风向,采样仪器是否校准等。对于可疑值,在分析过程中已经知道数据是可疑的应将可疑值舍去;对复查结果时已经找出出现可疑值原因的,也应将可疑值舍去;对找不出可疑值出现原因的,不应随意舍去或保留,要对留样重新进行实验室分析或根据数理统计原则来处理。

3、 通过监测项目的性质对监测值判定

在同一水样中有许多项目根据其性质可以判定相关的监测值是否正确。如总氮,是指可溶性

及悬浮颗粒中的含氮量,如果同一水样监测结果出现总氮与氨氮、亚硝酸盐氮、硝酸盐氮数据倒挂,就表明监测结果是不正确的,需要重新分析找出原因;同样,还有总磷与可溶性磷以及无机磷之间数据的倒挂;大气中,氮氧化物与一氧化氮、二氧化氮,总悬浮颗粒物与可吸入颗粒物之间数据的倒挂等,都是不合理现象。同样,在噪声监测中,理论上监测数据L10一定大于L50、L90、Leq,在实际监测中如果出现Leq大于L10,如果不是监测数据或仪器出现问题,就是由于瞬时之间噪音值的突然增大,应当修正数据使用。以上只是列出部分项目之间的关系,还有许多项目关系需要我们在日常生活中不断总结和发现,运用到日常的环境监测综合分析中,更好地服务于环境管理。

(三) 对于数据的效益分析

对于环境监测的数据类型分为例行监测,环评监测和验收监测以及监督监测等等。对于监督数据的监测来说,当分析数据相对较少的时候,数据合理性比较好判断;而对于数据较多的例行监测、环评监测来说,在较短时间内判断数据是否准确、合理、可靠,上述综合分析方法提供了简单、明了的依据,在实际工作中能够及时为环境管理提供准确的监测信息,减少企业不必要的重复工作,在有效的时间内提供更优质的服务。

结论

综上所述,我国对于环境监测数据的研究还需要更加科学有效的方法。环境监测数据的测量是系统而又复杂的,要从多方面进行分析,找出环境中所存在的问题,并且进行相应的科学治理措施。实现我国生态环境的可持续发展。

参考文献:

[1]韩淑华 .环境监测数据的综合分析方法探讨[J].青年与社会,2014, (13).