本站小编为你精心准备了大数据平台的电力负荷预测参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
摘要:电力行业是大数据应用的重要领域之一,电力系统每时每刻都在产生大规模、种类繁多的电力数据,面对海量数据,该如何将它们高效的处理和存储,并进行有效开发利用十分关键。因此,研究基于Hadoop云计算平台海量数据下的电力负荷预测方法,并在MapReduce编程框架的基础下,将K⁃Means算法进行改良和优化。实验结果表明,提出的方法是可行的,数据处理时间大大缩短,算法精度也能满足负荷预测的要求。
关键词:大数据;Hadoop;云计算;Mapreduce;电力系统;电力负荷预测
0引言
随着电网建设速度的加快、规模的不断扩大、要求的不断提高,电网系统需要具有强大的数据分析和数据处理能力,这样才能保证电网的安全运行[1⁃2]。但是当前电力系统对数据的分析和处理所采用的是集中式的计算平台,这样的平台在面对海量数据时,如按常规系统10000个遥测点,采样间隔3~4s计算,每年能产生1.03TB的数据,就会出现数据的储存和计算问题,并且它的扩展性能比较差[3]。本文采用Hadoop云计算平台,通过搭建完全分布式集群,在多个节点上对数据进行计算和处理,可以极大地提升数据处理效率。多年来,电力负荷预测的方法不断出现,例如时间序列法、趋势外推法、神经网络、线性回归、小波分析法等。但这些方法仍然存在局限性。神经网络法很难避免在训练过程中的学习不足且收敛过慢[4];时间序列法对历史数据准确性要求高,短期电力负荷预测时对天气因素不敏感,难以解决因气象条件、区域等因素造成的短期负荷预测不准确问题。本文采用某地区的电力负荷数据作为基础。将K⁃Means聚类算法与云计算平台的MapReduce框架结合对电力负荷进行研究。此方案首先将大量的数据进行标记并产生键值对,然后分配多个节点并同时对数据进行处理和分析,最后将结果合并,这个过程大大提升了数据处理的效率。
1基于Hadoop平台的K⁃Means聚类算法
1.1传统的K⁃Means聚类算法
传统K均值算法(K⁃MeansAlgorithm)的基本流程为:作为一种基于划分的聚类算法,K⁃Means算法首先从原始目标集合中选取K个点作为初始的K个簇的中心;随后再将每个点指派到离该点最近的簇中心;最后,当所有的点都被划归到一个簇后,对簇中心进行更新;不断重复这样的过程直到簇中心收敛或者其他收敛条件满足(通常为迭代次数)。有两个方面问题需要考虑:一是距离度量,也就是如何衡量两个数据点之间的距离;二是簇中心的表示问题。在首次迭代中通常随机抽取K个原始数据点作为最初的K个簇中心,而后续的迭代通常通过取属于一个簇的所有点的平均值作为新的簇中心。
1.2基于Hadoop平台的K⁃Means聚类算法设计实现
1.2.1MapReduce并行编程模型MapReduce利用函数式编程中映射(map)和规约(reduce)的思想,将所有的输入/输出数据都以(key,val⁃ue)键值对的形式来表示。本文一次MapReduce计算的完成由三个阶段构成:Map阶段、Shuffle阶段和Reduce阶段[6]。
1.2.2基于MapReduce框架的K⁃Means聚类算法K⁃Means算法在MapReduce框架上实现主要分成2个步骤。1)将原始数据导入,并在数据集合中随机选取K个点作为初始簇中心。同时需先定义一个类,该类保存一个簇的基本信息。定义之后需要随机抽取K个点作为初始的簇中心。选取过程为,初始化簇中心集合为空,然后扫描整个数据集。当前簇中心集合大小小于K,则将扫描到的点加入到簇中心集合中,否则以1(K)+1的概率替换掉簇中心集合中的一点。2)把存储在本地的数据集合在Map节点上使用以上方法生成聚类集合,然后在Reduce阶段生成新的全局聚类中心。①Map方法的实现。Map方法需要将每个传入的数据进行处理,并找到离其最近的簇中心,同时将簇中的id作为键,该数据点作为值发射出去,表示这个数据点属于id所在的簇。②Reduce的实现。此过程是将多次迭代逐步逼近最终聚类中心的过程,同时重复此过程直到所求的聚类中心不再发生变化为止。
2负荷预测实验及结果分析
2.1实验数据
本实验数据来源于地区1从2009年1月1日—2015年1月10日的电力负荷数据(每15min一个采样点,每日96点,量纲为MW),以及2012年1月1日—2015年1月17日的气象因素数据(日最高温度、日最低温度、日平均温度、日相对湿度以及日降雨量)。选取2015年1月3日—2015年1月9日作为训练数据,如表1所示。在对该地区进行电力负荷预测时,考虑了地区温度等天气因素。通过最终实验结果来分析温度等因素对电力负荷预测造成的影响,同时对后续的研究提供参考。
2.2实验结果分析
1)基于MapReduce框架实现的算法与传统算法效率对比。)预测实验结果。在应用MapReduce框架实现的算法得到1月10日电力负荷的预测值与实际值进行对比,并计算出误差。
3结论
本文针对当前电力负荷数据量不断增长,大量数据的处理过程效率不高,耗费时间太长,以及电力负荷预测精度较低,得到的结果不能很好的计算和存储,研究了大数据在电力负荷预测方面的问题。通过在Hadoop平台上搭建集群,将K⁃Means聚类算法在基于MapRe⁃duce框架上实现,提出了基于MapReduce编程框架的并行算法。由实验结果可得,集群的数据处理能够解决当前海量电力负荷数据的问题,提出的并行算法精度也能满足负荷预测的要求。
作者:刘南艳;贺敏;赵建文 单位:西安科技大学