本站小编为你精心准备了配电网设备状态的文本化数据可视化参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
摘要:针对配电网规模的日益扩大,带来了越来越多的配电网设备状态数据,用户从海量的数据信息中洞察到配电网的整体情况存在困难的问题,提出了配电网设备状态的文本化数据可视化系统的设计方案。介绍了标签云的可视化方法,并从提取关键词、计算单词尺寸、布局算法和分析布局算法效果等层面提出了基于词频统计的文本化数据可视化方案,展示了文本化数据可视化的结果图景。
关键词:配电网;设备状态;文本化数据可视化系统
0引言
随着经济建设的进程逐渐加快,人们对电能的需求不断攀升,电网规模日益扩大,配电网设备在运行时产生的状态数据信息越来越多。众所周知,实时监控与分析配电网设备状态数据,有利于避免配电网设备发生故障,最大程度地减少配电网设备的损失[1]。但是,用户要想在海量的数据信息中洞察到配电网的整体情况存在着巨大的难度。为了帮助用户更好地理解和分析配电网设备状态的数据信息,建立一个能直观呈现数据信息的可视化系统势在必行。可视化系统基于人的视觉敏感度,能将抽象数据转化成直观的图形或图像,具有交互性特点的技术[2]。该技术如果应用于配电网设备状态文本化数据中,将能增强用户对配电网设备状态的形象化认知,提高用户提取、分析、处理数据的速度。本文将针对配电网设备状态数据进行可视化探讨,并提出配电网设备状态的文本化数据可视化系统设计方案。重点介绍标签云的可视化方法,并从提取关键词、计算单词尺寸、布局算法和分析布局算法效果等层面提出基于词频统计的文本化数据可视化方案,展示文本化数据可视化的结果图景。
1文本化数据可视化
由于人工处理文本信息的速度较慢,因此需借助文本分析技术以提高信息处理的效率。目前,可挖掘并提取文本信息的技术存在不少,然而这些文本分析技术在帮助人们分析数据方面仍存在一定的缺陷[3]。文本化数据可视化技术是一种基于人的图像敏感度,以视觉符号的形式呈现大量文本中的文字或数据,从而帮助人们迅速掌握关键信息的技术。在文本化数据可视化的研究领域,主要包括的类别为基于文本内容、文本关系和多层信息的文本化数据可视化[4]。基于文本内容的文本化数据可视化可分为基于词频的可视化和基于词汇分布的可视化。基于文本内容的文本化数据可视化能处理单个特定的文本和文档集合等对象,主要目的是帮助用户迅速掌握文本的整体内容和重点信息,同时指导用户对文本信息进一步理解。基于文本关系的文本化数据可视化的主要研究对象包括文本内部或文本与外部之间的关系,如文本内部的语义结构、主题的相似性、文本与外部的引用等。基于文本关系的文本化数据可视化一般使用树状图或网络图展示文本或数据。基于多层信息的文本化数据可视化侧重于结合信息的多个层面,研究用户从更多层面和更深层次理解文本数据的方法。如一则新闻的热点将根据时间的推移发生变化。其中文本数据的其它层面指的便是新闻的热度和时间因素。
2标签云的可视化方法
当配电网设备故障时,往往通过文字语言的方式记录配电网设备和线路中的问题。而以文字而并非结构化的数据来描述,将降低人工处理信息的速度和效率,同时导致数据处理的出错率升高,难以确保信息的准确度。为了解决该难题,配电网设备状态文本化数据可视化设计将运用基于词频统计的可视化手段显示文本数据,同时采用标签云的文本可视化方法[5]。下面将阐述标签云的实现过程。第一步,预处理阶段。在提取完相关文本信息后,应寻找出文本中表示特征的重点信息,并用于可视化的数据展示。同时,需提取出对文档主要内容具有代表性的关键词和关键词的权重值,从而勾勒出文本信息的大致轮廓,帮助用户从整体上了解文本信息的主要内容。第二步,可视化的设计和展示阶段。该阶段的主要工作是依据从文本中提炼出的特征信息,有针对性地设计可视化的整体布局。针对标签云的方法,单词的大小、位置和颜色等信息应重点关注。这些关键信息的考量有利于从细节上完善文本或数据的可视化设计和展示,实现重点突出、主题鲜明的目标。第三步,数据信息的呈现阶段。在该阶段,文本和数据信息将呈现给用户,同时通过交互的形式积极采纳用户对文本或数据信息的反馈,使信息得到进一步完善和补充,最大化地满足用户对文本信息理解和分析的需要。
3基于词频统计的文本化数据可视化设计方案
以上主要阐述了文本化数据可视化的基本概念和主要类型,并对标签云可视化方法的实现路径进行了重点说明。下面将针对配电网的设备状态,从提取关键词、计算单词尺寸、布局算法、分析布局算法效果等层面提出基于词频统计的文本化数据可视化设计方案。
3.1提取关键词
在一篇文档中,关键词是指能代表文档基本内容和主要思想的词语。一般而言,衡量文档词语重要性的方法是权重法,如布尔权重法、熵函数和TF-IDF权重法。本文将采用TF-IDF权重法提取关键词,该方法具有算法简便、准确度和召回率高等优势[6]。其基本思路是文档中占据权重较高的单词出现的次数相对较多,即TF(频率)较高,而该单词出现的次数和范围在别的文档中则相对较少,即IDF(文档占总文档的比例的倒数的对数)较低。TF和IDF分别为:TF(ti,dj)=a+(1+a)×tf/Max(tf)(1)IDF(ti)=log(N/nl)(2)式中,a为调节因子;tf为单词在文档中出现的总次数;Maxt(f)为全部单词在文档中出现频率的最大值;N为文档的总数目;nl为包括单词l的文档数量。其中,IDF的值越小,单词出现的文档数目越多。将TF和IDF结合起来对最终单词权重进行计算,有:weightij=tfi.j×idfl=tfi.j×logN(/n)j(3)在运用TF-IDF进行关键词提取的过程中,将配电网设备状态所有缺陷的描述都整理成一个文档。
3.2计算单词尺寸
作为视觉属性,单词的尺寸能凸显单词在文档中的重要程度。一般而言,在标签云的方法中,根据频度或权重依次递减的顺序对单词进行排序。通常单词的频度或权重越大,其尺寸就越大,这将放大权重较大的单词,凸显其重要性。一般地,网页在正文中往往选用13px或14px的字体,由于标签云最后需在屏幕上显示,因此字体的最大尺寸将设置为100px,最小设置为13px。在单词权重值的计算中,计算结果已得到归一化的处理,权重取值位于0至1的区间,那么通过权重值就能容易地计算出单词在屏幕上显示的尺寸。
3.3布局算法
本文将使用D3.js方法实现标签云,该方法能凸显权重大的单词,最大化地利用文档空间,实现良好的文档布局效果[7]。在配电网设备状态的文本化数据可视化系统设计中,本文将运用单词摆放算法,根据权重值大小依次递减的顺序对单词进行排序,即首先将权重最大的关键性的单词摆放到离布局中心最近的位置,其次摆放剩下的关键性的单词。如果文档检测到摆放的单词与之前摆放的单词重复,那么将该单词调换到新的地方,再对重复的单词进行二次检测。循环以上步骤,如果全部的关键词都合理地放置在相应的位置且不存在重叠的现象,那么整个流程结束。在布局算法实现的过程中,值得注意的是重叠检测和对单词进行二次摆放的策略。重叠检测是影响布局算法效率的重要因素。通常来说,提高重叠检测算法速度的主要方法是层次包围盒[8],其主要工作理念是空间分解,在挑选出长方形、圆形等几何特性较简单的包围盒后,根据包围盒面积大小依次递减的顺序将包围盒进行分解,从而得到原来图形的几何属性。可通过建立树的数据结构来表示包围盒的层次关系,最后继续测试包围盒重叠处。在调整位置的策略方面,本文选择的是朝着360°方向从近到远地移动关键词的位置,直到找到不产生重叠的区域。该策略的优点在于最先摆放的单词将一直处于中心区域。具体而言,在调整位置的过程中,本文使用了在阿基米德螺线处移动的策略[9]。阿基米德螺线是指如果点Q在射线OA中做匀速运动,OA以匀速的角速度绕着O点旋转,那么Q点的运动轨迹就是阿基米德螺线。阿基米德螺线的主要特点是每两条曲线相隔2πα。基于此特点,在调整位置时可使寻找到的新位置在螺旋线上朝着距离中心较远的方向转移,以使处于布局中心处的单词紧密相连。如果在直线上而不是在阿基米德螺线上移动,那么难以达到提高空间利用率的要求。
3.4分析布局算法效果
布局算法效果的衡量需借助一定的评估参数,本文采用的可量化的评估参数分别是布局算法的实际运行时间t、词语与界面中心之间的平均距离dave和可覆盖全部词语的最小矩形面积Smin。
4可视化结果
在配电网设备状态的文本化数据可视化系统中,最终应呈现一幅可视化的效果图景,即单词均匀集中在一个平面,平面整体简洁大方,单词之间互不重叠,关键词尺寸依据各自的权重程度而大小不同。基于人的视觉感知,标签云的可视化方法能生动形象地呈现出关键词权重大小的差异。该文本化数据可清晰、直观地展现出配电网的设备状态,有利于调度人员根据可视化的结果迅速判断出配电网设备存在的问题,从而及时做出调整,加强对设备的监控与管理。同时,用户交互是文本化数据可视化系统中必不可少的一部分。具体地说,用户交互是指用户通过高亮、缩放等操作接触系统实现文本和数据信息的传播,促进用户对数据的理解与分析,及用户对信息的完善与补充。
5结语
本文主要针对配电网设备状态数据进行了可视化的研究,提出了配电网设备状态的文本化数据可视化系统的设计方案。首先介绍了文本可视化的相关概念和基本特点,其次介绍了标签云的可视化方法的实现路径,并从提取关键词、计算单词尺寸、布局算法和分析布局算法效果等层面提出了基于词频统计的文本化数据可视化方案,最后展示了文本化数据可视化的结果图景。
参考文献
[1]邓安明,郑建鸿,宣磊,等.基于6LoWPAN的物联网通信技术在配电网设备状态监控方面的研究与应用[J].智能城市,2017(5):98-99.
[2]唐家渝,刘知远,孙茂松.文本可视化研究综述[J].计算机辅助设计与图形学学报,2013,25(3):273-285.
[3]杨光.电网可视化技术[J].国际电力,2004,8(2):45-47.
[4]林跃.基于语义的文本可视化研究[D].哈尔滨:哈尔滨工程大学,2014.
[5]骆逸欣.文本数据可视化之标签云[J].电子技术与软件工程,2017(13):197-198.
[6]施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(b06):167-170.
[7]赵聪.可视化库D3.js的应用研究[J].信息技术与信息化,2015(2):107-109.
[8]关振群,宋超,顾元宪,等.有限元网格生成方法研究的新进展[J].计算机辅助设计与图形学学报,2003,15(1):1-14.
作者:吴楚 王金芹 金月 单位:云南电网有限责任公司瑞丽供电局