美章网 资料文库 机器学习在数据挖掘中的应用范文

机器学习在数据挖掘中的应用范文

本站小编为你精心准备了机器学习在数据挖掘中的应用参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

机器学习在数据挖掘中的应用

摘要:在社会生产规模不断扩大的背景下,数据挖掘对升级转型产业结构发挥了重要作用,一般会利用机器学习方法达到操作目标。这种学习方法有效提升了操作水平,确保获得更加稳定的数据。但传统机器学习无法满足需求,应不断进行改进,才能达到发展需要。本文基于大数据、机器学习方法和数据挖掘内容,对机器学习的科学应用进行整体分析,希望可以获得更加精准的数据。

关键词:大数据;机器学习;数据挖掘

1引言

大数据具有种类繁多、容量巨大、处理速度飞快和价值密度低等特点。从搜索、存储与处理数据等角度看,机器学习算法改进了数据集合,但传统算法已无法挖掘大规模异构数据。因此,大数据时代全面研究数据挖掘中机器学习的应用,推动了我国信息社会的可持续发展。

2大数据、机器学习方法和数据挖掘

2.1大数据分析与管理数据是提升有效性的主要方法,但随着数据类型与数量的不断增加,一般的数据处理软件无法满足目前数据的特点。上述所说的数据集合就是大数据,其明显超越了传统存储数据MB、GB的形式。为了决策过程中充分发挥数据保障作用,建立更加科学的决策系统,需要在计算数据过程中不断优化处理数据方式。大数据具备丰富的数据类型与内容,通过微秒与毫秒的形式传输,体现了其快速的特性。另外,分类大数据的操作过程难度较大,需要有效排除影响因素,保证获得真实、可靠的信息。

2.2机器学习方法机器学习包括多种方法。第一,回归算法。它是产生其他算法的重要前提,包括线性与逻辑回归两种,前者主要解决数值问题,后者主要有效预测数字,这种方法还属于分类算法,因此往往获得离散分类的结果。第二,神经网络。它的主要原理是全面研究与模拟大脑工作过程,通过多个处理单元形成若干个层次结构,共同组成逻辑架构,其操作原理是接收层获取信号,隐藏层分解、处置数据,输出层是合理整合最终的结果。此外,每一个存在于网络的处理单元都可以认为是一个模型,存在于隐藏层的若干个神经网络称之为深度神经网络,在这一基础上开展的研究则是深度学习。第三,支持向量机。与神经网络形成的生物背景相比,支持向量机拥有十分浓厚的数学成分。虽然方法自身仅是不断增强逻辑回归算法,但其可以和高斯函数有效融合,从高维空间成功映射低维空间,顺利转化线性分类技术。第四,聚类算法。它主要通过科学计算种群形成的距离,结合远近程度,将其划分为若干个族群。第五,降维算法。它的核心特点是将高维降至低维,研究证明这个方法能够充分保存数据,有效压缩数据,提高算法的操作水平,能够可视化处理相关数据。第六,推荐算法。它是目前最流行的算法之一,大规模应用于电子商务,可结合有关购买情况自行推荐给人们最喜欢的东西。机器学习界存在大量算法,其中至关重要的是支持向量机和神经网络算法。结合学习内容可将算法划分为三种类型。第一,全方位的监督学习,指计算机通过环境得到信息知识,提示错误的判断,并提供正确答案。监督学习主要是为了在整体学习中利用计算机积累经验、提升技能,正确解答尚未学习的问题,如回归、神经网络和支持向量机等。第二,不会合理监督学习,即计算机在网络中自行搜集、整理、筛选有价值的信息,但缺乏准确目标,主要包括聚类和降维。第三,不断加强学习,在无任何环境指示的前提下,计算机可以正确评价预测的答案。

2.3数据挖掘数据挖掘可以更加全面地分析数据,科学总结发展规律,其中关键操作步骤是准备数据、搜寻规律和揭示规律。社会发展过程中,数据挖掘是最关键的内容,广泛应用于电力、医学和农业领域。当前,不断强化数据挖掘需要基于大数据背景科学应用机器学习,不断提升操作能力,推动数据挖掘操作的可持续发展[1]。

3利用机械学习的优势

传统机器学习算法中内容是关键,但保存数据过程中,TB和PB级数据已不能顺利存储于计算机。大数据处理时代背景下,大多数算法已无法达到数据挖掘的操作要求,因此只有通过不断改进,才可以与当今发展要求高度契合[2]。机器学习算法中,人工神经网络方法可以通过建立不同模型,体现鲁棒性与描述功能,严格控制精度。大数据时代提高了机器学习的困难度,一方面由于持续发展的数据规模,另一方面由于多样化的数据分布,传统学习要求数据差生独立分布,导致其不能全面发挥作用。因此,应积极优化算法,更好地开展数据挖掘操作。将机器学习应用于大数据处理,提升了分类性能,经过设计样本密集区域的分类器,有效发挥作用。大数据时代,机器学习已成功打破概念学习的理念,紧跟时展的脚步,成为挖掘改善数据的关键渠道。

4科学分类任务

4.1分类利用训练数据集开展机器学习,进一步获得完善的分类模型,科学划分与归类带有各种标签类别的数据内容,从而顺利达到划分数据的目标。当前,神经网络、KNN分类算法等已初步完成了分类算法。比如,科学分类训练集过程中,科学预处置文本,利用传统特征选择或结合同义词特点获取向量特征空间,标识为文本向量,进而借助分类模型科学预测其结构[3]。

4.2回归分析回归分析具体指认真分析数据后,通过统计学方法整体诠释变量与变量之间的关系,利用内部发展规律准确预测发展趋势,采用神经网络、线性回归等科学建立数据模型。

4.3关联通常具有事务型特点的数据之间有较强的关联标准。全面挖掘这部分数据关系可获得频繁项集,科学预测一部分事务的概率。比如,apriori算法,已大规模应用于商业网络领域。

4.4聚类借助于挖掘算法,在彼此不同的簇中科学聚集类型不同的数据对象,保证数据对象的高度相似,同时确保簇间若干数据对象的差异性,如k-means算法和神经网络。

5实际应用人工神经网络方法

拥有广泛的应用范围,可以高速处理数据并安排自主学习,通过实精准的识别进一步处理、分类数据。此外,可通过建模开展工作,拥有多样的模型,以满足不同需求。基于整体角度分析,这一方法的角度模型精致,鲁棒性能极佳,描述能力较强。

5.1针对定位问题的建模建模具体是通过给予向量机定位最大支持,栅格化处置定位区域,且相对面积偏小的栅格可独立作为一类区域。定位范围内,整理测量拥有庞大规模的终端数据,通过计算机分析、处理测量报告,认真测量栅格距离度与准确度,预判移动终端栅格,最终实施求解操作[4]。

5.2收集与预处理数据以某城市周边长为10km的正方形区域作为研究对象,其内部四个时间段短路检测的四部分数据作为仿真数据,通过线测得的三部分数据为训练数据,最后定位处理数据集。同时,为了确保定位方法的有效性,可有效筛选第四部分数据集定位,删除10m以内的集中路测数据。另外,可对此正方形区域内部的全部基站编号,预处理有关数据后,成功转化数据集内部的全部数据,并储存于计算机内部[5]。

5.3初步实施定位复杂的移动终端定位计算与应用程度、区域定位面积之间的关系为正相关,逐步增大区域面积,将会产生更加复杂的回归模型。科学定位移动终端需为计算函数提供大量参考建议,利用学习算法过程中,适当扩大区域定位范围,有效提高定位与训练过程中所需的复杂程度。围绕基站的经纬度开展初步定位,相关操作如下。科学划分边长为10km的正方形,使其成为边长为1km的小栅格。因为规定区域中,移动终端与服务区域内部基站之间的距离不会超出500m,所以1km边长的栅格便是定位参考的核心区域,即定位学习算法过程中的定位范围[6]。

5.4二次进行定位上述操作结束后,由于定位第一级支持向量机是400m范围,第二级是输出待定的100m栅格数据,因此需选取一个边长为2km的正方形区域。与一级向量机的定位相比较,二级在计算定位的过程中不会产生较大的复杂度,如果获得的分类和所有向量机都存在n个数据,就需要统一采取成对分类方法,科学处置大量分类问题。栅格的改变提高了定位精度,加大了分类总量,提高了定位复杂程度,计算总量时保证了定位于最小阶段。

5.5三次开展定位首先需要明确定位区域的具体面积,其次结合数据有效确定边长,最后利用K-近邻法开展三次定位。此外,需具备整体训练数据,科学选择数据,以降低计算的复杂程度。但是,随着选择面积的逐步增大,定位准确性将逐渐降低。

6结语

随着科学技术的飞速发展,数据挖掘技术逐步占据主导地位,其中机器学习的应用至关重要。作为一门涉及多个领域的知识学科,通过积极优化算法,可以不断提高定位的准确性和速度。因此,有关人员必须给予有效关注,持续改进,全方位发挥应用优势,争取在大数据时代利用数据挖掘功能,帮助用户成功解决定位终端问题。

参考文献

[1]李成录.大数据背景下机器学习算法的综述[J].信息记录材料,2018(5):4-5.

[2]杨尚林.基于机器学习的多源异构大数据清洗技术研究[D].南宁:广西大学,2017:12.

[3]莫雪峰.机器学习算法在数据挖掘中的应用[J].科教文汇,2016(7):175-178.

[4]张栋,柯长青,余瞰.机器学习算法在ALOS影像分类中的应用研究[J].遥感信息,2016(3):26-29.

[5]陈晓燕.遗传算法在数据挖掘中的应用[J].琼州学院学报,2015(2):15-17.

[6]谷珊.大数据环境下机器学习算法趋势研究[J].海峡科技与产业,2017(8):127-128.

作者:王旸 单位:陕西中医药大学