机器学习在数据挖掘中的应用范文

本站小编为你精心准备了机器学习在数据挖掘中的应用参考范文，愿这些范文能点燃您思维的火花，激发您的写作灵感。欢迎深入阅读并收藏。

机器学习在数据挖掘中的应用

摘要：在社会生产规模不断扩大的背景下，数据挖掘对升级转型产业结构发挥了重要作用，一般会利用机器学习方法达到操作目标。这种学习方法有效提升了操作水平，确保获得更加稳定的数据。但传统机器学习无法满足需求，应不断进行改进，才能达到发展需要。本文基于大数据、机器学习方法和数据挖掘内容，对机器学习的科学应用进行整体分析，希望可以获得更加精准的数据。

关键词：大数据；机器学习；数据挖掘

1引言

大数据具有种类繁多、容量巨大、处理速度飞快和价值密度低等特点。从搜索、存储与处理数据等角度看，机器学习算法改进了数据集合，但传统算法已无法挖掘大规模异构数据。因此，大数据时代全面研究数据挖掘中机器学习的应用，推动了我国信息社会的可持续发展。

2大数据、机器学习方法和数据挖掘

2.1大数据分析与管理数据是提升有效性的主要方法，但随着数据类型与数量的不断增加，一般的数据处理软件无法满足目前数据的特点。上述所说的数据集合就是大数据，其明显超越了传统存储数据MB、GB的形式。为了决策过程中充分发挥数据保障作用，建立更加科学的决策系统，需要在计算数据过程中不断优化处理数据方式。大数据具备丰富的数据类型与内容，通过微秒与毫秒的形式传输，体现了其快速的特性。另外，分类大数据的操作过程难度较大，需要有效排除影响因素，保证获得真实、可靠的信息。

2.2机器学习方法机器学习包括多种方法。第一，回归算法。它是产生其他算法的重要前提，包括线性与逻辑回归两种，前者主要解决数值问题，后者主要有效预测数字，这种方法还属于分类算法，因此往往获得离散分类的结果。第二，神经网络。它的主要原理是全面研究与模拟大脑工作过程，通过多个处理单元形成若干个层次结构，共同组成逻辑架构，其操作原理是接收层获取信号，隐藏层分解、处置数据，输出层是合理整合最终的结果。此外，每一个存在于网络的处理单元都可以认为是一个模型，存在于隐藏层的若干个神经网络称之为深度神经网络，在这一基础上开展的研究则是深度学习。第三，支持向量机。与神经网络形成的生物背景相比，支持向量机拥有十分浓厚的数学成分。虽然方法自身仅是不断增强逻辑回归算法，但其可以和高斯函数有效融合，从高维空间成功映射低维空间，顺利转化线性分类技术。第四，聚类算法。它主要通过科学计算种群形成的距离，结合远近程度，将其划分为若干个族群。第五，降维算法。它的核心特点是将高维降至低维，研究证明这个方法能够充分保存数据，有效压缩数据，提高算法的操作水平，能够可视化处理相关数据。第六，推荐算法。它是目前最流行的算法之一，大规模应用于电子商务，可结合有关购买情况自行推荐给人们最喜欢的东西。机器学习界存在大量算法，其中至关重要的是支持向量机和神经网络算法。结合学习内容可将算法划分为三种类型。第一，全方位的监督学习，指计算机通过环境得到信息知识，提示错误的判断，并提供正确答案。监督学习主要是为了在整体学习中利用计算机积累经验、提升技能，正确解答尚未学习的问题，如回归、神经网络和支持向量机等。第二，不会合理监督学习，即计算机在网络中自行搜集、整理、筛选有价值的信息，但缺乏准确目标，主要包括聚类和降维。第三，不断加强学习，在无任何环境指示的前提下，计算机可以正确评价预测的答案。

2.3数据挖掘数据挖掘可以更加全面地分析数据，科学总结发展规律，其中关键操作步骤是准备数据、搜寻规律和揭示规律。社会发展过程中，数据挖掘是最关键的内容，广泛应用于电力、医学和农业领域。当前，不断强化数据挖掘需要基于大数据背景科学应用机器学习，不断提升操作能力，推动数据挖掘操作的可持续发展[1]。

3利用机械学习的优势

传统机器学习算法中内容是关键，但保存数据过程中，TB和PB级数据已不能顺利存储于计算机。大数据处理时代背景下，大多数算法已无法达到数据挖掘的操作要求，因此只有通过不断改进，才可以与当今发展要求高度契合[2]。机器学习算法中，人工神经网络方法可以通过建立不同模型，体现鲁棒性与描述功能，严格控制精度。大数据时代提高了机器学习的困难度，一方面由于持续发展的数据规模，另一方面由于多样化的数据分布，传统学习要求数据差生独立分布，导致其不能全面发挥作用。因此，应积极优化算法，更好地开展数据挖掘操作。将机器学习应用于大数据处理，提升了分类性能，经过设计样本密集区域的分类器，有效发挥作用。大数据时代，机器学习已成功打破概念学习的理念，紧跟时展的脚步，成为挖掘改善数据的关键渠道。

4科学分类任务

4.1分类利用训练数据集开展机器学习，进一步获得完善的分类模型，科学划分与归类带有各种标签类别的数据内容，从而顺利达到划分数据的目标。当前，神经网络、KNN分类算法等已初步完成了分类算法。比如，科学分类训练集过程中，科学预处置文本，利用传统特征选择或结合同义词特点获取向量特征空间，标识为文本向量，进而借助分类模型科学预测其结构[3]。

4.2回归分析回归分析具体指认真分析数据后，通过统计学方法整体诠释变量与变量之间的关系，利用内部发展规律准确预测发展趋势，采用神经网络、线性回归等科学建立数据模型。

4.3关联通常具有事务型特点的数据之间有较强的关联标准。全面挖掘这部分数据关系可获得频繁项集，科学预测一部分事务的概率。比如，apriori算法，已大规模应用于商业网络领域。

4.4聚类借助于挖掘算法，在彼此不同的簇中科学聚集类型不同的数据对象，保证数据对象的高度相似，同时确保簇间若干数据对象的差异性，如k-means算法和神经网络。

5实际应用人工神经网络方法

拥有广泛的应用范围，可以高速处理数据并安排自主学习，通过实精准的识别进一步处理、分类数据。此外，可通过建模开展工作，拥有多样的模型，以满足不同需求。基于整体角度分析，这一方法的角度模型精致，鲁棒性能极佳，描述能力较强。

5.1针对定位问题的建模建模具体是通过给予向量机定位最大支持，栅格化处置定位区域，且相对面积偏小的栅格可独立作为一类区域。定位范围内，整理测量拥有庞大规模的终端数据，通过计算机分析、处理测量报告，认真测量栅格距离度与准确度，预判移动终端栅格，最终实施求解操作[4]。

5.2收集与预处理数据以某城市周边长为10km的正方形区域作为研究对象，其内部四个时间段短路检测的四部分数据作为仿真数据，通过线测得的三部分数据为训练数据，最后定位处理数据集。同时，为了确保定位方法的有效性，可有效筛选第四部分数据集定位，删除10m以内的集中路测数据。另外，可对此正方形区域内部的全部基站编号，预处理有关数据后，成功转化数据集内部的全部数据，并储存于计算机内部[5]。

5.3初步实施定位复杂的移动终端定位计算与应用程度、区域定位面积之间的关系为正相关，逐步增大区域面积，将会产生更加复杂的回归模型。科学定位移动终端需为计算函数提供大量参考建议，利用学习算法过程中，适当扩大区域定位范围，有效提高定位与训练过程中所需的复杂程度。围绕基站的经纬度开展初步定位，相关操作如下。科学划分边长为10km的正方形，使其成为边长为1km的小栅格。因为规定区域中，移动终端与服务区域内部基站之间的距离不会超出500m，所以1km边长的栅格便是定位参考的核心区域，即定位学习算法过程中的定位范围[6]。

5.4二次进行定位上述操作结束后，由于定位第一级支持向量机是400m范围，第二级是输出待定的100m栅格数据，因此需选取一个边长为2km的正方形区域。与一级向量机的定位相比较，二级在计算定位的过程中不会产生较大的复杂度，如果获得的分类和所有向量机都存在n个数据，就需要统一采取成对分类方法，科学处置大量分类问题。栅格的改变提高了定位精度，加大了分类总量，提高了定位复杂程度，计算总量时保证了定位于最小阶段。

5.5三次开展定位首先需要明确定位区域的具体面积，其次结合数据有效确定边长，最后利用K-近邻法开展三次定位。此外，需具备整体训练数据，科学选择数据，以降低计算的复杂程度。但是，随着选择面积的逐步增大，定位准确性将逐渐降低。

6结语

随着科学技术的飞速发展，数据挖掘技术逐步占据主导地位，其中机器学习的应用至关重要。作为一门涉及多个领域的知识学科，通过积极优化算法，可以不断提高定位的准确性和速度。因此，有关人员必须给予有效关注，持续改进，全方位发挥应用优势，争取在大数据时代利用数据挖掘功能，帮助用户成功解决定位终端问题。

参考文献

[1]李成录.大数据背景下机器学习算法的综述[J].信息记录材料,2018(5):4-5.

[2]杨尚林.基于机器学习的多源异构大数据清洗技术研究[D].南宁:广西大学,2017:12.

[3]莫雪峰.机器学习算法在数据挖掘中的应用[J].科教文汇,2016(7):175-178.

[4]张栋,柯长青,余瞰.机器学习算法在ALOS影像分类中的应用研究[J].遥感信息,2016(3):26-29.

[5]陈晓燕.遗传算法在数据挖掘中的应用[J].琼州学院学报,2015(2):15-17.

[6]谷珊.大数据环境下机器学习算法趋势研究[J].海峡科技与产业,2017(8):127-128.

作者：王旸单位：陕西中医药大学

机器学习在数据挖掘中的应用范文

扩展阅读

推荐期刊

机器人

机器人产业

机器智能研究

机器人技术与应用

精品推荐

免责声明

学术顾问