美章网 资料文库 新闻热度预测数据模型的构建及实证范文

新闻热度预测数据模型的构建及实证范文

本站小编为你精心准备了新闻热度预测数据模型的构建及实证参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

新闻热度预测数据模型的构建及实证

【摘要】随着互联网发展,各式新媒体涌现,“流量之争”愈演愈烈,提高新闻热度成为媒体运营重心。本文将C4.5决策树分类算法应用于新闻热度预测,分析挖掘规律。对新闻类别、图文设置、词语运用等进行处理,从中选取决策属性构造决策树,预测新闻是否会成为热点,并据此提供易实行的优化方案,对提高热度有很大的帮助。

【关键词】C4.5;决策树;热度预测

1研究背景和意义

1.1研究背景我们身处于一个信息爆炸的时代,五花八门的新闻时刻都在产生。大到政局变动、科技研究、金融形势,小到邻里纠纷、气象变化、明星八卦,各类不断更新的信息充斥着我们生活的每一个角落。然而,随着互联网发展,各式新媒体涌现,我们在接收信息的过程中常会受到无用冗余信息、重复繁琐信息的困扰。对新闻受众来说,需要能够更智能、更具有针对性的筛选过滤新闻信息的工具;而对于新闻传播者来说,则需要提高新闻热度,拓展新闻扩散范围,在愈演愈烈的“流量之争”中胜出,在行业中取得优势。与此同时,当广告投放与大众传媒结合,便需要广告商有效利用信息传播优势,最大化运用已有受众资源并对他们进行诱导和渗透,以刺激信息受众的消费行为,最终达到营销的目的。由此可见,新闻热度正扮演着越来越重要的作用,对这些数据的预测对新闻生产者来说具有重要意义。除了提高总体的效益,新闻热度预测还可以为新闻内容的针对性优化提供方向,让新闻更贴合读者需求,有时还能通过图片、文字等潜移默化的影响目标受众的生活方式、消费态度乃至价值观念,为媒体的长足发展打下坚实的基础。

1.2研究意义当新闻报道越来越离不开数据,甚至计算机在某些新闻题材前已经比人更加具备竞争优势,新闻生产者就应当因时而变,通过提高新闻热度努力创造自身优势。运用数据分析挖掘相关技术,对新闻热度进行有效的预测,不仅可以使新闻更具针对性,更有效地被受众接收,更能为媒体积累受众资源,有利于未来发展。热度的预测为新闻内容的优化提供思路,也为广告信息的有效传播提供了保障。在全球范围内,预测新闻热度正在成为一种趋势。依据社交网络中的交互数量,例如互联网点赞、分享、评论数量,以及传统纸媒的销售量,新闻生产者可以合理有效地开展热度预测,提升自身竞争力,加快发展进程。

2文献综述

事实上,运用数据统计、挖掘、分析技术来支持新闻生产,进行合理预测已不是一个新想法。国外早有从事新闻与数据相关工作的研究团队认为,预测在线新闻的流行正在成为一种趋势。影响新闻热度的原因是多方面的,最传统的影响因子是新闻内容。有没有独家的消息、见解是否独到深刻等等都会成为我们衡量一则新闻价值的参考因素。史安斌,廖蝶尔(2014)[1]曾经提到利用数据进行新闻内容优化的方法。他们还认为当今的专业记者应当擅于挖掘数据,致力于将新闻信息转化为生动的故事和深邃的洞见,并且借助于新媒体使新闻报道呈现出“可视性,纵深性,互动性”的特点,满足受众对新闻报道“更准确,更深入,更直观”的要求。有的研究者从新闻本身的内容出发预测新闻热度,对新闻进行分类,从而便捷的帮助人们获得想知道的信息。Bandari(2012)[2]认为用四种类型的特征(新闻来源,文章的类别,主观使用的语言和文章中提到的名称)来预测流行程度是十分可靠的。事实上,2004年开始,谷歌、百度的新闻(或资讯)频道,就已经依赖搜索技术和计算机算法来进行新闻的整合以及在网页上的呈现。即便计算机算法对新闻内容的编排原则相对简单,并无编辑精心设计的格式版面,但对于那些更愿意自己来进行新闻价值判断的受众来说,这样的新闻呈现也有它独特的魅力。另外,有的研究者从新闻的阅读体验出发探究对新闻传播的影响,因为当下仅靠内容出彩已难以赢得竞争的绝对优势。刘进(2017)[3]在承认新闻内容作用的基础上,进一步阐发了他关于阅读体验对新闻热度影响的看法。他曾经谈到,“我们不要死抱着‘内容为王’这唯一的法宝不放,用户的需求、用户的体验是我们不得不面对的问题。”而想要提高用户满意度,更精细化的设计和考虑是不可缺少的。比如,新闻的版面是否简洁清爽,图片插入是否喧宾夺主,等等都需要被充分考量。Petrovic等(2011)[4]提出,转发使用与推文内容相关的功能(例如,主题标签的数量,URL,长度,单词)应当被密切关注。吴林锡(2015)[5]则认为新闻当中图片的选择意义重大,“只有尽可能简单、直接、有趣地将信息呈现给受众才会获得用户注意力。”这就充分体现了新闻配图的作用。毕竟,图片以其直接的特点能充分刺激受众想象,使新闻更加生动形象。通过对多元数据集的研究,探寻影响新闻流量的主要因素,可以准确的对新闻热度进行预测,从而对如何优化新闻、更有效提升新闻竞争力有一个更好的了解。热度预测也将涉及决策上的强化,使新闻投放效果更理想。本课题通过对大量可能影响新闻热度的因素进行数据挖掘,以数据挖掘的经典模型决策树C4.5为理论支撑与分析方法,探究了热度高低与众多因素之间的关联性,并力求将其应用到新闻预测与决策优化上去。

3数据来源和模型介绍

3.1数据来源本文的数据来源于UCI数据,包含了30000左右条数据。具体的变量解释如表1。

3.2模型介绍在数据挖掘中,决策树是一个常用分类模型。它是一种类似于流程图的树形结构,每一个内部的非树叶节点代表了一个特定属性上的测试,每一个分枝则代表了相应的测试输出,这样就完成了对不同标签的分类。决策树最顶端的节点称为根节点,它通常囊括了所有涉及的样本点。树叶节点中存放类标号,和决策的结果相对应。这样,一个根节点、若干内部节点和若干叶节点就构成了一棵完整的决策树。3.2.1ID3模型ID3算法是决策树学习方法中最具影响和最为典型的算法,以从树顶向下递归的分枝方式构造决策树,最核心的关键步骤是属性的选择,即选择分裂准则。其中,应用最广泛的准则是信息增益。信息增益的度量标准是看特征X能为分类系统带来信息的多少。信息增益越大,该特征越重要。在介绍信息增益之前,先对熵的概念进行以下阐释。熵(Entropy),即信息量,是度量样本集合纯度最常用的一种指标,它是信息的期望值,计算的是所有类别中所有可能值所包含信息的期望值。设离散型随机变量X的概率空间为X的所有取值的自信息的期望称为X的平均自信息量,即为熵。其公式为ID3的优点在于可以选择具有最大信息增益的属性作为当前节点的测试属性,那么对后续划分的子集进行再分类所需信息量最小。这样就可以减少分类次数,产生结构最简单、分类速度最快的决策树。然而,ID3也具有显而易见的缺点。它偏向于选择取值较多的属性,但这一属性常被证明不那么重要,且对该属性的测试并不能带来相应需要的信息。它倾向于忽略小数据量的组分,再具体运用中显得不够全面。3.2.2C4.5模型C4.5算法能很好的弥补ID3算法在实际应用中产生的误差。在继承ID3算法优点地基础上,C4.5算法用信息增益率作为选择属性的标准,有效弥补了ID3算法中趋向于选择取值多的属性的不足。

4实证分析

4.1数据预处理在将数据代入weka分析之前分段,分别处理如下:标题为n_tokens_title的数据,把取值为2-8的赋值为1,9-10的赋值为2,11-12的赋值为3,大于13的数据赋值为4。标题为n_tokens_content的数据,将所有小于433的赋值为1,大于432小于721的赋值为2,720-1200的赋值为3,大于1200的赋值为4。对题为num_hrefs的数据组,将取值为1,2的分别记为1,2,大于2的记为3。对标题为num_imgs的数据,取值为0,1,2的分别记为0,1,2,大于等于3的通通记为3。标题为num_videos的数据,值为0的记为0,大于0的记为1。最终结果标签为share,取值在0-999的记为D,1000-1599的记为C,1600-3100记作B,大于3100的则记为A。

4.2数据分析过程将数据代入weka.classifiers.trees.J48-C0.25-M2分类器进行处理,经过反复尝试之后,最终选择以下7个变量,其中以下6个作为自变量:num_hrefs、num_imgs、data_channel_is_lifestyle、data_channel_is_entertainment、data_channel_is_bus、is_weekend,shares作为因变量。采用10-foldcross-validation即十折交叉验证的方式提高模型的准确性,结果如图1所示。最后模型的准确度在35%左右,均方误差为0.3左右,准确度并不高,可见新闻预测的复杂性。虽然如此,该模型也具有一定的解释性河借鉴意义。可以看到图1中,影响新闻阅读量最重要的因素是是否为周末发表,其次是新闻的类型,新闻中图片的数目对新闻的阅读量也有很大的影响。

5结论与建议

由图1发现,在工作日发表娱乐性的文章的阅读量并不好,图片多的非娱乐性新闻有利于提升阅读量。值得注意的是在周末发表商业类的文章阅读量较高。可见平台在文章时不仅仅要考虑文章的质量,还要综合考虑的时间,文章的题材等多种因素,以此来提高阅读量。

参考文献

[1]史安斌,廖蝶尔.“数据新闻学”的发展路径与前景.2014.

[3]刘进.探究新技术对新闻传播的影响.2017.

[5]吴林锡.现代信息技术大数据对新闻传播的影响分析.2015.

作者:钱佳慧 单位:浙江省萧山中学