美章网 资料文库 财经新闻话题检测研究范文

财经新闻话题检测研究范文

本站小编为你精心准备了财经新闻话题检测研究参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

财经新闻话题检测研究

1引言

互联网媒体的高速发展极大地扩大了财经类新闻的受众面,并因此使得证券市场与财经类新闻的关系变得越来越紧密。Mitchell与Mulherin研究发现[1],股票市场的股票收益及交易量和道琼斯每天的公告数量直接相关。Fang与Peress的研究表明[2]受到高度报道的股票收益率比那些很少被媒体关注的上市公司的收益率低。由此可知,股票的走势较易受到财经类新闻的影响。因此,为了让投资者在短期内及时获取投资热点,本文提出了基于财经新闻话题检测研究。传统的话题检测[3]研究主要有以下几个方向。首先是基于关键词的话题检测,即使用TF-IDF算法或基于TF-IDF算法的改进算法,文献[4]提出基于VSM改进的DF算法和TF-IDF算法计算文本相似度;文献[5]在传统的TF-IDF基础上提出TF-IDF-KE算法来解决突发式热点话题在聚类时特征不明显的问题。但是传统的基于关键词的话题检测存在二义性问题,为了解决这个问题,人们提出了语义模型[6][7]。最常见的语义模型是LDA模型[8],文献[9]提出使用LDA话题模型检测科技文献话题,并计算冷门或热门话题的影响力,提出趋势分析。文献[10]提出LDA-K-Means算法实现话题检测,且在网络食品安全问题中验证话题检测的结果;最后是融合关键词和语义模型所做的改进,文献[11]提出计算融合TF-IDF关键词和LDA主题模型的相似度并基于k-means算法聚类获得话题簇;文献[12]提出多特征融合TF-IDF关键词,LDA语义模型以及新闻命名实体的相似度并基于Single-Pass算法聚类获取话题簇。上述研究均针对普通新闻,鉴于财经新闻较普通新闻的实时性要求高,且有极强的领域属性。而目前各大金融网站,例如新浪财经,和讯网,东方财富网等,大多针对个股新闻进行检测并分类,基于话题检测实现财经新闻分类的网站却较少。因此,短期内如何从海量非结构化财经新闻中有效地检测热门投资话题,成为本文研究的要点。文章考虑结合财经新闻的特点,从多个角度提取新闻特征,构建财经新闻话题检测模型。另外,针对新闻报道具有突发性和集中性的特点,为了避免将不同生命周期的新闻聚为一类,通常的做法是使用时间窗来切分新闻流。例如,文献[13]首先对新闻按时间窗划分,对同一个时间窗内的文档使用HAC算法聚类生成候选话题集合,提出SinglePass-KNN算法进行新话题的聚类;文献[14]提出在每个时间窗口内根据新闻的特点选取出最有可能谈论新闻事件的微博客文本,使用混合聚类算法聚类获得新闻话题;文献[15]以每个时间窗口上话题的变化情况研究话题内容的演化,并使用ILDA模型根据文本到达时间增量建模。针对以上研究,文章根据财经新闻的特点,基于时间窗切分新闻流,进而提出多特征融合的财经新闻话题检测模型MFFTDM(MultiFeatureFinancialNewsTopicDetectionModel)。

2财经新闻话题检测模型的构建

财经类新闻的报道成为影响股票走势的重要因素之一,为了让投资者在短期内及时获取投资热点,本文提出并构建多特征融合的财经新闻话题检测模型,该模型有以下几个特点:(1)为了防止聚类时,将不同生命周期的财经新闻聚为一类,构建切分新闻流的时间窗。(2)根据财经新闻实时性要求高,领域属性强的特点,从多个不同的角度提取文本特征并构建特征向量模型。(3)鉴于传统凝聚层次聚类算法的时间复杂度高,聚类时耗时长的问题,提出最近邻-凝聚层次聚类算法。

3话题检测模型的相似度计算

3.1基于时间窗切分的新闻流

对于财经新闻来说,通常在一个事件发生之后的一到两天内,各大媒体会争相报道该新闻事件,相关的新闻报道将呈爆发式增长。但是,随着时间的推移,关于该事件的报道会逐渐减少并最后消失。也就是对某个热门股票话题来说,它是有生命周期的。生命周期的开始是第一篇被判定为该话题的新闻,期间会有相关事件的报道,但是最终将以某个新闻事件的发生来宣告该话题的结束。文献[16]提出使用时间老化理论为新闻事件建立生命周期模型,该模型包括新闻话题的出生,成长,衰退以及死亡。文献[17]提出热点话题的生命周期将经过发酵,活跃和消亡的过程,并统计了2017年热点话题的发酵期,活跃期。

3.2多特征融合文本相似度计算

对于每篇财经新闻文本,本文将建立3.2.1-3.2.4节中的四种模型并分别计算新闻文本间的相似度。其中,常见的相似度计算方式有:欧氏距离,余弦距离,曼哈顿距离等。在文本聚类中,使用余弦公式来衡量文本相似度较为常见,因此本文计算文本间的余弦值。

4话题检测中的文本聚类

文本聚类算法的选择对于话题簇的生成至关重要。常见的文本聚类算法[19],例如k-means算法在聚类前需指定K的值,即话题簇的数目。由于本文中话题簇的数目未知,因此,文章选择凝聚层次聚类算法HAC(HierarchicalAgglomerativeCluster)作为话题检测过程中的聚类算法。但是传统HAC算法的时间复杂度较高为2O(n),不适合处理大量文档,为了改进这个问题,本节提出融合了HAC算法和KNN算法的最近邻-凝聚层次聚类算法NNHAC(NearestNeibour-HierarchicalAgglomerativeCluster)。

4.1KNN分类算法的改进

KNN算法的主要思想为:若一个样本在特征空间中K个最邻近的样本中的大多数都属于某一个类别,则该样本也属于这个类别。本文中,由于K的值难以确定,因此采用设置阈值的方式对原始的KNN算法进行改进,进而分类过程中便于控制结果簇的数目,增强分类的灵活性。文章设定一个阈值S1,若某个样本在特征空间中和其他样本的相似度大于S1。

4.2最近邻-凝聚层次聚类算法

本文在凝聚层次聚类算法的基础上融合改进的KNN分类算法,提出最近邻-凝聚层次聚类算法NNHAC。该算法通过设置两个阈值,逐渐缩小聚类范围,最终获得话题簇,实现话题检测的任务。

5实验

本文的实验数据来源于新浪财经,和讯网以及东方财富网,采用Webmagic爬虫工具进行爬取,所爬取的股票新闻从2017年1月-2017年9月,共34534条。采用中科院的NLPIR分词工具对新闻文本分词并构建停用词表去除停用词。为了避免特殊性,文章从沪深300指数中随机抽取10支股票用作研究对象。沪深300指数是反映沪深两个市场整体走势的“晴雨表”。指数样本选自沪深两个证券市场,覆盖了大部分流通市值。成份股为市场中市场代表性好,流动性高,交易活跃的主流投资股票,能够反映市场主流投资的收益情况。

5.1评价指标

常见的聚类效果评价指标[20]主要有以下几种:F1-measure,Rand指数以及Jaccard指数等。本文选择F1-measure指标对聚类效果进行评价。F1-measure将信息检索中的准确率(precision)和召回率(recall)相结合对聚类结果进行评价。若一个类别的F值越高,则该类别的聚类结果就越好。

5.2相关阈值的确定

5.2.1LDA最优主题数T的确定由于本实验融合构建LDA语义模型计算相似度,因此需要确定隐含主题topic的数目T,T的取值直接影响到聚类的效果。本实验用HAC算法结合LDA主题模型计算相似度,最优主题数T值从5开始遍历到55,在每个T值下,分别设置凝聚层次聚类算法的阈值0-1(间隔为0.05),获取每个T值下使得F值最大的阈值S2,记录该T值和阈值S2用于确定最佳的主题数目T以及相似度阈值S2。

5.2.2最优多特征融合系数的确定由于本文从四个角度提取文本特征并建立模型,根据所建立的四种模型计算其相似度并多特征融合这四种相似度。

5.2.3NNHAC算法阈值的确定为了确定文章第4节所提出的最近邻-凝聚层次聚类NNHAC算法的最佳阈值,根据5.2.1节中确定的阈值S2,在S2之下,分别取不同的S1的值(其中S1>S2),S1的取值范围为(0.55,1),当阈值S1,S2分别为0.55,0.65时,F值达到最大值0.7449,即最近邻-凝聚层次聚类算法NNHAC的聚类效果达到最好。5.3实验结果分析5.3.1NNHAC算法和HAC算法的比较为了比较传统凝聚层次聚类HAC算法和最近邻-凝聚层次聚类NNHAC算法的聚类准确度及耗时,本实验在相同数据集下聚类进而记录相应的F值和耗时。

5.3.3各支股票聚类效果比较为了不失一般性,将本文所提出的多特征融合的财经新闻话题检测模型应用,并分别计算每支股票的准确率,召回率以及F值,综合计算得到各支股票新闻的平均准确率为0.92,平均召回率为0.72,平均F值为0.79。由结果可知,各支股票新闻话题检测的聚类效果相近,因此本文所提出的话题检测模型具有普遍适用性。

6结束语

文章建立一种基于多特征融合的财经新闻话题检测模型。该模型先从时间窗角度切分新闻流,在每个切分后的新闻流中,不仅从多个角度提取文本特征,并结合所提出的最近邻-凝聚层次聚类算法进行聚类获得话题簇。实验结果表明,融合了多种特征的财经新闻话题检测模型在一定程度上提高了话题检测的准确度,并且本文改进的聚类算法有效降低了聚类的时间复杂度。因此,该模型能够进一步帮助投资者准确地发现短时间内热门股票新闻话题,及时捕捉投资热点,辅助投资决策。

作者:谭梦婕;吕鑫;陶飞飞