本站小编为你精心准备了面向继续教育学生的图书推荐算法探讨参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
[摘要]图书是继续教育过程中不可或缺的、重要的学习资源。如何让图书馆丰富的图书资源更好地为继续教育学生服务,针对其职业(专业)及兴趣爱好进行高质量个性化的图书推荐,有效引导其高效优质阅读,从而提高这一特殊群体的阅读兴趣,培养其终身学习的习惯已成为摆在图书工作者面前的一个课题。文章应用用户活跃度进行数据预处理,进而以用户节点的职业(专业)信息、兴趣爱好(借阅记录、荐购记录和书评)两个主要属性为参数,计算度量继续教育学生用户节点的相似度,并通过相似用户为图书打分的方法,有针对性地为继续教育学生推荐其感兴趣的图书,进而更好地为继续教育学生服务。实验证明,该算法能更精准地向目标借阅者推荐其感兴趣并有利于其职业(专业)发展和终身学习的图书。
[关键词]继续教育学生;图书推荐;用户相似性;多属性度量
继续教育是面向学校教育之后所有社会成员特别是成人的教育活动,是终身学习体系的重要组成部分,是专业进修及普通教育后的教育进阶。这个阶段的教育从年龄上讲大多数学生已步入成年。继续教育过程更主要依靠的是学生自学来汲取对职业(专业)有益的知识。图书已经成为继续教育学生在受教育过程中不可或缺的学习工具。而在图书选择的过程中,绝大多数学生的图书选择存在盲目性、跟从性,图书选择的科学性不高,利用效率低下。如何准确地向继续教育学生进行图书推荐成为科学选择图书和提高图书利用率的关键。[1]随着大数据技术的广泛应用,针对特定群体的多特征的个性化图书推荐算法也逐步出现,协同过滤推荐算法是其中一种比较成功的推荐算法,但其计算范围过大,算法复杂性高,同时,这一算法没有考虑借阅时段、评价等具体情感因素。[2-4]比如在自学考试备考过程中,学生借阅图书的真实目的是突击备考;在课程结束前,学生大量借阅与某一课程相关的图书是为了结课论文的写作,这些借阅记录本身无法准确表达读者的真实爱好,因此仅从读者的借阅记录来推荐图书,其准确率并不高。[5-6]可见,有效的图书推荐需要通过用户活跃程度过滤掉随机因素,挖掘出读者的真实兴趣,还需要综合考虑用户节点的不同属性信息来计算度量用户相似性,进而推荐给目标用户其可能感兴趣的图书。这些用户节点的不同属性主要包括两个方面,一是用户的职业属性;二是用户的兴趣爱好属性,用户兴趣爱好属性的描述依据主要是用户持续感兴趣的类别的新书书目、用户潜在有兴趣的新类别的图书书目和对职业(专业)发展有益的图书书目、图书荐购记录和书评信息等。
一、继续教育学生作为读者用户属性分析
1.职业(专业)属性继续教育学生作为特殊的读者群体其显著特征是具有职业(专业)的固定性。一般而言,继续教育学生在继续教育阶段学习的专业是为其当前从事的工作或意向性工作服务的,这种强目的性使得职业(专业)属性成为面向继续教育学生做为读者区别其他读者的一个显著特征。而这个特征对继续教育学生的图书借阅导向性十分明显,因此,我们将继续教育学生的职业(专业)作为针对这一特殊读者群图书推荐算法的主属性。学生的职业(专业)是其主要特征,其相当一部分图书借阅会与职业(专业)相关。基于此,职业(专业)属性是选择图书的一个潜在属性。根据《国民经济行业分类和代码》可构建职业(专业)分类树(如图1所示)。门类代码用一位拉丁字母表示,即用字母A、B、C……依次代表不同门类;大类代码用两位阿拉伯数字表示,打破门类界限,从01开始按顺序编码;中类代码用三位阿拉伯数字表示,前两位为大类代码,第三位为中类顺序代码;小类代码用四位阿拉伯数字表示,前三位为中类代码,第四位为小类顺序代码。记职业(专业)相似度为Cs(u,v),则在同一小类相似度最高,同一中类次之,不同门类相似度为零。
2.兴趣爱好属性继续教育学生一般不再过多涉猎其他学科,其兴趣爱好相对固定并且一般和专业有关联。在这样的背景下,分析继续教育学生的兴趣爱好属性有利于提高图书推荐的准确性。用户兴趣爱好属性的描述依据除了用户一直感兴趣的类别的新书书目、用户潜在有兴趣的新类别的图书书目和对职业(专业)发展有益的图书书目外,能更大程度反映用户兴趣爱好的是图书荐购记录和书评信息。图书馆对所荐购图书受到广泛欢迎的荐购者进行奖励,因此那些荐购明星的兴趣爱好可以很容易得到,同时,所荐购图书的借阅者们也一定是该兴趣组的成员。同样,对同一本书做过书评的用户我们也认为其具有相同的爱好,其相似程度很高,当然,这里忽略了情感倾向分析,即书评中对图书的评价好坏之分。3.用户活跃度属性用户活跃度特指在一定时间内图书借阅相对较多的读者,这类用户是图书馆的忠实用户,为其推荐图书更有价值。因此,用户活跃度属性是面向继续教育学生图书推荐算法的一个重要属性,可以用来对原始数据集进行数据清洗,在降低算法复杂度的同时能有效提高推荐精准度。
二、图书推荐策略
基于上文分析,面向继续教育学生作为特殊读者群体的图书推荐需要应用用户活跃度属性进行数据预处理,进而综合考虑读者的职业(专业)相似性和用户兴趣相似性来完成。1.用户综合相似性本文认为向一个爱读书的人推荐图书会有更好的效果。采用职业(专业)度量和兴趣相似性度量相结合的方法来进行。2.用户节点相似性度量算法输入:每个读者的图书证信息,包括姓名M、职业(专业)C、班级G、性别S,每位读者借阅记录、荐购记录和书评记录等,以及图书馆馆藏图书数据信息。3.准确度度量方法对于本文提取的忠实读者r,按照用户相似性度量方法进行图书推荐,具体推荐集合为N本图书,如果推荐集合中的某本图书出现在了测试数据集里,说明这是一次成功的推荐。
三、实验与仿真
1.数据预处理与忠实读者挖掘数据来源于哈尔滨市图书馆真实数据集,时间跨度2015-03-01到2015-12-31,共包含93142条记录,主要包含借阅、还书、续借、荐购、预约、评论等基本操作。本文采用前7个月的数据为实验分析数据并进行图书推荐预测,后3个月的数据作为测试数据集。为了分析数据特征,需要统计读者的平均借阅数量等基本信息的分布情况。图2为读者借阅图书数量分布图,可见占比53%的读者借阅图书在12本以内,因此原始数据集中有大量读者并不热衷于图书馆借阅,应用用户活跃度指数有效挖掘图书的忠实读者是数据预处理的重要工作。2.读者相似性度量及图书推荐算法在忠实读者数据范围内来度量节点相似性,采用职业(专业)度量和兴趣相似性度量相结合的方法来进行。按公式(3)对读者进行两两交叉匹配可以发现相似度超过0.2的节点有11032对。3.算法评价对实验数据集分析后为每位忠实用户推荐top-5本图书,并用测试数据集来验证其准确性。对不同的参数值进行分析得到基于参数的推荐精度如图6所示。可见,职业(专业)精度在本数据集中作用较大,在取值0.6时达到最高推荐精度,即算法的推荐效果最好。
四、结论
本文基于更好地为继续教育学生提供有利其职业(专业)发展、帮助其养成终身学习习惯的相关图书为宗旨,为提高图书推荐的准确率和有效性而提出一种基于用户节点相似性的图书推荐算法。算法应用用户活跃度属性进行数据预处理,利用用户节点的职业(专业)信息和兴趣爱好(借阅记录、荐购记录和书评等)两个基本属性计算度量用户节点的相似度,进而有针对性地为继续教育学生推荐其感兴趣的图书。实验证明,本文算法能更精准地向目标借阅用户推荐其感兴趣的图书、潜在有兴趣的新类别图书和行业内有利于其发展的高质量图书。
[参考文献]
[1]李克潮,梁正友.基于多特征的个性化图书推荐算法[J].计算机工程,2012,(11).
[2]马炎.一种自适应的协作过滤图书推荐系统研究[J].情报杂志,2008,(5).
[3]武建伟,俞晓红,陈文清.基于密度的动态协同过滤图书推荐算法[J].计算机应用研究,2010,(8).
[4]王茜,王均波.一种改进的协同过滤推荐算法[J].计算机科学,2010,(6).
[5]田野,祝忠明.关联数据驱动的数字图书推荐模型[J].图书情报工作,2013,(17).
作者:李晓光;孙洪庆;周雪妍 单位:哈尔滨学院