本站小编为你精心准备了错位图书检测技术研究参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
摘要:
针对错位图书检测技术的应用,提出一种结合颜色及直线线段检测(LSD)的图书分割方法,以及基于索书标签的图书识别方法,同时设计了相关的实现算法。在LSD方法的基础上,根据在架图书的摆放信息、颜色分割后的部分图书标签、未分割图书标签的边界直线预测结果对未分割图书进行直线检测,增加了图书分割的准确率。将提出的检测方法分别与其他直线检测分割图书方法,以及图书识别方法进行对比。通过定量和定性分析,证明提出的方法确实能够得到更准确、更可行的分割和识别结果。
关键词:
图书检测;索书标签;直线分割检测器;轮廓局域增长;光学字符识别
图书馆大量图书的借阅及归还时的不正确放置,造成图书管理人员大量重复的工作,也给估算在馆图书量以及读者查询、借阅造成极大不便。图像捕获以及图像处理设备的发展普及使得图书馆管理自动化成为可能。近年来,尽管人们对图书的分割、识别进行了较广泛的研究,并提出了许多新颖的分割、识别算法[1],但是仍然很难得到准确的分割、识别结果。斯坦福大学的DavidChen等人给出图书书库管理系统[2],通过智能手机对书架上的图书进行采集图像,经过识别之后,通过互联网或者图书馆的数据库,可以得到图书的详细信息,包括书名、作者、价格等。而方向感应器以及高速网络访问使得低成本的自动跟踪成为可能[3]。本文主要针对错位图书检测技术涉及到的图书分割、图书识别两个方面进行了深入的研究,并且针对其中的难点提出了切实有效的解决方法。
1图书分割
1.1颜色分割图书馆中的索书标签存在单一的背景和前景(索书号),如白色的背景和黑色的文字,而且噪声少,如图1所示。由于索书标签一般在图书的底部,因此将感兴趣区域定义在原图像的下半部分,故需要处理的图像大小减少一半,减少了处理的时间和计算量。在这种情况下,利用特定的颜色可以快速定位同一幅图像中所有索书标签的大致位置。但由于实际环境的复杂性,如光线变化,遮挡,智能手机摄像头的限制,捕获的图像中出现图书曝光过足,书架靠近地面的部分光线不足,索书标签的白色区域亮度不足,书脊上除了索书标签其他部分也存在白色区域等难题。由于书脊整洁程度不一,光线变化,有些区域即使是同种颜色,经过一段时间使用,也变化较大,二值化后的图像存在面积小的噪声点或区域,而图书标签分割关注的感兴趣区域是比这些噪声面积大得多的背景是白色的标签,故可以利用图像处理形态学中的腐蚀方法剔除这些噪声[4],腐蚀核大小为5,得到的结果如图2所示。由图2可以看出,书脊之间存在黑色的细缝,而这些细缝把大部分图书分割开来。再者在同一本书中索书标签与其他区域有明显的分割区域,故可以通过连通区域分析,把大部分索书标签分别表示成单独的连通区域。进一步分析,书脊上的一些字形成的连通区域,相对索书标签小很多,因此可以通过限制连通区域的面积大小,去除一部分小的白色连通区域,实验中,取面积阈值为30000像素点,保留下的连通区域如图3所示,不同的连通区域用不同的颜色表示,得到的连通区域个数为14。
1.2基于LSD的图书分割经过颜色分割的局域主要是白色的部分,而这些局域可能不包括书脊边缘的直线,为了更好地检测到书本边缘的直线,这里增宽颜色分割后的各个局域,增宽的规则是向左向右分别延宽15像素,对在捕获图像中最左或者最右的局域,延长的最大宽度是15像素与局域左右边界到达相应图像边界的差值两者之间的最大值。采用linesegmentdetector检测图像中的直线。考虑到图书馆中的图书一般竖直地摆放着,即使有些倾斜,倾斜的角度也不大,定义候选直线的倾斜角度范围为(3π8,5π8)。图像中书脊边缘保持一个主方向角度,即MainAngle,实验中默认的值为π2,并且倾斜角度在主方向角度一定的范围内,在实验中,选择在最左边或者最右边20像素的局域中的直线,这些直线中的两个端点都在边界20个像素的范围内,再者另外一个条件是直线的倾斜角度与π2的差值要小于π8,则把这些符合条件的直线的倾斜角度定义为要进行直线检测局域的主方向角度。得到主方向MainAngle之后,保留与主方向角度偏差π16的直线。书脊边缘的直线相对书脊其他部分的直线如文字、图形中的直线要长,即在图像所占的比率大于某个阈值[2],通过实验,定义候选直线占图像高度的阈值为0.15。经过上述规则可以得到书脊的边缘直线。根据得到的直线,用数组lines6表示,再将图书分割出来。图书的边缘存在多条直线,但都聚集在很小的区间而且直线的倾斜角度差不多,再者图书的厚度一般大于图书间的间隔,故利用这些先验知识,采用算法1可以得到一组组包含图书书脊的局域。输出:Vector<Rect>Label(输出一组矩形局域,用左上角坐标、高度、宽度描述,即候选的图书)。(1)如果第一条直线与图像最左边的间隔大于70,则将Rect(0,0,x1,Height)输出到Label中。x1为该直线左端点的x坐标值。(2)依次在图像中从左到右搜索未处理的直线,如果找到,则在该直线附近的20个像素搜索类似的直线,并把20个像素范围内最后的直线作为图书起始的直线line1;如果未找到,则输出Label结束。(3)从第(2)步得到的图书起始直线,接着往右搜索类似的直线,如果未搜索到,则将Rect(line1.x,0,Width,Height)输出到Label。
2图书标签分割
经过颜色分割和直线分割后可以得到如图4(a)所示的图书局域。由于图书标签上黑色的字符与白色的背景存在明显的反差,通过Canny算子边缘检测可以得到字符清晰的边缘,而且图书标签上没有太多的噪声,如图4(b)所示。要分割出字符,主要关注的是字符外围最小矩形的几何特征[5]。因此,通过连通域分析,可以得到如图4(c)所示的一组连通局域。一些不属于字符的噪声局域可以通过面积、高度、宽度、高宽比来去除,进而初略筛选出候选的字符连通局域[6]。通过轮廓局域增长进一步定位包含所有符合字符外围的最小矩形局域。由于检测到的轮廓在数组中的表示是按照从下到上,从右到左的顺序排列的,因此轮廓局域增长从右下角第一个符合初略筛选的候选轮廓开始,按照式(1)来判断两个候选的轮廓是否符合图书标签上字符的距离关系。为了得到完整的图书标签,进行新一轮的轮廓局域增长,所不同的是,此时初始输入值包括得到的一组候选图书标签矩形局域,然后是所有的轮廓。对于每一个矩形局域,把所有附近的轮廓包含进这个矩形局域,并对这个矩形局域进行更新。针对图书标签中文字亮度分布的不一,采用不同的阈值,可以有效地分割出图像中的文字信息。轮廓局域增长之后得到的矩形局域不止一个,需要进一步剔除不是图书标签的局域。图书标签包含两行字符,且这两行字符之间的间隔大于5个像素。再者每行字符阈值化后在行方向上的投影值个数大于17,如算法3所示,阈值化采用自适应高斯方法,核大小为5×5。
3字符识别
形状上下文是一种描述形状的方式,可用来评估形状的相似性。基本的思想是取轮廓上形状的n个点。对形状上的每个点pi,考虑n-1维向量,它们将pi和所有其他的点连接起来。这些向量的集合是对形状上那个点一种丰富的描述。关键的思想是基于相对位置的分布是一种鲁棒、简洁和有高度区别性的描述子。支持向量机SVM根据有限的训练样本仍然保证独立测试集误差保持在一个小的范围。即由有限的样本信息,在模型的学习能力和复杂性间寻求最佳契合点,以获得最优的推广能力。本文采用林智仁博士开发的SVM软件包LIBSVM按照相应的格式对数据集进行标准化,对要处理的数据进行缩放操作。对数据集进行缩放操作,一方面是为了避免特征值过小或过大;另外一方面是避免在训练时为了计算核函数而导致计算内积的时候引起数值计算的困难。一般将数据缩放到[-1,1]或是[0,1]之间。进而利用svmtrain对训练数据集进行训练,得到SVM训练模型,进一步根据训练获得的模型对未知数据集进行预测。
4实验结果与分析
为了评估图书索书标签分割和识别的结果,实验采集了图书书脊的样本,并作为图书分割和识别的数据集。采用TesseractOCR引擎对仅仅包含字符和标点符号的索书标签进行识别[7]。一般来说,图书标签第2行文字对图书识别起到关键性的作用,如果第2行的文字被完整的识别,那么判断该本书对应图书馆数据库中的哪本书也就容易得多。如表1所示,实验中从567本图书中正确地分割出554本图书,分割率为97.7%,超过结合颜色分割和Hough直线检测的方法,分割率为89.77%。尽管如此,在图书书脊分割中也有些失败,原因是一些书脊太薄以致不能被检测到或者曝光太足,书脊上的高亮造成在图像中图书的边界区域直线根本不明显。在本系统中,平均一个索书标签有0.64个字符不能被识别,比UJI大学图书馆机器人索书标签识别的方法效果要好。为了更好地评估识别的结果,采用fmeasure作为评估的方法,实验中,索书标签识别的结果为fmeasure88.66%,准确率为87.74%,召回率为89.59%。索书标签识别如图5所示。对于图5(a),从左往右数第2本书及第6本书被识别为“TP391.4X3283”,“H6251.H3283”。第2本书由于字体的原因上端和下端都突出一部分,有点类似X,由于出现在局域的边界受噪声的干扰故识别为X。第6本书由于采集图像时,受第7本书的遮挡,“TP391.41”显示不完全,故造成识别错误。但是第2、第6本书第2行都识别正确,一般情况下同个书架同一行的图书中索书标签第1行的文字都类似,第2行对识别的结果有较大作用,故该图像中所有图书都能被识别。对于图5(b),从右往左数第4本书被识别为“P391.413272”,其原因也是索书标签的贴法不正确,“T”这个字母不在书脊上,故这种情况只能在开始贴索书标签的时候确保正确无误,不过“T”字母的缺少并不影响该书被正确的识别。从右往左数第1本书因为捕获图像时没有捕获图书标签,故为空。因此可认为该图像中所有的图书都被正确识别。对于图5(c),从左到右第1本、第9本、第10本书都没有被正确识别。原因是这三本书太薄,索书标签在这三本书的书脊上不能完全显示,因此也就不能被OCR识别。针对该情况可以结合射频识别技术来识别太薄的图书,以提高总的图书识别率。根据实验结果,可以得到基于索书标签的分割与识别在图书馆自动化管理中有很大的用途,并且结合颜色分割与直线检测的图书分割,轮廓局域增长而实现的索书标签的分割有效,而且更可行。在轮廓局域增长中,通过实验也表明索书标签候选局域进一步的优化过程,能包含不完整、断裂的字符轮廓,因此能将索书标签完整地分割出来。
5结论
本文深入研究了基于图像识别的错位图书识别技术,主要包括图书分割、标签分割、索书标签识别,错位图书检测,并对其中涉及的技术和算法做了深入的阐述和调研。通过实验证明所提出方法的有效性与可行性。重点研究了基于颜色分割和直线线段检测相结合的图书分割方法,将本文提出的方法和其他图书分割,索书标签识别的方法进行对比,通过定量和定性的分析,证明了本文提出的方法能够得到更准确、更有效的实验结果。下一步针对图书太薄,索书标签太旧、模糊不清的情况,结合射频识别加以补充,将大大提高图书识别的准确率。
参考文献
[1]康志亮,许丽佳.基于小波的红外图像去噪算法研究[J].计算机仿真,2011,28(1):265267.
[2]游福成.数字图像处理(DigitalImageProcessing)[M].北京:电子工业出版社,2011:6768.
[3]匡金骏,熊庆宇,柴毅.基于核稀疏分类与多尺度分块旋转扩展的鲁棒图像识别[J].模式识别与人工智能,2013,26(2):129135.
[4]刘波,梅瑛,李瑞琴.基于TRIZ理论的图书分拣机的设计研究[J].机械设计与制造,2013(2):2325.
[5]CHEND,TSAIS,HSUCH,etal.Mobileaugmentedrealityforbooksonashelf[C]//Proceedingsof2011IEEEInternationalConferenceonMultimediaandExpo.2011:16.
[6]孟钢,贺杰,鲍莉,等.基于遥感图像分块直线特征检测的机场跑道检测方法[J].航空学报,2014,35(7):19571965.
[7]赵众,常灿,陈磊.基于图像识别技术的烟包封条缺陷检测[J].北京工业大学学报,2014,40(7):986990.[8]张会敏,谢泽奇,张云龙.红外图像报警系统的研究与实现[J].计算机测量与控制,2011,19(2).
作者:孙继周 王小雄 罗佳佳 单位:南昌航空大学 图书馆 江西农业大学 图书馆 江西中医药大学 图书馆