美章网 资料文库 人脸识别技术在安防行业中的运用范文

人脸识别技术在安防行业中的运用范文

本站小编为你精心准备了人脸识别技术在安防行业中的运用参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

人脸识别技术在安防行业中的运用

一、引言

人脸识别不是一个新的技术,也不是最近几年才在行业中得到应用。人脸识别是计算机视觉研究领域一个已经存在了很长时间的重要课题。随着科技的快速发展,尤其是海量数据的出现,如图1所示,互联网、智能手机、视频监控等行业的飞速发展,为计算机视觉学术研究新的算法提供的数据集容量与日俱增。同时用于允许算法的硬件平台的计算性能的显著提升,为计算机视觉新算法的诞生提供了新的土壤。其中计算机视觉一个重要的研究分支人脸检测和人脸识别的算法性能相比传统的人脸识别算法得到大幅度的提升,促进了人脸检测和人脸识别算法在各种行业中的落地。

二、深度学习研究进展

深度学习是机器学习的一个分支。机器学习包含训练/学习过程和推理过程(如图3所示)。训练过程是对一个深度人工神经网络其中的连接权值进行不断的前后向学习迭代,学习得到一个深度人工神经网络模型,然后使用该深度人工神经网络对测试数据进行推理。以深度卷积网络为代表,深度(人工神经)网络学习并不是个新颖的研究课题。上世纪的人工卷积由于硬件平台的算力不足,无法训练一个层数很多的网络。进入二十一世纪后,尤其是2012年以后,研究者们发现基于GPU芯片能够显著地加快人工神经网络训练过程,能够大大缩短训练过程来不断的实验和改进网络结构,以提高其效果。虽然从理论上来说,更深的神经网络一定意味着更有效,但就目前的神经网络训练方法来看,对浅层神经网络,研究者们还没有找到一个更好的训练使之收敛的方法。而对于层数较深的神经网络,研究者们使用经典的反向传播训练方法,更容易训练得到一个效果较好的网络模型。所以也不难理解,现在在产品中落地的深度卷积神经网络基本上都是百层以上的模型。针对什么架构的深度卷积神经网络更有效,多少层的深度神经网络更优秀,研究领域一直没有定论,甚至都无法用理论证明。比如在2017年12月22日的NIPS2017大会上,深度神经网络奠基人之一的YannLeCun仍然就神经网络的可解释性与其他研究存在不同意见,他认为,深度神经网络的可解释性并不像你所想象的那么有用(如图5所示),深度神经网络的可解释性也并不像我们所认为像深度神经网般的那么难。

通过机器学习得到的深度神经网络在某些应用方面已经超过人类,比如在斯坦福大学FeiFeiLi教授组织的ImageNet系列挑战赛中,深度神经网络算法在目标检测和目标定位的能力已经超过人类5%的视觉错误率(如图5所示)。虽然深度神经网络如此有效,但是研究者们对在哪种具体应用场景中,具体的神经网络模型结构,即多少卷积层,多少池化层,隐含层的特征映射面的大小,层与层之间的连接关系,仍然没有定论。同时现在人们都已经意识到深度神经网络将影响到人类社会的下一次经济变革,很多企业纷纷开源自己的深度神经网络研究平台,以此吸引全球层面的研究者和厂家加入自己的深度神经网络生态链。Theano是第一个被广泛采用的深度学习框架。由深度学习的另一位开拓者YoshuaBengio领导的MILA创建和维护。由于最近几年的深度网络框架的飞速发展,今年9月份,MILA宣布,在Theano的最新版本之后,2018年将终止Theano的开发与维护。这可能是因为Theano的框架已经不再适应深度学习的飞速发展。目前从GitHub的star和fork数量,以及StackOverflow活跃度来看,谷歌的TensorFlow似乎是最常用的深度学习框架。有人预计伴随着TensorFlow的推出以及谷歌的感召力,谷歌将会主导这个市场多年。但是其他框架确实也吸引了越来越多的充满热情的用户群。PyTorch是在2017年1月由Facebook推出的,它是经典机器学习库Torch框架的一个端口,Torch二进制文件包装于GPU加速的Python。除了GPU加速和内存使用的高效外,PyTorch受欢迎的主要因素是动态计算图的使用。微软开发的名为CNTK的内部深度学习框架,在2017年正式推出2.0版本,并将其重新命名为微软认知工具包(MicrosoftCognitiveToolkit)。

2017年,Facebook还推出了Caffe2,它将成为众所周知的Caffe框架的继承者。Caffe框架最初是伯克利视觉和学习中心开发的,现在仍然非常受欢迎,这是由于它的社区性质,它是计算机视觉的应用程序,以及它的ModelZoo系列预训练的模型。不过,Caffe2似乎还没有跟上Caffe的脚步。另一个流行的深度学习框架是MXNet,由微软和亚马逊共同支持。MXNet实际上支持许多语言,包括C++、Python、JavaScript、Go以及R。MXNet最为突出的是它的可扩展性和性能。除了这些框架之外,还有一些包装在一个或多个框架中的接口(interface)。对于深度学习来说,最为人熟知和广泛使用的接口无疑是Keras。Keras是一个高级深度学习API,用Python编写,由谷歌开发。谷歌在2017年宣布,Keras已被选为TensorFlow的高级API。这意味着Keras将被包含在下一个TensorFlow版本中。除了TensorFlow,Keras也可以使用Theano或者CNTK作为后端。Keras的功能强大,因为它用非常直接的方式,即通过堆叠多个层来创建深度学习模型。使用Keras时,用户不必进行层背后的数学运算。这似乎是快速原型设计的一种理想选择。Keras也是Kaggle比赛的热门工具。那么,一方面我们现在拥有了高级的KerasAPI,可以让你轻松地构建简单而高级的深度学习模型;另一方面我们还有低级的TensorFlow框架,能为构建模型提供更大的灵活性。这两者都由谷歌支持。但是竞争并没有停止,2017年10月,微软和亚马逊的AWS联合宣布推出GluonAPI。Gluon是一个封装了MXNet的高级Python深度学习接口,未来它还将支持微软的CNTK。Gluon是Keras的直接竞争对手,尽管AWS声称他们强烈支持所有深度学习框架,但显然,他们会打着AI民主化的口号押注于Gluon。如今TensorFlow的最大竞争对手似乎是PyTorch。社区对PyTorch的兴趣越来越高涨,例如,Kaggle的最新竞赛中,参赛者经常选择使用PyTorch作为其解决方案的一部分,PyTorch也被用在最新的研究论文中。而TensorFlow终于引入动态图机制是在2017年10月的EagerExecution,这是TensorFlow的“define-by-run”接口。谷歌希望通过这次,赢回那些喜欢上PyTorch以及它的动态图的用户。但对于广受欢迎的深度学习课程fast.ai的开发者来说,这个改变来得太迟了。今年9月,fast.ai宣布从Keras&TensorFlow转换到PyTorch。fast.ai的创始研究员、Kaggle的前总裁兼首席科学家JeremyHoward认为PyTorch将能够保持领先地位。只有时间能告诉我们答案了。开放神经网络交换(ONNX)格式于2017年9月8日由微软和Facebook联合,并在12月了V1版本。ONNX是一个表示深度学习模型的开放格式,它使用户可以更轻松地在不同框架之间转移模型。ONNX由微软、亚马逊和Facebook等公司共同发起,宣布支持ONNX的公司还有AMD、ARM、华为、IBM、英特尔、Qualcomm等。谷歌不在这个阵营中并不令人惊讶,ONNX从一开始就支持Caffe2、MicrosoftCognitiveToolkit、MXNet和PyTorch,但与其他开源项目一样,社区也已经为TensorFlow添加了一个转换器。

深度学习框架在最近几年之所以开源社区呈现争奇斗艳的局面,究其原因还在于深度学习、深度神经网络还处于快速发展的不成熟时期,同时深度神经网络本身也存在很多令人不满意的地方。比如图7所示,对卷积神经网络来说,右边的图像也被当做左边的人脸被识别出来。因为CNN在训练学习的时候,认为只要具备眼睛、嘴巴、鼻子、脸庞这些元素就认为是个人脸。所以在训练的时候还需要对每个元素的空间关系进行学习。因此,最近两年的生成对抗网络研究异常火爆。现在的深度卷积神经网络虽然很有效,但并不是真正的仿生人类视觉神经元或者脑部的神经元。甚至卷积网络的奠基者YannLeCun一度倡导大家把“深度卷积神经网络”中的“神经”二字去掉,因为“神经”二字带有误导性。YannLeCun同时认为“在特定的领域,机器的确有超人的表现,但就通用智能而言,我们的人工智能甚至还不如老鼠聪明”。同时深度学习的另一个领导者GeoffreyHinton也认为,现在深度卷积神经网络中的某些算法并不是很好,它们虽然有效,但是深度卷积神经网络含有重大的缺陷。他一度坦言“卷积神经网络中的池化(pooling)操作是一个巨大的错误,它运作良好将是一个灾难”。虽然可以在卷积神经网络中取消最大池化操作,但是仍然不能解决关键问题:“卷积神经网络的内部数据表征不考虑简单对象和复杂对象之间的重要的层次关系”,如图7所示。因此需要寻找更好的神经网络内部算法,打造更优秀的神经网络结构和模型,才能够在深度学习和人工智能领域进一步突破。对于深度神经网络,除了算法、网络架构、深度学习开源框架等方面的飞速发展,同时在提供算力的芯片平台方面也同样呈现百花齐放百花争鸣的态势。从前几年英伟达的GPU一家独大,到现在的TPU、FPGA方案,以及众多传统芯片巨头以及众多初创公司的新方案,芯片竞争也逐渐进入白热化状态。

三、安防领域的人脸识别应用

对安防领域的人脸识别应用来讲,人脸深度特征提取的深度神经网络算法或者说深度学习算法虽然是重点,但不是全部。如图8所示为公安行业中一个单域的典型的人脸识别应用场景。在该类应用中,人脸从相机成像后并采集,需要在十万级的动态比对库中进行比对,实现布控告警。人脸还可能需要在千万级的常住人口的人脸库中进行检索服务。还有可能对相机采集的每个过人人脸图片在千万级的常住人口的人脸库中进行检索。十万级的动态数据库,千万级的人脸静态数据库,千万级的过人数据库,同时深度学习特征不同于一般的结构化信息,需要使用新型的比对和大数据存储和处理技术。公安行业最近颁布的《公安视频图像信息应用系统》标准(GA/T1400-2017),其中包括了公安行业的人脸识别典型应用。如图9所示,对于公安行业的人脸采集、人脸比对与识别、监控名单人脸库动态布控,常住静态人脸库检索服务,都必须符合《公安视频图像信息应用系统》标准的上下级的级联以及公安专网和公安内网的级联要求。通过以上分析可见,就仅仅针对公安行业的人脸比对和识别业务应用,是一个整体的解决方案,人脸检测和人脸识别,尤其是人脸深度特征学习算法,虽然由于自身应用的技术正在经历着突飞猛进的变革,但不是全部。对公安人员来讲,最根本的是为他们提供高价值的整体服务。对传统安防厂商,面临着机遇和挑战。对算法初创公司来讲,也同样面临着挑战和机遇。其最根本的问题是能够为公安客户创造有价值的服务,只是两者出发的角度不同。尤其是对传统的安防厂商而言,经历了近20年的发展,其实已经经历过一波波的IT技术革新,心态更稳。而对于顶级算法的初创公司来讲,乘着技术浪潮之风,充满激情的踏入安防行业。对于未来的格局如何,还在于给客户何种有价值的服务。

四、宇视人脸产品

2017年6月,宇视科技了昆仑二代高性能专用计算平台(如图10所示),插CPU板卡可进行海量数据处理,能够快速存储和索引,多种数据进行时空碰撞;插GPU板卡则继承全部昆仑一代的智能分析功能。昆仑二代=CPU通用计算+大数据内存计算+GPU智能计算,实现视频调度、大数据、智能等全部安防算力的融合。除了昆仑二代,2017年10月深圳安博会期间,宇视科技深度智能摄像机『函谷』、人脸识别速通门『潼关』。深度智能摄像机函谷,凝聚了宇视对智能识别最强场景适应能力、最高抓拍率的承诺。函谷可实现最小40×40像素的人脸抓拍,并发最大抓拍人数可达40人。人脸速通门不仅保证快速稳定通行,还可防多重防尾随、防反向、防夹等功能实现高安全防护;融合高速前置人脸识别,人脸识别准确率高达99.5%,现场体验者好评如潮;宇视人脸速通门融合安防组网,实现统一存储人脸图片、统一管理人脸数据和统一展示人脸识别;具备高融合、高识别、高安全、高颜值四大特性,还可提供外形定制化服务。

作者:吴参毅 单位:浙江宇视科技有限公司