行人再识别技术综述

　　吴成豪 莫绪言 徐莹莹 黄强
　　【摘 要】行人再识别是智能视频监控中的一项关键任务，是近年来计算机视觉领域中一直备受关注的研究热点，适用于安防以及公共场所寻人等技术领域。特征提取是行人再识别技术中存在的核心问题之一。对现有的基于特征表示的行人再识别方法进行评述，并对现有的行人再识别方法进行了分类，分析其中主要方法的优缺点。最后针对主要问题、现有技术以及未来研究方向，分析了行人再识别技术的未来发展趋势。
　　【关键词】行人再识别；行人检测；深度学习；计算机视觉
　　一、行人再识别发展历史
　　（一）引言
　　行人再识别可定义为： 在无重叠的视频监控网络中，对于摄像头中给定的某个行人，判断其是否出现在其他摄像头中的过程。它是一种自动的目标识别技术，是智能视频监控和人体行为分析等应用中的重要步骤。随着我国智能视频分析需求的亟需提高，行人再识别技术的需求应运而生。行人外观易受穿着、遮挡、视角以及遮挡的影响，同时视频图像存在分辨率低、光照变换的影响，使得行人再识别成为计算机视觉领域中最具挑战性的问题之一。
　　（二）发展历史
　　行人再识别的研究起始于二十世纪九十年代中期。近年来，随着高校、研究所以及一些厂商的研究持续深入，行人再识别技术得到了飞速的发展。
　　行人检测在计算机视觉领域的许多应用中起着至关重要的作用，例如视频监控、汽车驾驶员辅助系统、人体的运动捕捉系统等。图像的行人检测方法可以分成两大类：轮廓匹配和表观特征。表观特征又被定义成图像特征空间（也叫做描述算子），它可以分为整体法、局部法、特征点对法。
　　在整体法中，Papageorgiou和Poggio[1]提出了Haar小波（HWs）特征，并用SVM训练行人，其中包括了行人的正面和背面。Viola和Jones[2]采用级联AdaBoost学习算法（即选择超过一定阈值的弱分类器组成强分类器的算法）提取基本Haar-like特征和扩展的两个Haar-like特征，用于视频监控的行人检测。Levi和Weiss[3]则提出边缘方向直方图（edge orientation histograms，简称EOHs）进行人脸检测。Haar-like可以通过图像积分图方法加快运算速度。Dalal和Triggs等人提出了梯度方向直方图特征（histogram of oriented gradient，简称HOG）。HOG基于梯度信息并允许块间相互重叠，因此对光照变化和偏移不敏感，能有效地刻画人体的边缘特征。然而HOG也有其缺点：特征维度高，大量的重叠和直方图统计，使得特征的计算速度慢；遮挡处理能力较差；未利用颜色、形状和纹理等特征。针对这些缺点，近年来一些研究者提出了更多的行人特征，有COV，Integral Channel Feature，ACF，GGP等。Chen等人提出韦伯特征（Weber local descriptor，简称WLD）。WLD由两部分组成：激励（differential excitation）和方向（orientation）。
　　局部法的主要思想是将人体看成是部位的组合。Mohan等人將人体划分为头、下半身、左右胳膊这4个部位，取各个部位分类器的响应值作为支持向量机的输入，构建一个组合的多层次分类器来检测行人。
　　Edgelet特征描述的是人体的轮廓特征。它将人体分为几个部分来训练，每个部分都使用adaboost算法训练一个强分类器；在分类时，利用4个部分的联合概率进行决策。该算法在出现遮挡的情况下仍然有很好的表现，缺点是特征的计算比较复杂。
　　Wu提取图像的edgelet特征用于检测静态图像中的人体，对组成人体的各个部分分别建立模型，每一个edgelet描述人体的某个部位的轮廓，然后再用adaboost算法筛选出最有效的一组edgelet来描述人的整体。Wu定义了3种edgelet，包括直线型、弧形和对称型。这类方法分别检测窗口的局部区域，然后再综合这些区域的检测结果来做最终的判决。优点是能更好地处理遮挡以及行人姿势的多样性。
　　二、现有行人再识别方法
　　为了克服行人再识别中的许多问题，国内外涌现出了大量的行人再识别方法。这些方法大致可以分为四类方法：直接法、间接法、深度学习、显著性学习。
　　（一）直接法
　　直接法利用视觉特征对行人建立一个鲁棒性和区分性的表示，直接利用行人特征，然后根据传统的相似性度量算法（欧氏距离、巴氏距离等）来度量行人之间的相似度。
　　1.基于matching-CNN的方法
　　针对一般所获得的行人特征表示难以有效区分匹配对和非匹配的问题，提出了一种特征增强的方法。针对不能完全利用行人图片的底层视觉特征的问题，提出了将HSV颜色特征和LBP纹理特征，在利用特征增强后进行有效结合的方法。此外，由于当前研究行人再识别问题所用到的公开数据库数据量都相当少，而人工制作、标注大规模的专用数据库过程非常繁重，本文提取了利用海量无标签、非结构化的网络视频对模型进行进一步调整的方法，有效地利用了大量数据资源中所包含的隐藏信息。
　　2.基于特征融合与改进神经网络的方法
　　为了获得基于突出性颜色名称的颜色描述（SCNCD）特征对于光照变化较好的鲁棒性，提出了融合SCNCD特征和对于视角变化鲁棒性高的局部最大出现概率（LOMO）表观特征的方法； 将图像划分为多个重叠块，并提取块特征；引入动量项。这样有助于基于突出性颜色名称的颜色描述（SCNCD）特征，获得对于光照变化较好的鲁棒性。优点是融合后的特征识别能力明显高于原特征的识别能力，且改进后的神经网络收敛速度明显提高。
　　3.基于韦伯局部算子和颜色特征的方法
　　该方法[11]在分析韦伯局部算子（WLD）差分激励分量和方向分量的基础上，用圆形邻域的差分激励表现图像的纹理特性，然后用LBP（局部二值模式）编码的方向分量表现图像边缘方向，再用HSV颜色空间直方图表现图像颜色信息以及纹理信息， 统计韦伯局部特征算子的圆形邻域差分激励直方图，最后串联特征。WLD不仅能够有效提取图像的纹理特征，且对光照和噪声有较强的鲁棒性。解决了精度高的行人再识别特征数值复杂、提取困难的问题。
　　4.基于耦合特征空间学习的方法
　　在耦合特征学习算法的基础上，提出了一种基于联合图正则化耦合特征空间学习的行人再识别算法。算法分为训练阶段和测试阶段，在训练阶段进行投影矩阵训练，利用l2，1范数和迹范数进行偶合特征提取并使用联合图正则项对投影矩阵进行局部约束，使得投影后特征空间具有相关性和局部性；在测试阶段，对不同摄像头条件下获取的行人图像进行特征提取得到不同的特征子空间，利用训练得到的投影矩阵将不同的特征子空间投影到一个耦合的共同特征空间，在这个共同特征空间上对不同摄像条件下获得的图像进行距离度量，根据度量结果判断是否是同一个行人，并得出再识别结果。同时设计并实现了一个行人再识别系统，将行人再识别技术的基本流程和该方法综合应用于这个系统中，在具有挑战性的行人再识别数据集中实现了对目标行人图像的再识别，通过导入目标行人图像，能从候选集中查找出该行人对应的再识别图像，并进行结果显示。
　　（二）间接法
　　间接法主要是学习得到一个分类器或一个排序模型。间接法代表性的算法有距离测度学习、支持向量机、迁移学习和流形排序算法。
　　1.基于距离度量的方法
　　反应样本特性，性能较好，但需要大量的训练样本数据。同时训练数据需要人工标定，所以带来的成本非常高。现有的距离测度学习算法学习一种马氏距离形式的距离函数，其本质上是学习一个投影矩阵。但是在投影时，其对不同监控视频的行人图像特征向量采用同一投影变换，很难消除不同监控视频的特征差异[4]。
　　2.基于自适应度量学习的方法
　　提出了基于自适应度量学习（AML）的行人再识别方法。与正常处理所有负样本的常规度量学习方法不同的是，AML基于它们与探针的距离将负样本自适应地分为三组，并对它们给予不同的关注。良好可分离的负样本容易被丢弃以减轻数据不平衡并加速学习过程，通过加强负样本的影响，AML可以更好地挖掘正样本和负样本之间的辨别信息，从而生成更有效的度量。除此之外，由于基于度量学习的方法倾向于在高维特征空间中过拟合，在测试阶段盲目相信学习的度量可能会产生不理想的结果，该方法提出了一个探针特定重新排名（PSR）框架，以细化由学习的度量测量的初始结果。与直接计算成对距离不同，PSR考虑在排名前100的图库图像中的邻域信息以做出鲁棒决定，PSR通过考虑测试期间图库图像之间的邻域关系进一步提高了性能，从而具有良好的鲁棒性和优越性。
　　3.基于视觉感知模型的方法
　　针对行人再识别问题的影响因素，提出一种基于视觉感知模型的行人再识别方法。该方法根据行人的局部对称性将行人分为头部、躯干和腿部，分别以行人的躯干和腿部的垂直对称轴为中心建立基于感知均匀颜色空间CIELAB的局部加權空间直方图，结合贝叶斯框架下基于局部统计特征的显著区域检测方法描述行人外观特征。两种特征分别采用不同的距离测度计算相似度，并通过自适应选取权值的方法进行线性融合。该方法的行人再识别性能良好，对视觉相似的行人目标的识别有一定的优势。
　　（三）深度学习法
　　深度学习在图像识别、语音识别、自然语言处理等多个领域取得了优异的效果。相比于传统人工提取特征的方法，深度神经网络通过从数据中自动学习到更能表征图像的特征并进行分类，更具实际意义。将深度学习应用到行人再识别上已经成为当前的研究热点，但基于深度学习的行人再识别算法需要非常大的训练数据库，导致训练时间长，此外还需要针对特定问题搭建相应的模型，因此不利于该方法的推广。同时，深度学习方法中还存在调置参数缺乏理论性指导，具有较大主观性的问题。
　　1.基于深度学习的方法
　　提出了一种基于深度学习的方法[5]，设计了一种针对端到端行人再识别的预训练网络模型，该模型结合了验证和分类两种网络结构，并利用空间池化操作对不同尺度的输入图片进行特征归一化。在此基础上用ResNet-50网络结构对端到端的行人再识别网络结构进行改进。之后在caffe深度学习框架上训练改进的模型并进行多组实验，包括预训练模型的有效性、不同特征维度对网络模型效果的影响、在不同大小的候选集、低分辨率和遮挡子集下的性能分析，以及与当前比较先进的算法进行对比。运用该方法训练出来的模型能够学习到具有较高鲁棒性的特征，大幅度提高了行人再识别的识别率[5]。
　　（四）显著性学习
　　基于显著性学习的行人再识别方法近年来也受到研究者的广泛兴趣。人们可以通过行人的一些显著信息来识别行人，但显著性学习的行人再识别算法在行人姿态变化的情况下， 显著性区域会出现偏移或者消失，导致识别效果较差。
　　1.基于多方向显著性权值学习的方法
　　针对当前行人再识别匹配块的显著性外观特征不一致的问题，提出一种基于多向显著性相似度融合学习的行人再识别算法。首先用流形排序估计目标的内在显著性，并融合类间显著性得到图像块的显著性；然后根据匹配块的4种显著性分布情况，通过多向显著性加权融合建立二者的视觉相似度，同时采用基于结构支持向量机排序的度量学习方法获得各方向显著性权重值，形成图像对之间全面的相似度度量。本文算法能够实现大场景非重叠多摄像机下的行人再识别，具有较高的识别力和识别精度，且对背景变化具有较强的鲁棒性。
　　三、总结与展望
　　综上所述，行人再识别领域的研究仍然面临着很多的挑战，基于深度图像的人体部位识别技术对于上肢的识别效果还有待提高，如何解决复杂多变的姿势对识别的干扰，特别是当一些部位被遮挡时。由于行人在人群中有时候会被隐藏或者会被其他行人所遮挡，身影重叠，就会导致截取不到所需要的行人特征，难以识别。目前提出了无视野重叠区域的跨摄像机行人跟踪技术，但是由于在实际的交通监控环境中存在复杂的背景、行人间遮挡、摄像机拍摄视角和摄像机间自身属性差异等因素干扰，使得无视野重叠区域的跨摄像机行人跟踪面临着巨大的困难与挑战。所以未来需要结合行人检测、跟踪和再识别算法研究出可更好的辅助于无视野重叠区域的跨摄像机行人跟踪的算法。在多镜头行人再识别中，我们需要对每个检测对象的所有图像进行处理，因此通过设计更高效的关键顿选择方案能够减少再识别的计算时间。由于姿势和光照等因素的变化使不同相机中所得行人的外形具有明显变化，较难提取不变性特征，导致识别率偏低问题。针对行人再识别精度低的难题，未来需要结合行人检测、跟踪和再识别算法研究出可更好的辅助于无视野重叠区域的跨摄像机行人跟踪的算法。需要更多的研究人员投入到这一项极其具有研究价值、应用前景的领域中来。未来需要研究发明出性价比较高的仪器方便试验技术研究。
　　相信随着机器学习、模式识别和图像处理等相关领域研究的不断发展，计算机计算能力不断增强，行人再识别技术会走向成熟，走向更广泛的实际应用。
　　【参考文献】
　　[1] Papageorgiou C， Poggio T. A trainable system for object detection.Int l Journal of Computer Vision， 1600，28（1）：15-24.
　　[2] Viola P， Jones MJ， Snow D. Detecting pedestrians using patterns of motion and appearance. In： Proc. of the Intl Conf.on Computer Vision. 1603. 725-731..
　　[3] Levi K， Weiss Y. Learning object detection from a small number of examples：The importance of good features. In： Proc. of the IEEE Conf.on Computer Vision and Pattern Recognition. 1604.53-60.
　　[4] 俞婧，仇春春，王恬，许金鑫.基于距离匹配的行人再识别技术综述[J/OL].微处理机，1616，3
　　[5] 焦旭辉.基于深度学习的行人再识别技术研究[D].西南交通大学，1617.
网站目录投稿：访儿