日前,中国人工智能企业旷视科技Face++的研究团队在全球论文共享平台arXiv上公布了一篇名为AlignedReID: Surpassing Human-Level Performance in Person Re-Identification的文章,证明了其在“行人再识别技(ReID)”术上取得了新的研究成果,使得机器在行人整体的识别能力上已经超过了人类。本文就旷视研究院的具体研究方法和展开说明。
近年来,人脸识别技术的成熟使得机器在辨别人脸的能力上大举超过人类,在构建“智慧城市”、“平安城市”等方面也得到了广泛应用。然而在实际应用的场景中,摄像头并非在任何情况下都可以拍摄到清晰人脸。如在下图中,因口罩、帽子等遮挡,民警和系统都无法用人脸特征判定嫌疑人身份。
不仅如此,在实际的场景中,一个摄像头往往无法覆盖所有区域,而多摄像头之间一般也没有重叠。因此,用全身信息来对人员进行锁定和查找就变得十分必要——通过将整体行人特征作为人脸之外的重要补充,实现对行人的跨摄像头跟踪。于是,计算机视觉领域开始逐渐展开针对“行人再识别”技术的研究工作。
行人再识别:实际意义重大,目前仍依赖大量人力投入
行人再识别(Person Re-Identification,简称 ReID),从字面意思理解就是对行人进行重新识别,是对不同的、没有视野重叠覆盖的(non-overlapping)摄像机拍摄的行人图像建立对应关系的处理过程。当摄像头拍摄范围之间不存在重叠时,由于没有了连续信息,检索难度也随之增大非常多。因此,行人再识别强调的是在跨摄像机的视频中对特定行人进行检索。
图:行人再识别即将图像中某个行人的特征与其他图像中行人特征进行对比,判断是否属于同一个人,相比行人检测难度更大。
如果说行人检测是要机器判定图像中是否存在行人,那么行人再识别就是要机器识别出不同摄像机拍摄的特定人员的所有图像。具体说,就是给定某人的一张图片(query image),从多张图片(gallery images)中找到属于他/她的那一张或多张,是通过行人整体特征实现的人员比对技术。
行人再识别(ReID)在公共安防的刑侦工作中以及图像检索等场景中有很高的应用价值。除此之外,ReID还可以帮助手机用户实现相册聚类、帮助零售或商超经营者获取有效的顾客轨迹、挖掘商业价值。然而,受限于行业水平,目前行人再识别的精准度并不高,很多工作仍依赖于大量人力的投入。
旷视打破行人再识别行业纪录,首次超越人类专家
由于图像拍摄的时间、地点随机,且光线、角度、姿态不同,再加上行人容易受到检测精度、遮挡等因素的影响,ReID 的研究工作非常具有挑战性。
近年来受益于深度学习的发展,ReID 技术水平也得到了很大提升,在两个最为常用的ReID测试集Market1501和CUHK03上,首位命中率分别达到了89.9%和91.8%。不过,这个结果与人相比还是有一定的差距。实验表明,一个熟练的标注员在Market1501和CUHK03上的首位命中率分别可以达到93.5%和95.7%。
为了测试人类的ReID能力,研究者组织了10名专业的标注人员来进行测验。结果表明,一个熟练的标注员在Market1501和CUHK03上的首位命中率分别可以达到93.5%和95.7%。这个是现有的ReID方法无法企及的。
而在AlignedReID的文章中,旷视科技Face++的研究团队提出了一种新方法,通过动态对准(Dynamic Alignment)和协同学习(Mutual Learning),然后再重新排序(Re-Ranking),使得机器在Market1501和CUHK03上的首位命中率达到了94.0%和96.1%,这也是首次机器在行人再识别问题上超越人类专家表现,创下了业界纪录。
旷视的研究成果意味着继人脸识别之后,机器在更复杂的行人再识别领域中也超越了人类!这为目前机器代替人类处理大量以人为中心的图像或视频理解问题带来了更强大的技术。
旷视科技首席科学家、研究院院长孙剑表示:“最近几年,随着深度学习方法的复兴,从2014年的人脸识别到2015年的ImageNet图像分类,我们已经看到机器在越来越多的图像感知问题中超越了人类。记得不久前和我的导师、前微软领导沈向洋博士(微软全球执行副总裁)聊天时吹了个牛——感知问题5-10年基本都能解掉。今天,我非常高兴看到又一个非常难且有巨大应用价值的图像感知问题,被旷视科技团队的算法超越了人类性能。”
让多个网络自动学习人体结构对齐,并彼此相互学习
那么旷视科技团队具体是如何做到的?
和其他基于深度学习的ReID方法类似,旷视研究院同样是用深度卷积神经网络去提取特征,用Hard Sample Mining后的Triplet Loss做损失函数,把特征的欧式距离作为两张图片的相似度。
不同之处在于,旷视科技在学习图像相似度的时候考虑了人体结构的对齐。虽然此前有人考虑过这一点,比如简单的,把人的头、身、腿分成三部分;还有精细一点的,先通过人体骨架估计,然后再通过骨架信息来对齐。但后一种方法,引入了另一个困难的问题或要求额外的标注工作。旷视科技的思路是引入端到端的方法,让网络自动去学习人体对齐,从而提高性能。
在旷视科技发表的文章AlignedReID中,深度卷积神经网络不仅提取全局特征,同时也对各局部提取局部信息。对于两张图片中任意一对局部信息,计算它们之间的距离,构成一个距离矩阵。再通过动态规划,计算一条从矩阵左上角到右下角的最短路径。这条最短路径中的一条边就对应了一对局部特征的匹配,它给出了一种人体对齐的方式,在保证身体个部分相对顺序的情况下,这种对齐方式的总距离是最短的。在训练的时候,最短路径的长度被加入到损失函数,辅助学习行人的整体特征。
如图所示,乍一看,这条最短路径上有一些边是冗余的,例如图中的第一条边。为什么不只寻找那些匹配的边呢?旷视Face++给出的解释是这样的:局部信息不仅要自我匹配,也要考虑到整个人体对齐的进程。为了使匹配能够从头到脚按顺序进行,那么有一些冗余的匹配是必须的。另外,通过设计局部距离函数,这些冗余匹配在整个最短路径的长度中贡献很小。
除了在训练过程中让人体结构自动对齐外,旷视Face++还提到了同时训练两个网络并使它们互相学习,可以有效提高模型的精度。这个训练方法在分类问题中已经比较常见,旷视Face++的研究员们做了一些改进让它能够应用于度量学习(Metric Learning)。
在上图所示的训练过程中:同时训练的两个网络都包含一个分支做分类,一个分支做度量学习。两个做分类的分支通过KL divergence互相学习;两个做度量学习的分支通过旷视提出的metric mutual loss互相学习。而如前所述,度量学习的分支又包括两个子分支,一个是全局特征的分支,一个是局部特征的分支。比较有趣的是,一旦训练完成,分类分支和局部特征分支都被丢弃,只保留了全局特征分支做ReID。也就是说,无论是训练行人分类,还是通过人体对齐学习局部特征,都是为了更好的得到图像的全局特征。
最后,旷视科技研究团队还采用了2017年CVPR的一篇名为Re-ranking person re-identification with k-reciprocal encoding文章中提出的k-reciprocal encoding来做重新排序。
上图的第一行是要查找的行人,第二行为人类专家给出的答案,第三行为机器给出的结果,可见机器的行人再识别能力已经和人类相当。
此文所展示的方法让ReID技术在实验结果的表现中上了全新的台阶。不过旷视在文章的最后也指出,虽然机器在两个常用数据集上超过了人类的水平,但还不能说行人再识别(ReID)任务已经被很好地解决了。在实际的应用中,人类,尤其是经过专业训练的人,可以通过经验、直觉,并利用环境、上下文等综合信息,在拥挤,模糊,昏暗等情况下进行更深入的分析,所以在开放和极端条件下的环境中,人和机器相比仍具有很大的优势。在未来的实践中,行人再识别(ReID)的解决和应用还需要更多努力。
作为AlignedReID文章作者之一,美国哥伦比亚大学博士、旷视科技研究院的视频分析领域科学家张弛表示:“我们从2016年开始研究ReID,当时Top1的精度达到60%就可以说是state of the art了。但是业务要求至少达到90%以上,甚至更高。现在我们已经在两个常用数据集上做到超过人类水平,到这也只是迈出了实用化的第一步,在实战场景中还有更多的挑战要应对。希望ReID技术的进一步成熟,能让我们的社会更安全,更便捷。”
旷视科技Face++成立于2011年,是中国最早一批用深度学习的方法开展计算机视觉应用的人工智能企业,被中国科技部列为“中国独角兽”人工智能类榜首企业,其核心产品包括Face++人工智能开放平台、FaceID人脸身份验证平台等,业务覆盖智能金融、智能商业和智慧安防等多个领域。目前,旷视科技Face++团队已累计获得国际人工智能技术评测冠军 15项,其中包括在MS COCO 2017、Places 2017两项全球顶级计算机视觉竞赛中击败微软、谷歌、Facebook和卡内基梅隆大学等国际巨头和高校夺得的三项世界冠军。作为国内最大原创人工智能企业之一,旷视科技拥有国内外在申及授权专利近 500 件,并代表行业领先技术提供方参与了 15 项人工智能国家及行业标准制定。
图为旷视科技行人再识别技术的应用演示:针对拥有特定特征的行人进行跨摄像头检索,未来可在高效查找走势人口、追踪定位目标嫌疑人等场景中发挥价值。