人脸识别杂谈
Gabor 及 LBP 特征描述子是迄今为止在人脸识别领域最为成功的两种人工设计局部描述子。
对各种人脸识别影响因子的针对性处理也是那一阶段的研究热点,比如人脸光照归一化、人脸姿态校正、人脸超分辨以及遮挡处理等。
2013年:微软亚洲研究院的研究者首度尝试了 10 万规模的大训练数据,并基于高维LBP 特征和 Joint Bayesian 方法在 LFW 上获得了 95.17%的精度。这一结果表明:大训练数据集对于有效提升非受限环境下的人脸识别很重要。然而,以上所有这些经典方法,都难以处理大规模数据集的训练场景。
人脸识别领域的研究关键词主要集中在人脸识别、特征提取、稀疏表示、图像分类、神经网络、目标检测、人脸图像、人脸检测、图像表示、计算机视觉、姿态估计、人脸确认等领域。
计算机视觉(CV)界三大顶级国际会议:
ICCV: IEEE International Conference on Computer Vision
CVPR:IEEE Conference on Computer Vision and Pattern Recognition
ECCV:European Conference on Computer Vision
ACCV:Asian Conference on Computer Vision
FG:IEEE International Conference on Automatic Face and Gesture Recognition
目前的人脸检测方法可分为三类,分别是基于肤色模型的检测、基于边缘特征的检测、基于统计理论方法,下面将对其进行简单的介绍:
1、基于肤色模型的检测:肤色用于人脸检测时,可采用不同的建模方法,主要有高斯模型、高斯混合模型,以及非参数估计等。利用高斯模型和高斯混合模型可以在不同颜色空间中建立肤色模型来进行人脸检测。通过提取彩色图像中的面部区域以实现人脸检测的方法能够处理多种光照的情况, 但该算法需要在固定摄像机参数的前提下才有效。Comaniciu 等学者利用非参数的核函数概率密度估计法来建立肤色模型,并使用 mean-shift 方法进行局部搜索实现了人脸的检测和跟踪。这一方法提高了人脸的检测速度,对于遮挡和光照也有一定的鲁棒性。该方法的不足是和其他方法的可结合性不是很高,同时,用于人脸检测时,处理复杂背景和多个人脸时存在困难。
为了解决人脸检测中的光照问题,可以针对不同光照进行补偿,然后再检测图像中的肤色区域。这样可以解决彩色图像中偏光、背景复杂和多个人脸的检测问题,但对人脸色彩、位置、尺度、旋转、姿态和表情等具有不敏感性。
2、基于边缘特征的检测:利用图像的边缘特征检测人脸时,计算量相对较小,可以实现实时检测。大多数使用边缘特征的算法都是基于人脸的边缘轮廓特性,利用建立的模板(如椭圆模版)进行匹配。也有研究者采用椭圆环模型与边缘方向特征,实现简单背景的人脸检测。Fröba 等采用基于边缘方向匹配(Edge-Orientation Matching,EOM)的方法,在边缘方向图中进行人脸检测。该算法在复杂背景下误检率比较高,但是与其他的特征相融合后可以获得很好的效果。
3、 基于统计理论方法:本文重点介绍基于统计理论方法中的Adaboost人脸检测算法。Adaboost算法是通过无数次循环迭代来寻求最优分类器的过程。用弱分类器Haar特征中任一特征放在人脸样本上,求出人脸特征值,通过更多分类器的级联便得到人脸的量化特征,以此来区分人脸和非人脸。Haar功能由一些简单黑色白色水平垂直或旋转45°的矩形组成。目前的Haar特征总的来说广义地分为三类:边缘特征、线特征以及中心特征。
这一算法是由剑桥大学的 Paul Viola 和 Michael Jones 两位学者提出,该算法优点在于不仅计算速度快,还可以达到和其他算法相当的性能,所以在人脸检测中应用比较广泛,但也存在着较高的误检率。因为在采用 Adaboost 算法学习的过程中,最后总有一些人脸和非人脸模式难以区分,而且其检测的结果中存在一些与人脸模式并不相像的窗口。
人脸识别主要方法
人脸识别技术的研究是一个跨越多个学科领域知识的高端技术研究工作,其包括多个学科的专业知识,如图像处理、生理学、心理学、模式识别等知识。在人脸识别技术研究的领域中,目前主要有几种研究的方向,如:一种是根据人脸特征统计学的识别方法,其主要有特征脸的方法以及隐马尔科夫模型(HMM,Hidden Markov Model)方法等;另一种人脸识别方法是关于连接机制的,主要有人工神经网络(ANN,Artificial Neural Network)方法和支持向量机(SVM,Support Vector Machine)方法等;还有一个就是综合多种识别方式的方法。
基于特征脸的方法
特征脸的方法是一种比较经典而又应用比较广的人脸识别方法,其主要原理是把图像做降维算法,使得数据的处理更容易,同时,速度又比较快。特征脸的人脸识别方法,实际上是将图像做 Karhunen-Loeve 变换,把一个高维的向量转化为低维的向量,从而消除每个分量存在的关联性,使得变换得到的图像与之对应特征值递减。在图像经过 K-L 变换后,其具有很好的位移不变性和稳定性。所以,特征脸的人脸识别方法具有方便实现,并且可以做到速度更快,以及对正面人脸图像的识别率相当高等优点。但是,该方法也具有不足的地方, 就是比较容易受人脸表情、姿态和光照改变等因素的影响,从而导致识别率低的情况。
基于几何特征的方法
基于几何特征的识别方法是根据人脸面部器官的特征及其几何形状进行的一种人脸识别方法,是人们最早研究及使用的识别方法,它主要是采用不同人脸的不同特征等信息进行匹配识别,这种算法具有较快的识别速度,同时,其占用的内存也比较小,但是,其识别率也并不算高。该方法主要做法是首先对人脸的嘴巴、鼻子、眼睛等人脸主要特征器官的位置和大小进行检测,然后利用这些器官的几何分布关系和比例来匹配,从而达到人脸识别。
基于几何特征识别的流程大体如下:首先对人脸面部的各个特征点及其位置进行检测, 如鼻子、嘴巴和眼睛等位置,然后计算这些特征之间的距离,得到可以表达每个特征脸的矢量特征信息,例如眼睛的位置,眉毛的长度等,其次还计算每个特征与之相对应关系,与人脸数据库中已知人脸对应特征信息来做比较,最后得出最佳的匹配人脸。基于几何特征的方法符合人们对人脸特征的认识,另外,每幅人脸只存储一个特征,所以占用的空间比较小; 同时,这种方法对光照引起的变化并不会降低其识别率,而且特征模板的匹配和识别率比较高。但是,基于几何特征的方法也存在着鲁棒性不好,一旦表情和姿态稍微变化,识别效果将大打折扣。
基于深度学习的方法
深度学习的出现使人脸识别技术取得了突破性进展。人脸识别的最新研究成果表明,深度学习得到的人脸特征表达具有手工特征表达所不具备的重要特性,例如它是中度稀疏的、对人脸身份和人脸属性有很强的选择性、对局部遮挡具有良好的鲁棒性。这些特性是通过大数据训练自然得到的,并未对模型加入显式约束或后期处理,这也是深度学习能成功应用在人脸识别中的主要原因。
深度学习在人脸识别上有 7 个方面的典型应用:基于卷积神经网络(CNN)的人脸识别方法,深度非线性人脸形状提取方法,基于深度学习的人脸姿态鲁棒性建模,有约束环境中的全自动人脸识别,基于深度学习的视频监控下的人脸识别,基于深度学习的低分辨率人脸识别及其他基于深度学习的人脸相关信息的识别。
其中,卷积神经网络(Convolutional Neural Networks,CNN)是第一个真正成功训练多层网络结构的学习算法,基于卷积神经网络的人脸识别方法是一种深度的监督学习下的机器学习模型,能挖掘数据局部特征,提取全局训练特征和分类,其权值共享结构网络使之更类似于生物神经网络,在模式识别各个领域都得到成功应用。CNN 通过结合人脸图像空间的局部感知区域、共享权重、在空间或时间上的降采样来充分利用数据本身包含的局部性等特征,优化模型结构,保证一定的位移不变性。
利用 CNN 模型,香港中文大学的 Deep ID 项目以及 Facebook 的 Deep Face 项目在 LFW 数据库上的人脸识别正确率分别达 97.45%和 97.35%只比人类视觉识别 97.5%的正确率略低。在取得突破性成果之后,香港中文大学的 DeepID2 项目将识别率提高到了 99.15%。Deep ID2 通过学习非线性特征变换使类内变化达到最小,而同时使不同身份的人脸图像间的距离保持 恒定,超过了目前所有领先的深度学习和非深度学习算法在 LFW 数据库上的识别率以及人类在该数据库的识别率。深度学习已经成为计算机视觉中的研究热点,关于深度学习的新算 法和新方向不断涌现,并且深度学习算法的性能逐渐在一些国际重大评测比赛中超过了浅层 学习算法。
基于支持向量机的方法
将支持向量机(SVM)的方法应用到人脸识别中起源于统计学理论,它研究的方向是如何构造有效的学习机器,并用来解决模式的分类问题。其特点是将图像变换空间,在其他空间做分类。
支持向量机结构相对简单,而且可以达到全局最优等特点,所以,支持向量机在目前人脸识别领域取得了广泛的应用。但是,该方法也和神经网络的方法具有一样的不足,就是需要很大的存储空间,并且训练速度还比较慢。
其他综合方法
以上几种比较常用的人脸识别方法,我们不难看出,每一种识别方法都不能做到完美的识别率与更快的识别速度,都有着各自的优点和缺点,因此,现在许多研究人员则更喜欢使用多种识别方法综合起来应用,取各种识别方法的优势,综合运用,以达到更高的识别率和识别效果。
人脸识别三大经典算法
特征脸法(Eigenface)
征脸技术是近期发展起来的用于人脸或者一般性刚体识别以及其它涉及到人脸处理的一种方法。使用特征脸进行人脸识别的方法首先由 Sirovich 和 Kirby(1987)提出(《Low- dimensional procedure for the characterization of human faces》),并由 Matthew Turk 和 Alex Pentland 用于人脸分类(《Eigenfaces for recognition》)。首先把一批人脸图像转换成一个特征向量集,称为“Eigenfaces”,即“特征脸”,它们是最初训练图像集的基本组件。识别的过程是把一副新的图像投影到特征脸子空间,并通过它的投影点在子空间的位置以及投影线的长度来进行判定和识别。
将图像变换到另一个空间后,同一个类别的图像会聚到一起,不同类别的图像会聚力比较远,在原像素空间中不同类别的图像在分布上很难用简单的线或者面切分,变换到另一个空间,就可以很好的把他们分开了。Eigenfaces 选择的空间变换方法是 PCA(主成分分析), 利用 PCA 得到人脸分布的主要成分,具体实现是对训练集中所有人脸图像的协方差矩阵进行本征值分解,得到对应的本征向量,这些本征向量就是“特征脸”。每个特征向量或者特征脸相当于捕捉或者描述人脸之间的一种变化或者特性。这就意味着每个人脸都可以表示为这些特征脸的线性组合。
局部二值模式(Local Binary Patterns,LBP)
局部二值模式(Local Binary Patterns LBP)是计算机视觉领域里用于分类的视觉算子。LBP 一种用来描述图像纹理特征的算子,该算子由芬兰奥卢大学的 T.Ojala 等人在 1996 年提 出 ( 《 A comparative study of texture measures with classification based on featured distributions》)。2002 年, T.Ojala 等人在 PAMI 上又发表了一篇关于 LBP 的文章(《Multiresolution gray-scale and rotation invariant texture classification with local binary patterns》)。这一文章非常清楚的阐述了多分辨率、灰度尺度不变和旋转不变、等价模式的改进的 LBP 特征。LBP 的核心思想就是:以中心像素的灰度值作为阈值,与他的领域相比较得到相对应的二进制码来表示局部纹理特征。
LBP 是提取局部特征作为判别依据的。LBP 方法显著的优点是对光照不敏感,但是依然没有解决姿态和表情的问题。不过相比于特征脸方法,LBP 的识别率已经有了很大的提升。
Fisherface
线性鉴别分析在降维的同时考虑类别信息,由统计学家 Sir R. A. Fisher1936 年发明(《The use of multiple measurements in taxonomic problems》)。为了找到一种特征组合方式,达到最大的类间离散度和最小的类内离散度。这个想法很简单:在低维表示下,相同的类应该紧紧的聚在一起,而不同的类别尽量距离越远。1997 年,Belhumer 成功将 Fisher 判别准则应用于人脸分类,提出了基于线性判别分析的 Fisherface 方法(《Eigenfaces vs. fisherfaces: Recognition using class specific linear projection》)。
经典论文
Sirovich,L.,&Kirby,M.(1987).Low-dimensional procedure for the characterization of human faces.Josa a,4(3),519-524. 研究证明任何的特殊人脸都可以通过称为 Eigenpictures 的坐标系统来表示。Eigenpictures 是面部集合的平均协方差的本征函数。
Turk,M.,&Pentland,A.(1991).Eigenfaces for recognition.Journal of cognitive neuroscience, 3(1), 71-86. 研究开发了一种近实时的计算机系统,可以定位和追踪人的头部,然后通过比较面部特征和已知个体的特征来识别该人。该方法将面部识别问题视为二维识别问题。识别的过程是把一副新的图像投影到特征脸子空间,该特征空间捕捉到已知面部图像之间的显著变化。重要特征称为特征脸,因为它们是面集的特征向量。
Ojala,T.,Pietikäinen,M.,&Harwood,D.(1996).A comparative study of texture measures with classification based on featured distributions.Pattern recognition,29(1),51-59. 研究对不同的图形纹理进行比较,并提出了用来描述图像纹理特征的 LBP 算子。
Ojala,T.,Pietikainen,M.,&Maenpaa,T.(2002).Multiresolution gray-scale and rotation invariant texture classification with local binary patterns.IEEE Transactions on pattern analysis and machine intelligence,24(7),971-987. 研究提出了一种理论上非常简单而有效的灰度和旋转不变纹理分类方法,该方法基于局部二值模式和样本和原型分布的非参数判别。该方法具有灰度变化稳健、计算简单的特点。
Fisher,R.A.(1936).The use of multiple measurements in taxonomic problems.Annals of eugenics,7(2),179-188. 研究找到一种特征组合方式,以达到最大的类间离散度和最小的类内离散度。解决方式为:在低维表示下,相同的类应该紧紧的聚在一起,而不同的类别尽量距离越远。
Belhumeur,P.N.,Hespanha,J.P.,&Kriegman,D.J(1997).Eigenfaces vs.fisherfaces:Recognition using class specific linear projection. Yale University New Haven United States. 研究基于 Fisher 的线性判别进行面部投影,能够在低维子空间中产生良好分离的类,即使在光照和面部表情的变化较大情况下也是如此。广泛的实验结果表明, 所提出的“Fisherface”方法的误差率低于哈佛和耶鲁人脸数据库测试的特征脸技术。
常用的人脸数据库
主要介绍以下几种常用的人脸数据库:
ERET人脸数据库
http://www.nist.gov/itl/iad/ig/colorferet.cfm
由 FERET 项目创建,此图像集包含大量的人脸图像,并且每幅图中均只有一个人脸。该集中,同一个人的照片有不同表情、光照、姿态和年龄的变化。包含 1 万多张多姿态和光照的人脸图像,是人脸识别领域应用最广泛的人脸数据库之一。其中的多数人是西方人,每个人所包含的人脸图像的变化比较单一。
CMU Multi-PIE人脸数据库
http://www.flintbox.com/public/project/4742/
由美国卡耐基梅隆大学建立。所谓“PIE”就是姿态(Pose),光照(Illumination)和表情(Expression)的缩写。CMU Multi-PIE 人脸数据库是在 CMU-PIE 人脸数据库的基础上发展起来的。包含 337 位志愿者的 75000 多张多姿态,光照和表情的面部图像。其中的姿态和光照变化图像也是在严格控制的条件下采集的,目前已经逐渐成为人脸识别领域的一个重要的测试集合。
YALE人脸数据库(美国,耶鲁大学)
http://cvc.cs.yale.edu/cvc/projects/yalefaces/yalefaces.html
由耶鲁大学计算视觉与控制中心创建,包含 15 位志愿者的 165 张图片,包含光照、表情和姿态的变化。
Yale 人脸数据库中一个采集志愿者的 10 张样本,相比较 ORL 人脸数据库 Yale 库中每个对象采集的样本包含更明显的光照、表情和姿态以及遮挡变化。
YALE人脸数据库 B
ttps://computervisiononline.com/dataset/1105138686
包含了 10 个人的 5850 幅在 9 种姿态,64 种光照条件下的图像。其中的姿态和光照变化的图像都是在严格控制的条件下采集的,主要用于光照和姿态问题的建模与分析。由于采集人数较少,该数据库的进一步应用受到了比较大的限制。
MIT人脸数据库
由麻省理工大学媒体实验室创建,包含 16 位志愿者的 2592 张不同姿态(每人 27 张照片),光照和大小的面部图像。
ORL人脸数据库
https://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html
由英国剑桥大学 AT&T 实验室创建,包含 40 人共 400 张面部图像,部分志愿者的图像包括了姿态,表情和面部饰物的变化。该人脸库在人脸识别研究的早期经常被人们采用,但由于变化模式较少,多数系统的识别率均可以达到 90%以上,因此进一步利用的价值已经不大。
ORL 人脸数据库中一个采集对象的全部样本库中每个采集对象包含10 幅经过归一化处理的灰度图像,图像尺寸均为 92×112 ,图像背景为黑色。其中采集对象的面部表情和细节均有变化,例如笑与不笑、眼睛睁着或闭着以及戴或不戴眼镜等,不同人脸样本的姿态也有变化,其深度旋转和平面旋转可达 20 度。
BioID人脸数据库
https://www.bioid.com/facedb/
包含在各种光照和复杂背景下的 1521 张灰度面部图像,眼睛位置已经被手工标注。
UMIST图像集
由英国曼彻斯特大学建立。包括 20 个人共 564 幅图像,每个人具有不同角度、不同姿态的多幅图像。
年龄识别数据集IMDB-WIKI
https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/
包含 524230 张从 IMDB 和 Wikipedia 爬取的名人数据图片。应用了一个新颖的化回归为分类的年龄算法。本质就是在 0-100 之间的 101 类分类后,对于得到的分数和 0-100 相乘, 并将最终结果求和,得到最终识别的年龄。
还没有评论,来说两句吧...