人脸表情识别调研
论文:Deep Facial Expression Recognition: A Survey
资源:http://www.pris.net.cn/introduction/teacher/dengweihong
北邮模式识别实验室,邓伟洪
人脸表情识别facial expression recognition (FER),主要面临2大挑战问题,
- 缺乏高效的数据导致的过拟合
- 表情相关变化,比如,关照,人脸姿态,不同人脸之间的差异。
人脸表情识别的进化史:
人脸表情数据集:
Database | Samples | Subject | Condit. | Elicit. | Expression distribution | Access |
CK+ | 593 image sequences | 123 | Lab | P & S | 6 basic expressions plus contempt and neutral | http://www.consortium.ri.cmu.edu/ckagree/ |
MMI | 740 images and 2,900 videos | 25 | Lab | P | 6 basic expressions plus neutral | https://mmifacedb.eu/ |
JAFFE | 213 images | 10 | Lab | P | 6 basic expressions plus neutral | http://www.kasrl.org/jaffe.html |
TFD | 112,234 images | N/A | Lab | P | 6 basic expressions plus neutral | josh@mplab.ucsd.edu |
FER-2013 | 35,887 images | N/A | Web | P & S | 6 basic expressions plus neutral | https://www.kaggle.com/c/challenges-in-representation-learning-facial-expression-recognition-challenge |
AFEW 7.0 | 1,809 videos | N/A | Movie | P & S | 6 basic expressions plus neutral | https://sites.google.com/site/emotiwchallenge/ |
SFEW 2.0 | 1,766 images | N/A | Movie | P & S | 6 basic expressions plus neutral | https://cs.anu.edu.au/few/emotiw2015.html |
Multi-PIE | 755,370 images | 337 | Lab | P | Smile, surprised, squint, disgust, scream and neutr | http://www.flintbox.com/public/project/4742/ |
BU-3DFE | 2,500 images | 100 | Lab | P | 6 basic expressions plus neutral | http://www.cs.binghamton.edu/∼lijun/Research/3DFE/3DFE Analysis.html |
Oulu-CASIA | 2,880 image sequences | 80 | Lab | P | 6 basic expressions | http://www.cse.oulu.fi/CMV/Downloads/Oulu-CASIA |
RaFD | 1,608 images | 67 | Lab | P | 6 basic expressions plus contempt and neutral | http://www.socsci.ru.nl:8180/RaFD2/RaFD |
KDEF | 4,900 images | 70 | Lab | P | 6 basic expressions plus neutral | http://www.emotionlab.se/kdef/ |
EmotioNet | 1,000,000 images | N/A | Web | P & S | 23 basic expressions or compound expressions | http://cbcsl.ece.ohio-state.edu/dbform emotionet.html |
RAF-DB | 29672 images | N/A | Web | P & S | 6 basic expressions plus neutral and 12 compound expressions | http://www.whdeng.cn/RAF/model1.html |
AffectNet | 450,000 images (labeled) | N/A | Web | P & S | 6 basic expressions plus neutral | http://mohammadmahoor.com/databases-codes/ |
ExpW | 91,793 images | N/A | Web | P & S | 6 basic expressions plus neutral | http://mmlab.ie.cuhk.edu.hk/projects/socialrelation/index.htm |
人脸表情识别的预处理操作:
主要包括,人脸对齐,归一化操作。
其中,
人脸对齐常用的人脸关键点检测算法,
人脸标准化操作,包括,关照归一化(Illumination normalization)和姿态归一化(Pose normalization)
人脸表情识别的整体流程:
输入的数据可以是单张图片,也可以是视频序列图片。首先会使用一个人脸检测模型,检测出图片中的人脸和人脸关键点。然后会经过数据增强,数据标准化操作。将得到的图片输入网络进行训练学习。所输入的网络可以是传统的cnn(Convolutional neural network),深度信念网络DBN(Deep belief network),RNN(Recurrent neural network),DAE(Deep autoencoder),GAN(Generative Adversarial Network)等等。最终经过分类操作,得到最终的情绪表情的类别结果。
预训练和微调:
首先整个网络在imagenet上进行预训练。第一阶段分4个分支,在FER32的不同子集和EmotiW上进行微调。第二阶段在EmotiW上进行微调。
比较代表性的,FaceNet2ExpNet。第一阶段,固定FaceNet的训练权重,训练EmotionNet。第二阶段,随机初始化全连接层,和EmotionNet联合训练。
差异化的网络输入:
网络的输入可以是原始rgb图,也可以是rgb图和LBP纹理图的叠加图,或者rgb图和sift特征图的叠加图。
额外分支辅助训练:
HoloNet是一个经典的表情识别的网络,里面采用了Crelu激活,和残差结构。
Supervised Scoring Ensemble (SSE) 模块被设计来确保网络的学习能力,SSE模块融合了浅层,中层,深层的特征。
island loss和locality-preserving loss (LP loss)被设计出,联合softmax loss 一起训练,来改进模型的能力。
exponential triplet-based loss 会在训练过程中,给予难例样本更多的权重。) (N+M)-tuples
cluster loss 被设计出,用来缓解anchor选择困难和triplet loss中的阈值验证问题。
网络集成:
模型集成,主要用在打比赛刷分的场合。分为,特征层的集成,决策层的集成。
多任务网络:
MSCNN网络,会同时输入一对图片。网络可以学习到2个图片中的差异。表情识别的loss是交叉熵损失,人脸识别的loss是contrastive loss。这样训练可以减少由于表情变化带来的干扰。
AUaware deep network (AUDN) 网络,分为3个前后顺序分支。
第一个分支,一个2层的cnn被训练用来提取全局特征。
第二个分支,主要训练学习AU(action unit)单元。
第三个分支,基于多层RBM模块,训练来学习层次结构的特征。
PPDN算法,训练过程输入2张不同表情的图片,使用L2 loss和交叉熵loss进行联合训练。测试过程中,输入一张静态图片就可以。
基于视频的表情识别:
从上到下进行视频处理。对于超过10帧的图片,取平均得到最终结果。对于少于10张图片的,随机重复图片以凑够10帧。
基于视频的表情识别,主要使用3dcnn,LSTM
3DCNN-DAP,输入n张序列图片,使用3d卷积进行处理。
PHRNN提取人脸关键点特征,MSCNN提取人脸ID特征。最后融合这2个特征,得到最终的特征。
DTAGN方法,也是结合了提取人脸id特征的网络DTAN,提取人脸关键点特征的DTGN网络。DTAN输出 softMax1和softMax3,DTGN输出softMax2和softMax3。然后将2个softMax3进行element-wise的方式相加,得到最终的输出特征。
总结:
人脸表情识别的一篇很好的综述性质的论文。
表情识别的发展方向,
单一表情**—->**复合表情
单帧图片**—->**视频序列
还没有评论,来说两句吧...