Face Recognition Datasets-蒲公英云

Face Recognition Datasets

https://github.com/deepinsight/insightface/tree/master/recognition/datasets

CASIA-WebFace：
CASIA-WebFace数据集包含了10575 个人的494414 张图像。CASIA-webface数据库，压缩包有4个多g，里面包含了10000个人，一共50万张人脸图片，无论是做SVM，DNN还是别的训练，都是非常好的数据库。

CelebA：
CelebA是CelebFaces Attribute的缩写，意即名人人脸属性数据集，其包含10,177个名人身份的202,599张人脸图片，每张图片都做好了特征标记，包含人脸bbox标注框、5个人脸特征点坐标以及40个属性标记，CelebA由香港中文大学开放提供，广泛用于人脸相关的计算机视觉训练任务，可用于人脸属性标识训练、人脸检测训练以及landmark标记等。

UMDFace：
该数据集包含367920张人脸，分别类属于8501个事件类别。提供的人脸信息包括，人脸框，人脸姿势，（yaw，pitch，roll），21个关键点，性别信息等。由于图片尺度，方向等的问题，使得该数据集不适合做人脸检测的训练，适合做人脸识别。

VGGFace2：
用于识别不同姿势和年龄的人脸的数据集。该数据集包含9131名受试者的331万张图像，每个受试者的平均图像数为362.6张。图像从谷歌图像搜索下载，在姿势、年龄、照明、种族和职业（如演员、运动员、政治家）上有很大的差异。
在这里插入图片描述

MS1M-IBUG (85K ids/3.8M images)
原数据集：MS-Celeb-1M
100K人的共100M图片，来自搜索引擎。这个数据集非常大，没有清洗过，噪声很大，很难。
iBUG清洗过的数据集，85K ids，3.8M图片

MS1M-ArcFace (85K ids/5.8M images)
原数据集：MS-Celeb-1M
100K人的共100M图片，来自搜索引擎。这个数据集非常大，没有清洗过，噪声很大，很难。
ArcFace清洗过的数据集，85K ids，5.8M图片

LFW (5749 ids/13233 images/6K pairs)[14]
5749个ID，13233张不同姿态、表情的图片，提供的人脸图片均来源于生活中的自然场景
LFW数据集主要测试人脸识别的准确率，该数据库从中随机选择了6000对人脸组成了人脸辨识图片对，
其中3000对属于同一个人2张人脸照片，3000对属于不同的人每人1张人脸照片。
测试过程LFW给出一对照片，询问测试中的系统两张照片是不是同一个人，系统给出“是”或“否”的答案。
通过6000对人脸测试结果的系统答案与真实答案的比值可以得到人脸识别准确率。