چکیده
در این مقاله ما یک مجموعهداده چهره بزرگ را معرفی میکنیم که VGGFace2 نام دارد. این مجموعهداده شامل 3.31 میلیون تصویر متعلق به 9131 نفر است که میانگین تصاویر برای هر نفر 362.2 تصویر است. تصاویر از جستجوی تصویر گوگل دانلود شدند و تفاوتهای زیادی در قیافه، سن، روشنایی، نژاد و حرفه (مانند بازیگران، ورزشکاران، سیاستمداران) به چشم میخورد.
این مجموعهداده با سه هدف گردآوری شد: (i)داشتن تعداد افراد زیاد و تعداد تصویر زیاد مختص به هر فرد؛ (ii) پوشش طیف گستردهای از قیافهها، سن و نژاد؛ و (iii) به حداقل رساندن نویز برچسب. نحوه گردآوری این مجموعهداده بویژه مراحل فیلترینگ خودکار و دستی به منظور تضمین صحت بالا برای تصاویر متعلق به هر شخصیت را توضیح میدهیم.
شبکههای عصبی کانولوشنی ResNet-50 (با و بدون بلوکهای فشار و تحریک) را با VGGFace2، MS-Celeb-1M و یگانگی آنها به منظور ارزیابی عملکرد شناخت چهره با استفاده از این مجموعه داده جدید یعنی VGGFace2 آموزش میدهیم و نشان میدهیم که آموزش دادن با VGGFace2 سبب بهبود عملکرد شناخت قیافه و سن میشود. در نهایت با استفاده از مدلهای آموزش دیده با این مجموعهدادهها، نهایت عملکرد معیارهای شناخت چهره IJB-A و IJB-B را تعیین میکنیم که فراتر از بهترین عملکرد بدست آمده از یک حاشیه وسیع در کارهای قبلی هست. این مجموعه داده و مدلها بصورت آزاد در دسترس قرار میگیرد.
1. مقدمه
همزمان با توسعه سریع شبکههای عصبی کانولوشنی عمیق (CNNs)، تلاشهای جدیدتری روی گردآوری مجموعهدادههای بزرگ مقیاس به منظور تغذیه این مدلهای گرسنه به داده صورت گرفته است. بطور کلی، مجموعهدادههای جدید (به جدول 1 مراجعه کنید) اهمیت تفاوت درون و بین کلاسی را بررسی کردهاند. تفاوت درون کلاسی بر عمق (تصاویر متعدد از یک نفر) و تفاوت بین کلاسی بر وسعت (افراد زیاد همراه با تصاویر محدود برای هر نفر) تمرکز دارد. با این وجود هیچکدام از این مجموعه دادهها اختصاصاً برای بررسی تفاوت قیافه و سن طراحی نشدهاند. در این مقاله با طراحی یک کانال تولید مجموعهداده به منظور گردآوری دقیق تصاویر دارای طیف گستردهای از تفاوتهای قیافه، سن، روشنایی و نژاد چهرههای انسانی این مسئله را برطرف میکنیم.
چهار کار زیر را انجام میدهیم: اول، مجموعهداده بزرگ و جدید یعنی VGGFace2 را گردآوری کردهایم که بصورت عمومی منتشر میشود. این مجموعه داده شامل تصاویر بیش از 9000 شخصیت است که به ازای هر شخصیت 80 تا 800 تصویر وجود دارد و در مجموع بیش از 3 میلیون تصویر در آن گنجانده شده است؛ دوم، یک مسیر تولید مجموعهداده پیشنهاد شده است که به تنوع قیافه و سن هر نفر کمک میکند و شامل چندین مرحله فیلترینگ خودکار و دستی جهت به حداقل رساندن نویز برچسب هست؛ سوم تفسیر قالب را برای مجموعه آزمون ارائه میدهیم تا دقیقاً عملکرد شناخت قیافه و سن را کشف کند و در نهایت نشان میدهیم که آموزش CCNهای عمیق با این مجموعهداده جدید بطور اساسی فراتر از بهترین دستاورد عملکرد مجموعهدادههای IJB هست. منحصراً با شبکه فشار و تحریک آزمون را انجام میدهیم و مزایای اولین پیش آموزش با یک مجموعه داده گسترده (MS-Celeb-1M) را بررسی میکنیم و سپس fine tuning (تنظیم دقیق) را با VGGFace2 انجام میدهیم.
6. نتیجهگیری
در این کار، ما مسیری را برای جمعآوری یک مجموعهداده با کیفیت بالا یعنی VGGFace2 ارائه کردیم. این مجموعهداده طیف وسیعی از سن و ژست را پوشش میدهد. علاوه بر این، ما نشان دادیم که مدلهای عمیق (ResNet-50 و SENet) آموزش دیده با VGGFace2، نهایت عملکرد را نسبت شاخصهای IJB-A و IJB-B بدست میآورند.
این مجموعه داده و مدلها در آدرس اینترنتی https://www.robots.ox.ac.uk/_vgg/data/vgg face2/ در دسترس هستند.
Abstract
In this paper, we introduce a new large-scale face dataset named VGGFace2. The dataset contains 3.31 million images of 9131 subjects, with an average of 362.6 images for each subject. Images are downloaded from Google Image Search and have large variations in pose, age, illumination, ethnicity and profession (e.g. actors, athletes, politicians).
The dataset was collected with three goals in mind: (i) to have both a large number of identities and also a large number of images for each identity; (ii) to cover a large range of pose, age and ethnicity; and (iii) to minimise the label noise. We describe how the dataset was collected, in particular the automated and manual filtering stages to ensure a high accuracy for the images of each identity.
To assess face recognition performance using the new dataset, we train ResNet-50 (with and without Squeeze-and-Excitation blocks) Convolutional Neural Networks on VGGFace2, on MS-Celeb-1M, and on their union, and show that training on VGGFace2 leads to improved recognition performance over pose and age. Finally, using the models trained on these datasets, we demonstrate state-of-the-art performance on the IJB-A and IJB-B face recognition benchmarks, exceeding the previous state-of-the-art by a large margin. The dataset and models are publicly available.
I. INTRODUCTION
Concurrent with the rapid development of deep Convolutional Neural Networks (CNNs), there has been much recent effort in collecting large scale datasets to feed these datahungry models. In general, recent datasets (see Table I) have explored the importance of intra- and inter-class variation. The former focuses on depth (many images of one subject) and the latter on breadth (many subjects with limited images per subject). However, none of these datasets was specifically designed to explore pose and age variation. We address that here by designing a dataset generation pipeline to explicitly collect images with a wide range of pose, age, illumination and ethnicity variations of human faces.
We make the following four contributions: first, we have collected a new large scale dataset, VGGFace2, for public release. It includes over nine thousand identities with between 80 and 800 images for each identity, and more than 3M images in total; second, a dataset generation pipeline is proposed that encourages pose and age diversity for each subject, and also involves multiple stages of automatic and manual filtering in order to minimise label noise; third, we provide template annotation for the test set to explicitly explore pose and age recognition performance; and, finally, we show that training deep CNNs on the new dataset substantially exceeds the state-of-the-art performance on the IJB benchmark datasets [13], [22]. In particular, we experiment with the recent Squeeze and Excitation network [9], and also investigate the benefits of first pre-training on a dataset with breadth (MS-Celeb-1M [7]) and then fine tuning on VGGFace2.
VI. CONCLUSION
In this work, we have proposed a pipeline for collecting a high-quality dataset, VGGFace2, with a wide range of pose and age. Furthermore, we demonstrate that deep models (ResNet-50 and SENet) trained on VGGFace2, achieve stateof-the-art performance on the IJB-A and IJB-B benchmarks. The dataset and models are available at https://www.robots. ox.ac.uk/∼vgg/data/vgg face2/.
چکیده
1. مقدمه
2. بررسی مجموعهداده
3. بررسی کلی VGGFACE2
4. گردآوری مجموعهداده
5. آزمایشات
6. نتیجهگیری
منابع
Abstract
1. INTRODUCTION
2. DATASET REVIEW
.3 AN OVERVIEW OF THE VGGFACE2
4. DATASET COLLECTION
5. EXPERIMENTS
6. CONCLUSION
REFERENCES