چکیده
تشخیص چهره به موفقیت عظیمی دست یافته است که دلیل اصلی آن توسعه سریع شبکه های عصبی عمیق (DNN) در چند سال اخیر است. کارکردهای مختلف اتلاف در یک شبکه عصبی عمیق قابل استفاده است که منجر به عملکرد متفاوتی می شود. اخیراً برخی از کارکردهای تلفات پیشنهاد داده شده است. با این حال، آن ها نمی توانند مساله تمایل حاشیه ای را که در مجموعه داده های غیر متعادل وجود دارد حل کنند. در این مقاله حل مساله تمایل حاشیه ای را با تعیین یک حاشیه حداقلی برای تمامی زوج کلاس ها (دسته ها) پیشنهاد می دهیم. ما تابع اتلاف جدیدی به نام حداقل اتلاف حاشیه ای (MML) پیشنهاد می دهیم که هدف آن گسترش محدوده آن هایی است که به زوج های مرکزی دسته بیش از حد نزدیک می شوند تا قابلیت متمایز کننده ویژگی های عمیق را ارتقاء دهد. تابع MML همراه با توابع Softmax Loss و Centre Loss بر فرآیند آموزش نظارت می کنند تا حاشیه های تمامی دسته ها را صرف نظر از توزیع دسته آن ها مورد نظارت قرار دهند. ما تابع MML را در پلتفورم Inception-ResNet-v1 پیاده سازی می کنیم و آزمایش های گسترده ای را بر روی هفت مجموعه داده تشخیص چهره انجام می دهیم که شامل MegaFace، FaceScrub، LFW، SLLFW، YTF، IJB-B و IJB-C است. نتایج تجربی نشان می دهد که تابع اتلاف MML پیشنهادی منجر به حالت جدیدی در تشخیص چهره می شود و اثر منفی تمایل حاشیه ای را کاهش می دهد.
1. مقدمه
در ده سال گذشته، روش های مبتنی بر شبکه عصبی عمیق (DNN) به پیشرفت عظیمی در زمینه تصویرهای رایانه ای شامل تشخیص چهره [1]، شناسایی مجدد افراد [2]، تشخیص اشیا و تشخیص اقدام دست یافته است. پیشرفت در حوزه تشخیص چهره به دلیل دو عامل مهم یعنی مجموعه داده های بزرگتر چهره و توابع اتلاف بهتر به دست آمده است.
کمیت و کیفیت مجموعه داده های چهره برای آموزش تاثیر مستقیمی بر عملکرد یک مدل DNN در تشخیص چهره دارند. این مجموعه داده ها به صورت عمومی در دسترس قرار دارند که نمونه آن MS-Celeb-1M [5]، VGGFace2 [6]، MegaFace [7] و CASIA WebFace [8] است. همانطور که در جدول 1 نشان داده شده است، مجموعه داده CASIA WebFace شامل تصاویر 0.5 M از چهره است؛ مجموعه داده VGGFace2 به طور کلی شامل تصاویر 3M چهره اما تنها از هویت های 9K است. مجموعه داده MS-Celeb-1M و MegaFace شامل تصاویر و هویت های بیشتری است، بنابراین می بایست دارای توان بالقوه بیشتری برای آموزش یک مدل DNN بهتر باشد. با این حال، هر دو مجموعه داده MS-Celeb-1M و MegaFace دارای مشکل توزیع long-tailed هستند [29] که به این معنا است که اقلیت افراد دارای بخش اعظیمی از تصاویر چهره هستند و تعداد زیادی از افراد دارای تصاویر چهره بسیار محدودی هستند. با استفاده از مجموعه داده ها با توزیع long-tailed، مدل آموزش دیده تمایل به تناسب بیش از حد با دسته های دارای نمونه زیاد دارد که سبب تضعیف توانایی تعمیم در بخش long-tailed می شود [9]. به ویژه، دسته هایی که دارای نمونه های غنی هستند تمایل دارند که حاشیه نسبتاً بزرگی بین مراکز دسته خود داشته باشند؛ متقابلاً، دسته هایی که دارای نمونه های محدود هستند تمایل دارند تا حاشیه نسبتاً کوچکی بین مراکز دسته خود داشته باشند چرا که آن ها تنها منطقه کوچکی را در فضا اشغال می کنند و در نتیجه به آسانی فشرده می شوند. این مساله تمایل به حاشیه به دلیل توزیع long-tailed دسته است که منجر به افت عملکرد در تشخیص چهره می شود [9].
Abstract
Face recognition has achieved great success owing to the fast development of deep neural networks in the past few years. Different loss functions can be used in a deep neural network resulting in different performance. Most recently some loss functions have been proposed, which have advanced the state of the art. However, they cannot solve the problem of margin bias which is present in class imbalanced datasets, having the so-called long-tailed distributions. In this paper, we propose to solve the margin bias problem by setting a minimum margin for all pairs of classes. We present a new loss function, Minimum Margin Loss (MML), which is aimed at enlarging the margin of those overclose class centre pairs so as to enhance the discriminative ability of the deep features. MML, together with Softmax Loss and Centre Loss, supervises the training process to balance the margins of all classes irrespective of their class distributions. We implemented MML in Inception-ResNet-v1 and conducted extensive experiments on seven face recognition benchmark datasets, MegaFace, FaceScrub, LFW, SLLFW, YTF, IJB-B and IJB-C. Experimental results show that the proposed MML loss function has led to new state of the art in face recognition, reducing the negative effect of margin bias.
1. Introduction
In the past ten years, deep neural network (DNN) based methods have achieved great progress in various computer vision tasks, including face recognition [1], person re-identification [2], object detection [3] and action recognition [4]. The progress on face recognition is particularly remarkable due largely to two important factors – larger face datasets and better loss functions.
The quantity and quality of the face datasets used for training directly influence the performance of a DNN model in face recognition. Currently, there are a few large-scale face datasets that are publicly available, for example, MS-Celeb-1M [5], VGGFace2 [6], MegaFace [7] and CASIA WebFace [8]. As shown in Table 1, CASIA WebFace consists of 0.5M face images; VGGFace2 contains totally 3M face images but only from 9K identities; MS-Celeb-1M and MegaFace both contain more images and more identities, thus should have greater potential for training a better DNN model. However, both MS-Celeb-1M and MegaFace have the problem of long-tailed distribution [9], which means a minority of people owns a majority of face images and a large number of people have very limited face images. Using datasets with long-tailed distri- bution, the trained model tends to overfit the classes with rich samples thus weakening the generalisation ability on the longtailed portion [9]. Specifically, the classes with rich samples tend to have a relatively large margin between their class centres; conversely, the classes with limited samples tend to have a relatively small margin between their class centres as they only occupy a small region in space and are thus easy to be compressed. This margin bias problem is due to long-tailed class distribution, which leads to performance drop on face recognition [9].
چکیده
1. مقدمه
2. از تابع Softmax Loss تا تابع حداقل اتلاف حاشیه ای
1-2 Sotmax Loss و Center Loss
2-2 اتلاف حاشیه ای و اتلاف محدوده
3-2 حداقل اتلاف حاشیه ای پیشنهادی
4-2 بحث
3. آزمایش ها
1-3 جزئیات آزمایش
2-3 تحلیل تاثیر بر پارامترهای β و M
3-3 چالش اول MegaFace در مجموعه داده FaceScrub
4-3 مقایسه با بهترین روش ها در مجموعه داده های LFW و YTF
5-3 مقایسه بیشتر در مجموعه داده SLLFW
6-3 نتایج براساس مجموعه داده های IJB-B و IJB-C
4. نتیجه گیری
Abstract
1. Introduction
2. From softmax loss to minimum margin loss
2.1. Softmax loss and centre loss
2.2. Marginal loss and range loss
2.3. The proposed minimum margin loss
2.4. Discussion
3. Experiments
3.1. Experiment details
3.2. Influence analysis on parameters β and M
3.3. MegaFace challenge 1 on FaceScrub
3.4. Comparison with the state-of-the-art methods on LFW and YTF datasets
3.5. Further comparison on SLLFW dataset
3.6. Results on IJB-B and IJB-C
4. Conclusion