چکیده
عملکرد تشخیص چهره عمیق به داده های آموزشی بستگی دارد. اخیراً، مجموعه داده های بزرگتر و بزرگتری برای آموزش مدلهای عمیق توسعه یافته است. با این حال، اکثر مجموعه های آموزشی تشخیص چهره از مسئله عدم تعادل کلاس رنج می برند، و اکثر مطالعات منفعت بهینه سازی ساختارهای مجموعه داده را نادیده می گیرند. در این مقاله، به بررسی این مسئله می پردازیم که چگونه آموزش متعادل در سطح کلاس، می تواند عملکرد تشخیص چهره را ارتقاء بخشد. برای این منظور یک مجموعه آموزشی تشخیص چهره در مقیاس متوسط به نام BUPT-CBFace با کشف ساختار بهینه داده از داده های انبوه، ساخته شده است. این مجموعه داده عمومی با اندازه نمونه یکنواخت توزیع شده در هر کلاس و همچنین تعادل بین تعداد کلاس ها و نمونه ها در یک کلاس توصیف شده است. نتایج آزمایش نشان می دهد که مدلهای عمیق آموزش دیده با BUPT-CBFace نه تنها به نتایجی قابل قیاس با مجموعه داده های بزرگتر نظیر MS-Celeb-1M دست یافته، بلکه همچنین، مسئله سوگیری تشخیص را کاهش می دهند.
1. مقدمه
در سالهای اخیر، فناوری تشخیص چهره بالغ تر و کاربردی تر شده است. مجموعه های آموزشی تشخیص چهره عمومی زیادی [5, 13, 31, 33, 46] برای تامین نیازهای مدلهای عمیق آموزشی توسعه یافته است. عملکرد تشخیص برروی محک های عمومی نظیر LFW [18]، نیز بالغ شده و تکامل یافته است. با این حال، در فیلد تشخیص چهره عمیق، مسئله عدم تعادل کلاس [2, 3, 14, 15, 20] به صورت یک تنگنا باقی می ماند، یعنی تعداد نمونه ها در کلاس های اکثریت بیشتر از کلاس های اقلیت مجموعه های آموزشی است. توزیع نامتعادل داده ها با توزیع دم دراز(بلند) توصیف شده است [28، 51]: تعداد معدودی از کلاس ها دارای تصاویرزیادی از چهره نظیر داده های سر هستند و اکثر کلاس ها دارای تصاویر معدودی از چهره نظیر دم دراز (کشیده) هستند.
5. نتیجه گیری
در این مقاله به بررسی تاثیر تعادل کلاس و ساختارهای داده بر تشخیص چهره عمیق می پردازیم. مجموعه آموزشی تشخیص چهره متعادل در سطح کلاس BUPT-CBFace با تنظیم دقیق اشکال و کلاس های داده ساخته شده است. BUPT-CBFace از عملکرد چشمگیری در زمینه تشخیص برخوردار بوده و در مقایسه با مجموعه داده های دم دراز با مقیاس مشابه، تساوی و برابری را بهبود می بخشد. علاوه براین، برای رسیدن به نتایجی هم سطح با آموزش موازی بزرگ مقیاس که برای بسیاری از موسسات بسیار دوستانه است، BUPT-CBFace به راحتی برروی آموزش می بیند. BUPT-CBFace به عنوان انتخابی جایگزین برای مجموعه داده های دم دراز موجود، برای عموم قابل دسترسی است.
Abstract
The performance of deep face recognition depends heavily on the training data. Recently, larger and larger datasets have been developed for the training of deep models. However, most face recognition training sets suffer from the class imbalance problem, and most studies ignore the benefit of optimizing dataset structures. In this paper, we study how class-balanced training can promote face recognition performance. A medium-scale face recognition training set BUPT-CBFace is built by exploring the optimal data structure from massive data. This publicly available dataset is characterized by the uniformly distributed sample size per class, as well as the balance between the number of classes and the number of samples in one class. Experimental results show that deep models trained with BUPTCBFace can not only achieve comparable results to largerscale datasets such as MS-Celeb-1M but also alleviate the problem of recognition bias.
1. Introduction
In recent years, face recognition technology is becoming more mature and applicable. A lot of public face recognition training sets [5, 13, 31, 33, 46] are developed to meet the needs of training deep models. The recognition performance on public benchmarks such as LFW [18] are also becoming saturated. However, the class imbalance problem [2, 3, 14, 15, 20] remains a bottleneck in the field of deep face recognition, which means, the number of samples in majority classes is much more than that in minority classes in the training sets. The imbalanced data distribution is characterized by the long tail distribution [28, 51]: a few classes have many face images as the “head” data, and most classes have fewer face images as a long “tail”.
5. Conclusion
In this paper, we study the impact of class balance and data structures on deep face recognition. A class-balanced face recognition training set BUPT-CBFace is built by carefully adjusting data shapes and classes. BUPT-CBFace has a significant recognition performance and fairness improvement compared to long-tailed datasets of the same scale. Moreover, BUPT-CBFace can be easily trained on a single NVIDIA GTX 1080Ti GPU to achieve the same level results as large-scale parallel training, which is very friendly to many institutes. BUPT-CBFace is publicly available as an alternative option to the existing long-tailed datasets.
چکیده
1. مقدمه
2. کارهای مرتبط
3. چگونه تعادل کلاس به آموزش کمک می کند؟
3.1. راه اندازی آزمایش
3.2. صحت تشخیص چهره
3.3. سوگیری در تشخیص
3.4. انتخاب کلاس
4. BUPT-CBFace: آموزش متعادل در سطح کلاس
4.1. تعادل بین عرض و عمق
4.2. نتایج ارزیابی
4.3. تحلیل و بحث
5. نتیجه گیری
Abstract
1. Introduction
2. Related Work
3. How Does Class Balance Help Training?
3.2. Face Recognition Accuracy
3.3. Bias in Recognition
3.4. Class Selection
4. BUPT-CBFace: Class-Balanced Training
4.1. Balance Between Breadth and Depth
4.2. Evaluation Results
4.3. Analysis and Discussion
5. Conclusion