چکیده
در نظارت تصویری، تشخیص چهره میتواند نشانه مهمی برای مقداردهی اولیه الگوریتم ردیابی باشد. کارهای اخیر در زمینهی psychophics اشاره به اهمیت بافت محلی یک چهره برای تشخیص قوی، مانند خطوط سر دارد. این مقاله یک آشکارساز ارائه میدهد که فعالانه از ایده بافت محلی بهره میگیرد. هدف، بهدست آوردن استحکامی فراتر از تواناییهای آشکارساز سنتی است که جهت بررسی و نظارت جالب است. عملکرد آشکارساز پیشنهادی از نظر دقت و سرعت در مجموعه دادههایی از PETS 2000 و PETS 2003 ارزیابی شده و با روش شیگرایی مقایسه شده است. توجه خاص بیشتر بر نقش وضوح تصویر در دسترس تکیه دارد.
1. مقدمه و کارهای مرتبط
تشخیص سریع و قوی هدف از یک تصویر واحد، قابلیت مطلوبی برای سیستمهای ردیابی و نظارت است. ابتدا، اجازه میدهد تا ارتباطات موجود در ردیابی اهداف بررسی شود و سپس فرضیههای ناخواسته بهمنظور ردیابی کارآمدتر نادیده گرفته میشود. ثانیا اجازه میدهد تا با ردیابی شکست اهداف از دست رفته، بازگردانده و ترمیم شوند. ثالثا، میتواند بهطور موثر ردیابی را در مواردی که در آن هدف حرکت بسیار کم و یا جنبش بسیار ناپیوستهای دارد (بهعنوان مثال حرکات از دست رفته در فریمهای ویدئویی) تکمیل کند. تمام این مثالها نیاز دارند که تشخیص سریع و قوی باشد.
اغلب، تشخیص مردم در محوطه جالب توجه است. نشانه مهم برای تشخیص افراد با استفاده از بینایی کامپیوتر، چهره انسان [1، 2]، سر [3، 4]، تمام بدن از جمله پاها [5] و همچنین پوست انسان [6] است. که در تشخیص چهره در تصاویر ثابت احتمالا محبوبترین است. الگوریتمهای اخیر از ویژگیهای با محاسبه سریع و ساختار آبشاری برای رسیدن به کارآیی زمان واقعی در سطح بالایی از دقت [7] استفاده میکنند. یک آشکارساز از این نوع برای محلیسازی چشم در دنباله ویدیو FGNET (ورکشاپPETS 2003 [8]) با موفقیت به کار گرفته شده است.
بااین حال، جای تعجب دارد که ببینید چگونه آشکارساز چهره بهراحتی میتواند در شرایطی که انسان هیچ مشکلی با تشخیص چهره قابل اعتماد ندارد فریب خورده است. چنین مواردی بهصورت نظاممند در آزمایشهای روانشناسی توسط Sinha و Torralba [9، 10] مورد مطالعه قرار گرفته است. یکی از یافتههای رایج این است که سیستم بینایی انسان میتواند چهره واقعی را از الگوهای چهره با وضوح بسیار کم تشخیص دهد. از سوی دیگر سیستم محاسباتی نه تنها به جزئیات بیشتری از صورت برای تشخیص چهره در صحنه های واقعی نیاز دارد، بلکه هشدارهای کاذب که به درستی توسط انسان رد میشود باید قابل تشخیص باشد.
آزمایش Torralba نشان میدهد که سطح جزئیات همانند مناطق محلی اطراف صورت، استفاده انسان از بافت محلی را کاهش میدهد. که در تضاد با این فرض روش شی محور است که، تنها ویژگیهایی از تصویر که مربوط به تشخیص یک شی در یک مکان هستند از ویژگیهای بالقوه متعلق به شی و غیرمرتبط به پسزمینه هستند.
تصویر شکل 1 چند نمونه از چهرهها را در بافت محلی و جهانی خود نشان میدهد. این مقاله یک آشکارساز را به کار میگیرد که به طور فعال از بافت محلی به عنوان یک پیشبینی برای تشخیص چهره محاسباتی بهره میگیرد. هدف به دست آوردن استحکامی است که فراتر از تواناییهای سنتی بین آشکارسازهای شی محور صورت بهویژه مربوط به بصری سازی است.
بخش 2 ایده بافت محلی و تحلیل تفاوت در آشکارسازهای نتیجه شده را هنگامیکه با بافت محلی یا بدون بافت محلی آموزش میبینند تعریف میکند. آشکارساز پیشرفته آبشاری بهعنوان یک آشکارساز زمینه استفاده میشود. تشخیص قابلیتهای آشکارساز بافت محلی در مقایسه با روش شی محور در بخش 3 بیان شده است. مجموعه آزمون به کار براساس دادهی ویدئو کنفرانسFGNET (PETS 2003) و محوطه پارکینگ PETS2000 است. بخش 4 خلاصه نتیجهگیری از این کار است.
Abstract
In visual surveillance face detection can be an important cue for initializing tracking algorithms. Recent work in psychophics hints at the importance of the local context of a face for robust detection, such as head contours and torso. This paper describes a detector that actively utilizes the idea of local context. The promise is to gain robustness that goes beyond the capabilities of traditional face detection making it particularly interesting for surveillance. The performance of the proposed detector in terms of accuracy and speed is evaluated on data sets from PETS 2000 and PETS 2003 and compared to the object-centered approach. Particular attention is paid to the role of available image resolution.
1. Introduction and Related Work
Fast and robust target detection from a single image is a desirable capability for tracking and surveillance systems. First, it allows to verify the relevance of currently tracked targets and drop undesired hypotheses to make tracking more efficient. Second it allows to recover from tracking failure and to reinitialize on targets that have been missed so far. Third, it can effectively complement tracking in cases where the target exhibits very little motion or where the target movement is highly discontinuous (e.g. jumps caused by missing video frames). All these examples require that detection be fast and robust.
Often, detecting people in the scene is of particular interest. The classical cues for people detection by means of computer vision are the human face [1, 2], the head [3, 4], the entire body including legs [5] as well as the human skin [6]. Among these face detection in still images is probably the most popular. Recent algorithms use fast-to-compute features and a cascade structure to achieve real-time performance at high levels of accuracy [7]. A detector of this type has been successfully employed for eye localization in the FGNET video sequence (PETS 2003 workshop [8]).
However, it is surprising to see how easily face detectors can be fooled by situations where humans have no problem to reliably detect faces. Such cases have been systematically studied in psychophysical experiments by Sinha and Torralba [9, 10]. One of the common findings is that the human visual system can robustly discriminate real faces from face-like patterns at very low resolutions. Computational systems on the other hand not only require a much larger amount of facial detail for detecting faces in real scenes, but also yield false alarms that are correctly rejected by human observers.
Torralba’s experiments indicate that as the level of detail decreases humans make use of the local context, i.e. a local area surrounding the face. This contrasts the assumption behind the predominant object-centered approach that the only image features that are relevant for the detection of an object at one spatial location are the features that potentially belong to the object and not to the background.
For illustration figure 1 shows some examples of faces within their local and global context. This paper describes a detector that actively utilizes local context as a predictive cue for computational face detection. The promise is to gain robustness that goes beyond the capabilities of traditional object-centered face detectors making it particularly relevant for surveillance.
Section 2 formalizes the idea of local context and analyses the differences in the resulting detectors when trained with or without local context, respectively. A boosted detector cascade is used as the underlying detector. The detection capabilities of the local context detector are then compared with a state-of-the art object-centered approach in section 3. The employed test sets are based on the FGNET video conference data (PETS 2003) and the parking lot sequence of PETS 2000. Section 4 is a concluding summary of this work.
چکیده
1. مقدمه و کارهای مرتبط
2. بافت محلی در مقابل آشکارساز شیء محور
2.1. روش آموزش و جزئیات پیادهسازی
3. ارزیابی عملکرد
3.1. فضای داخل
3.2. فضای باز
4. خلاصه و نتیجهگیری
Abstract
1. Introduction and Related Work
2. Local Context vs. Object-centered Detection
2.1. Learning Approach and Implementation Details
3. Performance Evaluation
3.1. Indoor Sequence
3.2. Outdoor Sequence
4. Summary and Conclusions