چکیده
ما به معرفی یک معماری پیش خور خالص برای قطعه بندی معنایی می پردازیم. ما عناصر تصویری کوچک (سوپر پیکسل ها) را جهت غنی کردن نمایش ویژگی های استخراج شده از یک مجموعه نواحی متداخل با افزایش دامنه نگاشت می کنیم. این نواحی با کوچک نمایی از حالت سوپر پیکسل نسبت به وضوح سطح تصویر به دست می آیند. این روش از ساختار آماری در تصویر و در فضای لیبل بدون اعمال مکانیزم های پیش بینی ساختاری صریح استفاده کرده و بنابراین از تداخل پیچیده و گران پرهیز می کند. از سوی دیگر سوپر پیکسل ها به وسیله یک شبکه چند لایه پیش خور دسته بندی می شوند. معماری ما به میانگین دقت %69.6 در مجموعه آزمایش PASCAL VOC 2012 دست یافته است.
1. مقدمه
ما یکی از وظایف دیدگاه مرکزی تحت عنوان قطعه بندی معنایی را در نظر می گیریم: تخصیص یک لیبل سطح دسته در یک تصویر به هر پیکسل. علی رغم توجهات صورت گرفته به این موضوع، اما همچنان به دلیل اثرات متقابل پیچیده بین عناصر تصویری مجاور و عناصر تصویری دور، اهمیت زمینه کلی و رابطه بین لیبلینگ معنایی و تشخیص سطح لحظه با چالش مواجه است. یک رویکرد معمول رایج مورد اشاره در بیشتر مراجع قطعه بندی مدرن آن است که باید قطعه بندی را به صورت یک وظیفه پیش بینی ساختاری اعمال کرد که اغلب به معنای استفاده از یک میدان تصادفی یا مدل ماشین بردار پشتیبانی ساختاری با پیچیدگی قابل توجه است.
5. نتیجه گیری
نکته اصلی این مقاله، بررسی گستره انجام لیبلینگ معنایی پیش خور سوپر پیکسل ها هنگام استفاده از ساختار ویژگی کوچک نمایی چند سطحی و آموزش دسته بندی کننده های غیر خطی (شبکه های عصبی چند لایه) با تلفات غیر متقارن است. نتایج جالب توجه به نظر می رسند: ما توانستیم از پیشرفت های قبلی در این موضوع علی رغم سادگی ظاهری روش ما و نبود نمایش صریح از ماهیت ساختاری وظیفه قطعه بندی پیشی بگیریم. نتیجه مهم دیگر این تحقیق آن است که ما در نهایت نشان داده ایم که قطعه بندی مانند قطعه بندی تصویر، وظایف تشخیص و دیگر وظایف می توانند از ایجاد شبکه های پیچیده عمیق بهره ببرند.
Abstract
We introduce a purely feed-forward architecture for semantic segmentation. We map small image elements (superpixels) to rich feature representations extracted from a sequence of nested regions of increasing extent. These regions are obtained by “zooming out” from the superpixel all the way to scene-level resolution. This approach exploits statistical structure in the image and in the label space without setting up explicit structured prediction mechanisms, and thus avoids complex and expensive inference. Instead superpixels are classified by a feedforward multilayer network. Our architecture achieves 69.6% average accuracy on the PASCAL VOC 2012 test set.
1. Introduction
We consider one of the central vision tasks, semantic segmentation: assigning to each pixel in an image a category-level label. Despite attention it has received, it remains challenging, largely due to complex interactions between neighboring as well as distant image elements, the importance of global context, and the interplay between semantic labeling and instance-level detection. A widely accepted conventional wisdom, followed in much of modern segmentation literature, is that segmentation should be treated as a structured prediction task, which most often means using a random field or structured support vector machine model of considerable complexity.
5. Conclusions
The main point of this paper is to explore how far we can push feedforward semantic labeling of superpixels when we use multilevel, zoom-out feature construction and train nonlinear classifiers (multi-layer neural networks) with asymmetric loss. The results are perhaps surprising: we can far surpass previous state of the art, despite apparent simplicity of our method and lack of explicit representation of the structured nature of the segmentation task. Another important conclusion that emerges from this is that we finally have shown that segmentation, just like image classification, detection and other recognition tasks, can benefit from the advent of deep convolutional networks.
چکیده
1. مقدمه
2. ترکیب خصوصیت کوچک نمایی
2.1 بررسی خصوصیات کوچک نمایی
2.2 یادگیری جهت لیبل گذاری با تلفات نا متقارن
3. تحقیقات مرتبط
4. آزمایشات
4.1 رایانش و تخمین ویژگی کوچک نمایی
4.2 فرآیند یادگیری
4.3 تحلیل اثر سطوح کوچک نمایی
4.4 نتایج بر روی پایگاه داده پیش زمینه استنفورد
5. نتیجه گیری
Abstract
1. Introduction
2. Zoom-out feature fusion
2.2. Learning to label with asymmetric loss
3. Related work
4. Experiments
4.1. Zoom-out feature computation
4.2. Learning setup
4.3. Analysis of contribution of zoom-out levels
4.4. Results on Stanford Background Dataset
5. Conclusions