چکیده
بلوک مرکزی ساختار شبکههای عصبی پیچشی (CNN) اپراتور پیچیدگی است که شبکهها را قادر میسازد تا ویژگیهای اطلاعاتی را با ادغام هر دوی اطلاعات کانالوار و فضا درون حوزههای پذیرنده محلی در هر لایه ایجاد کنند. طیف گستردهای از تحقیقات پیشین، مولفههای فضایی این رابطه را بررسی کردهاند و به دنبال تقویت قدرت بازنمایی یک CNN با بهبود کیفیت کدگذاریهایی فضایی از طریق سلسله مراتب ویژگیهای آن بودهاند. در عوض ما در این کار به بر رابطه کانال تمرکز میکنیم و یک واحد معماری جدید را پیشنهاد میدهیم که آن را با نام بلوک «فشردگی و تحریک» (SE) نامگذاری میکنیم که به شکل تطبیقی پاسخهای ویژگیهای کانالوار را با مدلسازی صریح وابستگیهای متقابل بین کانالها مجددا کالیبره میکند. ما ثابت میکنیم که این بلوکها میتوانند با یکدیگر انباشته شوند تا معماری SENet را تشکیل دهند که به طور کلی در مجموعهدادههای مختلف بسیار موثر است. سپس ما ثابت میکنیم که بلوکهای SE سبب بهبود چشمگیری در عملکرد پیشرفتهترین CCNهای موجود با حداقل هزینه محاسبات اضافی خواهد شد. شبکههای فشار و تحریک، بنیاد طرح طبقهبندی ما است که رتبه نخست را در ILSVRC 2017 کسب کرده است و سبب کاهش 5 خطای برتر تا 251 .2% شده است و از برنده سال 2016 نیز با بهبود نسبی 25% برتری دارد. مدلها و کد طرح ما در لینک زیر روبرو در دسترس است: https://github.com/hujie-frank/SENet
1. مقدمه
شبکههای عصبی پیچشی (CNN) خود را به عنوان مدلهایی مفید برای مقابله با طیف گستردهای از وظایف بصری ثابت کردهاند [1]-[4]. در هر لایه پیچشی در شبکه، مجموعهای از فیلترها الگوهای اتصال فضایی همسایگی را در امتداد کانالهای ورودی نشان میدهند و سبب ادغام اطلاعات کانالوار و فضایی با یکدیگر درون حوزههای پذیرنده محلی میشوند. با قرار دادن مجموعهای از لایههای پیچشی همراه با توابع فعالسازی غیرخطی و اپراتورهای کاهشنمونهبرداری در میان CNNها، آنها قادر به تولید بازنماییهای قوی هستند که الگوهای سلسله مراتبی را ثبت میکنند و به حوزههای پذیرنده نظری جهانی دست پیدا میکنند. تحقیقات اخیر ثابت کردهاند که این بازنماییها را میتوان با ادغام سازوکارهای یادگیری درون شبکه تقویت کرد که این موضوع میتواند به ثبت همبستگیهایی فضایی میان ویژگیها کمک کند. یکی از این رویکردها توسط خانواده معماری ابتکاری [5]، [6] محبوب شده است که در آن فرآیندهای چند مقیاسی درون ماژولهای شبکه گنجانده میشوند تا بدین شکل به بهبود عملکرد بپردازند. کارهای بعدی نیز به دنبال مدلهای وابستگی فضایی [7]، [8] بودهاند و توجه فضایی را درون ساختار شبکه جای دادهاند[9].
در این مقاله، جنبههای مختلف طراحی شبکه - رابطه بین کانالها را مورد بررسی قرار میدهیم. ما یک واحد معماری جدید را پیشنهاد میدهیم که آن را با نام بلوک «فشار و تحریک» (SE) نامگذاری میکنیم و هدف آن بهبود کیفیت بازنماییهای تولید شده توسط یک شبکه است که که این کار با مدلسازی ضمنی وابستگیهای متقابل بین کانالهای ویژگیهای پیچیشی آن صورت میپذیرد. بدین منظور ما ساز و کاری را پیشنهاد میدهیم که اجازه میدهد شبکه کالیبرهسازی مجدد ویژگیها را انجام دهد و از طریق آن شبکه میتواند یاد بگیرد که از اطلاعات جهانی استفاده کند تا به صورت انتخابی بر ویژگیهای اطلاعرسانی تاثیر بگذارد و ویژگیهایی که سود کمتری دارند را نادیده بگیرد و از آنها عبور کند.
8 نتیجهگیری
ما در این مقاله بلوک SE را پیشنهاد دادیم که یک واحد معماری است که برای بهبود قدرت بازنمایی یک شبکه ارائه شده است و شبکه را قادر میسازد تا به شکل پویا کالیبرهسازی مجدد ویژگیهای کانالوار را انجام دهد. طیف گستردهای از آزمایشات اثربخشی SENets را ثابت کردند و این اثربخشی به حدی است که مطابق با عملکرد پیشرفتهترین شبکهها بر روی بسیاری از مجموعهدادهها و وظایف است. علاوه بر این، بلوکهای SE سبب نمایان شدن ناتوانی معماریهای پیشین برای مدلسازی دقیق وابستگیهای متقابل ویژگیهای کانالوار شد. ما امیدواریم که این بینش برای سایر کارهایی که نیاز به ویژگیهایی تشخیصی قوی هستند، مفید و کاربردی باشد. در نهایت مقادیر با اهمیت ویژگیهایی که توسط بلوکهای SE تولید شدهاند را میتوان برای سایر وظایفی مانند هرس شبکه برای فشردهسازی مدل، مورد استفاده قرار داد.
Abstract
The central building block of convolutional neural networks (CNNs) is the convolution operator, which enables networks to construct informative features by fusing both spatial and channel-wise information within local receptive fields at each layer. A broad range of prior research has investigated the spatial component of this relationship, seeking to strengthen the representational power of a CNN by enhancing the quality of spatial encodings throughout its feature hierarchy. In this work, we focus instead on the channel relationship and propose a novel architectural unit, which we term the “Squeeze-and-Excitation” (SE) block, that adaptively recalibrates channel-wise feature responses by explicitly modelling interdependencies between channels. We show that these blocks can be stacked together to form SENet architectures that generalise extremely effectively across different datasets. We further demonstrate that SE blocks bring significant improvements in performance for existing state-of-the-art CNNs at slight additional computational cost. Squeeze-and-Excitation Networks formed the foundation of our ILSVRC 2017 classification submission which won first place and reduced the top-5 error to 2.251%, surpassing the winning entry of 2016 by a relative improvement of ∼25%. Models and code are available at https://github.com/hujie-frank/SENet.
1 INTRODUCTION
CONVOLUTIONAL neural networks (CNNs) have proven to be useful models for tackling a wide range of visual tasks [1], [2], [3], [4]. At each convolutional layer in the network, a collection of filters expresses neighbourhood spatial connectivity patterns along input channels—fusing spatial and channel-wise information together within local receptive fields. By interleaving a series of convolutional layers with non-linear activation functions and downsampling operators, CNNs are able to produce image representations that capture hierarchical patterns and attain global theoretical receptive fields. A central theme of computer vision research is the search for more powerful representations that capture only those properties of an image that are most salient for a given task, enabling improved performance. As a widely-used family of models for vision tasks, the development of new neural network architecture designs now represents a key frontier in this search. Recent research has shown that the representations produced by CNNs can be strengthened by integrating learning mechanisms into the network that help capture spatial correlations between features. One such approach, popularised by the Inception family of architectures [5], [6], incorporates multi-scale processes into network modules to achieve improved perfor- mance. Further work has sought to better model spatial dependencies [7], [8] and incorporate spatial attention into the structure of the network [9].
In this paper, we investigate a different aspect of network design - the relationship between channels. We introduce a new architectural unit, which we term the Squeeze-andExcitation (SE) block, with the goal of improving the quality of representations produced by a network by explicitly modelling the interdependencies between the channels of its convolutional features. To this end, we propose a mechanism that allows the network to perform feature recalibration, through which it can learn to use global information to selectively emphasise informative features and suppress less useful ones.
8 CONCLUSION
In this paper we proposed the SE block, an architectural unit designed to improve the representational power of a network by enabling it to perform dynamic channel-wise feature recalibration. A wide range of experiments show the effectiveness of SENets, which achieve state-of-the-art performance across multiple datasets and tasks. In addition, SE blocks shed some light on the inability of previous architectures to adequately model channel-wise feature dependencies. We hope this insight may prove useful for other tasks requiring strong discriminative features. Finally, the feature importance values produced by SE blocks may be of use for other tasks such as network pruning for model compression.
چکیده
1. مقدمه
2 کارهای مرتبط
3. بلوکهای تحریک و فشار
1. 3 فشردگی: جاسازی اطلاعات جهانی
2. 3 تحریک: کالیبرهسازی مجدد تطبیقی
3. 3 نمونه
4. مدل و پیچیدگی محاسباتی
5 آزمایشها
1. 5طبقهبندی تصویر
2 .5 طبقهبندی صحنه
3 .5 تشخیص شی در COCO
4. 5 رقابت طبقهبندی ILSVRC 2017
6. مطالعه فرسایشی
1. 6 نرخ کاهش
6.2 اپراتور فشردن
3 .6 عملگر هیجانی
6.4 مراحل مختلف
5. 6 استراتژی ادغام
7. نقش بلوک SE
1. 7 اثر فشردگی
2. 7 نقش تحریک
8 نتیجهگیری
منابع
Abstract
1 INTRODUCTION
2 RELATED WORK
3 SQUEEZE-AND-EXCITATION BLOCKS
3.1 Squeeze: Global Information Embedding
3.2 Excitation: Adaptive Recalibration
3.3 Instantiations
4 MODEL AND COMPUTATIONAL COMPLEXITY
5 EXPERIMENTS
5.1 Image Classification
5.2 Scene Classification
5.3 Object Detection on COCO
5.4 ILSVRC 2017 Classification Competition
6 ABLATION STUDY
6.1 Reduction ratio
6.2 Squeeze Operator
6.3 Excitation Operator
6.4 Different stages
6.5 Integration strategy
7 ROLE OF SE BLOCKS
7.1 Effect of Squeeze
7.2 Role of Excitation
8 CONCLUSION
REFERENCES