چکیده
یادگیری کد های باینری فشرده برای وظیفه بازیابی تصاویر با استفاده از شبکه های عصبی عمقی ، باعث شد است که تحقیقات توجهشان به این زمینه جلب شود. اما، تمرین شبکه های هشینگ عمقی برای این وظیفه چالش بر انگیز می باشد زیرا محدودیت های باینری بر روی این کد ها وجود دارد، این شبکه ها ویژگی حفظ شباهت را دارند و نیاز به حجم گسترده ای از تصاویر نام گذاری شده وجود دارد. بر اساس دانش ما، هیچ کدام از روش های تحقیقاتی تمام این چالش ها را به صورت کامل در یک قالب کاری یکنواخت بررسی نکرده است. در این کار، ما یک روش یادگیری نقطه به نقطه جدید را ارائه می کنیم که برای این وظیفه مورد استفاده قرار می گیرد. که در این روش، شبکه به صورتی تمرین داده می شود که بتواند کد های باینری را به صورت مستقیم از پیکسل های تصاویر به دست بیاورد بدون این که نیاز به تفسیر دستی تصاویر وجود داشته باشد. به صورت خاص، باری کار با محدودیت های باینری غیر روان، ما یک تابع هدررفت محدود جفتی را ارائه می کنیم که به صورت همزمان فاصله بین جفت های کد های ترکیبی را اندازه گیری کرده و خطای کمی سازی باینری را هم محاسبه می کند. برای تمرین دادن شبکه ها با تابع ضرر پیشنهاد شده، ما یک برنامه موثر را به عنوان الگوریتم یادگیری ارائه می کنیم. به علاوه، برای ایجاد کردن تصاویر تمرین مشابه یا غیر مشابه برای تمرین دادن شبکه، ما از مدل های سه بعدی بازسازی شده از تصاویر بدون نام برای تولید خودکار جفت تصاویر تمرینی به صورت گسترده، استفاده می کنیم. آزمایش های گسترده بر روی مجموعه داده های معیار بازیابی تصاویر، نشان داده است که این روش نسبت به جدید ترین روش های ارائه فشرده تصاویر در رابطه با مسئله بازیابی تصاویر، بهبود یافته است.
1. مقدمه
ما به یادگیری نمایش تصاویر فشرده برای مسئله بازیابی تصاویر مبتنی بر محتوا به صورت بزرگ مقیاس علاقه مند هستیم. تحقیقات اخیر از روش های یادگیری برای مسئله بازیابی تصاویر استفاده کرده است و در مقایسه با روش های ویژگی های محلی متداول، توانسته است به بهبود های مختلفی برسد. در مرجع های 41 و 3 ، نویسنده ها نشان می دهند که استفاده از ویژگی های مقادیر واقعی از شبکه های از پیش آموزش دیده کلی را می توان برای ارائه تصاویر استفاده کرد و این روش باعث می شود که نتایج بسیار خوبی برای بازیابی تصاویر به دست بیاید. در مرجع [5و1و13] ، نویسنده ها همچنین نشان داده اند که با اصلاح شبکه های عمقی از پیش تعیین شده برای وظیفه بازیابی تصاویر، می توان عملکرد بازیابی تصاویر را بهبود بخشید.
Abstract
Learning compact binary codes for image retrieval task using deep neural networks has attracted increasing attention recently. However, training deep hashing networks for the task is challenging due to the binary constraints on the hash codes, the similarity preserving property, and the requirement for a vast amount of labelled images. To the best of our knowledge, none of the existing methods has tackled all of these challenges completely in a unified framework. In this work, we propose a novel end-to-end deep learning approach for the task, in which the network is trained to produce binary codes directly from image pixels without the need o f manual annotation. In particular, to deal with the non-smoothness of binary constraints, we propose a novel pairwise constrained loss function, which simultaneously encodes the distances between pairs of hash codes, and the binary quantization error. In order to train the network with the proposed loss function, we propose an efficient parameter learning algorithm. In addition, to provide similar / dissimilar training images to train the network, we exploit 3D models reconstructed from unlabelled images for automatic generation of enormous training image pairs. The extensive experiments on image retrieval benchmark datasets demonstrate the improvements of the proposed method over the state-of-the-art compact representation methods on the image retrieval problem.
1. Introduction
We are interested in learning compact image representations for large scale content-based image retrieval problem. Recent researches have applied deep learning to image retrieval problem and achieved improvements in comparison to traditional local feature approaches. In [41, 3], the authors show that using the real-valued features from off-theshelf pretrained networks to represent images achieve impressive retrieval results. In [5, 1, 13] the authors further show that fine-tuning pretrained deep networks for image retrieval task helps to boost the retrieval performance. However, to fine-tune a deep network, it requires an enormous amount of labelled images which is not easy to achieve.
چکیده
1. مقدمه
2. کار های مربوطه
3. شبکه های هشینگ عمقی محدود باینری بدون تفسیر دستی
3.1 معماری شبکه
3.2 داده های تمرینی
3.3 ضرر محدود باینری جفتی
3.4 یادگیری پارامتر ها
4. آزمایش ها
4.1 خط مبنا و مجموعه داده ها
4.2 مقایسه با روش های ترکیب بدون سرپرست
4.3 مقایسه با روش های ترکیب با سرپرست
4.4 مقایسه با نمایش تصاویر با مقادیر واقعی
5. جمع بندی
Abstract
1. Introduction
2. Related Work
3. Binary Constrained Deep Hashing Network without Manual Annotation
3.1. Network architecture
3.2. Training data
3.3. Pairwise binary constrained loss
3.4. Parameter learning
4. Experiments
4.1. Dataset and baselines
4.2. Comparison with unsupervised hashing methods
4.3. Comparison with supervised hashing methods
4.4. Comparison with real-valued image representations
5. Conclusion