چکیده
الگوریتمهای برچسبزنی بینایی کامپیوتری نقش اساسی در حوزه بینایی سطح پایین ایفا میکنند. از دههها پیش شناخته شده است که این مسائل میتوانند به صورت ظریفی به عنوان مسائل مینیممسازی انرژی گسسته مشتق شده از مدلهای گرافیکی احتمالی (مانند فیلدهای مارکوف تصادفی) فرموله شوند. با وجود پیشرفتهای اخیر در الگوریتمهای استنتاج (مانند برش گراف و الگوریتمهای ارسال پیام)، مسائل مینیممسازی انرژی حاصل عموماً به عنوان غیرقابل حل تلقی میشوند. ظهور محاسبات کوانتومی که امکان ارائه راهحلهای سریعتر برای برخی از مسائل نسبت به روشهای کلاسیک را فراهم میکنند، منجر به افزایش علاقه به استفاده از خواص کوانتومی برای غلبه بر مسائل غیرقابل حل شده است. این مطالعه یک الگوریتم استنتاج مبتنی بر آنیلینگ کوانتومی جدید برای مسائل مینیممسازی انرژی گسسته بینایی کامپیوتری بررسی میکند. تمرکز ما بر تطبیق استریو به عنوان یک مسئله مهم برچسبزنی بینایی کامپیوتری است. به عنوان اثبات مفهوم، ما همچنین از یک حلکننده هیبریدی کوانتومی-کلاسیک ارائه شده توسط سیستم D-Wave برای مقایسه نتایج خود با بهترین الگوریتمهای استنتاج کلاسیک در ادبیات استفاده میکنیم.
۱. مقدمه:
بینایی کامپیوتری (CV) حوزهای از مطالعه است که بر چگونگی دستیابی کامپیوترها به ادراک سطح بالا از تصاویر یا ویدیوهای دیجیتال تمرکز دارد، که میتواند به تصمیمگیری در محیطهای دنیای واقعی کمک کند. در حالی که انسانها به طور معمول محیط را تفسیر میکنند، توانایی کامپیوترها برای درک دنیای واقعی از طریق نمایش آن در تصاویر، همچنان یک مسئله عمدتاً حل نشده است. بسیاری از مسائل در بینایی کامپیوتری به عنوان مسائل برچسبزنی فرموله میشوند. یک مسئله برچسبزنی بینایی کامپیوتری شامل مجموعهای از ویژگیهای تصویر (مانند پیکسلها، لبهها یا بخشهای تصویر) است که ما میخواهیم مقادیر را از مجموعهای از برچسبها (مانند شدت در بازسازی تصویر یا اختلاف در تطبیق استریو و حرکت) برآورد کنیم. بهطور کلی، مسائل برچسبزنی بینایی کامپیوتری با یک مسئله مینیممسازی گسسته مدلسازی میشوند، جایی که یک تابع هدف برای بهینهسازی در مجموعهای از برچسبهای ممکن تعریف میشود. زمانی که این تابع هدف بدی را اندازهگیری میکند، مسئله بهینهسازی اغلب مینیممسازی انرژی نامیده میشود و تابع هدف به عنوان تابع انرژی شناخته میشود. با توجه به ماهیت ذاتاً پیچیده مسائل مینیممسازی بینایی کامپیوتری، محققان همواره به دنبال الگوریتمهای کارآمد برای تقریب هرچه سریعتر و دقیقتر به راهحل بهینه بودهاند. بنابراین، پیشرفت قابل توجهی در الگوریتمهای مینیممسازی برای مسائل بینایی کامپیوتری از روشهای کلاسیک در دهه 90، مانند آنیلینگ شبیهسازی شده [12]، آنیلینگ میدان متوسط [21] و حالتهای شرطی تکرار شده (ICM) [5] تا الگوریتمهای پیشرفته اخیر، مانند مبتنی بر برش گراف [8, 6, 9, 29, 50, 51] و مبتنی بر ارسال پیام [40, 19, 54] مشاهده شده است (ما خوانندگان علاقهمند را به مطالعات مقایسهای اخیر در مورد الگوریتمهای مینیممسازی بینایی کامپیوتری [45, 43, 28, 44, 25] ارجاع میدهیم). با وجود تحقیقات گسترده و حتی در نظر گرفتن پیشرفتهای اخیر با استفاده از استراتژیهای مبتنی بر یادگیری عمیق [49]، که از نظر محاسباتی گران هستند، مسائل برچسبزنی بینایی کامپیوتری همچنان مسائل باز با راهحلهای کامل (بهینه) در نظر گرفته میشوند.
بنابراین، محققان همواره به دنبال جایگزینهایی برای حل این مسئله بودهاند. با ظهور محاسبات کوانتومی که پیچیدگی زمانی بالقوه کمتری را برای برخی از مسائل نسبت به بهترین همتایان کلاسیک [14، 26، 53] وعده میدهند، مطالعات اخیر بر استفاده از خواص کوانتومی برای غلبه بر مسائل کلاسیک غیرقابل حل با استفاده از آنیلینگ کوانتومی (QA) تمرکز کردهاند. سیستم D-Wave اولین شرکتی بود که واحد پردازش کوانتومی (QPU) ساخت که به طور طبیعی حالت پایه یک نمایش خاص از مسئله، یعنی مدل ایزینگ [38] را تقریب میزند. اهمیت مدلهای ایزینگ در این است که میتوان با یافتن حالت پایه متناظر، انواع مختلفی از مسائل بهینهسازی NP- hard را حل کرد [36، 10، 11]. با وجود آزمایشهای امیدوارکننده [14، 26[ QPUهای D-Wave به طور خاص برای حل مسائل بهینهسازی طراحی شدهاند و این امر باعث میشود که آنها کمتر از سایر رویکردهای محاسبات کوانتومی همه کاره باشند. این امر دامنه کاربرد آنها را عمدتاً به وظایف بهینهسازی و نمونهبرداری محدود میکند، در حالی که ممکن است برای نیازهای محاسباتی عمومیتر مناسب نباشند. همچنین، QPUهای D-Wave اتصال محدود کیوبیت را نشان میدهند و کمبود کیوبیتهای موجود از زمان ساخت D-Wave One 128 کیوبیت در سال 2011 تا D-Wave Advantage 5000 کیوبیت جدیداً منتشر شده، بهطور مداوم چالشبرانگیز بوده است. بنابراین، مسائل بزرگ بینایی کامپیوتری شامل توابع بسیار غیر محدب در فضای جستجوی هزاران بعدی به طور گسترده بررسی نشدهاند تا ببینند آیا QA میتواند مزایایی در مسائل واقعی بینایی کامپیوتری ارائه دهد یا خیر. در سالهای اخیر، علاقه زیادی به بینایی کامپیوتری کوانتومی (QCV) وجود داشته است که عمدتاً به دلیل پیشرفتهای اخیر در معماریهای QPU D-Wave و قابلیتهای آنها در حل مسائل بهینهسازی، مانند طبقهبندی [1، 15، 32، 31، 30]، همگامسازی [7، 2]، ردیابی [56]، برازش [16، 18]، تشخیص [34] و تطبیق [13، 24، 3، 55، 4] وجود دارد. با این حال، هر روش از یک مدل کوانتومی متمایز برای نمایش مسئله مربوطه بینایی کامپیوتری استفاده میکند تا بتوان آن را در یک QPU D-Wave مینیمم کرد. یک چارچوب همه کاره برای تبدیل یک مسئله بینایی کامپیوتری به یک مدل کوانتومی مناسب دارای ارزش قابل توجهی است. چنین راهحل انعطافپذیری نه تنها فرآیند تطبیق مسائل مختلف بینایی کامپیوتری برای محاسبات کوانتومی را ساده میکند، بلکه راههای جدیدی را برای بهرهبرداری از قدرت محاسبات کوانتومی در حل مسائل پیچیده بهینهسازی باز میکند.
7. نتیجهگیری
الگوریتمهای برچسبگذاری CV نقش محوری در حوزه بینایی سطح پایین دارند. از دههها پیش شناخته شده است که این مسائل میتوانند به زیبایی به عنوان مسائل مینیمم سازی انرژی گسسته مشتق شده از مدلهای گرافیکی احتمالی فرموله شوند. علیرغم پیشرفتهای اخیر در الگوریتمهای استنتاج، مسائل مینیمم سازی انرژی حاصل معمولاً به عنوان غیرقابل حل در نظر گرفته میشوند. در این مطالعه، یک روش مبتنی بر QA برای حل مسائل بهینهسازی گسسته CV، به ویژه برای تطبیق استریو، ارائه کردیم. با این حال، مدل کوانتومی پیشنهادی ما محدود به تطبیق استریو نیست و میتواند برای مسائل مختلف برچسبگذاری CV مانند تقسیمبندی تصویر، بازسازی تصویر، ثبت تصویر، جریان نوری، تشخیص شیء و پر کردن تصویر استفاده شود. ما اثبات صحت را برای نشان دادن معادل بودن مدل کوانتومی پیشنهادی با تابع انرژی مینیمم سازی گسسته اصلی ارائه کردیم. به دلیل محدودیت کیوبیتهای موجود در سختافزار کوانتومی، ما نتوانستیم تابع انرژی تطبیق استریو را مستقیماً روی QPU مینیمم کنیم. در عوض، از یک حلکننده هیبریدی D-Wave برای نشان دادن امکانپذیری مدل کوانتومی پیشنهادی خود استفاده کردیم. نتایج ما راهحلهای امیدوارکنندهای با انرژیهای پایینتر در مقایسه با بهترین الگوریتمهای مینیمم سازی کلاسیک در ادبیات نشان داد. هنگامی که کیوبیتهای کافی در دسترس باشد، ممکن است موضوع تحقیقات آینده تعیین شود که آیا استنتاج CV مبتنی بر کوانتومی مزایایی نسبت به روشهای مینیمم سازی کلاسیک از نظر دقت و سرعت ارائه میدهد یا خیر.
Abstract
Computer Vision (CV) labeling problems play a pivotal role in low-level vision. For decades, it has been known that these problems can be elegantly formulated as discrete energy-minimization problems derived from probabilistic graphical models such as Markov Random Fields (MRFs). Despite recent advances in MRF inference algorithms (such as graph-cut and message-passing methods), the resulting energy-minimization problems are generally viewed as intractable. The emergence of quantum computations, which offer the potential for faster solutions to certain problems than classical methods, has led to an increased interest in utilizing quantum properties to overcome intractable problems. Recently, there has also been a growing interest in Quantum Computer Vision (QCV), hoping to provide a credible alternative/assistant to deep learning solutions. This study investigates a new Quantum Annealing-based inference algorithm for CV discrete energy minimization problems. Our contribution is focused on Stereo Matching as a significant CV labeling problem. As a proof of concept, we also use a hybrid quantum–classical solver provided by D-Wave System to compare our results with the best classical inference algorithms in the literature. Our results show that Quantum Annealing can yield promising results for Stereo Matching problems, with improved accuracy on certain stereo images and competitive performance on others.
1. Introduction
Computer Vision (CV) is a field of study focusing on how computers gain high-level perception from digital images/videos, which can help decision-making in real-world environments. While humans routinely interpret the environment, enabling computers to perceive the real world from its representation through images/videos remains a largely unsolved problem. Many problems in CV are formulated as labeling problems. A CV labeling problem consists of a set of image features (such as pixels, edges, or image segments) on which we want to estimate quantities from a set of labels [1] (such as intensity in Image Restoration or disparity in Stereo Matching and Motion). Generally, CV labeling problems are modeled by a discrete minimization problem, where an objective function is defined to be optimized over a set of possible labeling solutions. When this objective function measures the badness, the optimization problem is often called energy minimization, and the objective function is referred to as an energy function [2]. Given the intrinsically tricky nature of CV minimization problems, researchers have always been looking for efficient algorithms to approximate the optimal solution as fast and accurately as possible. Thus, there has been significant development in minimization algorithms for CV problems from the classical methods in the 1990s, such as Simulated Annealing [3], Mean-field Annealing [4], and Iterated Conditional Modes (ICM) [5] to the recent state-of-the-art algorithms, such as graph-cut based [6], [7], [8], [9], [10], [11] and message-passing based [12], [13], [14] approaches (we refer interested readers to the most recent comparative studies on CV minimization algorithms [15], [16], [17], [18], [19]). Despite being extensively researched and even considering the most recent advances using deep learning-based strategies [20], which are computationally expensive, CV labeling problems are still considered open problems with no prefect (optimal) solutions due to the extensive range of mathematics involved and the complexity of recovering unknowns from insufficient information.
Therefore, researchers have always been looking for alternatives to tackle the problem. With the advent of quantum computations which promise potentially lower-time complexity on certain problems than the best-classical counterparts [21], [22], [23], recent studies have focused on leveraging quantum properties to overcome intractable classical problems using Quantum Annealing (QA). D-Wave Systems was the first company to build a Quantum Processing Unit (QPU) that naturally approximates the ground state of a particular problem representation, namely Ising model [24]. The importance of Ising models is that one can solve a variety of NP-hard optimization problems by finding the corresponding ground state [25], [26], [27]. Despite the promising experiments [21], [22], D-Wave QPUs are specifically designed to solve optimization problems, making them less versatile than other quantum computation approaches. This restricts their application domain primarily to optimization and sampling tasks, while they may not be suitable for more general-purpose computing requirements. Also, D-Wave QPUs exhibit limited qubit connectivity, and the scarcity of available qubits has been consistently challenging, from the 128-qubit D-Wave One built in 2011 to the newly released 5000-qubit D-Wave Advantage. Therefore, large CV problems involving highly non-convex functions in a search space of many thousands of dimensions have not been widely explored to see if QA can provide advantages in real-world CV problems. In recent years, there has been a growing interest in Quantum Computer Vision (QCV), largely fueled by recent advancements in D-Wave QPU architectures and their capabilities in solving optimization problems, such as Classification [28], [29], [30], [31], [32], Synchronization [33], [34], Tracking [35], Fitting [36], [37], Detection [38], and Matching [39], [40], [41], [42], [43] problems. However, each method employs a distinct quantum model to represent the respective CV problem, allowing it to be minimized on a D-Wave QPU. A versatile framework for converting a CV problem into an appropriate quantum model holds significant value. Such a flexible solution not only simplifies the process of adapting various CV problems for quantum computation but also opens up new avenues for harnessing the power of quantum computation in addressing intricate optimization tasks.
7. Conclusion
CV labeling algorithms play a pivotal role in the domain of low-level vision. For decades, it has been known that these problems can be elegantly formulated as discrete energy-minimization problems derived from probabilistic graphical models. Despite recent advances in inference algorithms, the resulting energy-minimization problems are generally viewed as intractable. In this study, we presented a QA-based method for solving CV discrete optimization problems, specifically for Stereo Matching. However, our proposed quantum model is not limited to Stereo Matching and can be applied to various CV labeling problems such as Image Segmentation, Image Restoration, Image Registration, Optical Flow, Object Detection, and Image Inpainting. We provided proof of correctness to demonstrate the equivalence of the proposed quantum model to the original discrete minimization energy function. Due to the limited availability of qubits on the quantum hardware, we were not able to minimize the Stereo Matching energy function directly on the QPU. Instead, we utilized a D-Wave hybrid solver to show the feasibility of our proposed quantum model. Our results showed promising solutions with lower energies compared to the best classical minimization algorithms in the literature. When there are enough qubits available, it may be a subject for future research to determine if a quantum-based CV inference offers any advantages over classical minimization methods in terms of accuracy and speed.
چکیده
۱. مقدمه:
2. تطبیق استریو
۳. آنیلینگ کوانتومی
4. تطبیق استریوی کوانتومی
اثبات صحت
۵. ارزیابی و نتایج تجربی روی پچهای تصویر استریو
5.1. پیچیدگی کیوبیت
5.2. نتایج تجربی
6. تعمیم
7. نتیجهگیری
بیانیه مشارکت نویسندگی CRediT
اعلام منافع رقابتی
تشکر
در دسترس بودن دادهها
منابع
Abstract
1. Introduction
2. Stereo matching
3. Quantum annealing
4. Quantum stereo matching
Proof of correctness
5. Evaluation and experimental results on stereo image patches
5.1. Qubit complexity
5.2. Experimental results
6. Generalization
7. Conclusion
CRediT authorship contribution statement
Declaration of competing interest
Acknowledgments
Data availability
References
این محصول شامل پاورپوینت ترجمه نیز می باشد که پس از خرید قابل دانلود می باشد. پاورپوینت این مقاله حاوی 24 اسلاید و 6 فصل است. در صورت نیاز به ارائه مقاله در کنفرانس یا سمینار می توان از این فایل پاورپوینت استفاده کرد.
در این محصول، به همراه ترجمه کامل متن، یک فایل ورد ترجمه خلاصه نیز ارائه شده است. متن فارسی این مقاله در 9 صفحه (2800 کلمه) خلاصه شده و در داخل بسته قرار گرفته است.
علاوه بر ترجمه مقاله، یک فایل ورد نیز به این محصول اضافه شده است که در آن متن به صورت یک پاراگراف انگلیسی و یک پاراگراف فارسی درج شده است که باعث می شود به راحتی قادر به تشخیص ترجمه هر بخش از مقاله و مطالعه آن باشید. این فایل برای یادگیری و مطالعه همزمان متن انگلیسی و فارسی بسیار مفید می باشد.
بخش مهم دیگری از این محصول لغت نامه یا اصطلاحات تخصصی می باشد که در آن تعداد 55 عبارت و اصطلاح تخصصی استفاده شده در این مقاله در یک فایل اکسل جمع آوری شده است. در این فایل اصطلاحات انگلیسی (تک کلمه ای یا چند کلمه ای) در یک ستون و ترجمه آنها در ستون دیگر درج شده است که در صورت نیاز می توان به راحتی از این عبارات استفاده کرد.