چکیده
پیش زمینه: نیاز پایه و اساسی برای سیستم های آنالیز تصویر مبتنی بر هوش مصنوعی (AI)، که می بایست در طب بالینی ادغام شوند، از استواری و قابلیت اطمینان بالایی برخوردار است. تغییرات جزئی و اندک در نحوه ی بدست آوردن آن تصاویر، برای مثال، در طول غربالگری روتین سرطان پوست، نباید تشخیص چنین سیستم های کمکی (سیستم های کمک یار پزشک) را تغییر دهد.
هدف: هدف کمی سازی و سنجش این است که درهم ریختگی ها و تغییرات جزئی تصویر تا چه میزان طبقه بندی ضایعه ی پوستی به واسطه ی شبکه ی عصبی پیچشی (کانولوشن) (CNN) را تحت تأثیر قرار می دهند و همچنین بررسی سه راه حل ممکن و عملی برای این مشکل است (داده افزایی اضافی، افزایش زمان تست، خوشنماسازی).
روش ها: ما سه معماری رایج و متداول CNN را برای ایجاد تمایز بین تصاویر درموسکوپی ملانوما یا خال سرطانی و خال های مادرزادی تمرین کرده و به کار بردیم. متعاقبا، عملکرد و حساسیت آنها نسبت به تغییرات جزئی (شکنندگی و عدم انعطاف) بر روی دو مجموعه ی امتحانی متمایز با تصاویر متعدد برای هر ضایعه تست و امتحان شد. برای مجموعه ی نخست، تغییرات تصاویر، مثل چرخش یا بزرگنمایی (زوم)، به صورت مصنوعی ایجاد شدند. مجموعه ی دوم تغییرات طبیعی را دربرمیگرفت که از چندین عکس گرفته شده از همان ضایعات ناشی می شدند.
نتایج: تمامی معماری ها شکنندگی و عدم انعطاف در مجموعه امتحانی مصنوعی و طبیعی را نشان دادند. سه روش بررسی شده قادر به کاهش شکنندگی و عدم انعطاف تا درجات مختلف بودند درحالیکه همچنان عملکرد را حفظ می کردند. ارتقا و بهبود دیده شده برای مجموعه امتحانی مصنوعی بیشتر از طبیعی بود، جایی که پیشرفت ها جزئی و اندک بودند.
نتیجه گیری: تغییرات جزئی تصاویر، نسبتا نامشخص برای انسان ها، می توانند روی استواری و قابلیت اطمینان شبکه های عصبی پیچشی (CNNs) متمایز کننده ی ضایعات پوستی تأثیرگذار باشند. این تأثیر را می توان از طریق روش هایی که در اینجا تست و امتحان شده اند کاهش داد، اما نمی توان آن را کاملا حذف و برطرف کرد. لذا، تحقیقات بیشتر به منظور حفظ و تقویت عملکرد طبقه بندی کننده های (جداکننده های) هوش مصنوعی (AI) در جهت تسهیل انتقال چنین سیستم هایی به کلینیک و درمانگاه مورد نیاز می باشد.
5- نتیجه گیری
تغییرات جزئی و اندک تصویر، که برای انسان ها تاحدودی نامعلوم و نامشخص هستند، می توانند روی سطح اطمینان و تشخیص شبکه های عصبی پیچشی متمایزکننده ی ضایعات پوستی تأثیر بگذارند. این تأثیر با استفاده از روش هایی که در اینجا تست و امتحان شدند کاهش یافت اما کاملا برطرف نشد. بنابراین، ما می خواهیم به متخصصان و دست اندرکاران یادگیری عمیق و پزشکان حوزه ی درماتولوژی بلکه پزشکان به طور کلی یادآوری کنیم که شکنندگی و عدم انعطاف می بایست صراحتا در رأس کار قرار گرفته و به عنوان هدف مد نظر قرار بگیرد و به منظر تسهیل انتقال از آزمایشگاه به کلینیک باید بر آن غلبه کرد.
Abstract
Background A basic requirement for artificial intelligence (AI)–based image analysis systems, which are to be integrated into clinical practice, is a high robustness. Minor changes in how those images are acquired, for example, during routine skin cancer screening, should not change the diagnosis of such assistance systems.
Objective To quantify to what extent minor image perturbations affect the convolutional neural network (CNN)–mediated skin lesion classification and to evaluate three possible solutions for this problem (additional data augmentation, test-time augmentation, anti-aliasing).
Methods We trained three commonly used CNN architectures to differentiate between dermoscopic melanoma and nevus images. Subsequently, their performance and susceptibility to minor changes (‘brittleness’) was tested on two distinct test sets with multiple images per lesion. For the first set, image changes, such as rotations or zooms, were generated artificially. The second set contained natural changes that stemmed from multiple photographs taken of the same lesions.
Results All architectures exhibited brittleness on the artificial and natural test set. The three reviewed methods were able to decrease brittleness to varying degrees while still maintaining performance. The observed improvement was greater for the artificial than for the natural test set, where enhancements were minor.
Conclusions Minor image changes, relatively inconspicuous for humans, can have an effect on the robustness of CNNs differentiating skin lesions. By the methods tested here, this effect can be reduced, but not fully eliminated. Thus, further research to sustain the performance of AI classifiers is needed to facilitate the translation of such systems into the clinic.
5. Conclusions
Minor image changes, relatively inconspicuous for humans, can have an effect on the confidence and diagnosis of CNNs differentiating skin lesions. Using the methods tested here, this effect was reduced but not fully eliminated. Therefore, we would like to remind deep learning practitioners and physicians in dermatology but also in medicine in general, that brittleness needs to be explicitly targeted and overcome to facilitate translation from bench-to-bedside.
چکیده
1- مقدمه
2- مواد و روش ها
1-2 طرح تحقیق و مطالعه
2-2 مجموعه داده ها
3-2 پیشرفت و بسط طبقه بندی کننده
4-2 روش هایی برای کاهش شکنندگی و عدم انعطاف
5-2 آنالیز و تحلیل
3- نتایج
1-3 عملکرد پایه و مبنا و شکنندگی (عدم انعطاف)
2-3 اثربخشی روش های امتحان شده روی تغییرات مصنوعی
3-3 اثربخشی روش های تست و امتحان شده روی تغییرات طبیعی
4- بحث و گفتگو
1-4 کاربردها و مفاهیم عملی
2-4 محدودیت ها
5- نتیجه گیری
منابع
Abstract
1. Introduction
2. Materials and methods
2.1. Study design
2.2. Data sets
2.3. Classifier development
2.4. Methods to reduce brittleness
2.5. Analysis
3. Results
3.1. Baseline performance and brittleness
3.2. Effectiveness of tested methods on artificial transformations
3.3. Effectiveness of tested methods on natural transformations
4. Discussion
4.1. Practical implications
4.2. Limitations
5. Conclusions
References