چکیده
تشخیص موسیقی نوری (OMR) شاخه ای از تجزیه و تحلیل تصویری سند محسوب می شود که در پی تبدیل تصاویر پارتیتورها به صورتی قابل خوانش توسط کامپیوتر می باشد. به رغم دهه ها تحقیق، تشخیص پارتیتورهای دستنویس که در اصل نتنگاری غربی است، همچنان یک مساله مفتوح بوده و آثار معدودی وجود دارند که تنها بر روی مرحله خاصی از OMR تمرکز نموده اند. در اثر حاضر، ما سیستم کاملی از تشخیص موسیقی دستنویس (HMR) را بر اساس شبکه های عصبی بازگشتی پیچشی، داده افزایی و یادگیری انتقالی پیشنهاد نمودیم که می تواند به عنوان مبنایی برای جامعه تحقیقاتی عمل نماید.
1. مقدمه
برای قرن های متمادی، ثبت موسیقی و انتقال آن به نسل های مختلف از طریق صفحات نت موسیقی صورت می پذیرفته است. شگفت انگیز نیست که دیجیتال سازی و آوانگاری پارتیتورهای موجود در آرشیوها و موزه ها اهمیت چشمگیری در حفظ و اشاعه میراث موسیقایی ما یافته است. با توجه به آنکه هنوز هزاران پارتیتور وجود دارند که در صف آوانگاری قرار دارند، آوانگاری دستی ناممکن بوده و لذا تحقیقات در زمینه روش های آوانگاری خودکار موسیقی، ضرورت می یابد.
تشخیص موسیقی نوری (OMR) را می توان به عنوان تبدیل تصاویر پارتیتورها به صورتی قابل خوانش توسط ماشین تعریف نمود (به عنوان مثال MusicXML، MEI، MIDI و غیره). حوزه مزبور، برای بیش از پنج دهه حوزه تحقیقاتی فعالی محسوب می شده [1،2] و نرم افزارهای OMR تجاری بسیاری مانند PhotoScore و یا SharpEye وجود دارند که در شرایط نسبتاً مناسب از عملکرد مناسبی برخوردارند. با این حال، در برخورد با پارتیتورهای دستنویس، دقت آن ها به صورت چشمگیری کاهش می یابد که عمدتاً به دلیل تنئوع زیاد در سبک دستنویسی است. متاسفانه، اغلب آهنگ های موسیقی ناشناخته موجود در آرشیوها در واقع، پارتیتورهای دستنویس می باشند. به همین دلیل، برای غلبه بر این محدودیت، فعالیت های پژوهشی بیشتری باید بدین امر اختصاص یابند.
Abstract
Optical Music Recognition (OMR) is the branch of document image analysis that aims to convert images of musical scores into a computer-readable format. Despite decades of research, the recognition of handwritten music scores, concretely the Western notation, is still an open problem, and the few existing works only focus on a specific stage of OMR. In this work, we propose a full Handwritten Music Recognition (HMR) system based on Convolutional Recurrent Neural Networks, data augmentation and transfer learning, that can serve as a baseline for the research community.
1. Introduction
For centuries, music has been written and transmitted among generations through sheet music. Not surprisingly, the digitization and transcription of music scores existing in archives and museums is of paramount importance to preserve and disseminate our musical heritage. Given that there are still thousands of music scores waiting to be transcribed, a manual transcription becomes unfeasible, and therefore, the research on methods for automatically transcribing music becomes necessary.
Optical Music Recognition (OMR) can be defined as the conversion of music score images into a machine-readable format (e.g. MusicXML, MEI, MIDI, etc.). It has been an active research field for more than five decades [1,2], and there are many commercial OMR software such as PhotoScore1 or SharpEye2 with good performance under relatively good conditions. However, their accuracy dramatically decreases when dealing with handwritten scores, mainly because of the high variability in the handwriting style. Unfortunately, most of the still unknown music compositions existing in archives are indeed handwritten music scores. For this reason, more research effort must be devoted to overcoming this limitation
چکیده
1. مقدمه
2. مطالعات مرتبط
2.1. رویکردهای سنتی
2.2. رویکردهای مبتنی بر یادگیری عمیق
2.3. رویکردهای مربوط به پارتیتورهای دستنویس
2.4. خلاصه
3. معماری پیشنهادی
4. داده افزایی و یادگیری انتقالی
5. آزمایش
5.1. مجموعه داده ها
5.2. ارزیابی
5.3. نتایج مربوط به اسناد چاپی
5.4. نتایج مربوط به اسناد دستنویس
5.5. مقایسه با نرم افزار تجاری OMR
5.6. بحث
6. نتیجه گیری و کار آینده
منابع
Abstract
1. Introduction
2. Related work
2.1. Traditional approaches
2.2. Deep learning-based approaches
2.3. Approaches for handwritten scores
2.4. Summary
3. Proposed architecture
4. Data augmentation and transfer learning
5. Experimentation
5.1. Datasets
5.2. Evaluation
5.3. Results on printed documents
5.4. Results on handwritten documents
5.5. Comparison with commercial OMR software
5.6. Discussion
6. Conclusions and future work
Acknowledgments
Appendix A. Supplementary materials