یادگیری عمیق برای برچسب گذاری و طبقه بندی موسیقی
ترجمه نشده

یادگیری عمیق برای برچسب گذاری و طبقه بندی موسیقی

عنوان فارسی مقاله: یادگیری عمیق برای برچسب گذاری و طبقه بندی موسیقی مبتنی بر صوت: آموزش کامپیوتر برای تشخیص راک از باخ
عنوان انگلیسی مقاله: Deep Learning for Audio-Based Music Classification and Tagging: Teaching Computers to Distinguish Rock from Bach
مجله/کنفرانس: مجله پردازش سیگنال - Signal Processing Magazine
رشته های تحصیلی مرتبط: مهندسی کامپیوتر - هنر
گرایش های تحصیلی مرتبط: مهندسی نرم افزار - هوش مصنوعی - موسیقی
شناسه دیجیتال (DOI): https://doi.org/10.1109/MSP.2018.2874383
دانشگاه: Culture Technology, Korea Advanced Institute of Science and Technology, Daejeon, South Korea
صفحات مقاله انگلیسی: 11
ناشر: آی تریپل ای - IEEE
نوع ارائه مقاله: ژورنال
نوع مقاله: ISI
سال انتشار مقاله: 2019
ایمپکت فاکتور: 7/.097 در سال 2018
شاخص H_index: 155 در سال 2019
شاخص SJR: 1/364 در سال 2018
شناسه ISSN: 1053-5888
شاخص Quartile (چارک): Q1 در سال 2018
فرمت مقاله انگلیسی: PDF
وضعیت ترجمه: ترجمه نشده است
قیمت مقاله انگلیسی: رایگان
آیا این مقاله بیس است: خیر
کد محصول: E11422
فهرست مطالب (انگلیسی)

1- From feature engineering to end-to-end learning

2- Deep-learning models

3- Data sets and tasks

4- Practical guide

5- Applications

6- Limitations and future challenges

References

بخشی از مقاله (انگلیسی)

From feature engineering to end-to-end learning

Humans classify or annotate music based on diverse characteristics extracted from the audio signals. For example, a heavily distorted electric guitar sound with growling vocals is a good indication of metal music. Swing rhythms, syncopation, and chromatic comping by polyphonic instruments (e.g., piano or guitars) are obvious cues that the music is jazz. Translating these acoustic and musical features into numerical representations that computers can interpret is the essence of music classification and tagging. This usually involves a series of computation steps that convert audio content into a time–frequency representation, extract discriminative features, summarize them over time, and repeat the feature extraction and summarization until the proper category for the music can be determined. The way of improving each feature extraction step to achieve the best performance has evolved with advances in learning algorithms from hand engineering based on domain knowledge to end-to-end learning. Humphrey et al. [9] explained the transition in a unified deep architecture model where multiple blocks of affine transformation, nonlinear function, and optional pooling operation are pipelined. Figure 1 illustrates four different feature representation approaches in their framework. In reviewing the evolution of such approaches, we first separate them into two classes: feature engineering and feature learning.