چکیده
بسیاری از برنامه های کاربردی دنیای واقعی شامل طبقه بندی جریان های داده ای چندگانه می شود. با این حال، اکثر مدل های طبقه بندی شده ی موجود، بیشتر به دسته بندی جریان های داده ای تک گانه متمرکز شدند. یادگیری در سناریوهای جریان چندگانه، چالش برانگیزتر است، زیرا سیستم های طبقه بندی باید قادر به در نظر گرفتن چندین ویژگی، مانند حجم داده های بزرگ، همبستگی های مطلب و تغییرات مفهومی باشند. در این مقاله، ما یک مدل مؤثر و کارآمد برای طبقه بندی جریان چند گانه مبتنی بر ML-KNN (Multi-Label KNN) پیشنهاد می کنیم [31] و یک تابع تعادل AdjustWeight را برای ترکیب پیش بینی هایی که می تواند به صورت کارآمد داده ی جریانی چندگانه ی پرسرعت را با تغییرات مفهومی پردازش کند، معرفی می کنیم. نتایج تجربی نشان می دهد که رویکرد ما دقتی بالا و هزینه ی ذخیره سازی پایینی را به همراه دارد، و از روش های موجود ML-KNN و SMART برتر است [14].
1. مقدمه
با توجه به پیشرفت های اخیر در شبکه های کامپیوتری و ذخیره سازی داده ها، بسیاری از داده ها با سرعت رو به رشدی در قالب جریان، تولید و انباشته می شوند. مانند اطلاعات خرید آنلاین، اطلاعات آمایشی، اخبار آنلاین، اطلاعات بازار سهام، ایمیل ها، معاملات کارت اعتباری، و غیره. این داده ها، فوری، پیوسته و منظم هستند، و نیازمند تجزیه و تحلیل سریع و موثر می باشند. برای مثال، در سیستم های پست الکترونیکی آنلاین، ایمیل های ورودی باید به دسته های مختلف، مانند اسپم ها، ایمیل های کسب و کار، ایمیل های شخصی، ایمیل های مهم، و غیره طبقه بندی شوند. این کار طبقه بندی، مثال هر جریانی با یک برچسب تک گانه ی کلاس l از یک مجموعه از برچسب های L (| L |> 1)، طبقه بندی جریانی داده های تک گانه نامیده می شود و در تاریخچه، به صورت مفصلی مورد مطالعه قرار گرفته است [3،4،11،20،33].
Abstract
Many real world applications involve classification of multilabel data streams. However, most existing classification models mostly focused on classifying single-label data streams. Learning in multi-label data stream scenarios is more challenging, as the classification systems should be able to consider several properties, such as large data volumes, label correlations and concept drifts. In this paper, we propose an efficient and effective ensemble model for multi-label stream classification based on ML-KNN (Multi-Label KNN) [31] and propose a balance AdjustWeight function to combine the predictions which can efficiently process high-speed multi-label stream data with concept drifts. The empirical results indicate that our approach achieves a high accuracy and low storage cost, and outperforms the existing methods ML-KNN and SMART [14].
1 Introduction
Due to the recent advances in computer networks and data storage, many data are produced and accumulated at an ever increasing rate in the form of stream. Such as online shopping information, logistics information, online news, stock market data, emails, credit card transactions, etc. These data are real-time, continuous and orderly arrival, and need to be analyzed promptly and effectively. For example, in online mail systems, incoming emails need to be classified into different categories, like spams, business emails, personal emails, important emails, etc. This classification task, each stream example is associated with a single class label l from a set of labels L(|L| > 1), is called single-label data stream classification, and has been extensively studied [3,4,11,20,33] in the literature.
چکیده
1. مقدمه
2. موارد مرتبط
3. اقدامات
3-1. {ML-KNN {31
4. طبقه بندی گروه های وزنی
4-1. ایده ی اصلی
4-2. آموزش و به روز رسانی طبقه بندی کننده
4-3. وزن دار کردن گروهی
4-4. الگوریتم طبقه بندی
5. آزمایشات
الف. کیفیت طبقه بندی در مقایسه با ML – KNN
ب) کیفیت طبقه بندی در مقایسه با {SMART {14
6. نتیجه گیری
Abstract
1 Introduction
2 Related Work
3 Preliminaries
3.1 ML-KNN
4 Weighted Ensemble Classification
4.1 Basic Idea
4.2 Classifier Training and Updating
4.3 Ensemble Weighting
4.4 The Classification Algorithm
5 Experiments
6 Conclusion