چکیده
هرزنامه در هر نوع و شکلی همچنان به طور فزاینده به آسیب رسانی خود ادامه می دهد. روش های مختلفی از جمله تکنیک های ماشین بردار پشتیبان (SVM) برای آموزش فیلترینگ هرزنامه و طبقه بندی آن ها پیشنهاد داده شده است. با این حال، آموزش SVM یک فرآیند به شدت محاسباتی است. با این حال، آموزش SVM یک فرآیند به شدت محاسباتی است. این مقاله یک الگوریتم SVM موازی مبتنی بر نگاشت کاهش را برای آموزش فیلتر مقیاس پذیر هرزنامه ارائه می کند. با توزیع، پردازش و بهینه سازی زیرمجموعه های داده های آموزش در بین چندین نود رایانه ای مشارکت کننده، روش SVM موازی زمان آموزش را به طور قابل توجهی کاهش می دهد. مفاهیم هستی شناسی برای به حداقل رساندن تاثیر افت دقت در حین توزیع داده های مورش در بین برخی از طبقه بندی کننده های SVM به کار گرفته می شوند. نتایج تجربی (آزمایشی) نشان می دهند که تقویت مبتنی بر هسته شناسی سبب بهبود سطح دقت تکنیک SVM موازی فراتز ار تکنیک ترتیبی اصلی می شود.
1. مقدمه
امروزه کل اکوسیستم ایمیل (پست الکترونیکی) به ابزار ارتباطی فراگیر و پیشرفته ای تبدیل شده است. محبوبیت و در دسترس بودن گسترده آن فرصتی را برای مدل های سودآور کسب و کار مبتنی بر ارسال ایمیل های متعدد یا حتی اسپم ایجاد کرده است. انتشار هرزنامه به ابعاد گسترده ای رسیده است. خسارت های ناشی از هرزنامه ها به زیرساخت های ارتباطی و همچنین مصرف کنندگان گسترده و ارائه دهندگان خدمات این امکان را می دهد تا در مسیر وی باشند. چنین تاثیری و متعاقب آن اهمیت شناسایی روش های بهتر کنترل و حذف پیامدهای آن در این نکته منعکس می شود که هرزنامه ها به طور مداوم از دیدگاه های مختلف مورد توجه قرار می گیرند.
Abstract
Spam, under a variety of shapes and forms, continues to inflict increased damage. Varying approaches including Support Vector Machine (SVM) techniques have been proposed for spam filter training and classification. However, SVM training is a computationally intensive process. This paper presents a MapReduce based parallel SVM algorithm for scalable spam filter training. By distributing, processing and optimizing the subsets of the training data across multiple participating computer nodes, the parallel SVM reduces the training time significantly. Ontology semantics are employed to minimize the impact of accuracy degradation when distributing the training data among a number of SVM classifiers. Experimental results show that ontology based augmentation improves the accuracy level of the parallel SVM beyond the original sequential counterpart.
1. Introduction
The overall email ecosystem has become the most ubiquitous modern day communication tool. Its popularity as well as widespread availability have also created an opportunity for a lucrative business model based on unsolicited bulk email, or rather spam. The proliferation of spam has reached widespread proportions. Spam damages enabling communication infrastructures as well as lumbers consumers and service providers in its trail. Such impact and subsequently the importance to identify better ways to control and mitigate its consequences are reflected in the attention that spam continuously gets from various perspectives.
چکیده
1. مقدمه
2. کارهای مرتبط
3. موازی سازی SVM با نگاشت کاهش
4. تقویت هستی شناسی
5. نتایج تجربی
5-1 راندمان روش SMO موازی
5-2 مقایسه با یک SMO مبتنی بر MPI
5-3 دقت روش SMO موازی
5-4 ارزیابی روش SMO موازی با استفاده از روش های گروهی
5-5 تقویت هستی شناسی
6. نتیجه گیری ها و کار آتی
منابع
Abstract
1. Introduction
2. Related work
3. Parallelizing SVM with MapReduce
4. Ontology augmentation
5. Experimental results
5.1. The efficiency of the parallel SMO
5.2. A comparison with an MPI based SMO
5.3. The accuracy of the parallel SMO
5.4. Evaluating the parallel SMO with ensemble approaches
5.5. Ontology augmentation
6. Conclusions and future work