پیامهای کوتاه متنی که از طریق خدمات پیام کوتاه (SMS) فرستاده میشود، ابزار مهم ارتباطی میان میلیونها نفر در جهان محسوب میشود. خدمات SMS برای اپراتورهای مخابرات (مخابراتی) ضرورت محسوب میشود و پیامهای آنها را با استفاده از پروتکلهای مخابراتی استاندارد منتقل میکند (http://en.wikipedia.org/wiki/SMS). در عین حال، پیامرسانی SMS به هدفی برای سوء استفاده به واسطه توزیع ناخواسته پیام تبدیل میشود ـ سوء کاربرد پیامهای SMS برای رسیدن به برخی اهداف آسیبرسان هستند. در آسیا، بیش از 30 درصد پیامهای متنی به عنوان اسپم شناخته شده که عمدتاً به واسطۀ هزینۀ پایین ارسال آنها است (http://en.wikipedia.org/wiki/Mobile_phone_spam).
این میزان انبوه پیامکهای ناخواسته به اعتماد کاربران نسبت به ارائه دهندگان خدمات مخابراتی لطمه وارد میکند. بنابراین، راهبردهای فیلترنمودن اسپمها در طراسر دنیا مورد آزمایش قرار گرفته است. در چین، سه اپراتور مخابراتی بزرگ ـ China Mobile، China Telecome و China Unicom برآن شد تا محدودیتهایی برای پیامهای متنی وضع کند تا تعداد تلفن معین بتوانند حداکثر 200 پیام در ساعت بفرستند که تعداد آنها از 1000 پیام در روز در عرض یک هفته فراتر نرود. در پاسخ، اسپمگذاران پیامکی راهبردهای خود را با شیوههای به طور فزاینده نوآورانه تطبیق دادهاند. در نتیجه، رویکردهای کارآمدتری برای شناسایی و فیلتر پیامکهای اسپم به صورت خودکار و دقیق مورد نیاز است.
در اینجا راه حل مبتنی بر خدمات ارائه میکنیم که از گراف دادهکاوی برای شناسایی اسپمگذاران احتمالی از فرستندگان معمولی استفاده میکند.
رویکردهای ضداسپم
پژوهشگران رویکردهای محاسباتی مختلف، به ویژه روشهای دادهکاوی را برای شناسایی ایمیلهای اسپم پیش گرفتهاند و برخی به موفقیتهای نسبی رسیده است. رویکردهای مبتنی بر محتوا در این میان جزو اولین رویکردهای به کار رفته بود. برای نمونه، در فیلترینگ ایمیلهای اسپم، چنین مدلهایی ویژگیهای مبتنی بر محتوا را مدنظر قرار داده که میتوانند برای طبقه بندی استفاده شوند. اغلب، ایمیلهای اسپم حاوی برخی کلیدواژگان خبردهنده مانند «رایگان» یا «جایزه» یا توزیع غیرمعمول نشانهای نقطهگذاری و حروف بزرگ مانند «BUY» یا «MONEY» است که ویژگیهای مهمی برای استفاده در الگوریتم طبقهبندی مبتنی بر ماشین یادگیری محسوب میشود.
به دلیل شباهت بین فایلهای متنی در ایمیلها و پیامکهای متنی، رویکردهای مبتنی بر محتوا در پژوهش تشخیص ایمیل اسپم به صورت گستردهای به کار گرفته شده تا اسپمگذاران و پیامکهای اسپم را شناسایی کند. گروهی از محققان به مسئله فیلترینگ اسپم بر مبنای محتوا در مورد پیامهای متنی کوتاه توجه کردند که که در این سه چارچوب قرار میگیرد: ارتباطات پیامکی تلفن همراه، نظرات وبلاگ و اطلاعات خلاصه ایمیلها. دیگر رویکرد مورد استفاده اطلاعات کمکی برای ارتقای رویکردهای مبتنی بر محتوا از جمله اطلاعات پایگاه سیکار پیامکها است که بر این فرض مبتنی است که فرستندگان اسپم، پیامکهای اسپم را در همان محل پخش میکنند. دیگر محققان فرااطلاعاتی مانند توالی بالای ارسال را به ویژگیهای محتوایی افزودند.
Short Message Service text messages are indispensable, but they face a serious problem from spamming. This service-side solution uses graph data mining to distinguish spammers from nonspammers and detect spam without checking a message's contents.Short text messages sent via the Short Message Service (SMS) are an important means of communication between millions of people worldwide. SMS services are a must-have for telecommunications (telecom) operators, and they transmit their messages using standardized communication protocols (see http://en.wikipedia.org/wiki/SMS). At the same time, SMS messaging has become a perfect target for abuse via spamming— misusing SMS messages to achieve some harmful purpose. Spamming is as serious a problem for SMS as it is for email and social networking services. In Asia, up to 30 percent of short text messages are recognized as spam, mainly due to the low cost of sending them (http://en.wikipedia.org/wiki/ Mobile_phone_spam).
This massive amount of SMS spam seriously harms users’ confidence in their telecom service providers. Thus, spam-filtering strategies have been tested around the world. In China, three major telecom operators— China Mobile, China Telecom, and China Unicom—have tried to impose limits on text messaging so that a given phone number can send no more than 200 messages per hour and no more than 1,000 messages per day on weekdays.1,2 In response, SMS spammers have been adapting their strategies in increasingly innovative ways. Consequently, more effective approaches are needed to detect and filter SMS spam automatically and accurately.
Here, we present a service-side solution that uses graph data mining to distinguish likely spammers from normal senders.
Antispam Approaches
Researchers have developed various computational approaches—in particular, data mining methods—to detect email spam, and some have achieved a certain degree of success. Content-based approaches3 were among the first to be applied. In email spam filtering, for example, such methods consider content-based features that can be used for classification. A spam email often contains some indicative keywords, such as “free” or “awards,” or unusual distribution of punctuation marks and capital letters, such as “BUY!!” or “MONEY,”4 such that these keywords become important features that a machine-learning-based classification algorithm can use. Because of the similarity between text documents in spam emails and SMS spam, content-based approaches in email spam detection research have been widely employed to detect SMS spam and spammers. One group of researchers considered the problem of content-based spam filtering for short text messages that arise in three contexts: mobile SMS communication, blog comments, and email summary information.5 Another approach used auxiliary information to boost contentbased approaches,6 including the mobile-station information of short messages based on the assumption that spam senders diffuse SMS spam at the same location. Other researchers added additional meta-information, such as high sending frequency, to content characteristics.
رویکردهای ضداسپم
استخراج ویژگی
ویژگیهای آماری
مشخصه های موقتی
مشخصه های شبکه ای
دسته بندی الگوریتم ها
نتایج آزمایشی
سنجش عملکرد
مقایسه با رویکرد مبنا
مقایسه بین مجموعه طرح های مختلف
آزمایش های بیشتر
Antispam Approaches
Feature Extraction
Static Features
Temporal Features
Network Features
Classification Algorithms
Experimental Results
Performance Measurement
Comparison with a Baseline Method
Comparison on Different Feature Sets
Additional Experiments