چکیده
با توجه به توزیع باز اپلیکیشن و وجود بیش از 2 میلیارد کاربر فعال، پلتفرم اندروید کماکان به شکل خام توسط توسعه دهندگان بدافزار به کار گرفته می شود. با توجه به گزارش تهدیداتی McAfee، تعداد گروه های بدافزاری یافت شده در گوگل پلی در سال 2017 تا 30 درصد افزایش داشته است. یکی از مهمترین مکانیزم های محافظتی در برابر بدافزا مدل کنترل دسترسی مبتنی بر مجوز ر است. در این مقاله، مدل جدیدی را که مبتنی بر مجوز را ارائه می کنیم که از مزایای مدل می توان به کارایی و دقت بالا در تشخیص و آنالیز بدافزار اندروید اشاره نمود، همچنین قابلیت بالقوه در شناسایی بدافزار ناشناس قبلی را دارد. در این مدل، انتخاب مشخصه را با معرفی یک روش وزنی جدید به نام TF-IDFCF بهبود می بخشیم که مبتنی بر فرکانس کلاس مشخصه است. نتایج آزمایشات نشان می-دهد که روش ارائه شده دارای نرخ تشخیص بیش از 95.3% با نرخ مثبت کاذب پایین در زمان تست و بررسی با طبقه بندی کننده ها است.
1. مقدمه
اندروید پرفروش ترین سیستم عامل اخیر در دستگاه های تلفن همراه است [1]. هر ماه بیش از 2 میلیارد کاربر فعال از سیستم عامل اندروید استفاده می کنند. نویستدگان بدافزار بطور فعال و مداوم از برنامه های بدافزار به منظور هدف قرار دادن اندروید بهره می گیرند. این تحولات پایدار و همچنین گوناگونی بدافزار از تهدیدات مهم برای اپلیکیشن های اندرویدی محسوب می شود. طبق گزارش تهدید McAfee (مک آفی)، تعداد گروه های بدافزاری یافت شده در گوگل پلی حاکی از افزایش 30 درصدی آن است [2]. راه حل های مختلفی به منظور محافظت از کاربران تلفن همراه در برابر تهدیدات افزایشی بدافزار اندروید ارائه می شود. مدل کنترل دسترسی مبتنی بر مجوز از مهمترین مکانیزم ها در محافظت از اندروید در مقابل اپلیکیشن های مخرب است. در این مقاله، الگوریتم متعدد یادگیری ماشین با مجموعه داده مجوز را جهت ساخت و آموزش مدل ها استفاده می کنیم تا اپلیکیشن های مخرب اندروید را طبقه بندی کنیم. روش (TF-IDF) (فرکانس سند معکوس- فرکانس مدت) را بهبود می بخشیم، روش جدید انتخاب مشخصه را معرفی می کنیم که دارای قابلیت افزایش در دقت تشخیص است. در این مقاله، چارچوب جدیدی از آنالیز استاتیک مبتنی بر مجوز را برای طبقه بندی اپلیکیشن های اندروید بی خطر و بدافزار ارائه می کنیم. سایر روش های مبتنی بر مجوز را نیز از طریق معرفی روش انتخاب مشخصه مبتنی بر TF-IDF بهبود می بخشیم. این روش کارایی تشخیص و آنالیز بدافزار را افزایش می دهد، و به دقت بالایی می رسد. نتایج تجربیات خودمان نشان می دهد که چارچوب ارائه شده دارای نرخ تشخیص بیش از 95.3% به کمک استفاده از مهمترین طبقه بندی کننده ها مانند SVM، Naive Bayes و KNN است. مشارکت ما در این مقاله به بهبود وزنی شدن TF-IDF در مدل فضای بردار کمک می کند. روش TF-IDF هر دو TF و IDF را مد نظر می گیرد [3]. اگر TF بالا است و مدت زمان تنها در برخی از اپلیکیشن ها ظاهر می شود، پس این term (مدت) قابلیت بسیار خوبی در تمایز دادن اپلیکیشن ها دارد. مشخصه ای که مکررا در اپلیکیشن های موجود در همان کلاس و دسته ظاهر می شود ویژگی های بیشتری را از دسته ارائه می کند. بنابراین، رخداد و ظهور کلی مشخصه را همچون پارامتری جدید استفاده می کنیم و TF-IDF را به منظور بهبود کارایی طبقه بندی کننده خودمان افزایش می دهیم.
مقاله به شرح زیر سازماندهی می شود. در بخش 2، آثار مربوطه ارائه می شود. مدل ارائه شده در بخش 3 معرفی میشود. در بخش 4، نتایج تجربی داده می شود. آخرین بخش هم به نتیجه گیری مقاله می پردازد.
5. نتیجه گیری ها
مجوز یکی از مهمترین مشخصات در سیستم عامل اندروید است، و در تشخیص بدافزار کاربرد مفیدی دارد. چارچوب مبتنی بر مجوز ارائه شده خودمان از الگوریتم های یادگیری سود می جوید تا اپلیکیشن های بدافزار را بطور بالقوه شناسایی کند. همچنین، به منظور بهبود راندمان تشخیص و آنالیز بدافزارهای اندرویدی مبتنی بر مجوز، روش جدید مبتنی بر TF-IDF را معرفی می کنیم تا وزن را به هر مشخصه استخراج شده از فایل APK اندروید اختصاص دهیم. روش جدید را با استفاده از معیارهای مختلف ارزیابی می کنیم و به نرخ تشخیص بالای 95.3% با استفاده از الگوریتم های طبقه بندی کننده مختلف می رسیم. برای بهبود بیشتر در شناسایی بدافزارها، مشخصات بیشتری همچون API calls و غیره را در آثار آتی به چارچوب ارائه شده خودمان اضافه می کنیم. برای بهبود روش اختصاصا وزن، در آینده به سمت تقسیم داده ها (بخصوص موارد بدافزاری) در بیش(از دو) کلاس می رویم که این کار مبتنی بر اندازه گیری های مشابه است.
Abstract
Due to the open app distribution and more than two billion active users, Android platform continues to serve as low-hanging fruit for malware developers. According to the McAfee threat report, the number of malware families found in the Google Play increased by 30% in 2017. Permission-based access control model is one of the most important mechanisms to protect Android apps against malware. In this paper, we propose a new permission-based model that enhances the efficiency and accuracy of Android malware analysis and detection, and has the capability of potentially detecting previously unknown malware. In this new model, we improve the feature selection by introducing a new weighting method, named TF-IDFCF, based on the class frequency (CF) of the feature. The results of our experiments show that our proposed method has a detection rate of greater than 95.3% with a low false positive rate, when tested with different classifiers.
I. Introduction
Recently, Android has become the most selling operating system on mobile devices [1]. Android OS monthly has over two billion active users. Malware writers are actively and continuously developing malware programs to target Android platform. This continuous evolution and the diversity of malware pose a major threat to Android applications. According to the McAfee threat report, number of malware families found in the Google play increased by 30% in 2017 [2]. Different solutions have been proposed to protect mobile users from the increasing threats of Android malware. Permission-based access control model is the most important mechanism for Android protection against malware apps. In this paper, we use multiple machine learning algorithms with permission datasets to build and train models to classify Android malicious apps. We improved the Term Frequency-Inverse Document Frequency (TF-IDF) method, introduced new feature selection method that increases the detection accuracy. In this paper, we propose a new permission-based static analysis framework for the classification of Android applications into benign and malware. We improve upon other permission-based approaches by introducing a feature selection method based on TF-IDF. This method improves the efficiency of malware analysis and detection, and obtains a high accuracy. The results of our experiments show that our proposed framework has a detection rate of more than 95.3% using most of the basic classifiers, such as SVM, J48, Naive Bayes and KNN. Our contribution of this paper is an improvement of TF-IDF weighting on vector space model. The TF-IDF method considers both TF and IDF [3]. If the TF is high and the term only appears in some part of the applications, then this term has a very good ability to differentiate the applications. A feature occurring frequently in the applications within same class represents more characteristics of the class. Therefore, we use total feature occurrence as a new parameter and enhance the TF-IDF to improve the efficiency of our classifier. The remaining parts of the paper are organized as follows.
In section 2 related works are presented. The proposed model is introduced in section 3. In section 4 experimental results are given. The last section is conclusions.
V. Conclusions
Permission is one of the most important features in Android security, and meaningful in malware detection. Our proposed permission-based framework uses machine learning algorithms to detect potentially malware apps. Also, to improve the efficiency of permission-based Android malware analysis and detection we introduced a new method based on TF-IDF to assign weight to each feature extracted from an Android APK file. We evaluated the new technique using different metrics and achieved a detection rate higher than 95.3% using different classifier algorithms. To further improve malware detection, in future we will add more features, such as, API calls etc., to our proposed framework. To improve the weight assigning method, in future, we are going to divide the data (especially malware samples) into more (than two) classes based on similarity measures.
چکیده
1. مقدمه
2. آثار مرتبط
3. بررسی سیستم
4. طبقه بندی و ارزیابی
5. نتیجه گیری ها
منابع
Abstract
.1 Introduction
.2 Related work
3. Overview of the system
4. Classification and Evaluation
5. Conclusions
References