چکیده
با گسترش و افزایش محبوبیت اینترنت، موارد حملات اینترنتی رو به افزایش است، و روش های حمله هر روز متفاوت تر هستند، بنابراین مساله ی امنیت اطلاعات به یک مساله ی مهم در جهان تبدیل شده است. امروزه، تشخیص، شناسایی و متوقف کردن موثر این گونه حملات یک نیاز ضروری است. پژوهش حاضر کارآیی روش های یادگیری ماشینی در سیستم تشخیص نفوذ، از جمله درخت دسته بندی و ماشین بردار تامین، را مقایسه می کند، و امید دارد که مرجعی برای ساخت سیستم های تشخیص نفوذ در آینده فراهم کند.
در مقایسه با دیگر مطالعات مرتبط با ردیاب های (آشکارسازهای) نفوذ مبتنی بر داده کاوی، محاسبه ی مقدار میانگین را از طریق نمونه برداری نسبت های مختلف داده های نرمال برای هر اندازه گیری ارائه کرده ایم، که باعث به دست آمدن نرخ دقت بالاتری برای داده های مشاهده ای در دنیای واقعی می شود. دقت، نرخ تشخیص، نرخ هشدار اشتباه را برای چهار نوع حمله مقایسه کرده ایم. بعلاوه، به ویژه برای حملات نوع U2R و نوع R2L، کارآیی بهتری نسبت به روش برنده (winner) KDD نشان می دهد.
1. مقدمه
در سال های اخیر، با مشهورتر و محبوب تر شدن اینترنت و کامپیوترهای شخصی، نرخ بهره برداری از اینترنت رو به افزایش بوده است. اینترنت به تدریج زندگی انسان ها را تغییر می دهد، و اکثریت مردم از طریق اینترنت مطالعه می کنند، بازسازی می کنند (خلاقیت ارائه می کنند)، ارتباط برقرار می کنند، و خرید می کنند. علاوه بر مردم عادی، ساختارهای سازمانی و تجاری نیز به واسطه ی اینترنت دچار تغییر می شوند، و سازمان های بزرگ و دولتی به منظور دستیابی به اهداف کارآیی و عملیاتی، آیتم های خدماتی و برنامه های کاربردی بسیاری در بستر اینترنت ایجاد می کنند؛ در این زمینه ی نوین گرایشی غیر قابل مقاومت وجود دارد.
با این حال، گرچه اینترنت راحتی و بلادرنگی بودن را فراهم می کند، اما در نتیجه ی آن مساله ی امنیت اطلاعات به وجود می آید؛ برای مثال: سرورها مورد حمله قرار می گیرند و از کار می افتند، داده های داخلی و اطلاعات سرقت می شوند، و ... . هنگام رویداد این موارد، تلفات زیادی از نظر پول و اعتبار تجاری می تواند ایجاد شود. برای مثال، در سال 2000، یاهو (آمریکایی) مورد حمله ی DDos قرار گرفت، سرورهای آن تقریبا به مدت 3 ساعت از کار افتادند، 1 میلیون کاربر تحت تاثیر قرار گرفتند، و تلفات به وجود آمده به قدری زیاد بود که قابل محاسبه نبود. سایت های تجاری اینترنتی مشهور دیگری، از قبیل CNN، eBay، Amazon.com، Buy.com و ...، نیز متحمل این نوع حملات اینترنتی شده اند.
2. 5. پیشنهادات پژوهش های آتی
- مجموعه داده ی KDD Cup 99 که در این پژوهش به کار رفته است، در سیستم های تشخیص نفوذ جاری بسیار پر کاربرد است؛ با این حال، این داده ها مربوط به سال 1999 می باشند، و فناوری اطلاعات و روش های حمله به شدت در حال تغییر است، بنابراین نمی تواند شرایط واقعی شبکه های امروزی را منعکس کند. بنابراین، اگر اطلاعات جدیدتری به دست آمده و مجددا ارزیابی و مقایسه شوند، می توانند وضعیت شبکه های کنونی را با دقت بیشتری نشان دهند.
- از طریق تست و مقایسه، نرخ تشخیص و دقت C4.5 بالاتر از SVM به دست آمده است، اما نرخ هشدار اشتباه SVM بهتر است؛ اگر این دو روش را ترکیب کنیم، دقت کل می تواند افزایش چشم گیری داشته باشد.
- در نمونه برداری، این پژوهش فرض می کند که توزیع داده های حمله به غیر از داده های نرمال، یکنواخت است، که مطمئنا نمی تواند نتایج بهینه را به دست آورد، و این مساله باید در آینده بهبود یافته و معتبر شود.
- مجموعه پارامترهای C4.5 در این پژوهش بهینه نمی باشند، بنابراین مطالعات آتی باید این پارامترها را طبق پارامترهای C4.5 و مجموعه داده های آموزشی مختلف بهینه کنند.
- SVM به کار رفته در این پژوهش از grid.py توکار خود برای بهینه سازی پارامترها استفاده می کند، و حدود 2 ساعت زمان برای جستجوی پارامترهای 10000 گروه داده در پژوهش نیاز دارد؛ با این حال، این مورد مناسب نیست، چرا که سیستم تشخیص نفوذ باید بلادرنگ باشد. هدف تحقیقات آینده باید در جهت بهینه سازی سریع پارامترها باشد.
Abstract
With popularization of internet, internet attack cases are increasing, and attack methods differs each day, thus information safety problem has became a significant issue all over the world. Nowadays, it is an urgent need to detect, identify and hold up such attacks effectively. The research intends to compare efficiency of machine learning methods in intrusion detection system, including classification tree and support vector machine, with the hope of providing reference for establishing intrusion detection system in future.
Compared with other related works in data mining-based intrusion detectors, we proposed to calculate the mean value via sampling different ratios of normal data for each measurement, which lead us to reach a better accuracy rate for observation data in real world. We compared the accuracy, detection rate, false alarm rate for four attack types. More over, it shows better performance than KDD Winner, especially for U2R type and R2L type attacks.
1. Introduction
In recent years, as internet and personal computers are populated, utilization rate of internet keeps increasing. It is changing people’s lives gradually, and the majorities of people study, recreate, communicate and buy through internet. Besides common people, enterprise structure and business mode also undergoes transformation due to internet, and large enterprise or government organizations, in order to achieve operation purpose and efficiency, develop many application and service items resting on internet; these are an irresistible tendency in the new era.
However, though internet brings about convenience and realtimeliness, consequently comes information safety problem; for example: servers are attacked and paralyzed, inner data and information are stolen, and so on. In the event of such cases, big losses may be caused in money and business credit. For example, in 2000, American Yahoo was subject to DDos attack, the servers were paralyzed for 3 hours approximately, 1 million users were affected, and the losses involved were too large to calculate. Other famous business internets, such as CNN, eBay, Amazon.com, Buy.com, and so on, also suffered such internet attacks.
5.2. Future research suggestions
-Dataset KDD Cup 99 applied in the research is popularly used in current intrusion detection system; however, it is data of 1999, and network technology and attack methods changes greatly, it cannot reflect real network situation nowadays. Therefore, if newer information is got and tested and compared refresh, they can more accurately reflect current network situation.
-Through test and comparison, the accuracy and detection rate of C4.5 is higher than that of SVM, but false alarm rate of SVM is better; if we combine the two methods, overall accuracy can be increased greatly.
-In sampling, the research supposes that the distribution of attack data other than normal data is even, which cannot surely get optimal results, and this should be improved and validated in future.
-C4.5 parameters set in the research is not optimal, thus the future work should optimize the parameters according to C4.5 parameters and different training dataset.
-SVM applied in the research uses its built-in grid.py to optimize its parameters, and it needs approximately 2 hours to search parameters for 10,000 groups of data in the research; however, it is not suitable, for intrusion detection system requires realtimeliness. The future research should aim at the direction where the parameters can be optimized rapidly.
چکیده
1. مقدمه
2 . مرور پیشینه
1 . 2. معرفی سیستم تشخیص نفوذ
1 . 1 . 2 . دسته بندی سیستم تشخیص نفوذ
2 . 1 2 . روش تحلیل جاری
2 .2 . یادگیری ماشینی
3 . 2 . درخت دسته بندی
4. 2 . ماشین بردار تامین
1 . 4. 2 . بهینه سازی ابرصفحه ی جدا
2 . 4. 2 . شرایط جدایی پذیر غیر خطی
3 . ساختار سیستم
1. 3. گراف ساختار سیستم
2. 3 . مجموعه داده KDD Cup 99
3 . 3 . پیش پردازش داده ها
4. 3. آموزش و آزمایش
4. تحلیل و ارزیابی
1. 4. مقایسه ی دقت
2. 4 . مقایسه نرخ تشخیص
3. 4 . مقایسه ی نرخ هشدار اشتباه
4.4. مقایسه ی دقت بین حملات مختلف
5. نتیجه گیری و پیشنهادات
1. 5. نتیجه گیری
2. 5. پیشنهادات پژوهش های آتی
منابع
Abstract
1. Introduction
2. Literature review
2.1. Introduction on intrusion detection system
2.1.1. Classification of intrusion detection system
2.1.2. Current analysis method
2.2. Machine learning
2.3. Classification tree
2.4. Support vector machine
2.4.1. Optimize separate hyperplane
2.4.2. Non-linearly separable situation
3. System structure
3.1. System structure graph
3.2. KDD Cup 99 dataset
3.3. Preprocess of data
3.4. Training and testing
4. Analysis and evaluation
4.1. Comparison of accuracy
4.2. Comparison of detection rate
4.3. Comparison of false alarm rate
4.4. Accuracy comparison between different attacks
5. Conclusions and suggestions
5.1. Conclusions
5.2. Future research suggestions
References