چکیده
انگیزه انجام این تحقیق، مبتنی بر تجزیه و تحلیل رفتار کاربر برای احراز هویت است. ما در این راه از یک رویکرد رفتاری برای شناسایی کاربران مخرب و کاربران قانونی استفاده میکنیم. در این مقاله، توضیح میدهیم که چگونه با استفاده از الگوریتم یادگیری ماشین بر اساس معیارهای خاصی که بعداً در مقاله توضیح داده میشود، تجزیه و تحلیل دادههای بزرگ را روی لاگ های لایه برنامه اعمال کرده و کاربران مخرب را پیش بینی میکنیم. یادگیری ماشین قهرستی از آدرسهای IP یا توکن های احراز هویت کاربر (UIT) را ارائه میدهد که از دادههای زندهای استنتاج شدهاند که میتوانند فعالیت مخربی را انجام دهند یا بر اساس رفتار مرور خود مشکوک به فعالیت مخرب هستند. ما یک برنامه وب تجارت الکترونیک را ارائه کردهایم و آسیب پذیری ها را عمداً برای این منظور ایجاد کردهایم و پیکره بندی خود را بر روی پشته LAMP (1) بر اساس ابر AWSقرار دادهایم (2). این روش از پتانسیل عظیمی برخوردار است، زیرا هر سازمانی میتواند از این طریق مهاجمان احتمالی را زیر نظر داشته باشد، و بنابراین برای حفاظت از زیرساختهای خود تلاش کمتری را انجام دهد. این ایده مبتنی بر این واقعیت است که الگوی مرور و همچنین الگوی دسترسی یک کاربر واقعی، با الگوی یک هکر بسیار متفاوت است. از این الگوها برای مرتب سازی ترافیک ورودی و لیست آدرسهای IP و UIT استفاده میشود که محتملترین موارد هک هستند.
1. مقدمه
با استفاده از تجزیه و تحلیل دادههای بزرگ و یادگیری ماشین بر روی دادههای به دست آمده از لاگ های لایه برنامه، فهرستی از گزینههای احتمالی برای تلاشهای مخرب به دست میآید. کارهای زیادی در زمینه امنیت سایبری و تجزیه و تحلیل دادهها انجام شده است، اما در این مقاله رویکرد جدیدی را برای پیش بینی فهرستی از هکرهای احتمالی پیشنهاد کردهایم. این رویکرد مبتنی بر تجزیه و تحلیل دادههای بزرگ با یادگیری ماشین است.
Abramson و Aha (3) ایده شناسایی کاربر بر اساس رفتار مرور آنها در وب را پیشنهاد کردند. این امر نه تنها کاربران را بر اساس رفتار مرور آنها در وب شناسایی میکند بلکه آنها را از هم متمایز میکند. Shi و همکاران (4) ایده احراز هویت ضمنی را ارائه کردند که در آن احراز هویت کاربران را بر اساس الگوهای رفتاری آنها پیشنهاد کردند. Al-Khazzar و Savage (5) پیشنهاد کردند که چگونه میتوان با استفاده از اطلاعات جمع آوری شده از رفتار کاربر در واکنش نسبت به مارپیچ سه بعدی گرافیکی، احراز هویت کاربر را انجام داد.
Abstract
Research-based on user behavior analysis for authentication is the motivation for this research. We move ahead using a behavioral approach to identify malicious users and legitimate users. In this paper, we have explained how we have applied big data analytics to application-layer logs and predicted malicious users by employing a Machine Learning algorithm based on certain metrics explained later in the paper. Machine Learning would present a list of IP addresses or user identification tokens (UIT),deduced from live data which would be performing a malicious activity or are suspected of malicious activity based on their browsing behavior. We have created an e-commerce web application and induced vulnerabilities intentionally for this purpose. We have hosted our setup on LAMP [1] stack based on AWS cloud [2]. This method has a huge potential as any organization can imply this to monitor probable attackers thus narrowing down on their efforts to safeguard their infrastructure. The idea is based on the fact that the browsing pattern, as well as the access pattern of a genuine user,varies widely with that of a hacker. These patterns would be used to sort out the incoming traffic from and list out IP addresses and UIT that are the most probable cases of hack attempts.
1. Introduction
Applying big data analytics and machine learning on data obtained from application-layer logs would yield a list of probable candidates for malicious attempts. Plenty of work has been done in the field of cyber security and data analytics, but in this paper, we have proposed a new approach to predict a list of probable hackers. This approach is based on the application of Big Data Analytics with Machine Learning.
Abramson and Aha [3] proposed the idea of user identification based on their web browsing behavior. It Not only identifies but also differentiates between users based on their web browsing behavior. Shi et al. [4] gave the idea of implicit authentication in which they proposed authentication of users based on their behavior patterns. Al-Khazzar and Savage [5] proposed how user authentication can be performed by using information collected from user behavior in reaction to a 3D Graphical maze. Each user had a unique reaction to the graphical maze which was the idea behind identification.
چکیده
1. مقدمه
1.1. انگیزه
1.2. سهم پژوهشی این مقاله
1.3 سازماندهی
2. مدل سیستم و بیان ریاضی مسئله
2.1. منابع
3. طرح پیشنهادی
3.1. معیارها
3.2. جنگل تصادفی
3.3. مجموعه آموزشی
3.4. مجموعه آزمایشی
3.5. پیش بینی
3.6. تجزیه کننده لاگ
4. ارزیابی عملکرد
4.1. شرایط عددی
4.2. نتایج
4.3. خروجیهای غیر منتظره
4.4. ترافیک شبکه
5. نتیجه گیری
منابع
Abstract
Nomenclature
1. Introduction
1.1. Motivation
1.2. Research contribution of this work
1.3. Organization
2. System model and problem formulation
2.1. Resources
3. Proposed scheme
3.1. Metrics
3.2. Random forest
3.2.1. Classification
3.2.2. Regression
3.3. Training set
3.4. Testing set
3.5. Prediction
3.6. Log parser
4. Performance evaluation
4.1. Numerical settings
4.2. Results
4.3. Unexpected outputs
4.4. Network traffic
5. Conclusion
Declaration of Competing Interest
References