چکیده
در حال حاضر اکثریت مردم به اشتراکگذاری ایدهها، بازخوردها، پیشنهاد برای هر موضوع مجزا در وبگاهها ، انجمنهای اینترنتی و بلاگها علاقهمند هستند. بنابراین، مصرفکنندگان قبل از خرید محصول یا بهرهوری از خدمات، به ارزیابیها و نقدهای پیشین اتکا میکنند. هرچند تمام نقدهای موجود در اینترنت معتبر نیستند. هرزنامهها نقدها را به نفع خود، کاهش ارزش یا ارتقای محصول، دستکاری میکنند. بنابراین، مشتریها تحت تاثیر نقدهای جعلی، مانند محتوای اسپم ، تصمیم اشتباه اتخاذ میکنند. برای حل این مشکل، روش دوگانهی بهبود بهینهسازی ازدحام ذرات دودویی و الگوریتم جهش قورباغهی آمیخته پیشنهاد شده تا ابعاد بزرگ مجموعهی ویژگی کاهش و زیرمجموعهی بهینهسازی شدهی ویژگی انتخاب شود. روش ما به نادیدهگرفتن نقدهای جعلی توسط مشتریها کمک کرده و عملکرد طبقهبندی را با تامین نقدهای مطمئن افزایش میدهد. برای طبقهبندی از دستهبندیکنندههای بیز ساده ، نزدیکترین همسایه K ، ماشین بردار پشتیبانی استفاده شده است. با توجه به نتایج روش دوگانهی پیشنهادی انتخاب ویژگی، یک زیرمجموعهی بهینهی ویژگی ارائه کرده و از دقت بالای طبقهبندی برخوردار است.
1. مقدمه
در حال حاضر، حجم محتوای در دسترس کاربر اینترنت رو به افزایش است [1]. معمولاً مشتریها هنگام خرید محصول یا بهرهوری از خدمات، تنها بر اساس اطلاعات موجود در وبگاههای ارزیابی تصمیم میگیرند [2]. هرچند کنترل کیفیت محدودی روی اطلاعات موجود انجام میشود. این محدودیت مردم را به نشر نقدهای جعلی برای افزایش/کاهش جایگاه محصولات در وبگاهها ترغیب میکند [3]. این افراد هرزنامههای نظر نامیده میشوند. نقدهای اسپم مثبت در مورد محصول میتواند باعث سود اقتصادی و افزایش محبوبیت محصول شود [4]. مشابهاً، نقدهای اسپم منفی برای بدنام کردن محصولات یا خدمات نوشته میشوند[5]. اخیراً، مشکل نقدهای اسپم یا جعلی رو به افزایش بوده و موارد بسیاری در اخبار گزارش شده است. بنابراین، بررسی صحت این نقدها ضروری است. انتخاب ویژگی روشی است که در آن زیرمجموعهای از ویژگیها از مجموعه دادهی اصلی انتخاب میشود [6]. عمدتاً این روش برای ساخت مدلهای یادگیری قدرتمند و کاهش هزینهی پردازش بهکار میرود. هدف اصلی انتخاب ویژگی کاهش تعداد ویژگیها جهت افزایش عملکرد مدل و دقت طبقهبندی است [7]. FS را میتوان بهعنوان جستجویی در فضای حالت درنظر گرفت. بنابراین یک جستجوی کامل در تمام فضاهای جستجو امکانپذیر خواهد بود. هرچند در حالتی که تعداد ویژگیها زیاد باشد، این روش ممکن نیست. از این رو جستجوی کاشف ویژگیهایی را مورد بررسی قرار میدهد که در هر تکرار برای ارزیابی انتخاب نشدهاند. جستجوی تصادفی در فضای جستجو، زیرمجموعهی تصادفی ایجاد میکند که با آن میتوان اهمیت عملکرد طبقهبندی را سنجید. با توجه به ماهیت تصادفی الگوریتمهای فرااکتشافی مانند بهینهسازی ازدحام ذرات ، الگوریتمهای فرگشتی ، الگورتیم خفاش ، بهینهسازی کلونی مورچگان و الگوریتم ژنتیک [9،8]، این الگوریتمها بهطور گسترده برای انتخاب ویژگی بهکار میروند. زمانی که ابعاد فضای ویژگی بزرگ باشد، انتخاب زیرمجموعهی ویژگی بهینه با استفاده از روشهای بهینهسازی معمول کارآمد نیستند. به همین دلیل از الگوریتمهای فرااکتشافی برای انتخاب مناسب ویژگیها استفاده میشود. دو روش به نامهای روش فیلتر و روش بستهبندی برای انتخاب زیرمجموعهی ویژگیها وجود دارد. روش فیلتر خواص ذاتی داده را بدون استفاده از هر گونه الگوریتم یادگیری تحلیل کرده [9] و میتواند انتخاب زیرمجموعه و رتبهبندی را انجام دهد. اگرچه رتبهبندی شامل شناسایی اهمیت تمام ویژگیهاست، از آنجایی که این روش ویژگیهای اضافی را انتخاب میکند بیشتر بهعنوان پیشپردازش مورد استفاده قرار میگیرد. روش بستهبندی بر خلاف سایر روشهای فیلتر روابط میان ویژگیها را در نظر میگیرد [10]. این روش در ابتدا از یک الگوریتم بهینهسازی برای تولید زیرمجموعهی ویژگی و سپس از یک الگوریتم طبقهبندی برای تحلیل زیرمجموعهی تولیدی استفاده میکند.
4. نتیجهگیری
انتخاب ویژگی برای بهبود عملکرد دستهبندی ضروری است. از این رو، حدف ویژگیهای نامرتبط و نویزدار از یک مجموعه داده از اهمیت بالایی برخوردار است چرا که باعث کاهش صحت دستهبندی میشوند. روشهای متعددی برای انتخاب بهترین زیرمجموعهی ویژگی توسعه یافته است. در این مطالعه، از یک روش دوگانه برای انتخاب زیرمجموعهی ویژگی بهینه استفاده شده است. این روش دوگانه اندازهی زیرمجموعهی ویژگی را با استفاده از احتمالات و بهصورت کارآمد کاهش میدهد که باعت بهبود دقت دستهبندی میشود. با مقایسهی نتایج با روشهای موجود انتخاب ویژگی، قابل استنتاج است که روش پیشنهادی از دقت بالایی برخوردار بوده و بهینهتر است. علاوهبر این، روش پیشنهادی نقدها را به دوستهی هم و اسپم طبقهبندی میکند. دستهبندیکنندهی بیز ساده از عملکرد بهتری نسبت به kNN و SVM برخوردار بود.
Abstract
Currently, the masses are interested in sharing opinions, feedbacks, suggestions on any discrete topics on websites, e-forums, and blogs. Thus, the consumers tend to rely a lot on product reviews before buying any products or availing their services. However, not all reviews available over internet are authentic. Spammers manipulate the reviews in their favor to either devalue or promote products. Thus, customers are influenced to take wrong decision due to these spurious reviews, i. e., spammy contents. In order to address this problem, a hybrid approach of improved binary particle swarm optimization and shuffled frog leaping algorithm are proposed to decrease high dimensionality of the feature set and to select optimized feature subsets. Our approach helps customers in ignoring fake reviews and enhances the classification performance by providing trustworthy reviews. Naive Bayes (NB), K Nearest Neighbor (kNN) and Support Vector Machine (SVM) classifiers were used for classification. The results indicate that the proposed hybrid method of feature selection provides an optimized feature subset and obtains higher classification accuracy.
1. Introduction
In current times, the amount of content available to the user on the internet is rapidly increasing [1]. While purchasing the product or availing services customers generally tend to make a decision relying solely on the information available in the review sites [2]. However, there is a limited quality control for these available data. This limitation invites people to post spurious reviews on the websites in order to either promote or demote the products [3]. Such individuals are known as opinion spammers. The positive spam reviews about a product may lead to financial gains and would help to increase the popularity of the product [4]. Similarly, negative spam reviews are posted with the intention of defaming a product or services [5]. Recently, the problem of spam or fake reviews has been on the rise, and many such cases have been released in the news. Hence, there arises a necessity of finding the authenticity of these reviews. Feature selection (FS) is a technique in which a subset of features are selected from the original dataset [6]. It is mainly used to build more robust learning models and to reduce the processing cost. The main purpose of feature selection is to reduce the number of features to increase both the performance of the model and the accuracy of classification [7]. FS can be examined as a search into a state space. Thus, a full search can be performed in all the search spaces traversed. However, this approach is not feasible in case of a very large number of features. Hence, a heuristic search deliberates those features, which have not yet been selected at each iteration, for evaluation. A random search creates random subsets within the search space that can be evaluated for importance of classification performance. Due to their randomized nature, meta-heuristics such as particle swarm optimization (PSO), evolutionary algorithms (EA), bat algorithm (BA), ant colony optimization (ACO) and genetic algorithm [8,9] are widely used for feature selection. When the feature space is high dimensional, selecting the optimal feature subset using traditional optimization methods have not proven to be effective. Therefore, meta-heuristic algorithms are used extensively for the appropriate selection of features. Two types of feature selection methods, namely the filter method and wrapper method can be incorporated for selecting subset of features. The filter model analyzes the intrinsic properties of data without involving the use of any learning algorithms [9] and can perform both subset selection and ranking. Though ranking involves identifying the importance of all the features, this method is more specifically used as a pre-process method since it selects redundant features. The wrapper model unlike other filter approaches considers the relationship between features [10]. This method initially uses an optimizing algorithm to generate various subsets of features and then uses a classification algorithm to analyze the subsets generated.
4. Conclusion
Feature selection is critical to the performance improvement for a classification. Hence, it is important to discard the irrelevant and, noisy features from a given dataset that would decrease the classification accuracy. A number of methodologies have been adopted to select the best feature subset., In this investigation, an hybrid approach was applied for selecting the optimized feature subset. This hybrid methodology efficiently reduces the feature subset size due to randomization, which in turn improves the accuracy of the classifier. Moreover, the results when compared against the existing feature selection techniques, indicate that the proposed feature selection technique offers classification accuracy and is efficient. Furthermore, the method classifies the reviews into spam and ham reviews efficiently. Thus, it can be concluded that the Naive Bayes classifier shows better classification performance than the kNN and SVM classifiers.
چکیده
1. مقدمه
2. مدل پیشنهادی
2.1 پردازش داده
2.2 استخراج ویژگی
2.3 بهینهسازی ازدحام ذرات
2.4 انتخاب ویژگی با iBPSO
2.4.1 نمایش راهحل نامزد
2.4.2 تابع هدف
2.5 انتخاب ویژگی با SFLA
2.6 فرآیند آموزش
2.7 فرآیند آزمایش
2.8 دستهبندی
2.8.1 kNN
2.8.2 NB
2.8.3 SVM
2.8.4 ارزیابی عملکرد
3. نتایج شبیهسازی و بحث
3.1 توصیف مجموعه داده
3.1.1 مثالی از مجموعه دادهی نقد صحیح نوعی
3.1.2 مثالی از مجموعه دادهی نقد فریبندهی نوعی
3.1.3 تنظیمات پارامتر
4. نتیجهگیری
منابع
ABSTRACT
1. Introduction
2. Proposed model
2.1. Data preprocessing
2.2. Feature extraction
2.3. Particle swarm optimization
2.4. Feature selection using Ibpso
2.4.1. Candidate solution representation
2.4.2. Objective function
2.5. Feature selection using SFLA
2.6. Training process
2.7. Testing process
2.8. Classification
2.8.1. kNN
2.8.2. NB
2.8.3. SVM
2.8.4. Performance evaluation
3. Simulation results and discussion
3.1. Dataset description
3.1.1. Example of a typical truthful review dataset
3.1.2. Example of a typical deceptive review dataset
3.1.3. Parameter settings
4. Conclusion
References