چکیده
با پیدایش اینترنت و وب جهان گستر، رشد بیسابقه دادهها و اطلاعات مربوط به وب و همچنین رشد چشمگیر نظرات، احساسات، و نگرشهای دیجیتال یا متنی را مشاهده میکنیم، که در بازنگریها (تجدید نظرات) نیز ملاحظه میشوند. لازم است که نگرش ویژهای برای پردازش و شناخت اطلاعات مورد استفاده توسط روشهای بازیابی اطلاعات و روشهای پردازش زبان طبیعی ارائه شود. یکی از مهمترین مشکلات در این زمینه، تجزیه و تحلیل احساسات است که به موجب آن، هر بازنگری در دو دسته ردهبندی میشود: نظرات مثبت (مورد تایید یا مطلوب) و نظرات منفی (عدم تایید یا نامطلوب). این مقاله به بحث مسائل مربوطه از قبیل روشهای انتخاب ویژگی و ردهبندیهای مختلف احساسات و هچنین رویکردهای جدید به تازگی در نظر گرفته شده برای حل این مساله میپردازد.
پیشگفتار
امروزه هر دوی افراد و سازمانها نیاز به استفاده از «عقاید و احساسات عمومی مربوط در رابطه با تصمیمگیری درباره محصولات» خود دارند. با ظهور Web 2.0، همراه با اینترنت گسترده و رسانههای اجتماعی (از قبیل شبکههای اجتماعی، نشریات، نظرات، توییتر، و بحثهای انجنها در وب)، میتوان روی این گزینهها برای جمعآوری نظرات عمومی تمرکز کرد زیرا میزانی غنی از اطلاعات قابل دسترس عمومی وجود دارند. بنابراین، پردازش و استخراج اطلاعات و نظرات از وب و سپس تجزیه و تحلیل آنها وظیفهای قدرتمند است. کاربردهای تجزیه و تحلیل احساسات در حال حاضر در هر حوزه تقریبا ممکنی از جمله خدمات، خدمات مالی، انتخابات سیاسی، و محصولات مشتری استخراج میشوند.
Abstract
With the genesis of the internet and the world wide web, we have seen an unprecedented growth of data and information on the web as well as a huge growth in digital or textual opinions, sentiments and attitudes as remarked upon in reviews. Special attention needs to be given to the processing and understating information used by information retrieval methods and natural language processing methods. One of the main problems in this scope is sentiment analysis whereby a review is classified into two classes, i.e. positive (thumbs up or favorable) or negative (thumbs down or unfavorable) opinions. This paper discusses related issues such as feature selection methods and different sentiment classifications as well as the main approaches currently being taken to solve this problem.
INTRODUCTION
Nowadays, both individuals and organizations need to make use people‟s public opinions and sentiments with regard to decision-making about their products. With the advent of Web 2.0, together with widespread internet and social media (such as social networks, reviews, comments, twitter and forum discussions on the web), focus can be given in order to collect public opinions, since there is such a rich amount of general information available. Thus, processing and extracting information and opinions on the web and then analyzing them is a powerful task. Sentiment analysis applications are now extracted to roughly every possible area, such as: services, financial services, political elections and customer products.
چکیده
پیشگفتار
پیش زمینه مساله
تجزیه و تحلیل احساسات
کاربردهای تجزیه و تحلیل احساسات
سطوح مختلف در تجزیه و تحلیل احساسات
سطح سند
سطح جمله
سطح جنبه
استخراج جنبه (ویژگی یا موجودیت)
لغتنامه احساسات
روش مبتنی بر دیکشنری
روش پیکره بنیاد
روشهای انتخاب و استخراج ویژگی
انتخاب ویژگی
حذف ایست واژهها
روش N-گرام
ادات سخن
استخراج ویژگی
تولید
ارزیابی زیرمجموعهها
تکنیکهای فیلتر
تکنیکهای بستهبندی
روشهای انتخاب ویژگی
فرکانس سند
فرکانس اصطلاح – فرکانس سند معکوس
آماره کای دو
اطلاعات مشترک
کسب اطلاعات
تجزیه و تحلیل مولفه اصلی
ردهبندی احساسات
یادگیری نظارتی
یادگیری نیمه نظارتی
یادگیری بدون نظارت
تکنیکهای ردهبندی
نایو بیز
ماشین بردار پشتیبانی
ماکسیمم آنتروپی
شبکه عصبی مصنوعی
روش گروهی مدیریت دادهها
گروه ردهبندی کننده
نتیجهگیری
Abstract
INTRODUCTION
Sentiment Analysis
Applications of Sentiment Analysis
Different levels in sentiment analysis
Document Level
Sentence level
Aspect level
Sentiment Lexicon
Dictionary-based
Corpus-base
Feature Selection And Extraction Methods
Fig. 1: The steps of feature selection and reduction
Feature Selection
Stop Words Removal
N-gram Method
Part-Of-Speech
Feature Extraction
Feature Extraction
Evaluation of Subsets
Filter techniques
Wrapper techniques
Fig. 2: Comparison of two approaches based on the type of feature extraction functions
Fig. 2: Comparison of two approaches based on the type of feature extraction functions
Methods of Feature Selection
Document Frequency
Term Frequency-Inverse Document Frequency
Chi-square statisti
Mutual Information
Information Gain
Principal Component Analysis
Sentiment Classification Supervised Learning
Semi-supervised Learning
Unsupervised Learning
Classification Techniques
Naive Bayes
Support Vector Machine
Maximum Entropy
Artificial Neural network
Group Method of Data Handling
Classifier Ensemble
Conclusion