چکیده
سرمایه انسانی از نگرانیها برای مدیریت شرکتهایی است که علاقه بسیاری برای استخدام پرسنل واجد شرایط دارند که انتظار میرود بهخوبی کار کنند. بهتازگی، علاقه رو به رشدی در دادهکاوی بهوجود آمده است، که در آن هدف کشف دانش درست و نفع بالا برای کاربران است. در این مقاله، تکنیکهای دادهکاوی برای ساخت یک مدل طبقهبندی برای پیشبینی عملکرد کارکنان استفاده میشود. برای ساخت مدل طبقهبندی، روشهای دادهکاوی CRISP-DM بهتصویب رسیدند. درخت تصمیم بهعنوان مهمترین ابزار دادهکاوی برای ایجاد مدل طبقهبندی مورد استفاده قرار گرفت، که در آن چندین قانون طبقهبندی تولید شد. برای اعتباربخشی به الگوی تولید شده، چندین آزمایش با استفاده از دادههای واقعی جمع آوری شده از چندین شرکت انجام شده است. مدل برای پیشبینی عملکرد متقاضیان جدید در نظر گرفته شده است.
1. مقدمه
منابع انسانی تقریبا به یکی از نگرانیهای اصلی مدیران در تمام کسبوکارها من جمله، شرکتهای خصوصی، موسسات آموزشی و سازمانهای دولتی تبدیل شده است. سازمان کسبوکار واقعا علاقهمند به حلوفصل برنامهای برای انتخاب درست کارکنان مناسب است. بعد از استخدام کارکنان، مدیریت در مورد عملکرد این کارکنان که سیستم مدیریت ارزیابی در تلاش برای حفظ عملکرد خوب کارمندان است، نگران میشود (Chein و Chen، 2006).
دادهکاوی یک میدان جوان و امیدوار از اطلاعات و کشف دانش است (Han و همکارانش، 2011). در آغاز بهدلیل وجود دادههای بزرگ حاوی مقادیر زیادی از دانش پنهان، بهعنوان یک هدف مهم برای صنعت اطلاعات بود. با تکنیکهای دادهکاوی، مانند دانش میتوان وظایف پایگاه داده را از ذخیره و بازیابی به یادگیری و استخراج دانش تبدیل کرد.
دادهکاوی شامل مجموعهای از تکنیکها است که میتواند برای استخراج دانش مرتبط و جالب از دادهها مورد استفاده قرار گیرد. دادهکاوی شامل چندین کار مانند رابطهی کاوش در قوانین، طبقهبندی و پیشبینی و خوشهبندی است. تکنیکهای طبقهبندی، تکنیکهای یادگیری هستند که دادهها را بنا به برچسب کلاس از پیش تعریف شده طبقهبندی میکنند. این یکی از مفیدترین تکنیکهای دادهکاوی در برای ساخت مدلهای طبقهبندی از مجموعه دادههای ورودی است. تکنیکهای طبقهبندی مورد استفاده معمولا برای ساخت مدلهایی مورد استفاده قرار میگیرند که برای پیشبینی روند داده است. چندین الگوریتم برای طبقهبندی دادهها مانند درخت تصمیمگیری و طبقهبندی سادهی بیزی وجود دارد. با طبقهبندی، مدل تولید شده قادر به پیشبینی یک کلاس برای اطلاعات داده شده، بنا به اطلاعات آموخته شده از تاریخچهی دادهها است.
درخت تصمیمگیری یکی از تکنیکهای مورد استفاده است، زیرا درخت تصمیمی از اطلاعات داده شده با استفاده از معادلات ساده بنا به نسبت افزایش محاسبه ایجاد میکند که بهطور خودکار نوعی وزن به ویژگیها نسبت میدهد و محقق بهطور ضمنی میتواند ویژگی موثر بر روی هدف پیشبینی شده را تشخیص دهد. بهعنوان نتیجهی این روش، یک درخت تصمیمگیری با قوانین طبقهبندی ساخته شده از آن ایجاد خواهد شد (Han و همکارانش، 2011).
طبقهبندی بیز یک روش طبقهبندی دیگری است که برای پیشبینی یک کلاس هدف استفاده میشود. که به محاسبات بر روی احتمالات، یعنی قضیه بیزی بستگی دارد. بهدلیل استفاده از این طبقهبندی، نتایج حاصل از این طبقهبندی دقیق و موثر هستند و نسبت به افزودن دادههای جدید به مجموعه داده حساس هستند (Han و همکارانش، 2011).
مطالعات متعددی از دادهکاوی برای استخراج قوانین و پیشبینی رفتارهای خاصی در علوم مختلفی نظیر، فنآوری اطلاعات، منابع انسانی، آموزشوپرورش، زیستشناسی و پزشکی استفاده میکنند.
بهعنوانمثال، Beikzadeh و Delavari (2004) از تکنیکهای دادهکاوی برای پیشرفت در سیستمهای آموزشی استفاده میکنند. Radaideh و همکارانش (2006) نیز از دادهکاوی برای پیشبینی عملکرد دانشجویان دانشگاه استفاده کردند. از سوی دیگر، بسیاری از محققان پزشکی، از تکنیکهای دادهکاوی برای استخراج بالینی بااستفاده از فایلهای عظیم دادههای بیماران استفاده میکنند، Lavrac (1999) یکی از این محققان بود. Mullins و همکارانش (2006) نیز بر روی دادههای بیماران برای استخراج قوانین انجمن بیماری با استفاده از روشهای بدون نظارت کار کردند.
Karatepe و همکارانش (2006) عملکرد یک کارمند را مانند بهرهوری خود در مقایسه با همنوعشان را تعریف کردند. از سوی دیگر،Schwab (1991)، عملکرد استادان دانشگاه را در مطالعه خود، بهعنوان تعداد تحقیقات ذکر شده و یا منتشر شده توصیف کرد. بهطورکلی، عملکرد معمولا با واحدهای تولید شده توسط کارمند در کار خود در دوره معین از زمان اندازهگیری شد.
محققان مانند Chein و Chen (2006) در بهبود انتخاب کارمند با ساخت یک مدل، بااستفاده از تکنیک دادهکاوی برای پیشبینی عملکرد متقاضیان اقداماتی انجام دادند. که به ویژگیهای انتخاب شده از CV، برنامه کار و مصاحبههای خود بستگی دارد. عملکرد آنها میتواند مانند یک پایگاه برای تصمیمگیرندگان برای تصمیمگیری خود در مورد استفاده از هردوی آنها یا هیچکدام پیشبینی شود.
Abstract
Human capital is of a high concern for companies’ management where their most interest is in hiring the highly qualified personnel which are expected to perform highly as well. Recently, there has been a growing interest in the data mining area, where the objective is the discovery of knowledge that is correct and of high benefit for users. In this paper, data mining techniques were utilized to build a classification model to predict the performance of employees. To build the classification model the CRISP-DM data mining methodology was adopted. Decision tree was the main data mining tool used to build the classification model, where several classification rules were generated. To validate the generated model, several experiments were conducted using real data collected from several companies. The model is intended to be used for predicting new applicants’ performance.
I. INTRODUCTION
Human resource has become one of the main concerns of managers in almost all types of businesses which include private companies, educational institutions and governmental organizations. Business Organizations are really interested to settle plans for correctly selecting proper employees. After hiring employees, managements become concerned about the performance of these employees were management build evaluation systems in an attempt to preserve the goodperformers of employees (Chein and Chen, 2006).
Data mining is a young and promising field of information and knowledge discovery (Han et al., 2011). It started to be an interest target for information industry, because of the existence of huge data containing large amounts of hidden knowledge. With data mining techniques, such knowledge can be extracted and accessed transforming the databases tasks from storing and retrieval to learning and extracting knowledge.
Data miming consists of a set of techniques that can be used to extract relevant and interesting knowledge from data. Data mining has several tasks such as association rule mining, classification and prediction, and clustering. Classification techniques are supervised learning techniques that classify data item into predefined class label. It is one of the most useful techniques in data mining to build classification models from an input data set. The used classification techniques commonly build models that are used to predict future data trends. There are several algorithms for data classification such as decision tree and Naïve Bayes classifiers. With classification, the generated model will be able to predict a class for given data depending on previously learned information from historical data.
Decision tree is one of the most used techniques, since it creates the decision tree from the data given using simple equations depending mainly on calculation of the gain ratio, which gives automatically some sort of weights to attributes used, and the researcher can implicitly recognize the most effective attributes on the predicted target. As a result of this technique, a decision tree would be built with classification rules generated from it (Han et al., 2011).
Naïve Bayes classifier is another classification technique that is used to predict a target class. It depends in its calculations on probabilities, namely Bayesian theorem. Because of this use, results from this classifier are more accurate and effective, and more sensitive to new data added to the dataset (Han et al., 2011).
Several studies used data mining for extracting rules and predicting certain behaviors in several areas of science, information technology, human resources, education, biology and medicine.
For example, Beikzadeh and Delavari (2004) used data mining techniques for suggesting enhancements on higher educational systems. Al-Radaideh et al. (2006) also used data mining techniques to predict university students’ performance. Many medical researchers, on the other hand, used data mining techniques for clinical extraction units using the enormous patients data files and histories, Lavrac (1999) was one of such researchers. Mullins et al. (2006) also worked on patients’ data to extract disease association rules using unsupervised methods.
Karatepe et al. (2006) defined the performance of a frontline employee, as his/her productivity comparing with his/her peers. Schwab (1991), on the other hand, described the performance of university teachers included in his study, as the number of researches cited or published. In general,performance is usually measured by the units produced by the employee in his/her job within the given period of time.
Researchers like Chein and Chen (2006) have worked on the improvement of employee selection, by building a model, using data mining techniques, to predict the performance of newly applicants. Depending on attributes selected from their CVs, job applications and interviews. Their performance could be predicted to be a base for decision makers to take their decisions about either employing these applicants or not.